340 visualizações 7 min 0 Comentário

Google Gemini tem IA multimodal: imagem, texto, áudio, vídeo

- 7 de dezembro de 2023

No dia 6 de dezembro, o Google anunciou o modelo de IA generativo de próxima geração “Gemini”, que havia anunciado sua intenção de desenvolver há algum tempo. Alguns serviços estão atualmente disponíveis a partir de hoje.

Além disso, o Pixel 8 Pro será equipado com “IA no dispositivo” derivada do Gemini como uma atualização do “AICore” integrado ao sistema operacional.

■ Gemini lançará a IA de “próxima geração” anunciada em maio deste ano, apenas revelando que está “atualmente em desenvolvimento” no evento de desenvolvedores do Google “Google I/O 2023”, realizado em maio deste ano. Naquela época, o serviço de chat AI “Bard” tinha acabado de ser lançado, e “PaLM 2” também foi anunciado como a nova IA que formaria a base.

O Google também explicou que “Gemini será um superconjunto do PaLM 2”, e houve até rumores de que “o desenvolvimento seria adiado”, então poucas pessoas esperavam que fosse anunciado tão repentinamente. As características do Gemini são que ele é “multimodal e se destaca no julgamento lógico”. Multimodal refere-se à capacidade de lidar com vários elementos ao mesmo tempo, como imagens, texto, áudio e vídeo, assim como os humanos fazem, em vez de apenas imagens ou texto. Isto se tornou um grande tema na IA generativa recente, e Gemini é caracterizado por “aprender do zero com a premissa de ser multimodal”.

O Google, é claro, usa seus próprios servidores para aprendizado. A empresa desenvolveu e utiliza um semicondutor especializado para IA chamado “Cloud TPU”. Os mais recentes são o Cloud TPU v5e, de alto desempenho e altamente versátil, e o Cloud TPU v4, ideal para treinar modelos de IA.

O Google desenvolveu recentemente o “Cloud TPU v5p” para aprendizagem de IA. Diz-se que o Cloud TPU v5p é 2,8 vezes mais rápido que o TPU v4 em IA, especialmente modelos de linguagem de grande escala (LLM) usados ​​em IA generativa. Desta vez, eles expandiram totalmente isso para o aprendizado do Gemini.

O Google afirma que ao usar seu modelo top “Gemini Ultra”, ele “supera os resultados de nível mais alto existentes em 30 dos 32 benchmarks usados ​​para avaliar modelos de IA generativos” (Notícias (trecho do comunicado). Além disso, ele obteve pontuação de 90,00% em um teste chamado MMLU (Massive Multitasking Language Understanding), que mede conhecimento e capacidade de resolução de problemas em uma combinação de 57 disciplinas, incluindo matemática, física, história, direito e medicina.

■ O Gemini, que possui três modelos para finalidades diferentes, ainda está em desenvolvimento. Porém, dos três modelos disponíveis, o de médio porte “Pro” e o de pequeno porte “Nano”. A publicação começará ainda este ano. A versão maior e mais poderosa, “Ultra”, está programada para ser lançada para parceiros selecionados no início de 2024, após testes. Além disso, quando o Gemini Ultra for lançado em 2024, a empresa planeja oferecer o “Bard Advanced”, que incorpora recursos de ponta usando o serviço de chat AI da empresa. Por enquanto, “Pro” será o mais utilizado. Espera-se que o Gemini Pro seja a IA fundamental da empresa por enquanto e será implantado em uma ampla gama de aplicativos, incluindo serviços de pesquisa, publicidade, Chrome e Duet AI. No entanto, a implementação provavelmente levará vários meses. Primeiro, o Gemini Pro será integrado ao Bard. O “uso em inglês” começará em mais de 170 países e regiões, e o suporte multilíngue e as funções multimodais serão expandidos posteriormente. Ou seja, a base do Bard mudará do PaLM 2 para o Gemini Pro, e ainda por cima o Bard Advanced, que é baseado no Gemini Ultra, será preparado como uma versão superior. Além disso, será realizado um evento para desenvolvedores no dia 13 de dezembro, onde será lançada a API para utilização do Gemini Pro.

■ O Google Gemini Nano, que se diferencia pela sua “IA no dispositivo” para smartphones, é um modelo de tamanho pequeno e projetado para ser usado como “IA no dispositivo” em smartphones. A série Pixel ainda possui sua própria IA no dispositivo. A função “transcrição de voz” instalada em “Transcrição de Voz” usa IA no dispositivo para obter a transcrição sem comunicação. Embora não tenha sido implementado em japonês, também foi planejada a inclusão de “respostas instantâneas usando IA gerada” para e-mail, mensagens, etc. Essas funções serão substituídas por aquelas que usam o Gemini Nano no futuro. Em primeiro lugar, a atualização com Gemini Nano será realizada apenas para o Pixel 8 Pro. O primeiro recurso que será incluído é a capacidade de adicionar um “resumo” às transcrições de áudio. Atualmente, o Gemini Nano está otimizado para o processador do Pixel 8 Pro, Tensor G3. O Pixel 8 usa o mesmo processador, mas segundo o Google, atualmente só está disponível no Pro devido a um “problema de memória principal”. No entanto, o Google diz que está “promovendo a otimização de forma mais ampla” e é possível que também seja compatível com outros Pixels e “processadores de smartphones de outras empresas com IA no dispositivo em mente”. De certa forma, a capacidade de trabalhar com smartphones é um ponto forte que os rivais não possuem. Tem uma vantagem sobre a aliança OpenAI + Microsoft, e a Apple não fez um grande movimento. O Google está promovendo o Gemini Nano porque tenta destacar seus próprios pontos fortes.

Portal Mundo-Nipo

Sucursal Japão – Tóquio

Jonathan Miyata

Comentários estão fechados.