Google Gemini tem IA multimodal: imagem, texto, áudio, vídeo

No dia 6 de dezembro, o Google anunciou o modelo de IA generativo de próxima geração “Gemini”, que havia anunciado sua intenção de desenvolver há algum tempo. Alguns serviços estão atualmente disponíveis a partir de hoje.

Além disso, o Pixel 8 Pro será equipado com “IA no dispositivo” derivada do Gemini como uma atualização do “AICore” integrado ao sistema operacional.

■ Gemini lançará a IA de “próxima geração” anunciada em maio deste ano, apenas revelando que está “atualmente em desenvolvimento” no evento de desenvolvedores do Google “Google I/O 2023”, realizado em maio deste ano. Naquela época, o serviço de chat AI “Bard” tinha acabado de ser lançado, e “PaLM 2” também foi anunciado como a nova IA que formaria a base.

O Google também explicou que “Gemini será um superconjunto do PaLM 2”, e houve até rumores de que “o desenvolvimento seria adiado”, então poucas pessoas esperavam que fosse anunciado tão repentinamente. As características do Gemini são que ele é “multimodal e se destaca no julgamento lógico”. Multimodal refere-se à capacidade de lidar com vários elementos ao mesmo tempo, como imagens, texto, áudio e vídeo, assim como os humanos fazem, em vez de apenas imagens ou texto. Isto se tornou um grande tema na IA generativa recente, e Gemini é caracterizado por “aprender do zero com a premissa de ser multimodal”.

O Google, é claro, usa seus próprios servidores para aprendizado. A empresa desenvolveu e utiliza um semicondutor especializado para IA chamado “Cloud TPU”. Os mais recentes são o Cloud TPU v5e, de alto desempenho e altamente versátil, e o Cloud TPU v4, ideal para treinar modelos de IA.

O Google desenvolveu recentemente o “Cloud TPU v5p” para aprendizagem de IA. Diz-se que o Cloud TPU v5p é 2,8 vezes mais rápido que o TPU v4 em IA, especialmente modelos de linguagem de grande escala (LLM) usados em IA generativa. Desta vez, eles expandiram totalmente isso para o aprendizado do Gemini.

O Google afirma que ao usar seu modelo top “Gemini Ultra”, ele “supera os resultados de nível mais alto existentes em 30 dos 32 benchmarks usados para avaliar modelos de IA generativos” (Notícias (trecho do comunicado). Além disso, ele obteve pontuação de 90,00% em um teste chamado MMLU (Massive Multitasking Language Understanding), que mede conhecimento e capacidade de resolução de problemas em uma combinação de 57 disciplinas, incluindo matemática, física, história, direito e medicina.

■ O Gemini, que possui três modelos para finalidades diferentes, ainda está em desenvolvimento. Porém, dos três modelos disponíveis, o de médio porte “Pro” e o de pequeno porte “Nano”. A publicação começará ainda este ano. A versão maior e mais poderosa, “Ultra”, está programada para ser lançada para parceiros selecionados no início de 2024, após testes. Além disso, quando o Gemini Ultra for lançado em 2024, a empresa planeja oferecer o “Bard Advanced”, que incorpora recursos de ponta usando o serviço de chat AI da empresa. Por enquanto, “Pro” será o mais utilizado. Espera-se que o Gemini Pro seja a IA fundamental da empresa por enquanto e será implantado em uma ampla gama de aplicativos, incluindo serviços de pesquisa, publicidade, Chrome e Duet AI. No entanto, a implementação provavelmente levará vários meses. Primeiro, o Gemini Pro será integrado ao Bard. O “uso em inglês” começará em mais de 170 países e regiões, e o suporte multilíngue e as funções multimodais serão expandidos posteriormente. Ou seja, a base do Bard mudará do PaLM 2 para o Gemini Pro, e ainda por cima o Bard Advanced, que é baseado no Gemini Ultra, será preparado como uma versão superior. Além disso, será realizado um evento para desenvolvedores no dia 13 de dezembro, onde será lançada a API para utilização do Gemini Pro.

■ O Google Gemini Nano, que se diferencia pela sua “IA no dispositivo” para smartphones, é um modelo de tamanho pequeno e projetado para ser usado como “IA no dispositivo” em smartphones. A série Pixel ainda possui sua própria IA no dispositivo. A função “transcrição de voz” instalada em “Transcrição de Voz” usa IA no dispositivo para obter a transcrição sem comunicação. Embora não tenha sido implementado em japonês, também foi planejada a inclusão de “respostas instantâneas usando IA gerada” para e-mail, mensagens, etc. Essas funções serão substituídas por aquelas que usam o Gemini Nano no futuro. Em primeiro lugar, a atualização com Gemini Nano será realizada apenas para o Pixel 8 Pro. O primeiro recurso que será incluído é a capacidade de adicionar um “resumo” às transcrições de áudio. Atualmente, o Gemini Nano está otimizado para o processador do Pixel 8 Pro, Tensor G3. O Pixel 8 usa o mesmo processador, mas segundo o Google, atualmente só está disponível no Pro devido a um “problema de memória principal”. No entanto, o Google diz que está “promovendo a otimização de forma mais ampla” e é possível que também seja compatível com outros Pixels e “processadores de smartphones de outras empresas com IA no dispositivo em mente”. De certa forma, a capacidade de trabalhar com smartphones é um ponto forte que os rivais não possuem. Tem uma vantagem sobre a aliança OpenAI + Microsoft, e a Apple não fez um grande movimento. O Google está promovendo o Gemini Nano porque tenta destacar seus próprios pontos fortes.

Portal Mundo-Nipo

Sucursal Japão – Tóquio

Jonathan Miyata