108 visualizações 3 min 0 Comentário

ALLEN AI Apresenta OLMo: Modelo de Linguagem Aberto, Upgrade IA

- 6 de fevereiro de 2024

Futuro do OLMo: O Que Esperar da Próxima Geração de IA Aberta – Perspectivas sobre como o OLMo pode evoluir e influenciar o futuro da inteligência artificial

Na 32ª edição de nossa série sobre avanços significativos em IA generativa, destacamos o desenvolvimento do “OLMo”, uma inovação significativa no campo dos modelos de linguagem (LMs) pelo Allen Institute for Artificial Intelligence (AI2) e parceiros. Este modelo representa um marco por sua abordagem aberta e transparente, contrastando com muitos modelos poderosos que mantêm em segredo seus dados de treinamento e arquitetura.

O “OLMo” (Open Language Model) foi desenvolvido por uma equipe colaborativa do AI2, um renomado instituto de pesquisa fundado pelo co-fundador da Microsoft, Paul Allen, e uma instituição acadêmica líder. O projeto OLMo se distingue por oferecer acesso completo não só aos pesos do modelo e ao código de inferência, como é comum, mas também ao código de treinamento, aos pesos do modelo treinado (incluindo mais de 500 checkpoints), e ao seu conjunto de dados de treinamento exclusivo chamado Dolma. Este conjunto de dados, juntamente com o kit de ferramentas de construção de conjunto de dados Dolma, códigos de avaliação variados, e registros detalhados de treinamento e ablação, proporcionam uma base sólida para pesquisas futuras e desenvolvimento de LMs.

No futuro, planeja-se publicar ainda mais recursos, incluindo ajustes direcionados e aprimoramentos via Reinforcement Learning from Human Feedback (RLHF), ampliando as possibilidades de uso e pesquisa com o OLMo.

Comparando o modelo “OLMo-7B”, que foi treinado usando aproximadamente 2,46 trilhões de tokens do conjunto de dados Dolma, com outros modelos de linguagem disponíveis publicamente, como LLaMA-7B, LLaMA2-7B, MPT-7B, Pythia-6.9B, Falcon-7B, e RPJ-INCITE-7B, o OLMo-7B demonstrou superioridade em duas das nove principais tarefas avaliadas e posicionou-se entre os três primeiros em oito dessas tarefas. Este desempenho notável não apenas sublinha a eficácia do OLMo como um modelo de linguagem, mas também enfatiza a importância de uma abordagem aberta e colaborativa no avanço da pesquisa em IA generativa.

Comentários estão fechados.