O novo modelo de IA de código aberto da Nvidia supera GPT-4o em benchmarks

Oi pessoal! Você já cansou de viver na pobreza enquanto as criptomoedas estão curtindo uma vida de luxo? Então junte-se ao nosso canal @Crypnoticias no Telegram, onde compartilhamos notícias sobre criptomoedas em português - porque quem precisa de dinheiro de verdade quando você pode nadar em Dogecoins? Venha para o lado selvagem da especulação financeira, onde o único risco é perder tudo... ou ganhar um foguete para a lua! 😂💰🚀

Junte-se ao Telegram


Como um pesquisador experiente com um profundo fascínio pela inteligência artificial, fico intrigado com a última criação da Nvidia, Llama-3.1-Nemotron-70B-Instruct. Tendo passado inúmeras horas debruçado sobre modelos de IA e suas capacidades, posso dizer com segurança que este anúncio despertou minha curiosidade.

Em 15 de outubro, a Nvidia apresentou casualmente um modelo inovador de inteligência artificial; afirma-se que este novo modelo supera os atuais sistemas de IA de primeira linha, como GPT-4o e Claude-3 em desempenho.

Com base em uma postagem compartilhada pela equipe de desenvolvedores de IA da Nvidia em sua plataforma de mídia social X.com, afirma-se que o modelo Llama-3.1-Nemotron-70B-Instruct é atualmente um dos principais modelos na Chatbot Arena de lmarena.AI.

O novo modelo de IA de código aberto da Nvidia supera GPT-4o em benchmarks

Nemotron

Essencialmente, Llama-3.1-Nemotron-70B-Instruct é uma adaptação revisada do Llama-3.1-70B-Instruct de código aberto. O “Nemotron” em seu nome significa o envolvimento da Nvidia no produto final.

A coleção de “grupos de lhamas” da Meta serve como um ponto de partida gratuito para programadores, permitindo-lhes construir e expandir os modelos.

Quando se trata de Nemotron, a Nvidia decidiu dar um passo à frente e criar um sistema destinado a superar em utilidade modelos conhecidos como ChatGPT da OpenAI e Claude-3 da Anthropic.

A Nvidia transformou o modelo padrão de IA da Meta em um dos modelos “mais úteis” do mundo, empregando conjuntos de dados personalizados, técnicas de ajuste fino refinadas e seu hardware de IA de ponta.

O novo modelo de IA de código aberto da Nvidia supera GPT-4o em benchmarks

“Fiz algumas perguntas de codificação que costumo fazer para comparar LLMs e obtive algumas das melhores respostas desta. haha, puta merda.

Comparativo de mercado

Quando se trata de determinar qual modelo de IA é “o melhor”, não existe uma metodologia clara. Ao contrário, por exemplo, de medir a temperatura ambiente com um termômetro de mercúrio, não existe uma única “verdade” quando se trata do desempenho do modelo de IA. 

Como analista, considero crucial avaliar o desempenho dos modelos de IA de uma forma comparável à avaliação humana. Para conseguir isso, utilizo métodos de teste comparativos.

Como pesquisador na área de inteligência artificial, pratico benchmarking de modelos de IA. Este processo envolve a apresentação de vários modelos de IA com consultas, tarefas ou problemas idênticos e, em seguida, a avaliação da eficácia das suas respostas, comparando-as. Como determinar o que constitui um resultado útil pode ser subjetivo, avaliadores humanos são normalmente empregados para fornecer avaliações cegas do desempenho de cada máquina.

Parece que a Nvidia está sugerindo que o desempenho de seu novo modelo supera significativamente modelos como GPT-4o e Claude-3, que atualmente são líderes na área.

O novo modelo de IA de código aberto da Nvidia supera GPT-4o em benchmarks

A imagem mostra as classificações do teste “Difícil” nas tabelas de classificação do Chatbot Arena, onde o Llama-3.1-Nemotron-70B-Instruct da Nvidia não é exibido explicitamente. No entanto, se a afirmação dos desenvolvedores de que obteve 85 pontos neste teste for precisa, então ele se tornaria o modelo líder nesta categoria específica por padrão.

A intriga em torno dessa conquista pode ser aumentada pelo fato de que o Llama-3.1-70B é um modelo de IA de código aberto de médio alcance desenvolvido pela Meta. Existe uma variante significativamente maior do Llama-3.1, a versão 405B, que foi ajustada usando um número maior de parâmetros (especificamente, aproximadamente 405 bilhões).

Em comparação, estima-se que o GPT-4o tenha sido desenvolvido com mais de um trilhão de parâmetros.

2024-10-17 20:21