A Microsoft está ensinando o GPT-4 a usar o Android de forma autônoma

Fazer com que o ChatGPT opere de forma autônoma dentro dos limites de um sistema operacional provou ser uma tarefa difícil por vários motivos, mas uma equipe composta por cientistas da Microsoft Research e da Universidade de Pequim pode ter descoberto o ingrediente secreto.

A equipe conduziu um estudo para determinar por que os grandes modelos de linguagem (LLMs) de inteligência artificial (IA), como o GPT-4, falham em tarefas que exigem a manipulação de um sistema operacional.

Sistemas de última geração, como ChatGPT executado em GPT-4, definem a referência para tarefas generativas, como redigir um e-mail ou escrever um poema. Mas fazer com que atuem como agentes num ambiente geral representa um desafio significativo.

Tradicionalmente, os modelos de IA são treinados para explorar através da aprendizagem por reforço em um ambiente virtual. Os desenvolvedores de IA usaram versões modificadas de videogames populares, como Super Mario Bros. e Minecraft, para “ensinar” conceitos aos modelos, como exploração autoguiada e busca de objetivos.

Mas os sistemas operacionais são um playground totalmente diferente para modelos de IA. Como agentes, o desempenho de funções dentro de um sistema operacional apresenta-se frequentemente como um desafio multimodal que exige a troca de informações entre diferentes componentes, programas e aplicações.

De modo geral, a abordagem do treinamento por reforço requer tentativa e erro. No entanto, como qualquer pessoa que digitou sua senha incorretamente muitas vezes ou esqueceu quais atalhos funcionam e quais aplicativos sabe, os dados podem ser facilmente perdidos ao usar tal abordagem em um ambiente de sistema operacional.

Os pesquisadores trabalharam com vários LLMs, incluindo o Llama2 70B de código aberto da Meta e o GPT-3.5 e GPT-4 da OpenAI. De acordo com a pesquisa, nenhum deles teve um desempenho particularmente bom.

De acordo com o artigo da equipe, isso ocorre porque o desafio atualmente excede as capacidades da IA ​​atual:

“Em primeiro lugar, o espaço de ação é vasto e dinâmico. … Em segundo lugar, as tarefas do mundo real muitas vezes requerem cooperação entre aplicações, exigindo um planeamento clarividente dos agentes LLM. Em terceiro lugar, os agentes precisam identificar soluções ideais alinhadas com as restrições do usuário, como preocupações e preferências de segurança.”

Para que os investigadores descobrissem uma forma de ultrapassar estes desafios, primeiro tiveram de compreender porque é que os LLMs falharam na manipulação de sistemas operativos quando alguns modelos de IA eram capazes de feitos sobre-humanos, como vencer todos os adversários no xadrez e no Go.

A equipe desenvolveu um novo ambiente de treinamento chamado AndroidArena que permitiu aos LLMs explorar um ambiente semelhante ao sistema operacional Android. Então, depois de criar tarefas de teste e um sistema de benchmark, identificaram a falta de quatro capacidades principais como responsáveis: compreensão, raciocínio, exploração e reflexão.

Embora o escopo do trabalho se destinasse especificamente a identificar o problema, durante o processo de pesquisa a equipe identificou um método “simples” para aumentar a precisão de um modelo em 27%.

Essencialmente, a equipe forneceu ao modelo informações automatizadas relacionadas ao número de tentativas feitas anteriormente e o que foi tentado durante essas tentativas. Isso resolveu o problema da falta de “reflexão” ao incorporar memória nos prompts usados ​​para acioná-la.

Esta linha de pesquisa pode ser significativa na busca por construir um assistente de IA melhor e,

2024-02-12 23:45