Há um novo agente de IA pronto para navegar na web e preencher formulários sem a necessidade de tocar seu mouse

- Abraçando o rosto estreou uma ferramenta de IA para navegar na web em seu nome
- O agente de informática aberto usa um navegador da web real para concluir tarefas como obter instruções ou reservar ingressos
- O agente e sua demonstração de código aberto podem ver o que está na tela, clicar em botões, preencher formulários e mover passo a passo através de tarefas como um humano
Abraçar o rosto introduziu sua própria opinião sobre o crescente número de agentes de IA semi-independentes que podem executar tarefas on-line para as pessoas. O novo agente de informática aberto e gratuito (se limitado) é como ter um assistente pessoal vivendo dentro do navegador da web.
Parte da iniciativa “Smolagents” da empresa, o agente de informática aberto pode se envolver com sites e aplicativos como você faria, lidando com um mouse e teclado invisíveis para concluir solicitações. A IA pode abrir um navegador, digitar coisas em formulários, clicar em botões e muito mais. Peça para encontrar instruções e irá para o Google Maps, insira a origem e o destino e mostre a rota como um motorista digital obediente.
Você pode experimentar você mesmo com a demonstração ao vivo. Aviso justo, sua popularidade está causando alguns atrasos e erros devido a um atraso.
Estamos lançando o uso de computador em smolagents! 🥳-> Como os modelos de visão se tornam mais capazes, eles se tornam capazes de alimentar fluxos de trabalho agênticos complexos. Especialmente modelos QWEN-VL, que suportam o aterramento interno, ou seja, capacidade de localizar qualquer elemento em uma imagem por suas coordenadas, assim para… pic.twitter.com/mi8muwzkis6 de maio de 2025
Agente AI
O agente de informática aberto é uma filosofia diferente de uma idéia que levou a ferramentas semelhantes como operador do OpenAI, uso do navegador, proxy 1.0 e operador de navegador da Opera. Como essas ferramentas, o agente de IA do Hugging Face é sobre ser um participante ativo, em vez de uma fonte passiva de informação.
Como o uso do navegador, o Open Computer Agent é de código aberto, o que significa que qualquer pessoa pode ver como funciona e se basear em cima, ou pelo menos ajustá-lo para casos de uso de nicho. O agente é o começo de algo mais flexível, não um produto acabado com um milhão de isenções de responsabilidade legal. Isso também significa que a demonstração é exatamente isso, uma demonstração, não um pacote polido. Pode errar e exigir que você entre nos testes de logins e captcha.
Reservar ingressos, verificar o horário da loja, fazer pesquisas, procurar instruções e clicar nos menus são todas as coisas que muitas pessoas gostariam de poder fazer com um único prompt de linguagem natural. Uma coisa é perguntar ao Chatgpt como encontrar voos baratos. Outra é assistir a uma ferramenta ir a um site de viagens, percorrer listagens e tentar clicar em “Reserve agora”.
Pode ser falha e longe de ser chamativa, mas o agente de informática aberto representa uma abordagem da IA que pode se tornar tão comum quanto os agora onipresentes geradores de imagem de IA.