Início Ciência e tecnologia Tudo o que você precisa saber sobre o agente baseado no navegador...

Tudo o que você precisa saber sobre o agente baseado no navegador da Openai, operador

6
0

Índice de tabela de tabela O que é operador? Quando o operador foi liberado? Como funciona o operador? O que o operador pode fazer e quão bem isso pode fazer isso? Como posso experimentar o operador para mim?

O Openai finalmente entrou na corrida da IA ​​Agentic com o lançamento de sua IA do operador em janeiro. O sistema Agentic foi projetado para funcionar autonomamente em nome de seu usuário e está preparado para competir contra rivais do setor já estabelecidos, como o computador de Claude, o uso da API e os agentes da Microsoft Copilot – pelo menos, uma vez que elimina seu status de “visualização de pesquisa”. Aqui está tudo o que você precisa saber sobre o novo agente do Openai e quando você poderá experimentá -lo por si mesmo.

O que é operador?

O operador da OpenAI é um agente AI, o que significa que ele foi projetado para executar ações autônomas com base nas informações disponíveis. Mas, diferentemente dos programas convencionais, os agentes de IA são capazes de revisar as condições de mudança em tempo real e reagir de acordo, em vez de simplesmente executar comandos predeterminados. Como tal, os agentes de IA são capazes de realizar uma variedade de tarefas complexas e de várias etapas que variam de transcrever, resumir e gerar itens de ação de uma reunião de negócios a reservar o voo, acomodações de hotel e aluguel para um carro futuro baseado em sua família Vários cronogramas para pesquisar autonomamente tópicos e montar estudos de várias páginas sobre esses assuntos.

O operador funciona um pouco diferente dos outros agentes atualmente disponíveis. Enquanto o uso do computador de Claude é uma API e os agentes da AI da Microsoft funcionam na própria interface do usuário do copiloto, o operador foi projetado para, bem, operar, dentro de uma janela dedicada do navegador que é executada nos servidores do OpenAI e executa suas tarefas remotamente. O navegador da Web local não tem nada a ver com o processo e pode ser usado normalmente, mesmo quando o operador está em execução.

O aplicativo operador é alimentado por um novo modelo de “agente de uso de computador” (CUA), que é, por sua vez, construído no topo do GPT-4O, que fornece as habilidades multimodais do aplicativo. O Openai diz que a CUA foi treinada de maneira semelhante aos seus modelos de raciocínio O1 e O3. Como tal, o modelo CUA dividirá tarefas complexas em seus problemas de componentes antes de tentar resolvê -los sequencialmente, voltando se ele for executado em quaisquer obstáculos lógicos.

Introdução ao operador e agentes

Quando o operador foi liberado?

Opening Operator lançou em 23 de janeiro de 2025. Atualmente, está disponível apenas para usuários profissionais de US $ 200/mês nos EUA através do site operator.chatgpt.com. “Nosso plano é expandir -se para usuários mais, equipes e corporativos e integrar esses recursos ao ChatGPT no futuro”, escreveu a empresa em seu post de anúncio.

Como funciona o operador?

Os usuários podem ativar o agente na tela inicial do ChatGPT, que exibe uma página de navegador da Web dedicada em uma janela lateral para o operador realizar suas tarefas. A IA fornece uma narrativa em execução do que está fazendo atualmente e o usuário pode assumir o processo a qualquer momento. O operador solicitará a ajuda do usuário em determinadas tarefas, como fazer login em sites protegidos específicos, bem como obter a confirmação do usuário antes de executar tarefas importantes. Ele pode interagir com sites visualmente (ou seja, com capturas de tela) e taticamente, quando imita as torneiras do teclado do usuário e os cliques do mouse.

O que o operador pode fazer e quão bem isso pode fazer isso?

Como está limitado ao navegador, o operador pode executar apenas tarefas simples baseadas na Internet atualmente, como reservar ingressos para concertos, encomendar DoorDash ou preencher pedidos da Instacart. A empresa também afirma que o agente poderá automatizar tarefas como reservar hotéis e companhias aéreas, reservar mesas em restaurantes e até fazer suas compras on -line.

O OpenAI colocou o operador contra o uso de computador da Anthropic, bem como o agente marinheiro do Google Deepmind, em vários benchmarks do setor e afirma que o operador os venceu. No benchmark Osworld, que mede o quão bem um agente pode concluir tarefas como a fusão de arquivos PDF, o Cua venceu o computador de 38,1% a 22,0% – para referência, os seres humanos têm uma média de 72% do sucesso nessas tarefas. No WebVoyager Benchmark, Cua superou o Mariner 87% a 83,5%. O uso do computador obteve um insignificante 56%.

No entanto, as reações iniciais do usuário ao agente da IA ​​foram mistas. Por exemplo, o colunista do New York Times, Kevin Roost, escreveu: “Ao todo, descobri que o uso do operador geralmente era mais problemático do que valeu. A maior parte do que isso fez por mim, eu poderia ter feito mais rápido, com menos dores de cabeça. ”

“Mesmo quando funcionou”, continuou ele, “pediu tantas confirmações e garantias antes de agir de que eu me sentia menos como se tivesse um assistente virtual e mais como se estivesse supervisionando o estagiário mais inseguro do mundo”.

Como posso experimentar o operador para mim?

Para obter acesso ao agente do operador da OpenAI, você precisará se inscrever na assinatura do OpenAI da OpenAI e depois acessá -la no site operador.chatgpt.com.

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui