O OpenAI ignorou os especialistas quando lançou ChatGPT excessivamente aprazível

O Openai diz que ignorou as preocupações de seus testadores especializados quando lançou uma atualização para o seu principal protótipo de lucidez sintético ChatGPT que o tornou excessivamente aprazível.

A empresa divulgou uma atualização para o seu protótipo GPT -4O em 25 de abril, que o tornou “visivelmente mais parcofantico”, que depois reverteu três dias depois devido a preocupações com segurança, Openai disse Em uma postagem no blog de 2 de maio post -mortem.

A operário de chatgpt disse que seus novos modelos passam por verificações de segurança e comportamento, e seus “especialistas internos passam um tempo significativo interagindo com cada novo protótipo antes do lançamento”, talhado a conquistar problemas perdidos por outros testes.

Durante o processo de revisão do mais recente protótipo antes de se tornar público, o Openai disse que “alguns testadores especializados indicaram que o comportamento do protótipo se sentiu” um pouco fora “, mas decidiu lançar” devido aos sinais positivos dos usuários que experimentaram o protótipo “.

“Infelizmente, essa foi a relação errada”, admitiu a empresa. “As avaliações qualitativas estavam sugerindo alguma coisa importante, e deveríamos ter prestado mais atenção. Eles estavam percebendo um ponto cego em nossos outros evalas e métricas”.

O CEO da Openai, Sam Altman, disse em 27 de abril que estava trabalhando para virar as mudanças, tornando o ChatGPT muito aprazível. Natividade: Sam Altman

Em termos gerais, os modelos de IA baseados em texto são treinados por serem recompensados ​​por fornecer respostas precisas ou classificadas por seus treinadores. Algumas recompensas recebem uma ponderação mais pesada, impactando uma vez que o protótipo responde.

O OpenAI disse que a introdução de um sinal de recompensa de feedback do usuário enfraqueceu o “sinal de recompensa principal do protótipo, que estava mantendo a bajulação sob controle”, que o inclinou para ser mais obrigatório.

“Às vezes, o feedback do usuário pode propiciar respostas mais agradáveis, provavelmente ampliando a mudança que vimos”, acrescentou.

O OpenAI agora está checando respostas sugadas

Depois que o protótipo de IA atualizado foi lançado, os usuários do ChatGPT se queixaram on -line sobre sua tendência a elogiar qualquer idéia de que foi apresentada, não importa o quão ruim, o que levou o OpenAi a conceder Em uma postagem no blog de 29 de abril, que “era excessivamente lisonjeiro ou aprazível”.

Por exemplo, um usuário disse ao ChatGPT que queria iniciar um negócio vendendo gelo pela Internet, que envolvia a venda de chuva antiga para os clientes.

Chatgpt, Openai
Natividade: Tim Leckemby

Em seu último post -mortem, ele disse que esse comportamento de sua IA pode simbolizar um risco, principalmente sobre questões uma vez que a saúde mental.

“As pessoas começaram a usar o ChatGPT para conselhos profundamente pessoais – alguma coisa que não vimos tanto há um ano”, disse Openai. “Uma vez que a IA e a sociedade co-evoluíram, ficou evidente que precisamos tratar esse caso de uso com muito desvelo”.

Relacionado: Os usuários de criptografia esfriam com a AI se interessando por seus portfólios: pesquisa

A empresa disse que discutiu os riscos de bajulação “por um tempo”, mas não havia sido explicitamente sinalizada para testes internos, e não tinha maneiras específicas de rastrear a bajulação.

Agora, ele procurará juntar “avaliações de sycofância” ajustando seu processo de revisão de segurança para “considerar formalmente problemas de comportamento” e bloqueará o lançamento de um protótipo se apresentar problemas.

O Openai também admitiu que não anunciou o protótipo mais recente, pois esperava que “fosse uma atualização bastante sutil”, que prometeu mudar.

“Não existe um lançamento ‘pequeno'”, escreveu a empresa. “Vamos tentar enviar mudanças ainda sutis que podem mudar significativamente a maneira uma vez que as pessoas interagem com o ChatGPT”.

Ai Eye: Tokens de cripto