IA generativa do Google tem lado menos conhecido que envolve trabalho humano

Funcionários terceirizados dizem à Bloomberg News que trabalham com prazos apertados e são mal-remunerados; Google diz que questão cabe aos fornecedores

Grande variedade de temas abordados para o trabalho dos avaliadores é um dos desafios para a precisão das respostas do Bard
Por Davey Alba
16 de Julho, 2023 | 08:36 AM

Bloomberg — Lançado na última semana no Brasil, o Bard, chatbot de inteligência artificial generativa do Google (GOOGL), consegue responder rapidamente e com muita confiança a uma pergunta sobre quantos pandas vivem em zoológicos.

No entanto a garantia de que a resposta seja bem fundamentada e baseada em evidências fica a cargo de milhares de prestadores de serviços externos de empresas como a Appen e a Accenture, que ganham US$ 14 por hora e trabalham com treinamento mínimo em prazos frenéticos, de acordo com vários prestadores de serviços que falaram à Bloomberg News e que não quiseram ser identificados por medo de perder seus empregos.

O Google disse em um comunicado enviado à Bloomberg News que “simplesmente não é o empregador de nenhum desses funcionários”. “Nossos fornecedores, como empregadores, determinam suas condições de trabalho, incluindo remuneração e benefícios, horas e tarefas atribuídas e mudanças de emprego – não o Google.”

Os prestadores de serviços são a espinha dorsal invisível do boom da IA generativa. Chatbots como o Bard, que foi lançado nesta semana que passou no Brasil e em países da União Europeia, usam inteligência computacional para responder quase instantaneamente a uma série de consultas que abrangem todo o conhecimento e a criatividade humana.

PUBLICIDADE

Mas, para aprimorar essas respostas de modo que possam ser fornecidas de forma confiável repetidas vezes, as empresas de tecnologia dependem de pessoas reais que revisam as respostas, fornecem feedback sobre os erros e eliminam qualquer indício de parcialidade.

É um trabalho cada vez mais ingrato. Seis atuais funcionários terceirizados do Google disseram que, à medida que a empresa entrou em uma corrida pela IA com a rival OpenAI, do ChatGPT, no ano passado, o tamanho de sua carga de trabalho e a complexidade de suas tarefas aumentaram.

Sem conhecimentos específicos, eles foram encarregados de avaliar respostas em assuntos que variavam de doses de medicamentos a leis estaduais. Os documentos compartilhados com a Bloomberg News mostram instruções complicadas que os funcionários devem aplicar às tarefas com prazos tão curtos para auditar as respostas que podem chegar a apenas três minutos.

“Da forma como está agora, as pessoas estão assustadas, estressadas, mal pagas e não sabem o que está acontecendo”, disse um dos funcionários terceirizados. “E essa cultura de medo não é propícia para obter a qualidade e o trabalho em equipe que se deseja de todos nós.”

O Google posicionou seus produtos de IA como recursos públicos na saúde, na educação e na vida cotidiana. Mas, privada e publicamente, os funcionários terceirizados levantaram preocupações sobre suas condições de trabalho, que, segundo eles, prejudicam a qualidade do que os usuários veem.

Alerta ao Congresso americano

Um funcionário terceirizado do Google que trabalha para a Appen disse em uma carta ao Congresso americano em maio que a velocidade com que eles são obrigados a revisar o conteúdo pode fazer com que o Bard se torne um produto “defeituoso” e “perigoso”.

O Google fez da IA uma grande prioridade em toda a empresa, apressando-se em inserir a nova tecnologia em seus principais produtos após o lançamento do ChatGPT da OpenAI em novembro de 2022.

PUBLICIDADE

Em maio, na conferência anual de desenvolvedores Google I/O, a empresa abriu o Bard para 180 países e territórios e revelou recursos experimentais de IA em produtos de destaque, como pesquisa, e-mail e Google Docs. O Google se posiciona como superior à concorrência devido ao seu acesso à “amplitude do conhecimento mundial”.

“Realizamos um extenso trabalho para construir nossos produtos de IA de forma responsável, incluindo testes rigorosos, treinamento e processos de feedback que aperfeiçoamos durante anos para enfatizar a factualidade e reduzir vieses”, disse o Google, da Alphabet (GOOGL), em comunicado.

A empresa disse que não está contando apenas com os avaliadores para aprimorar a IA e que há vários outros métodos para melhorar sua precisão e qualidade.

Processo de aprendizado da IA

Para se preparar para o uso desses produtos pelo público, os funcionários disseram que começaram a receber tarefas relacionadas à IA já em janeiro.

Um instrutor, contratado pela Appen, foi solicitado recentemente a comparar duas respostas que forneciam informações sobre as últimas notícias a respeito da proibição da Flórida aos cuidados de afirmação de gênero, classificando as respostas de acordo com sua utilidade e relevância.

Os funcionários também são frequentemente instados a determinar se as respostas do modelo de IA contêm evidências verificáveis. Os avaliadores precisam decidir se uma resposta é útil com base em diretrizes de seis pontos que incluem a análise das respostas quanto a aspectos como especificidade, atualidade das informações e coerência.

Eles também precisam garantir que as respostas não “contenham conteúdo nocivo, ofensivo ou excessivamente sexual” e que não “contenham informações imprecisas nem enganosas”.

O levantamento das respostas da IA quanto a conteúdo enganoso deve ser “baseado em seu conhecimento atual ou em uma rápida pesquisa na web”, dizem as diretrizes. “Não é necessário realizar uma verificação rigorosa dos fatos” ao avaliar a utilidade das respostas.

O exemplo de resposta à pergunta “Quem é Michael Jackson?” incluía uma imprecisão sobre o fato de o cantor ter estrelado o filme Moonwalker, que a IA dizia ter sido lançado em 1983. Na verdade, o filme foi lançado em 1988.

“Embora seja comprovadamente incorreto”, afirmam as diretrizes, “esse fato é insignificante no contexto da resposta à pergunta ‘Quem é Michael Jackson?’”

Mesmo que a imprecisão pareça pequena, “ainda é preocupante que o chatbot esteja errando os principais fatos”, disse Alex Hanna, diretora de pesquisa do Distributed AI Research Institute e ex-eticista de IA do Google.

“Parece que essa é uma receita para exacerbar a forma como essas ferramentas vão fornecer detalhes que parecem corretos, mas não estão”, disse ela.

Os avaliadores dizem que estão avaliando tópicos de alto risco para os produtos de IA do Google. Um dos exemplos nas instruções, por exemplo, fala sobre evidências que um avaliador poderia usar para determinar as dosagens corretas de um medicamento para tratar a pressão alta, chamado Lisinopril.

O Google disse que alguns funcionários preocupados com a precisão do conteúdo podem não ter sido treinados especificamente para verificar a precisão, mas o tom, a apresentação e outros atributos.

“As classificações são deliberadamente realizadas em uma escala móvel para obter um feedback mais preciso e melhorar esses modelos”, disse a empresa. “Essas classificações não afetam diretamente o resultado de nossos modelos e não são, de forma alguma, a única maneira de promovermos a precisão.”

Os humanos por trás da IA

Ed Stackhouse, o funcionário da Appen que enviou a carta ao Congresso, disse em entrevista que os funcionários terceirizados estavam sendo instados a fazer o trabalho de rotulagem de IA nos produtos do Google “porque somos indispensáveis para a IA no que diz respeito a esse treinamento”.

Mas ele e outros funcionários disseram que pareciam estar sendo avaliados por seu trabalho de forma misteriosa e automatizada.

Eles não têm como se comunicar diretamente com o Google, além de fornecer feedback em uma entrada de “comentários” em cada tarefa individual. E eles precisam ser rápidos. “Estamos sendo sinalizados por um tipo de IA que nos diz para não perdermos tempo com a IA”, acrescentou Stackhouse.

O Google contestou a descrição dos funcionários de que estavam sendo automaticamente sinalizados pela IA por excederem as metas de tempo. Ao mesmo tempo, a empresa disse que a Appen é responsável por todas as avaliações de desempenho dos funcionários.

A Appen não respondeu aos pedidos de comentários. Um porta-voz da Accenture disse que a empresa não comenta sobre o trabalho do cliente.

Outras empresas de tecnologia que treinam produtos de IA também contratam prestadores de serviços humanos para aprimorá-los. Em janeiro, a revista Time informou que trabalhadores do Quênia, que recebem US$ 2 por hora, trabalharam para tornar o ChatGPT menos tóxico.

Outros gigantes da tecnologia, incluindo Meta (META), Amazon (AMZN) e Apple (AAPL), utilizam funcionários terceirizados para moderar o conteúdo de redes sociais e análises de produtos, além de fornecer suporte técnico e atendimento ao cliente.

“Se você quiser perguntar qual é o segredo do Bard e do ChatGPT – é toda a internet. E são todos esses dados rotulados que eles criam”, disse Laura Edelson, cientista da computação da Universidade de Nova York.

“Vale a pena lembrar que esses sistemas não aparecem em um passe de mágica – eles são fruto do trabalho de milhares de pessoas e sua mão-de-obra mal remunerada.”

Chatbot Bard, do Google

Os funcionários disseram ter encontrado imagens de guerra, pornografia infantil e discurso de ódio como parte de seu trabalho rotineiro de avaliação da qualidade dos produtos e serviços do Google.

Embora alguns trabalhadores, como os que se reportam à Accenture, tenham benefícios de assistência médica, a maioria tem apenas opções mínimas de “serviço de aconselhamento” que permitem que os trabalhadores telefonem para uma linha direta para obter aconselhamento sobre saúde mental, de acordo com um site interno que explica alguns benefícios dos contratados.

Para o projeto Bard, do Google, os funcionários da Accenture foram instados a escrever respostas criativas para o chatbot de IA, disseram os funcionários.

Eles respondiam às solicitações do chatbot – um dia poderiam estar escrevendo um poema sobre dragões no estilo shakespeariano, por exemplo, e noutro dia poderiam estar escrevendo um código de programação.

O trabalho era registrar o maior número possível de respostas criativas às solicitações a cada dia de trabalho, de acordo com pessoas familiarizadas com o assunto, que não quiseram ser identificadas porque não estavam autorizadas a discutir processos internos.

Por um curto período, os funcionários foram designados a revisar solicitações obscenas, gráficas e ofensivas, disseram eles. Depois que um funcionário apresentou uma reclamação de RH à Accenture, o projeto foi encerrado abruptamente para a equipe dos EUA, embora alguns de seus colegas em Manila tenham continuado a trabalhar no Bard.

Demissões

Os empregos também têm pouca segurança. No mês passado, meia dúzia de funcionários terceirizados do Google que trabalhavam para a Appen receberam um comunicado da gerência dizendo que seus cargos haviam sido eliminados “devido às condições comerciais”.

As demissões foram abruptas, disseram os trabalhadores, porque eles tinham acabado de receber vários e-mails oferecendo bônus para trabalhar mais horas treinando produtos de IA.

Os seis trabalhadores demitidos apresentaram uma queixa ao National Labor Relations Board em junho. Eles alegaram que foram demitidos ilegalmente por terem se organizado, devido à carta de Stackhouse ao Congresso. Antes do final do mês, eles foram readmitidos em seus empregos.

O Google disse que a contestação era um assunto entre os trabalhadores e a Appen, e que eles “respeitam os direitos trabalhistas dos funcionários da Appen de se unirem a um sindicato”.

A Appen não respondeu a perguntas sobre a organização de seus funcionários.

O Sindicato dos Trabalhadores da Alphabet – que organiza tanto os funcionários do Google quanto os terceirizados, incluindo os da Appen e da Accenture – disse que condenou a forma como as novas cargas de trabalho em torno da IA dificultaram ainda mais as condições para os funcionários.

Emily Bender, professora de linguística computacional da Universidade de Washington, disse que o trabalho desses funcionários terceirizados no Google e em outras plataformas de tecnologia é “uma história de exploração de mão-de-obra”, apontando para a precariedade da segurança no emprego e para o fato de que alguns desses tipos de trabalhadores recebem remunerações bem abaixo de um salário mínimo.

“Brincar com um desses sistemas talvez pareça menos divertido se você pensar no que é necessário para criar e no impacto humano disso”, disse Bender.

Os funcionários terceirizados disseram que nunca receberam nenhuma comunicação direta do Google sobre seu novo trabalho relacionado à IA – tudo é filtrado por meio de seu empregador.

Eles disseram que não sabem de onde vêm as respostas geradas por IA que eles veem, nem para onde vai seu feedback. Na ausência dessas informações e com a natureza em constante mudança de seus trabalhos, os funcionários se preocupam com a possibilidade de estarem ajudando a criar um produto ruim.

Em uma tarefa, um avaliador recebeu uma resposta longa que começava com: “com base em meu conhecimento que inclui acontecimentos até setembro de 2021″. Essa resposta está associada ao modelo de linguagem grande da OpenAI, chamado GPT-4.

Embora o Google tenha dito que o Bard “não foi treinado em nenhum dado do ShareGPT ou do ChatGPT”, os avaliadores se perguntaram por que esse tipo de frase aparece em suas tarefas.

Bender disse que não faz muito sentido que grandes corporações de tecnologia incentivem as pessoas a fazer perguntas a um chatbot de IA sobre uma gama tão ampla de tópicos e que os apresentem como “máquinas que fazem tudo”.

“Por que a mesma máquina que é capaz de lhe dar a previsão do tempo na Flórida também deveria ser capaz de dar conselhos sobre doses de medicamentos?”, perguntou ela. “As pessoas por trás da máquina que têm a tarefa de fazer com que ela seja um pouco menos terrível em algumas dessas circunstâncias precisam fazer um trabalho impossível.”

Veja mais em Bloomberg.com

Leia também

IA vai liberar mais tempo para a criação, diz CEO de tech latina listada em NY

Como o TikTok fez do live shopping um negócio de US$ 20 bi e agora mira a Amazon