** Esta postagem é parte de artigo mais extenso sobre o debate brasileiro de regulação de plataformas. Clique aqui para acessar o conteúdo completo.
Os Relatores Especiais para a Liberdade de Expressão afirmaram: “No mínimo, não se deve exigir que os intermediários controlem o conteúdo gerado por usuários.” E que: “Os sistemas de filtragem de conteúdo que sejam impostos por um governo e não sejam controlados pelo usuário final não representam uma restrição justificada à liberdade de expressão.”
Há pelo menos duas razões principais pelas quais as obrigações gerais de controle de conteúdo não são uma boa ideia. Em primeiro lugar, tais obrigações são talvez a expressão máxima do tratamento de aplicações de internet como uma força de policiamento de tudo o que fazemos e dizemos online, com consequências nocivas para a liberdade de expressão e acesso à informação, e infringindo expectativas de privacidade. Se as práticas comerciais de aplicações de internet frequentemente geram preocupações semelhantes, a resistência da sociedade à vigilância corporativa impulsionou regulações de privacidade e proteção de dados, bem como mudanças nas políticas das empresas em favor da privacidade de usuárias e usuários. Em segundo lugar, o controle geral e a filtragem de conteúdos relacionada falham constantemente, e o fato de ter um desempenho deficiente causa ainda mais preocupações para direitos humanos. Dado o grande volume de novos conteúdos que as pessoas postam e compartilham em plataformas online a cada minuto, a moderação de conteúdo depende cada vez mais de ferramentas automatizadas, refletindo suas limitações e falhas. Regulações ou interpretações que obrigam a adoção dessas ferramentas e vinculam tal obrigação a sanções ou responsabilização de aplicações de internet ampliam o potencial de erros e de aplicação problemática da lei.
Apenas em termos de probabilidade, quando um sistema que já é propenso a cometer erros é ampliado em escala para moderar conteúdos que são gerados em uma taxa de muitos milhões a bilhões de entradas por dia, mais erros ocorrerão. E quando os modelos de aprendizagem são empregados para educar a inteligência artificial (IA) dentro desses métodos, são poucas as chances de esses modelos reconhecerem e corrigirem esses erros. Na maioria das vezes, essas tecnologias reproduzem discriminação e vieses. São propensas a censurar conteúdo lícito, não ofensivo e relevante. Embora defendamos e continuaremos a defender a análise humana em processos de moderação de conteúdo, ter moderadores humanos suficientes trabalhando em condições adequadas para evitar restrições indevidas de conteúdo será um desafio contínuo.
Os sistemas de IA geralmente empregados na moderação de conteúdo incluem algoritmos de reconhecimento de imagem e modelos de processamento de linguagem natural. Quanto às complexidades do treinamento de modelos de linguagem de IA, os especialistas ressaltam que a linguagem depende muito de contextos culturais e sociais e varia consideravelmente entre grupos demográficos, temas de conversa e tipos de plataformas. Além disso, o treinamento de algoritmos de processamento de linguagem exige definições claras e precisas do conteúdo alvo, o que é muito difícil de alcançar com termos complexos normalmente implicados na caracterização de uma prática criminosa ou ilícita. Mesmo que, no geral, consideremos que o estágio atual das ferramentas de processamento de linguagem natural disponíveis mostra um desempenho eficaz em inglês, elas apresentam variações significativas em termos de qualidade e precisão para outros idiomas. Elas também podem reproduzir discriminação nos dados, afetando desproporcionalmente comunidades marginalizadas, como pessoas LGBTQIA+ e mulheres. Modelos de linguagem multilíngue também têm suas limitações, pois podem não refletir bem a linguagem do cotidiano usada por falantes nativos e não levar em conta contextos específicos.
Por sua vez, apesar dos avanços atuais na tecnologia, as ferramentas de reconhecimento de imagem também têm suas limitações. Um bom exemplo está relacionado ao reconhecimento de imagens sexuais. Uma vez que a fronteira exata em relação a imagens sexuais ofensivas e não ofensivas é objeto de discordância, a tendência natural dos sistemas que construímos para reconhecê-las automaticamente e removê-las das plataformas online estará alinhada às estimativas mais conservadoras para minimizar os riscos legais. Isso significa que a expressão que é de outra forma protegida, legal e, muitas vezes proveniente de minorias sexuais, será considerada inadequada. Um caso marcante de censura online privada no Brasil reflete precisamente esse problema. Em 2015, o Facebook bloqueou uma foto do início do século XX de um casal indígena parcialmente vestido, postada pelo Ministério da Cultura para divulgar o lançamento do acervo digital Portal Brasiliana Fotográfica logo antes do Dia dos Povos Indígenas no Brasil.
Da mesma forma, e à medida que nos aproximamos de sistemas sofisticados de IA capazes de determinar com precisão imagens sexuais de outros materiais, nos deparamos com o antigo problema da arte versus pornografia. A arte clássica que retrata a forma nua continua a ser sinalizada como imprópria por algoritmos de moderação, apesar do consenso esmagador de que ela está firmemente na categoria “arte”, e não na qualificação como ilegal ou contrária aos padrões da comunidade. A arte contemporânea confunde ainda mais esses limites, muitas vezes intencionalmente. Nossa capacidade de expressão como seres humanos está em constante mudança, o que continuará a ser um desafio para os desenvolvedores de sistemas de computadores construídos para reconhecer e categorizar o conteúdo gerado por pessoas, o que, em escala, produzirá ainda mais erros.
Uma taxa considerável de erros também pode acontecer em sistemas de reconhecimento de imagem baseados em hashes. Erros comuns enfrentados por esse tipo de tecnologia, como as chamadas “colisões”, ocorrem porque duas imagens diferentes podem ter o mesmo valor hash, criando falsos positivos, onde uma imagem é identificada incorretamente como algo que não é. Isso pode ocorrer por vários motivos, por exemplo, se as imagens forem muito semelhantes, se a função hash não é muito boa em distinguir entre imagens diferentes ou se a imagem foi corrompida ou manipulada. O oposto também pode ocorrer, ou seja, manipular imagens infratoras para que a função hash não as reconheça e sinalize. Além das questões de eficiência, esses sistemas comprometem as proteções inscritas na arquitetura de plataformas digitais que, por padrão, garantem a inviolabilidade das comunicações, privacidade, segurança e proteção de dados, como é o caso da criptografia de ponta-a-ponta.
Quando os sistemas de moderação são dimensionados para tamanhos desproporcionalmente grandes, o alcance de obrigações de monitoramento e denúncia anexadas a eles, se existentes, é dimensionado da mesma maneira. Isso pode ser e tem sido moldado como os olhos e ouvidos de forças arbitrárias e não democráticas.
A regulação de plataformas não deve incentivar interpretações ou regulamentação adicional que exijam o controle geral e filtragem de conteúdo. O PL 2630 deve ser mais explícito para repelir tais interpretações, e o debate regulatório no Brasil sobre compromissos de diligência e prestação de contas das aplicações de internet deve rejeitar essas obrigações por não serem respostas necessárias e proporcionais.