Entre as tecnologias emergentes dos últimos anos, destacam-se as baseadas em Inteligência Artificial (IA), em particular os modelos de linguagem de grande escala (Large Language Models – LLMs), como o ChatGPT e sistemas análogos. Estas ferramentas, frequentemente disponibilizadas por entidades externas, não controladas pelas instituições de investigação, levantam desafios quanto à origem e à natureza dos dados dos conjuntos de treino, com potencial para incluir dados pessoais (ou outros dados sensíveis ou protegidos por direitos de autor). A sua utilização — seja para criar chatbots de recomendação, gerar conteúdos automatizados, apoiar análises qualitativas ou resumir dados de investigação — exige avaliar se ocorre tratamento de dados pessoais e, em caso afirmativo, assegurar o dever de informação ao participante, bem como a legitimidade, minimização e segurança do tratamento.
Estes modelos colocam também desafios significativos ao exercício do direito ao apagamento. Os dados pessoais utilizados no treino destes sistemas passam a estar incorporados nos parâmetros do modelo, o que dificulta a identificação ou a remoção seletiva dessa informação sem comprometer a integridade global do sistema. O cumprimento do direito ao apagamento (artigo 17.º do RGPD) pode, por isso, tornar-se tecnicamente inviável ou extremamente complexo. Tal não dispensa, por conseguinte, o investigador de garantir, antes do início do tratamento, que evita a introdução de dados pessoais em sistemas externos. Sempre que tal seja inevitável ou justificado, deve ainda informar claramente os participantes sobre a forma como os seus dados serão utilizados, os eventuais riscos associados e as limitações técnicas existentes ao exercício dos seus direitos.
Mesmo quando empregues apenas como apoio indireto à atividade científica, estas ferramentas comportam riscos, incluindo a exposição de dados confidenciais, produção de resultados enviesados ou incorretos (“alucinações”) e a dependência excessiva de sistemas não auditáveis. O recurso à IA generativa requer, portanto, cautela acrescida, apreciação do risco e, quando aplicável, documentação das medidas de mitigação adotadas, incluindo a garantia de supervisão humana sobre todos os resultados produzidos.