Engineering data-sharing practices for a fair and trustworthy AI

Network and Information Technologies Doctoral Programme

15/07/2024

Autor: Joan Giner Miguelez
Programa: Doctorado en Tecnologías de la Informació y de Redes
Idioma: Inglés
Dirección: Dr. Abel Gómez Llana y Dr. Jordi Cabot Sagrera

Departamento / Instituto: Escuela de Doctorado UOC
Materias: Informática
Palabras clave: compartición de datos, IA confiable, equidad en la IA, documentación de datos

Área de conocimiento: Tecnologías de la Informació y de Redess

+ Enlace al proyecto

Resumen

Las aplicaciones de inteligencia artificial (IA), pueden mostrar sesgos discriminatorios hacia sectores sociales específicos. Por ejemplo, se ha detectado que algunas fallan más en diagnosticar mujeres que hombres en hospitales. Parte de estos sesgos proviene de los datos que entrenan estas y la comunidad está proponiendo guías para identificar qué aspectos de estos pueden comprometer estas aplicaciones. Sin embargo, estas guías carecen de estructura consistente, lo que dificulta su computación y la creación de técnicas de ingeniería sobre ellas. Esta tesis presenta un lenguaje específico de dominio para documentar datos para IA. El lenguaje ha servido de base para la extensión de IA responsable de \emph{Croissant}, un estándar de datos adoptado por los principales buscadores como \emph{Google Dataset Search}. Además, esta tesis estudia el uso de grandes modelos de lenguaje (LLM), en la creación automática de documentación, así como el estado de los datos científicos en relación con estas guías.