Network and Information Technologies Doctoral Programme
15/07/2024

Autor: Joan Giner Miguelez
Programa: Doctorat de Tecnologies de la Informació i de Xarxes
Idioma: Anglès
Direcció: Dr. Abel Gómez Llana i Dr. Jordi Cabot Sagrera

Departament / Institut:  Escola de Doctorat UOC
Matèries: Informàtica
Paraules clau: compartició de dades,aprenentatge automàtic, IA confiable, equitat a la IA, documentació de dades

Àrea de coneixement: Tecnologies de la Informació i de Xarxes

+ Enllaç al projecte

Resum

Les aplicacions d'intel·ligència artificial (IA) poden mostrar biaixos discriminatius cap a sectors socials específics. Per exemple, s'ha detectat que algunes fallen més en diagnosticar dones que homes als hospitals. Part d'aquests biaixos provenen de les dades usades per entrenar aquestes, i recentment, la comunitat de recerca està proposant guies per identificar quins aspectes d'aquestes dades que poden comprometre aquestes aplicacions. Malauradament, aquestes guies manquen d'estructura consistent, dificultant la seva computació i la creació de tècniques d'enginyeria sobre aquestes. Aquesta tesi proposa un llenguatge específic de domini (DSL) per documentar conjunts de dades per IA. El llenguatge ha servit de base per l'extensió d'IA responsable de \emph{Croissant}, un estàndard de dades adoptat pels principals buscadors com \emph{Google Dataset Search}. A més a més, aquesta tesi estudia l'ús de grans models de llenguatge (LLM) en la creació automàtica de documentació, i l'estat de les dades científiques en relació amb aquestes guies.