"Dennos acceso a los datos y ya construiremos nosotros": Este hacker responde a la IA que quiere el Gobierno

A ese tuit le contestaba ayer jueves Jaime Gómez-Obregón, un 'hacker de la Administración Pública' cuyos proyectos hemos abordado en múltiples ocasiones en este medio, en algunos casos defendiendo la publicación abierta de contratos públicos por parte de la administración de Cantabria, de Euskadi o de la Hacienda central, en otros casos denunciando graves 'bugs' de las webs de la admón.

Gómez-Obregón, en el vídeo de respuesta al ministro.

La respuesta de Gómez-Obregón a Escrivá, publicada en formato vídeo, comenzaba así:

"Usted y todos sabemos que cualquier esfuerzo institucional por desarrollar un modelo de inteligencia artificial público va a ser, como siempre, flor de un día. Por eso, permítame compartirle cómo vivimos este asunto los técnicos, los desarrolladores".

A la hora de calificar como "flor de un día" a la eventual inversión en modelos de IA públicos quizá tenga en mente antecedentes como las fallidas inversiones de ayuntamientos y diputaciones en marketplaces públicos, versiones locales de Amazon que (sobre el papel) iban a impulsar el pequeño comercio y permitirle plantar cara a Amazon por el mero hecho de tener una web online. Y que, invariablemente, han terminado siendo todas un fracaso.

Pero los problemas de esas webs de comercio electrónico no pueden parecerse mucho a los de un eventual modelo de lenguaje... así que ¿qué 'pegas' le ve nuestro hacker al proyecto del gobierno?

"Este modelo de licenciamiento actual nos está impidiendo reutilizar los contenidos de los diccionarios, y no sólo los lemarios, sino que, por supuesto, también las definiciones, las marcas lexicográficas y el resto de datos y de metadatos. Unos diccionarios, por cierto, que están recibiendo grandes cantidades de dinero público".

"Los servicios públicos digitales son así de penosos" porque "cada región reinventa la rueda", explica el hacktivista Gómez-Obregón

Si Escribá habla del sesgo pro-anglosajón de los modelos de IA vigentes en el mercado, Gómez-Obregón recuerda que por nuestro lado también nos estamos tirando piedras sobre nuestro propio tejado:

"Y esto no sólo es un asunto de soberanía nacional, como usted dice, y yo lo comparto, sino que es también, y sobre todo, una traba que la cultura en español se está autoimponiendo en un mundo cada vez más anglosajón""Los datos! ¡Los datos! Los datos! No puedo hacer ladrillos sin arcilla!" (Sherlock Holmes)

Nuestro protagonista pide, además, que no nos limitemos a desarrollar 'modelos en español', sino también "modelos verticales, entrenados con conjuntos de datos específicos". Pero hay un problema, que los datos con que podríamos entrenarlos no están disponibles para los desarrolladores:

"Como usted dice, [estos modelos] requieren del acceso a grandes bases de datos y grandes conjuntos de datos documentales, pero ¿quién tiene estas bases de datos? Bien, pues las tienen ustedes mismos, las tiene sobre todo el Estado, pero no las comparten. Y por eso los desarrolladores no podemos utilizarlas ni construir herramientas con ellas"."[...] Así que, por favor, denos acceso a los datos. Y ya construiremos nosotros los modelos y le aseguro que muchos van a ser libres".

La de Gómez-Obregón no es una queja en abstracto, hay ejemplos concretos de eso. Y los menciona en el vídeo:

"El Consejo General del Poder Judicial atesora 8 millones de sentencias de los tribunales. Ya están digitalizadas, anonimizadas, no hay ninguna objeción desde el punto de vista de tratamiento de datos personales. Y, aunque la Constitución dice que las sentencias son públicas y la ley dice que están exentas de propiedad intelectual, el Consejo no permite su libre reutilización. ¿Por qué? Porque las están vendiendo".

Este hacker se dejaba los ojos leyendo el BOE, así que ha creado SuperBOE para poder aplicarle plantillas: ideal para opositores

Opina que el ministro de Transformación Digital debería hablar con su colega de Justicia en el próximo Consejo de Ministros sobre este tema... y sobre el Registro Mercantil:

"Los datos del Registro Mercantil son un tesoro que es público, pero que no se pueden descargar masivamente. Porque con él se están lucrando de nuevo un puñado de funcionarios del Estado. Si estos datos fueran libres, los técnicos, los desarrolladores, podríamos construir herramientas para dar más transparencia a la contratación pública, promover una mayor competencia en las licitaciones y detectar y arrasar con tramas de corrupción".

En resumen...

"Pero para eso necesitamos fuentes de datos abiertas con las que poder entrenar modelos de inteligencia artificial. Y la capacidad de desbloquear todo esto, el acceso a estas fuentes de datos, no depende de ningún ente distante y abstracto, depende de ustedes".

MSN

Noticias relacionadas:

"Dennos acceso a los datos y ya construiremos nosotros": Este hacker responde a la IA que quiere el Gobierno

Anuncia Gobierno de San Andrés Cholula cierres viales por el Medio Maratón del Día del Papá 2026

Suman siete investigaciones por ataques a automovilistas en la Vía Atlixcáyotl

Con corte de listón, Omar Muñoz pone en marcha la Feria de Cuautlancingo 2026

Alfonso Sánchez García se despide del ayuntamiento capitalino entre aplausos y porras

La mayor jornada de cirugías visuales en Puebla cambia la vida de 500 personas

Restauran tres obras históricas del Centro Cultural UPAEP para preservar el patrimonio de Puebla

Clima en Ciudad de Puebla hoy: lluvia por la tarde y ambiente agradable este sábado 20 de junio de 2026

Localizan con vida a cuatro personas reportadas como desaparecidas en Puebla

Clima en Atlixco hoy: calor durante el día y posibles lluvias por la tarde

Claudia Sheinbaum inicia entrega de 36 mil apoyos para vivienda en San Quintín

Gobierno de Puebla atiende afectaciones por desbordamiento de río en Chalchicomula de Sesma

Clima en CDMX hoy: prevén lluvias durante la tarde en la Ciudad de México este sábado 20 de junio