Skip to main content

Repercusiones sociales de la IA

(Tiempo estimado: 13 - 25 minutos)
Sinan, Manish y Michiel
Resumen en 2 minutos

Abordar los impactos sociales de la IA desde una perspectiva crítica y práctica fue el reto de este panel del encuentro BIG.AI@MIT.

El trabajo del investigador Michiel Bakker da cuenta del potencial de la IA para facilitar consensos en contextos polarizados mediante sistemas que simulan elecciones grupales, lo que permite decisiones colectivas más efectivas. De hecho, ya ha llamado la atención desde terapeutas de pareja hasta personas interesadas en la resolución de grandes cuestiones geopolíticas.

La dificultad de medir y mitigar la discriminación algorítmica, especialmente en contextos como la contratación laboral o la justicia penal, donde los sesgos son sutiles y contextuales, fue otro de los temas, estudiado en este caso por Manish Raghavan. Su especialización se extiende hasta el estudio de la equidad, concepto para el que no existe una definición universal. La percepción de lo “justo” varía según el entorno y los actores involucrados, por lo que la propuesta de este investigador se basa en construir soluciones específicas por dominio.

La alineación de los modelos con los valores humanos también representa otro escollo para la IA. La necesidad de incorporar diversidad de opiniones y marcos participativos en el diseño de sistemas, además de aplicar métodos como el aprendizaje por refuerzo con retroalimentación humana, están contribuyendo a su mejor desarrollo.

Frente a la lacra de la desinformación, los ponentes enfatizaron la necesidad de usar modelos para para fortalecer el pensamiento crítico, lo cual depende del diseño del sistema. Aunque expresaron preocupaciones sobre el mal uso de la IA por actores poderosos y el riesgo de que estas tecnologías aumenten la capacidad individual para causar daño, el encuentro lanzó un mensaje de esperanza por el enorme potencial de la IA para avanzar en múltiples ámbitos, como ciencia, salud y energía, siempre que se aborde con responsabilidad y ética.


Ideas del encuentro BIG.AI@MIT Conference_

Nadie en el ámbito de los negocios es ajeno al impacto de la IA en su quehacer diario. La mayoría de personas quieren tomar buenas decisiones empresariales, usar bien los datos, pensar en habilidades, en formación, en la competencia del mercado… pero ¿qué va a suponer la IA en nuestro mundo?, ¿cuál va a ser su impacto real en la sociedad? Asuntos como la mediación con IA, la alineación de modelos con los valores humanos, los riesgos del uso de grandes modelos lingüísticos (LLM), la discriminación algorítmica, las diferencias entre aprendizaje supervisado y generativo o las dimensiones de la equidad y cómo varían por contexto ya están afectando al desarrollo de la sociedad.

Todas estas cuestiones fueron abordadas por Sinan Aral, director del MIT Initiative on the Digital Economy, encargado de moderar el panel de los investigadores Michiel Bakker, profesor adjunto de MIT Sloan, y Manish Raghavan, profesor de MIT Sloan y MIT EECS, cuyas investigaciones las exploran en profundidad.

IA para maximizar el consenso

SINAN ARAL: Vivimos en un mundo muy polarizado política y socialmente; pero Michiel, tú has sido parte de un equipo que desarrolló y demostró la capacidad de un mediador de IA para ayudar a los humanos a encontrar puntos en común, e incluso los motivó a actualizar sus puntos de vista; algo que parece realmente complicado en esta época. ¿Puedes contarnos más sobre esa investigación, y la promesa que podría representar para acercar a las personas en estos tiempos de división excepcional?

MICHIEL BAKKER: Así es, trabajé con un grupo de colaboradores excelentes y publicamos recientemente un artículo en Science. Lo que hicimos fue construir un sistema de modelos de lenguaje –un sistema, no un único modelo–, porque el sistema simula una elección y utiliza internamente un marco de elección social para, en última instancia, crear una declaración grupal que maximice alguna noción de acuerdo. Es decir, se introducen opiniones diversas y el sistema encuentra una afirmación con la que ese grupo de personas pueda estar de acuerdo, maximizando así el consenso y conciliando diferentes perspectivas.Construimos un sistema de modelos de lenguaje capaz de maximizar el consenso y conciliar diferentes perspectivas, lo cual representa una forma mucho más accesible y económica de hacer mediación que contratar a un mediador profesional

Ahora bien, en el estudio de investigación nos centramos en pequeños grupos de personas que trataban de llegar a acuerdos sobre temas políticos, en nuestro caso. Este sistema tiene muchas consecuencias, especialmente que representa una forma mucho más accesible y económica de hacer mediación que contratar a un mediador profesional.

Después de publicar el artículo, recibimos muchas solicitudes, desde terapeutas de pareja hasta personas interesadas en usarlo para resolver grandes cuestiones geopolíticas. Sin embargo, he de enfatizar que estamos ante un estudio de investigación, y desconocemos si el sistema está listo para ser aplicado a gran escala, aunque sí demuestra el potencial del uso de modelos de lenguaje y de la IA para mediar en interacciones humanas. Es decir, pasar de la interacción clásica de un humano con un agente a algo que ayude a un grupo completo. Desconocemos si el sistema está listo para ser aplicado a gran escala, aunque sí demuestra el potencial del uso de modelos de lenguaje y de la IA para mediar en interacciones humanas

S.A.: Con frecuencia destacamos que las diferencias de opinión pueden ser beneficiosas para la innovación. Supongo que no se pretende homogeneizar la opinión de todos en una única perspectiva compartida, sino que exista un punto en común. ¿Puedes hablarnos acerca de la diferencia entre homogenizar a todos hacia una sola postura y lo que estáis tratando de lograr aquí?

M.B.: No estamos buscando que todos adopten la misma opinión; pero, a menudo, llegar a consensos o acuerdos es un prerrequisito para la acción colectiva. Por ejemplo, si quieres aprobar una ley, hay una sola versión de esa ley que se aprueba. Si un grupo quiere decidir cómo priorizar las característica de un producto, solo se puede desarrollar una característica primero. Es en estos procesos de toma de decisiones donde necesitas llegar a un acuerdo único, y ahí es donde esto puede ser muy útil.

Además, incluso cuando no buscas llegar a una afirmación o solución única en la que todos estén de acuerdo, sino que solo quieres explorar el espacio de posibilidades, estos modelos pueden ayudar a integrar diferentes opiniones de formas no obvias. Cuando no buscas llegar a una afirmación o solución única en la que todos estén de acuerdo, sino que solo quieres explorar el espacio de posibilidades, estos modelos también pueden ayudar a integrar diferentes opiniones de formas no obvias

En ambos casos, sin pretender homogenizar las opiniones, estos sistemas tienen mucho potencial si se requiere una decisión colectiva.

De izda. a dcha: Sinan Aral, Manish Raghavan y Michiel Bakker, en un momento el encuentro.

Discriminación y equidad

S.A.: La construcción de consenso es un aspecto fundamental, como también lo es la discriminación cuando se cruza con la IA. Manish, tú has reflexionado mucho sobre esa interacción. ¿Puedes ayudarnos a entender como, por ejemplo, podrían afectar de manera diferente las tasas de discriminación en contextos como la contratación laboral o el sistema de justicia penal? ¿Cómo debemos pensar en desarrollar y aplicar IA generativa de forma que mitigue la discriminación, en lugar de exacerbarla?

MANISH RAGHAVAN: Existen muchos contextos donde se toman decisiones de alto impacto y en los que la discriminación puede manifestarse de manera distinta. Nuestra forma de entender la discriminación en el ámbito laboral no es la misma que en la justicia penal o en el sector salud. Por eso, el significado de “discriminación” siempre ha estado muy ligado al contexto.

Uno de los mayores desafíos es que la discriminación es difícil de medir. Puede que en interacciones individuales con jueces, médicos o responsables de la toma de decisiones, exista cierto sesgo, pero demostrarlo con datos cuantitativos es muy complicado.Nuestras nociones de discriminación siempre dependen del contexto. Uno de los mayores desafíos es que es difícil de medir. Puede haber sesgos en interacciones individuales con jueces, médicos o responsables de tomar decisiones, pero demostrarlo con datos cuantitativos es muy complicado

Mi trabajo se enfoca principalmente en el empleo, donde hay mucho debate –tanto mediático como legal– sobre cómo definir la discriminación y en qué casos se considera inaceptable.

Con el aprendizaje supervisado, podemos aplicar cierta lógica legal: observamos patrones estadísticos en los resultados y, si hay diferencias injustificadas, se consideran discriminatorios. Esto se aplica, por ejemplo, a sistemas que evalúan currículums o hacen pruebas de selección a los candidatos.

Sin embargo, es mucho más difícil de hacer en el contexto de la IA generativa. Ya no se trata de decisiones binarias y que podamos auditar cuantitativamente. Hoy existen bots conversacionales que entrevistan a personas y hacen recomendaciones. ¿Podemos asegurar que el dialecto de la persona, su historial laboral o sus características no están influyendo en la “percepción” del chatbot? ¿Y eso lleva a resultados discriminatorios?

Algunos estudios en entornos controlados han determinado que si un modelo lingüístico puede inferir tus datos demográficos, eso puede sesgar sus respuestas. ¿Es eso discriminatorio? Probablemente sí. ¿Tenemos las herramientas para medirlo con precisión? Aún no está claro.

Y ahí está el gran reto de la IA generativa: ni siquiera sabemos qué métricas usar para la evaluación. Este problema es especialmente delicado cuando hablamos de temas sociales sensibles como la discriminación.

S.A.: Efectivamente, con el aprendizaje supervisado, tienes datos etiquetados: “esto es” o “esto no es” discriminación; y la máquina aprende a predecir eso en nuevos casos. Pero con la IA generativa, entrevistas a alguien, y sutilmente, si esa persona fuera hombre o mujer, más joven o mayor, de una raza u otra, el resultado de la conversación puede verse distinto. No es un "sí" o "no", sino algo mucho más sutil y difícil de analizar. Esto me lleva a otro tema: tenemos que construir, entrenar y afinar estos modelos, y al hacerlo, debemos pensar en cómo se alinean con los objetivos sociales que buscamos.

Mel, tú has abordado la cuestion de la alineación aplicada a los grandes modelos del lenguaje (LLM). Uno de los problemas es que los datos de entrenamiento pueden contener sesgos que luego se manifiestan en el comportamiento del modelo, lo cual puede no alinearse con los valores humanos. También has estado trabajando en sistemas de retroalimentación y recompensa para LLM que pueden incorporar visiones minoritarias y representar una diversidad de opiniones. ¿Puedes describir este trabajo? ¿Y serías capaz de responder la pregunta más espinosa: quién decide qué versión de los valores morales humanos debería reflejar la IA, y por qué?

M.B.: Primero, retomando lo que dijo Manish: ya sea aprendizaje supervisado o IA generativa, todo comienza con tener buenas evaluaciones. Estas pueden ser más difíciles con IA generativa –y las métricas también–, pero precisamente por eso son aún más importantes.

Se está invirtiendo mucho, tanto desde la academia como desde la investigación industrial, en construir mejores evaluaciones. Existen institutos de seguridad de la IA en Reino Unido, EE.UU. y Europa que están estudiando cómo evaluar estos sistemas. Por lo tanto, las buenas evaluaciones –y el arte y la ciencia de hacerlas– es un área crucial.

Por ejemplo, si se formula una pregunta con algún fundamento político o social, se busca que el modelo represente una pluralidad de puntos de vista. Esto se puede evaluar a nivel de resultado o respuesta. Se podría decir “para esta pregunta, estas son las opiniones existentes en la sociedad, por lo tanto, queremos que el modelo refleje al menos una parte significativa de esas opiniones”. Se está invirtiendo mucho, tanto desde la academia como desde la investigación, en construir mejores evaluaciones. Por ejemplo, si se formula una pregunta con algún fundamento político o social, se busca que el modelo represente una pluralidad de puntos de vista. Esto se puede evaluar a nivel de resultado o respuesta

Pero también está la cuestión de los sesgos distributivos, que es mucho más compleja. Si le pides al modelo que genere una historia sobre un médico que cura a un paciente, y el médico siempre pertenece al mismo perfil demográfico, no puedes detectar ese sesgo observando una sola respuesta. Ese tipo de sesgo solo se revela al analizar un gran número de resultados generados por el modelo.

Esa es la razón por la que considero que el primer paso es definir claramente qué tipos de daños o sesgos pueden surgir y luego desarrollar métodos para evaluarlos adecuadamente.

En lo que respecta a las soluciones o a la orientación del comportamiento del modelo dependiendo del daño potencial: si es un sesgo distributivo o si se trata de representar múltiples puntos de vista en una sola salida, hay distintas técnicas. La más simple es darle ejemplos al modelo. Todo comienza con definir cuáles son los posibles daños o sesgos posteriores, y cómo podemos evaluarlos

Si observas que solo representa un subconjunto de opiniones en sus respuestas, puedes decirle: “La próxima vez que recibas una pregunta como esta, deberías responder de esta manera”. El modelo luego generaliza ese patrón, y cada vez que se le hace una pregunta de esa índole o sobre ese tema, incluirá esos puntos de vista. Esto se llama “fine-tuning o ajuste fino supervisado” (es el proceso de adaptar un modelo previamente entrenado para tareas o casos de uso específicos).

Luego existen soluciones técnicas muy interesantes. Una de ellas es el Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF, Reinforcement Learning from Human Feedback) como una manera de recompensar el “buen” comportamiento del modelo. Pero incluso dentro de ese “buen comportamiento”, hay una definición: ¿qué significa “bueno”? En lugar de tener un solo modelo que defina qué es bueno o malo, podrías tener un conjunto de modelos, donde cada uno representa a un grupo diferente de personas y cómo evaluarían esa respuesta. Entonces, el “buen” comportamiento no es lo que aprueba un único modelo, sino alguna forma de agregación –una media, una suma, una función– sobre ese conjunto de modelos que representan diferentes puntos de vista. En definitiva, tras la construcción de buenos métodos, dependiendo del problema que esté mostrando el modelo, hay mucho trabajo.

S.A.: ¿Y qué hay de la pregunta espinosa: “quién qué versión de los valores morales humanos debería reflejar la IA, y por qué”?

M.B.: Obviamente, no deberíamos desear que OpenAI decida por sí sola la moralidad de toda la sociedad, y tampoco creo que lo quiera. Muchas veces se piensa que hay una tensión entre seguridad y capacidades; pero también opino que compañías como Anthropic muestran que si construyes sistemas seguros, y haces de la seguridad no solo una parte de tu marca, sino parte del trabajo técnico real, eso también conducir al éxito comercial. Construir sistemas seguros y éticos, que incluyan distintas perspectivas en el proceso de alineación, también puede traducirse en éxito con los consumidores y con las empresas

Construir sistemas seguros y éticos, que incluyan distintas perspectivas en el proceso de alineación, también puede traducirse en éxito con los consumidores y con las empresas.

Sobre el cómo y el por qué hacerlo, hay mucho trabajo, tanto desde la academia como desde la investigación de IA, en procesos participativos de alineación. Cabe imaginar que, si operas en distintos países o contextos, tengas procesos de alineación distintos. Puede haber datos que compartas, pero otros principios variarán según lo que la gente en esas sociedades espera de los modelos.

S.A.: Ya hemos hablado de consenso, de discriminación y de alineación, pero me gustaría preguntarte, Manish, sobre el concepto de “equidad”. ¿Por qué es tan difícil de definir y satisfacer? ¿Qué implica eso a la hora de manejar los dilemas de equidad en la sociedad?

2025N Impact AI ManishM.R.: Si revisamos la historia de la filosofía, la economía y más recientemente la informática, encontramos a muchas personas tratando de definir positivamente lo que significa actuar con equidad.

En nuestro estudio, lo que mostramos es que si diferentes personas quieren definir “justo” de distintas maneras, simplemente no vas a poder complacer a todas al mismo tiempo. Una forma concisa de explicarlo es la siguiente: si el mundo es injusto en ciertos aspectos, y nuestros datos provienen de ese mundo real lleno de desigualdades, entonces esas desigualdades inevitablemente se reflejarán en los sistemas que construyamos. Cuando analizamos un sistema desde distintos ángulos, es muy probable que encontremos alguna forma de esa desigualdad.

Por eso, debemos ser especialmente cuidadosos al diseñar estos sistemas, pensando no solo en evitar daños, sino en cómo queremos que se comporten de manera positiva.

He estudiado mucho ambos lados de este problema. La discriminación nos ayuda a identificar lo que no queremos que ocurra. La equidad, por el contrario, representa nuestras aspiraciones de justicia. Pero estas dos ideas no siempre son compatibles, porque las personas no siempre están de acuerdo sobre qué significa ser justo. Por ejemplo, al analizar los resultados de un proceso de admisión universitaria, distintos grupos pueden tener opiniones muy distintas sobre si el resultado fue equitativo. Esto refleja las desigualdades y desacuerdos más amplios que existen en nuestra sociedad.

Tenemos que pensar muy cuidadosamente cómo evaluamos nuestros sistemas, qué restricciones queremos imponerles, qué objetivos les damos, y qué estamos sacrificando en el camino

Volviendo al punto de las evaluaciones, esto significa que tenemos que pensar muy cuidadosamente cómo evaluamos nuestros sistemas, qué restricciones queremos imponerles, qué objetivos les damos, y qué estamos sacrificando en el camino.

Siempre habrá tensión entre la libertad de expresión y la represión del discurso de odio. No es necesariamente una cuestión de equidad, pero sí muestra que vamos a tener que resolver conflictos de valores, y que alguien ha de construir los modelos y tomar esas decisiones.Siempre habrá tensión entre la libertad de expresión y la represión del discurso de odio. No es necesariamente una cuestión de equidad, pero sí muestra que vamos a tener que resolver conflictos de valores, y que alguien ha de construir los modelos y tomar esas decisiones

M.B.: Muchas de estas discusiones se parecen a los debates que hemos tenido durante años sobre la moderación de contenidos: qué se puede decir, qué no, y cómo lo aplicamos en diferentes países.

Las grandes tecnológicas han escrito miles de páginas de directrices para moderadores en todo el mundo. No ha habido gran consenso, y hemos observado cierta segmentación del mercado: distintas plataformas tienen diferentes normas.

Considero que vamos a vivir algo similar con la alineación de modelos. Diferentes empresas tratarán de alinear sus modelos de distintas maneras, con diferentes valores y audiencias en mente.

Con respecto a la equidad, esto significa que no todos vamos a estar de acuerdo en los resultados que queremos de un sistema, ya sea uno supervisado, uno generativo, o incluso decisiones tomadas por humanos. Siempre habrá desacuerdo, y alguien tendrá que resolverlo activamente.

La IA frente a sus riesgos y especifidades

PREGUNTA (público): En relación a los sesgos, ¿no sería interesante tener dos versiones de estos LLM debatiendo entre sí, o más bien tratando de encontrar soluciones a sus diferencias? ¿Alguien ha intentado algo en este sentido, dado que siguen siendo simplemente máquinas, es decir, son "neutrales", pues sus sesgos proceden de lo que han absorbido, no de la inteligencia en sí?

M.B.: Es una pregunta muy interesante. Y la respuesta es que sí, hay investigación al respecto. En el campo de la seguridad en IA existe un conjunto de métodos e ideas que surgieron a partir de un artículo titulado “AI Safety via Debate”. La idea, centrada específicamente en la veracidad, es que si un modelo da una respuesta a un usuario, otro modelo puede criticar esa respuesta, y luego el modelo original puede contraargumentar, explicando por qué tiene razón. Así, los modelos debaten entre sí, y finalmente un humano juzga cuál ganó el debate.

Al optimizar el sistema en función de eso, se genera un incentivo para que el primer modelo dé respuestas verídicas, porque si no lo hace, el otro modelo detectará los errores y lo “derrotará” en el debate, lo cual se traduce en una recompensa negativa. De ese modo, se entrena al modelo para dar respuestas más veraces. Ese es un enfoque bastante técnico, pero ciertamente hay mucho trabajo tanto en mejorar la veracidad como en integrar diferentes opiniones. También se podrían representar distintos grupos de opinión con distintos modelos, que luego debaten entre sí. Y si encontramos una respuesta con la que todos esos modelos –en simulación– estén relativamente de acuerdo, esa podría ser la respuesta más adecuada para mostrar al usuario.

2025N Impact AI Sinan 400S.A.: Lo que describes –un sistema que debate ante un juez humano sobre cuestiones de hecho, con el objetivo de revelar la verdad– es muy distinto cuando el debate es sobre opiniones. En esos casos, como en lo que tú mismo trabajas, el objetivo no es ganar un debate, sino integrar perspectivas, llegar a un punto en común. 

Pero si les dices a dos modelos que debatan sobre opiniones con el objetivo de convencer al juez humano... no está claro si los modelos se volverían más extremos o más conciliadores. No sabemos cuáles serían las dinámicas.

M.B.: Sí, ese es un buen matiz. Son dos sistemas distintos. En uno hay una especie de verdad objetiva –o al menos un consenso factual–, y el debate busca encontrarla. En el otro, lo que quieres es representar puntos de vista diversos. Entonces el objetivo ya no es “ganar” sino llegar a un acuerdo o síntesis.

Puedes cambiar los objetivos e incentivos que das a los modelos según el tipo de problema, y eso cambia completamente el comportamiento del sistema.

PREGUNTA (público): Manish, hablaste de que la discriminación depende del contexto, y gran parte del trabajo que estás haciendo, Michiel, trata sobre cómo cambiamos esos marcos de referencia. Yo diría que, en cualquier momento dado, esos marcos de referencia también dependen del contexto. ¿Qué constituye entonces un marco de referencia?

M.R.: Para mí, personalmente, la clave está en pasar mucho tiempo hablando con las personas que trabajan directamente en un ámbito particular. Por ejemplo, estamos trabajando actualmente con cirujanos, intentando tomar mejores decisiones sobre el cuidado postoperatorio. Yo no voy a presentarme y decirles: “Así es como pensamos sobre la equidad en este ámbito” o “así deberían entrenar a las máquinas para ayudarles a tomar mejores decisiones”. En realidad es al revés.

Hemos desarrollado algunos métodos para tratar de entender la relación entre las predicciones que hacemos y las decisiones reales que toman los médicos, y el sistema que terminamos construyendo –o intentando construir– se ve completamente diferente de lo que habría imaginado si lo hubiera hecho desde cero. Básicamente, intentamos comprender cuándo nuestras predicciones son buenas, cuándo los médicos hacen mejores predicciones que nosotros, y cuándo deberíamos averiguar a quién preguntar o qué información presentar al médico cuando está tomando una decisión.

Ese es un marco de referencia muy específico. Solo funcionará en el contexto del cuidado postoperatorio quirúrgico. Hay cosas muy concretas que funcionarán en cirugía, pero no en otras situaciones. Mi esperanza es que, a medida que construyamos más y más de estas pequeñas herramientas en distintos lugares, empecemos a ver que se generalizan un poco.Intentamos comprender cuándo nuestras predicciones son buenas, cuándo los médicos hacen mejores predicciones que nosotros, y cuándo deberíamos averiguar a quién preguntar o qué información presentar al médico cuando está tomando una decisión

Mi estudio en el ámbito laboral no es extrapolable al que hacemos con los cirujanos, pero una parte sí podría generalizarse al trabajo que hacemos con médicos de triaje en urgencias. Ellos toman decisiones y hacen predicciones. No es cirugía; sino algo ligeramente diferente.

Estamos comenzando a construir una biblioteca de ejemplos que indica que “en este marco específico, así abordamos un problema”. Algunos elementos son transferibles, pero se requiere de tiempo y esfuerzo para averiguar qué es lo correcto de un lado para poder aplicarlo en otro; y no creo que podamos automatizar algo así en el corto plazo.

Cuando comencé en este campo, mi esperanza era que pudiéramos desarrollar un marco general sólido que funcionara en todos los contextos, con solo pequeños ajustes según el caso. Pero la realidad ha sido muy distinta. En la práctica, todo empieza desde lo más básico: resuelves un problema, luego otro, descubres errores en lo que hiciste antes, e intentas corregirlos en otra parte. Con suerte, y con el tiempo, este trabajo acumulativo se transformará en algo más generalizable.
Algunos elementos son transferibles, pero se requiere de tiempo y esfuerzo para averiguar qué es lo correcto de un lado para poder aplicarlo en otro; y no creo que podamos automatizar algo así en el corto plazo

M.B.: En mi doctorado, abordé la equidad y el aprendizaje automático, y creo que el trabajo reciente de Manish mostró exactamente lo que faltaba en ese momento: la gente intentaba idear una solución muy general: “así definimos la equidad”, “tenemos algunas métricas que funcionan en todos los dominios”, “tenemos métodos que funcionan en todos los dominios”…  Lo interesante ahora es que, en lugar de intentar establecer una única métrica o marco, se acepta que todos estos escenarios de toma de decisiones y estas industrias son muy diferentes, y que crear soluciones más específicas puede llevar, en última instancia, a una biblioteca de soluciones distintas que se integran para ofrecer una visión más holística.En lugar de intentar establecer una única métrica o marco, se acepta que todos estos escenarios de toma de decisiones y estas industrias son muy diferentes

Tal vez esa sea una forma más productiva de plantear estos temas, en contraste con la forma en que el campo de equidad en aprendizaje automático los trataba hace cinco o seis años.

PREGUNTA (público): ¿Hay un futuro positivo en la lucha contra los bulos y la desinformación?

2025N Impact AI Michiel2M.B.: En general, hay muchos futuros positivos para la IA y la IA generativa. Incluso es bueno tener presente que esta tecnología puede hacer mucho bien en seguridad y ética.

El problema con la desinformación radica en que, para ser un asistente útil, es decir, para ayudar a las personas y ser un mejor “chatbot”, se necesita una comprensión profunda y muy refinada de la psicología humana. Estos modelos se entrenan para comprender mejor cómo cambian las opiniones o perspectivas de las personas al mostrarles una afirmación específica. Un estudio reciente del MIT ha demostrado que los modelos de entrenamiento de chatbots pueden utilizarse para reducir la creencia en teorías conspirativas

Esa capacidad de entender la psicología humana e interactuar puede usarse para hacer mucho daño (campañas de phishing a gran escala, desinformación…), pero un estudio reciente del MIT también ha demostrado que estos modelos pueden utilizarse para reducir la creencia en teorías conspirativas. Su resultado es muy potente y positivo.

Por supuesto, está el otro lado de la moneda: si se puede reducir la creencia en teorías conspirativas, también se puede cambiar las opiniones en otros dominios. Como sociedad, debemos pensar cómo mitigar los efectos negativos y los riesgos de esta capacidad. Algo interesante es construir sistemas que ayuden a las personas a ser más críticas con el contenido que leen. Una opción es intentar detectar desinformación –lo cual se convierte en una dinámica de ataque y defensa–, pero también podríamos crear sistemas que se instalen en el navegador o en el ordenador, y que ayuden a pensar más críticamente sobre lo que las personas leen. Se podrían crear sistemas que se instalen en el navegador o en el ordenador, y que ayuden a las personas a pensar más críticamente sobre lo que leen

Por ejemplo, si alguien está leyendo un párrafo muy persuasivo sobre un producto, escrito por un profesional del marketing o incluso por una IA, podría tener un asistente que destacase partes del texto y dijise: “Esto suena convincente, pero en realidad no hay evidencia que lo respalde”.

En muchos aspectos, los modelos de lenguaje e IA generativa potente pueden tanto aumentar los riesgos como formar parte de la solución, o al menos de las mitigaciones. Por lo tanto, se podrían generar tecnologías que ayudasen a activar ese pensamiento crítico. 

S.A.: Para terminar, me gustaría saber: ¿Qué les quita el sueño de la era de la IA? ¿Y qué es lo que más les entusiasma? ¿Cuáles son esas grandes apuestas o “moonshots” positivos?

M.B.: Lo que no me deja dormir es principalmente el mal uso. El hecho de que actores muy poderosos –individuos o estados– tengan acceso a esta tecnología tan potente, que no solo comprende la psicología humana, sino también la biología, la física nuclear, cómo hacer armas… puede conducir a un mundo muy peligroso. 

Aunque si hoy le pides a un sistema como ChatGPT o Gemini que te ayude con algo malicioso, te dirá que no; hay bastante evidencia de que podrías usar un sistema más pequeño para descomponer una tarea maliciosa en subtareas que parecen inocentes, resolver esas subtareas con un sistema potente, y luego usar otro sistema sin supervisión para ensamblarlas. Hay formas de sortear las medidas de seguridad; y eso me preocupa.Aunque si hoy le pides a un sistema como ChatGPT o Gemini que te ayude con algo malicioso, te dirá que no; hay bastante evidencia de que hay formas de sortear las medidas de seguridad

Lo que me entusiasma es la IA aplicada la ciencia. DeepMind ha hecho trabajo impresionante en biología, pero también en fusión nuclear. Nos acercamos a un mundo en el que podríamos vivir más sanos, más tiempo, más felices, con acceso a medicamentos mejores, y con suerte más baratos, y a energía más económica. Esos avances tecnológicos impulsados por IA son muy emocionantes.

M.R.: Suscribo todo lo que dijiste. En cuanto al riesgo, hay una amplia gama: desde cosas que podrían salir mal hoy, hasta otras que podrían salir mal en 100 años. No sé cómo pensar en lo que puede salir mal en un siglo, pero el horizonte de 5 a 10 años podría ser bastante sombrío.

Uno de los factores que mantiene unido el tejido social es que el poder individual, en comparación con el colectivo, ha sido limitado. Un actor malicioso solo podía causar un daño limitado. Aunque eso podría estar cambiando, y es un problema. Uno de los factores que mantiene unido el tejido social es que el poder individual, en comparación con el colectivo, ha sido limitado. Un actor malicioso solo podía causar un daño limitado. Aunque eso podría estar cambiando, y es un problema

También me preocupan cuestiones relacionadas con el desarrollo infantil y su crecimiento en una era donde quizás externalicen demasiado su pensamiento, aprendiendo a coevolucionar con estos sistemas de IA. No sabemos qué implicaciones tendrá eso dentro de una generación. Tal vez sea como cuando la gente temía dar calculadoras a los niños, y no pasó nada. O tal vez no.Hay razones para el optimismo, pero debemos ser muy cuidadosos con el camino que tomamos

En el lado positivo, muchas personas podrían ver mejorar sus vidas gracias a la IA, siempre y cuando la usemos para el bien. Existen razones para el optimismo, pero debemos ser muy cuidadosos con el camino que tomamos.


 Sinan Aral, director del MIT Initiative on the Digital Economy, con Michiel Bakker, profesor adjunto de MIT Sloan, y Manish Raghavan, profesor MIT Sloan y MIT EECS, en el encuentro BIG.AI@MIT, co-organizado por Thinkers50, la Initiative on the Digital Economy (IDE) del MIT y Accenture, y celebrado en Boston.

Fotos: © Thinkers50.

Publicado en mayo de 2025.


Últimos artículos