INNOVACIÓN| 22.04.2024
Modelos generativos y su rol en la generación de datos sintéticos
Los modelos generativos son algoritmos de IA diseñados para aprender patrones; los datos sintéticos, un subconjunto de la IA Generativa de gran importancia estratégica para las empresas. Son varios los modelos generativos más destacados, los cuales se emplean en función de las necesidades de cada proyecto. MAPFRE Insurance está utilizando Conditional Tabular Generative Adversarial Networks (CTGAN, por sus siglas) para combatir el fraude con IA y datos sintéticos.
Los datos sintéticos se han consolidado como una herramienta clave para el desarrollo tecnológico y la innovación empresarial, permitiendo la simulación de escenarios complejos y la mejora de modelos de Inteligencia Artificial (IA) sin comprometer la privacidad de datos personales.
Al replicar los perfiles estadísticos de los datos reales, ofrecen una alternativa ética y legal frente a las restricciones impuestas por regulaciones como el RGPD, permitiendo la experimentación y el análisis de la información. Su capacidad para generar conjuntos de datos diversificados y controlados fomenta la innovación y mejora la precisión y robustez de los sistemas que dependen de estos para su funcionamiento.
Modelos generativos, un elemento clave
Los modelos generativos son algoritmos de IA diseñados para aprender patrones a partir de extensos conjuntos de datos y generar nuevas instancias que conservan la coherencia estadística con los datos originales. A diferencia de otros modelos de IA, que se enfocan en clasificar o predecir datos basándose en entradas específicas, los modelos generativos aspiran a captar y replicar la distribución de los datos estructurados y desestructurados para crear algo nuevo.
Por ejemplo, después de examinar miles de imágenes de rostros, un modelo generativo podría sintetizar imágenes de personas inexistentes que, no obstante, parecerían fotografías reales. Este proceso se realiza mediante técnicas basadas en modelos de redes neuronales artificiales, como las Generative Adversarial Networks (Redes Generativas Adversativas o GANs por sus siglas en inglés), y Autoencoder Models (o modelos autocodificadores en español), utilizados para aprender representaciones eficientes de datos (aprendizaje automático).
Las GANs, compuestas por dos redes neuronales —el generador y el discriminador—, ilustran el funcionamiento de los modelos generativos. Mientras el generador fabrica datos nuevos, el discriminador los evalúa en comparación con un conjunto real, aprendiendo a diferenciarlos. Durante el entrenamiento, el generador mejora su habilidad para crear datos cada vez más convincentes, intentando engañar al discriminador, el cual, a su vez, se esfuerza en reconocer las imitaciones.
Lo que distingue a los modelos generativos es su facultad para concebir y crear, otorgándoles un valor especial en áreas donde la creatividad y la generación de ideas son esenciales. Ofrecen un enfoque más flexible y amplio para explorar soluciones, superando las limitaciones de los métodos convencionales de IA.
Tipos de modelos generativos y sus aplicaciones
Entre los modelos generativos más destacados se encuentran las Generative Adversarial Networks (GANs), los Conditional Tabular Generative Adversarial Networks (CTGAN), los Autoregressive Models (AR) y los Autoencoder Models. ¿En qué consiste cada uno?
- Generative Adversarial Networks (GANs): crean imágenes, vídeos y audios sorprendentemente realistas. Un ejemplo práctico es la creación de rostros de personas que no existen, utilizados en la industria del entretenimiento para generar personajes de videojuegos o películas.
- Conditional Tabular Generative Adversarial Networks (CTGAN): generan datos tabulares sintéticos, preservando, en todo momento, la privacidad. Por ejemplo, en el sector financiero, pueden simular datos de transacciones bancarias para probar algoritmos sin exponer información sensible del cliente.
- Autoregressive Models (Modelos Autorregresivos, en español, o AR): son modelos basados en series temporales que predicen el siguiente elemento en una secuencia, fundamentales en herramientas de predicción de texto o en la generación automática de música, donde cada nota se basa en las anteriores.
- Autoencoder Models: son modelos diseñados para comprimir o codificar los datos de entrada para reducirlos a su máxima expresión, volviendo a reconstruir o decodificar después la información original a partir de la representación comprimida. Se entrenan a partir de Machine Learning no supervisado. Un ejemplo de estos modelos son los Variational Autoencoder (VAEs), aplicados en la creación de imágenes.
MAPFRE Insurance: innovando en la aplicación y uso de los datos sintéticos
MAPFRE está innovando en sus operaciones en todo el mundo y, en concreto en EE.UU. a través de MAPFRE Insurance, está empleando este tipo de modelos generativos.
Con la ayuda de sistemas de IA que aplican machine learning y análisis de grafos, los equipos de Advanced Analytics y Technical Claims han desarrollado un proyecto con el que se pueden identificar patrones de fraude en los siniestros, inicialmente en Autos y posteriormente en Hogar. Este enfoque logra una gestión más eficiente de la tramitación de siniestros y la detección de fraude, lo que supone un avance significativo en la lucha contra las pérdidas económicas anuales provocadas por fraudes en el sector.
El modelo generativo empleado ha sido el CTGAN. Al declararse un parte de Hogar, el modelo evalúa su probabilidad de fraude, derivando casos sospechosos para una posterior investigación más detallada.
Para esta labor, MAPFRE Insurance utiliza datos sintéticos en el entrenamiento del modelo de IA. Esta estrategia permite superar el desequilibrio y la escasez de siniestros fraudulentos históricos, mejorando la capacidad del algoritmo para identificar patrones de fraude de una manera más precisa. Generando un conjunto de datos más equilibrado, la compañía logra que sus modelos de detección de fraude en seguros de Hogar sean mucho más precisos.
La adopción de modelos generativos y datos sintéticos está transformando el sector empresarial, en especial en lo relativo al análisis de datos complejos y la protección de información sensible. Esa transformación se está haciendo tangible en la mejora de la eficiencia, la productividad o en el uso óptimo de los recursos disponibles.
Estas tecnologías innovadoras permiten simular escenarios realistas sin comprometer datos reales, permitiendo una toma de decisiones más precisa y facilitando el desarrollo de productos y servicios más adaptados a las necesidades concretas del mercado. Al facilitar un análisis de datos más profundo y libre de sesgos, las empresas pueden anticipar tendencias de mercado, optimizar operaciones y explorar nuevas oportunidades de crecimiento.
ARTÍCULOS RELACIONADOS: