Luis de la Rosa

Luis de la Rosa

AI Innovation principal director, Accenture
Image
data sintético

Los datos se han convertido en uno de los activos principales de las empresas, formando o siendo participes de las tomas de decisión mediante la incorporación paulatina de algoritmos basados en machine learning, abarcando áreas como el marketing, la logística, recursos humanos o la atención al cliente entre otras.

Sin embargo, la creación de valor a partir de los datos se enfrenta a varios retos de cara a la obtención de valor. 

  • No hay información previa en los sistemas, y debo realizar simulaciones basadas en el conocimiento de expertos para una primera versión, como ocurre en los casos del coche autónomo o nuevos productos/servicios.
  • Dispongo de un conjunto pequeño de muestras puesto que son relativos a fenómenos o eventos que ocurren con muy poca frecuencia o son costosos de obtener. Por ejemplo, situaciones de tráfico donde un peatón aparece en escena, condiciones médicas de un paciente, o patrones de funcionamiento de máquinas fuera de rango de operación.
  • Los datos necesitan un largo y costoso proceso de clasificación y etiquetado previo por parte de humanos para que puedan ser útiles.
  • Los datos pueden tener restricciones de acceso, bien por motivos de confidencialidad dentro de la organización o bien por las distintas regulaciones que puedan ser aplicables, desde GDPR a regulaciones adicionales que afectan a sectores específicos.
Image
data sintético

Los datos sintéticos, creados por un ordenador en lugar de referirse a sucesos o elementos reales, dan respuesta a estos retos y permiten un nuevo nivel de escala en el uso del machine learning dentro de las organizaciones. 

Pero ¿por qué son tan especiales? ¿Cómo consiguen solventar estos inconvenientes? Esto es debido a que son generados a partir de información real, manteniendo las características estadísticas del conjunto de datos de partida, pero donde cada uno de los datos individuales no son reales. 

Piense en un conjunto de datos con la edad y género de los habitantes de una ciudad donde cada entrada no referencia a ningún individuo real, pero la pirámide de población resultante es idéntica a la que obtendríamos utilizando los datos reales de los ciudadanos que residen en ella. Ahora, en lugar de dos variables, imagina la misma capacidad para simular conjuntos de datos de cientos o miles de variables, imágenes o texto.

La capacidad de generar y utilizar datos sintéticos proporciona nuevos ámbitos de aplicación, por ejemplo: 

  • Facilitar a data scientist y proveedores externos de inteligencia artificial conjuntos de datos para la creación o ajuste de sistemas evitando controles de acceso a los datos reales.
  • Aumentar el tamaño del conjunto de datos de entrada para mejorar la precisión de los modelos.
  • Crear conjuntos de datos de stress para verificar la validez de los modelos existentes y su resistencia a variaciones.
  • Permitir a varias organizaciones compartir sus datos para la creación de modelos federados
  • Generar datos ficticios para las pruebas funcionales e integradas de software. 

No obstante, en este proceso hay varias cuestiones clave que han de tenerse en cuenta para asegurar la correcta generación y monitorización de estos para que sean realmente útiles.

  • La identificación y medición del valor de los casos de uso. La primera reflexión que hay que hacer es, ¿necesito los datos sintéticos? Muchas veces saltamos a la acción sin realmente hacer la reflexión sobre si existe o no una necesidad y sobre el impacto que podría generar.

Algunas cuestiones que debemos plantearnos para tomar la decisión son, ¿Permite la creación de un modelo que de otra forma no sería factible? ¿Puede incorporar mejoras en la precisión del modelo? ¿Reduce el tiempo necesario para la creación del modelo y por lo tanto el time-2-market? ¿Permite diseñar modelos con un mayor grado de fairness?, ¿Facilita el cumplimiento de las regulaciones y legislación sobre el uso de datos? 

Image
data sintetico 3
  • La naturaleza de los datos que se quieren sintetizar. Esto condiciona el tipo de técnicas a utilizar, no siendo iguales para la generación de imágenes, texto o datos tabulares.
  • La representatividad de los datos generados. Se deben establecer controles para medir como de representativos son los datos sintéticos de los reales, es decir, medir el posible ruido introducido por el generador y su representatividad del mundo real. Ya que los datos sintéticos no son una copia de los datos reales, pueden no contemplar outliers o valores extremos que se encuentran en los datos originales. Esto es especialmente importante en aplicaciones donde los valores extremos son más significativos que los valores normales.
  • La transparencia de los datos generados. Si el conjunto de datos es total o parcialmente sintético, dicha característica es un atributo clave, que debe ser incluido en el metadatado y trazabilidad de los datos. La regulación que se está desarrollando en la Unión europea respecto al uso de la Inteligencia Artificial ya incluye esta indicación.
  • La privacidad de los datos generados. En el caso de que se esté tratando con datos sensibles o confidenciales, asegurar la no trazabilidad del dato sintético al real, mediante la evaluación de ambos conjuntos de datos.

De la mano del último punto, cuando aproximamos la privacidad desde un punto de vista ético y regulatorio, los datos sintéticos ayudan al ser un mecanismo de protección de datos por diseño añadiendo una capa adicional de privacidad de las personas, puesto que no es necesario distribuir o acceder a ningún dato de carácter personal. También facilita la mitigación de posibles sesgos con la generación de datasets balanceados a utilizar durante el entrenamiento al contener datos balanceados para una mejor representatividad de colectivos desfavorecidos por razones sociales o históricas.

Sin duda, el campo de los datos sintéticos tiene un gran potencial para ayudar a las distintas organizaciones a extraer mayor valor, incluso con mayor rapidez y agilidad de los datos. Algunos analistas consideran que los datos reales representarán solo un tercio de los datos totales utilizados para entrenar modelos en 2030 y las previsiones hablan de un crecimiento anual del 40% hasta alcanzar un valor de mercado cercano a los 900 millones de dólares en 2028.