La gestión de datos, que antes era competencia del equipo de almacenamiento de datos, se ha convertido cada vez más en una prioridad para los altos ejecutivos, ya que la calidad de los mismos se considera clave tanto para la experiencia del cliente como para el rendimiento empresarial. Pero, junto con los datos aislados y las preocupaciones por el cumplimiento normativo, la mala calidad de los datos está frenando los proyectos de inteligencia artificial (IA) empresarial. Y, si bien la mayoría de los ejecutivos generalmente confían en sus datos, también dicen que menos de dos tercios de ellos son utilizables.
Para muchas organizaciones, preparar sus datos para la IA implica que es la primera vez que analizan los datos de una manera transversal, lo que muestra las discrepancias entre los sistemas, dice Eren Yahav, cofundador y director de Tecnología del asistente de codificación de IA Tabnine.
Para abordar este problema, es posible que haya que empezar por una higiene básica de los datos, como asegurarse de que los campos correctos estén en la base de datos para cubrir las necesidades de los distintos equipos, o bien, podar los datos que se utilizan con la IA para reflejar los resultados deseados. “Estamos intentando que la IA tenga el mismo conocimiento que el mejor empleado de la empresa”, afirma. “Eso requiere una limpieza y una conservación de los datos para lograr la higiene y la coherencia, y también requiere un ciclo de retroalimentación”.
Las organizaciones que utilizan su propia base de código para enseñar a los asistentes de IA las mejores prácticas deben eliminar el código heredado con patrones que no quieren que se repitan, y un conjunto de datos grande no siempre es mejor que uno pequeño. “Un cliente estaba creando nuevos proyectos copiando uno existente y modificándolo”, dice Yahav. “Tenían cien copias de lo mismo con pequeñas variaciones y no tenían forma de distinguir si era importante o no porque estaba ahogado en la repetición”.
Una buena gobernanza de datos siempre ha implicado lidiar con errores e inconsistencias en los conjuntos de datos, así como indexar y clasificar esos datos estructurados eliminando duplicados, corrigiendo errores tipográficos, estandarizando y validando el formato y el tipo de datos, y aumentando la información incompleta o detectando variaciones inusuales e imposibles en los datos. Eso sigue siendo importante, pero no siempre tan relevante para los datos no estructurados y semiestructurados con los que trabaja la IA, que también tendrán mucha más variación. La calidad de los datos para la IA debe cubrir la detección de sesgos, la prevención de infracciones, la detección de sesgos en los datos para las características del modelo y la detección de ruido.
Las prácticas habituales de gestión de datos son demasiado lentas, estructuradas y rígidas para la IA, donde la limpieza de datos debe ser específica del contexto y adaptada al caso de uso particular. Para la IA, no existe un estándar universal que determine cuándo los datos están “suficientemente limpios”.
Incluso para el aprendizaje automático (ML) más tradicional, los esfuerzos de limpieza de datos a gran escala quedan divididos para la inteligencia empresarial y las finanzas rara vez satisfacen las necesidades de los equipos de ciencia de datos que probablemente ya estén haciendo su propia ingeniería de datos para IA, y creando más silos de datos no gobernados en el proceso, dice Kjell Carlsson, jefe de Estrategia de IA en Domino Data Lab.
No limpiar los datos lo suficiente causa problemas obvios, pero el contexto es clave. Google sugiere recetas de pizza con pegamento porque así es como los fotógrafos de alimentos hacen que las imágenes de mozzarella derretida se vean atractivas, y eso probablemente debería eliminarse de un LLM genérico. Pero ese es exactamente el tipo de datos que desea incluir cuando entrena una IA para que brinde consejos de fotografía. Por el contrario, algunos de los otros consejos inapropiados que se encuentran en las búsquedas de Google podrían haberse evitado si se hubiera conservado el origen del contenido de sitios obviamente satíricos en el conjunto de entrenamiento.
“La calidad de los datos es extremadamente importante, pero conduce a un pensamiento muy secuencial que puede llevarte por mal camino”, afirma Carlsson. “En el mejor de los casos, puede acabar desperdiciando mucho tiempo y esfuerzo. En el peor, puede entrar y eliminar la señal de tus datos, y en realidad no cumplir con lo que necesitas”.
Relativizar
Los distintos dominios y aplicaciones requieren distintos niveles de limpieza de datos. No se puede tratar la limpieza de datos como una forma única de obtener datos que sean adecuados para cada propósito, y la tradicional “versión única de la verdad” que ha sido un objetivo de la inteligencia empresarial es, en efecto, un conjunto de datos sesgado. “No existen los ‘datos limpios'”, afirma Carlsson. “Siempre es relativo al uso que se les da. El aspecto de la limpieza es muy diferente en todos estos diferentes casos de uso”.
Tomemos como ejemplo la calidad de los datos de los registros de empleados que se pueden utilizar tanto para el procesamiento de salarios como para una campaña de correo interno con noticias de la empresa. “Estos aspectos se deben analizar de forma diferente y la calidad se debe determinar de forma diferente en cada caso”, afirma Kunju Kashalikar, director sénior de Gestión de Productos en Pentaho, una subsidiaria de propiedad absoluta de Hitachi Ltd.
La IA necesita una limpieza de datos más ágil, colaborativa, iterativa y personalizada en función del uso que se haga de los datos, añade Carlsson. “Lo bueno es que estamos utilizando los datos de muchas formas diferentes en las que antes no lo hacíamos”, afirma. “Pero el reto ahora es que hay que pensar en la limpieza en cada una de esas formas diferentes en las que se utilizan los datos”. A veces eso significará hacer más trabajo de limpieza y, otras veces, implicará hacer menos.
Carlsson advierte que una organización puede perjudicarse a sí misma si intenta preparar sus datos para la IA antes de empezar a trabajar en la comprensión y el desarrollo de sus casos de uso de IA. Por lo tanto, antes de embarcarse en una limpieza importante de datos para la IA empresarial, considere las desventajas de limpiar demasiado sus datos.
Rendimientos decrecientes
Los CIO se preguntan cómo limpiar los datos, pero deberían preguntarse hasta dónde llegar, afirma Mark Molyneux, director de Tecnología para EMEA de la empresa desarrolladora de software Cohesity. “En teoría, se podría estar limpiando para siempre, dependiendo del tamaño de los datos”, afirma.
Un claro ejemplo es el director general de Syniti EMEA, Chris Gorton, quien al principio de su carrera pasó un tiempo considerable limpiando direcciones de clientes para una empresa de máquinas expendedoras, solo para descubrir que lo que en realidad necesitaban eran direcciones de correo electrónico para enviar facturas o las ubicaciones específicas de los equipos para su mantenimiento.
Muchas organizaciones están acumulando grandes conjuntos de datos que no tienen utilidad operativa, advierte, y es importante establecer qué valor aportarán los datos más limpios antes de embarcarse en programas de limpieza de datos grandes y costosos. “Si no se puede describir cómo la actividad o el resultado que se necesita con los datos se vincula con algún valor para el negocio, entonces probablemente no sea necesario hacerlo”, dice Gorton.
Como suele ocurrir, se aplica la regla 80/20 y las ganancias marginales, especialmente las que se obtienen al limpiar datos antiguos, pueden no valer la pena. Esto se aplica independientemente del uso que le dé a los datos. Si cuesta más detectar y eliminar números de teléfono incorrectos en su conjunto de datos que hacer esa cantidad de llamadas perdidas o enviar esa cantidad de mensajes de texto que no se pueden entregar, entonces no hay retorno de la inversión en corregir los números por adelantado.
“Muchas organizaciones dedican mucho tiempo a descartar o mejorar códigos postales, pero para la mayoría de las ciencias de datos, la subsección del código postal no importa”, afirma Kashalikar. “Estamos analizando un área geográfica general para ver cuál podría ser la tendencia. Ese es un ejemplo clásico de que se desperdician demasiadas cosas buenas”.
Para entender si está obteniendo valor de la limpieza de datos, comience por definir el éxito y comprender el objetivo del modelo, dice Howard Friedman, profesor adjunto de Políticas y Gestión de la Salud en la Universidad de Columbia. Comience con la clasificación básica de datos y los controles de calidad estándar en torno a los datos faltantes, las verificaciones de rango, la distribución y la correlación. No todas las columnas son iguales, por lo que debe priorizar la limpieza de las características de los datos que son importantes para su modelo y sus resultados comerciales. En lugar de limpiar los datos, automatice los aspectos básicos, busque patrones que expliquen los datos faltantes y considere la posibilidad de transformar las características, ya que el escalamiento puede comprimir los valores o aumentar la varianza.
Pero antes de buscar métodos más avanzados de mejora de la calidad de los datos, evalúe cuál será la mejora incremental del modelo. “¿Qué sucedería si pudiera obtener el 90% del valor de mi modelo con datos obtenidos con solo unas pocas horas de esfuerzo y unos pocos miles de dólares de inversión, en lugar de tener que gastar un cuarto de millón de dólares para que los datos sean perfectos?”, pregunta Friedman. Obtener el 10% adicional puede no valer la pena para pequeñas mejoras en el modelo.
“Piénselo como un problema de negocios: dónde pongo mis inversiones de tiempo y dinero y qué espero obtener a cambio”, afirma.
Investiga los proyectos existentes para ver qué impacto tienen realmente los problemas de calidad de los datos. Es posible que haya otras fuentes que puedas utilizar en lugar de invertir en la limpieza de un conjunto de datos de baja calidad. Pueden ser datos que compres o un conjunto de datos de referencia que crees. “Si tienes un presupuesto limitado para la limpieza de datos, vale la pena gastarlo en crear un conjunto de datos de alta calidad de entradas y salidas de referencia seleccionadas por humanos”, dice Akshay Swaminathan, investigador de Knight-Hennessy de datos biomédicos en la Facultad de Medicina de la Universidad de Stanford. “En el mundo de la IA generativa, la noción de precisión es mucho más nebulosa”. Un conjunto de datos de referencia de preguntas emparejado con una respuesta de referencia puede ayudarte a comparar rápidamente nuevos modelos a medida que la tecnología mejora.
Coste de oportunidad
La limpieza excesiva de datos no sólo puede ser una pérdida de tiempo y dinero, sino que también puede eliminar datos útiles incluso si parecen estar incompletos.
“Si originalmente tenías un millón de registros disponibles y recibiste 500.000 registros de la mejor calidad, lo que realmente quieres saber es cuántos de los 500.000 que faltaban eran de calidad suficiente y no los obtuviste”, dice Kashalikar. “Si tenías 250.000 que tenían calidad suficiente pero no impecable, entonces o bien perdiste una cuarta parte de tus datos potenciales o dedicaste tiempo a limpiar una cuarta parte de los registros cuando no era necesario”.
También es importante no limpiar los datos tanto que pierdan su carácter distintivo, lo que se conoce como normalización excesiva. La estandarización u homogeneización excesiva del conjunto de datos puede eliminar variaciones y matices valiosos que son características importantes para un modelo de IA, lo que degrada su capacidad de generalización. Por ejemplo, normalizar la ortografía de las direcciones sin tener en cuenta las variaciones regionales podría borrar información demográfica importante.
La eliminación de valores atípicos es un problema similar a la sobrenormalización, pero para puntos de datos individuales en lugar de para el conjunto de datos completo. La eliminación agresiva de valores atípicos elimina casos extremos importantes. “La basura de una persona es el tesoro de otra”, como dice Swaminathan.
Algunos valores imposibles en un conjunto de datos son fáciles y seguros de corregir, como, por ejemplo, que los precios no sean negativos o que las personas tengan más de 200 años, pero puede haber errores debido a la recopilación manual de datos o a bases de datos mal diseñadas. “Quizás los datos se ingresaron durante una emergencia en un hospital y la persona cambió la altura y el peso”, dice Yahav de Tabnine. Una base de datos de productos con la que trabajó, por ejemplo, no tenía un campo para los números de serie de los productos, por lo que el personal los colocó en el campo de peso. “De repente, tienes productos que pesan cinco toneladas en una juguetería”, agrega.
Pero algunos valores atípicos o puntos de datos aparentemente “sucios” serán señales genuinas en lugar de errores, y pueden indicar áreas interesantes para explorar. “¿Alguien pasó cinco horas en el tráfico porque estaba lloviendo? Ese es un valor atípico interesante para la información de tráfico”, dice Yahav.
Si está entrenando un modelo para desidentificar datos médicos, debe ser robusto ante valores atípicos como nombres únicos, formatos variantes para direcciones y números de identificación para que se detecten correctamente, lo que significa que necesita estos valores en el conjunto de entrenamiento. Especialmente cuando se trata de sistemas heredados donde es poco probable que el código se actualice, su canal de datos debe validar y limpiar los problemas conocidos. Pero Yahav sugiere que parte de esto requiere juicio humano para diferenciar errores genuinos de señales significativas para la generalización.
Añadiendo sesgo
Una limpieza demasiado agresiva que elimine registros que no superen la validación puede introducir sesgos en el conjunto de datos, ya que se perderán registros con características específicas. La eliminación de registros que no tienen iniciales del segundo nombre eliminará a personas de determinadas zonas del subcontinente indio, advierte Kashalikar. De manera similar, la eliminación de nombres poco habituales o la insistencia en que todos los nombres tengan más de dos letras podría dar lugar a modelos sesgados que no funcionan bien en poblaciones diversas.
“El científico de datos que crea un modelo puede no entender las implicaciones comerciales de lo que significa no tener datos”, señala. Es importante que alguien que comprenda el contexto del problema que se intenta resolver participe en las decisiones sobre la limpieza de datos.
Eliminando contexto
Si se limpia un conjunto de datos con demasiada minuciosidad, se puede eliminar información contextual que es crucial para obtener una visión completa. Algunos mensajes de phishing incluyen deliberadamente errores ortográficos y gramaticales para atraer a víctimas menos cautelosas y menos informadas, y los enlaces falsos incluyen URL que son similares a los nombres de dominio reales. Limpiar esos datos (o limpiar el lenguaje de los mensajes de clientes frustrados) puede eliminar pistas valiosas sobre cómo reaccionar. Y los LLM utilizan los datos de una manera diferente a los ML más tradicionales: la semántica de los datos puede ser de vital importancia.
El conjunto de datos limpios para un modelo de transcripción médica claramente no debería incluir frases comunes en videos de YouTube que piden a los usuarios que “pongan me gusta y se suscriban”, ya que un modelo de propósito general como Whisper de OpenAI a menudo alucina esas frases cuando trabaja con audio distorsionado, lo que lo hace inadecuado para la transcripción médica. Pero esos datos serían fundamentales para crear un modelo para transcribir videos.
La limpieza de datos estándar también eliminaría pausas, suspiros, vacilaciones y palabras que los hablantes no se molestan en terminar, pero esas señales serían útiles para intentar predecir la disposición o intención de comprar, señala Carlsson. “Sería útil tener un modelo que detectara el interés del cliente y le dijera al representante de atención al cliente que probablemente debería dejar de intentar venderle de manera agresiva porque esa persona claramente no está interesada”, dice. Por eso es tan importante saber para qué se van a utilizar los datos antes de limpiarlos.
Falta el caos del mundo real
El aprendizaje automático tradicional es frágil con datos desordenados, por lo que es tentador eliminarlo. Pero hacer que los datos sean demasiado uniformes puede generar modelos que funcionan bien con datos limpios y estructurados como su conjunto de entrenamiento, pero que tienen dificultades con datos desordenados del mundo real, lo que le da un rendimiento deficiente en entornos de producción.
Los LLM pueden aprobar el examen de abogacía o el de la junta médica porque esas pruebas son demasiado limpias para ser puntos de referencia útiles, explica Swaminathan. “Te dan una viñeta del paciente con toda la información pertinente ya ahí para ti”, dice. “Te dice que el paciente te dice sus signos vitales y los resultados de las imágenes y los análisis de laboratorio. En el mundo real, es el médico quien debe obtener todos esos datos por separado”. De manera similar, si estás creando un conjunto de datos de oro para la atención al cliente, evita la tentación de hacer que las solicitudes de los clientes sean demasiado limpias e informativas.
Friedman admite que existe una tensión evidente en este punto. “Cuanto más sucio sea el conjunto de datos con el que se entrena, más difícil será para ese modelo aprender y lograr el éxito”, afirma. “Sin embargo, al mismo tiempo, para que sea completamente funcional en el mundo real, necesitará poder operar en esos entornos más sucios”.
Los LLM, en particular, necesitan poder responder a entradas incorrectas. Eliminar coloquialismos, errores ortográficos o diferencias regionales en el idioma puede dificultar la capacidad de un modelo para manejar el uso del lenguaje en el mundo real. “Entender cómo responder a datos sucios e, idealmente, a datos limpios: es bueno comenzar con los datos limpios, pero con el tiempo debe ser robusto”, agrega Friedman.
Tendencias perdidas
Limpiar los datos antiguos y nuevos de la misma manera puede generar otros problemas. Es probable que los nuevos sensores sean más precisos y exactos, las solicitudes de soporte al cliente se referirán a versiones más nuevas de sus productos u obtendrá más metadatos sobre nuevos clientes potenciales a partir de su huella en línea. Cualquiera que sea la fuente de datos, puede haber nueva información para capturar o las características de los datos pueden cambiar con el tiempo. En la India, por ejemplo, el divorcio se reconoció oficialmente hace poco. No se puede agregar eso a los registros antiguos, pero no se debe eliminar de los nuevos para mantener la coherencia. Por lo tanto, tenga cuidado de que la limpieza de datos no oculte la diferencia entre los datos antiguos y los nuevos, lo que daría lugar a modelos que no tengan en cuenta las tendencias cambiantes.
“Incluso para el mismo caso de uso, los datos subyacentes pueden cambiar con el tiempo”, advierte Swaminathan. “Un punto de referencia de oro que establezcamos en octubre de 2024 para responder las preguntas de los clientes, por ejemplo, podría quedar obsoleto en tres meses cuando se produzca un desastre natural y, de repente, haya escasez de papel higiénico. Incluso en la misma tarea en la misma empresa para los mismos clientes, el punto de referencia puede quedar obsoleto con el tiempo”.
También es posible que se pierdan señales en los datos a medida que cambian las tendencias. Cuando los números de contacto de los clientes pasaron de ser teléfonos fijos a teléfonos móviles, las organizaciones perdieron la capacidad de extraer la ubicación del cliente del número. “Si se utilizaban códigos de área para validar la localidad, se perdían muchos registros”, añade Kashalikar. También es posible que se fusionen dos empresas con las que trabaja, por lo que decidir si tratarlas como la misma entidad o mantenerlas separadas en el registro maestro de empresas depende del caso de uso.
Incluso sin grandes cambios, los datos subyacentes podrían haber sufrido desviaciones. “Las relaciones entre las variables de resultado de interés y sus características pueden haber cambiado”, afirma Friedman. “No se puede simplemente quedarse con algo y decir: ‘Este conjunto de datos es absolutamente perfecto’ y sacarlo del estante para usarlo en un problema dentro de un año”.
Para evitar todos estos problemas, es necesario involucrar a personas con la experiencia para diferenciar entre errores genuinos y señales significativas, documentar las decisiones que toma sobre la limpieza de datos y las razones de las mismas, y revisar periódicamente el impacto de la limpieza de datos tanto en el rendimiento del modelo como en los resultados comerciales.
En lugar de realizar una limpieza masiva de datos por adelantado y solo después comenzar con el desarrollo, adopte un enfoque iterativo con limpieza de datos incremental y experimentos rápidos.
“Lo que hemos visto que funciona es la incorporación de datos de forma gradual”, afirma Yahav. “Existe una gran tentación de decir que hay que conectar todo y confiar en que funciona. Pero cuando te das cuenta, no sabes qué es lo que está mal y entonces tienes que empezar a desconectar cosas”.
Por lo tanto, comience con pequeñas cantidades de datos recientes o datos en los que confíe, vea cómo funciona y cree más fuentes o volúmenes de datos a partir de ahí y vea dónde falla. “Al final, fallará porque algo que olvidó llegará al flujo principal y algo lo sorprenderá”, dice. “Debe hacer que este proceso sea lo suficientemente gradual para que pueda comprender qué lo causó”.