Aunque vivimos en un mundo cada vez más impulsado por los datos, la mayoría de las empresas no operan modelos de negocio basados en estos. El círculo virtuoso que impulsa el éxito de empresas tecnológicas como Alphabet, Meta y Amazon no se produce en las organizaciones que venden productos y servicios tradicionales. Sin embargo, las herramientas desarrolladas para sacar más partido de los datos propios que se generan en los procesos empresariales cotidianos son cada vez más accesibles y podrían ayudar a las compañías a desarrollar una ventaja competitiva.
A medida que los mercados se vuelven más competitivos, construir un foso defensivo a partir de los datos puede marcar la diferencia. McKinsey calcula que el aprovechamiento de los datos internos para obtener información sobre ventas y marketing puede dar lugar a un crecimiento del mercado superior a la media y a aumentos del 15 al 25% en el EBITDA. Los LLM ofrecen una forma nueva y única de extraer este valor, y entrenar estos modelos con datos propios para lograr objetivos empresariales específicos podría transformar muchas empresas.
La calidad de los datos supera a la cantidad
Como dijo una vez el gurú de la IA y exdirector de investigación de Google Peter Norvig: “Tener más datos es mejor que tener mejores algoritmos, pero disponer de mejores datos gana a tener más datos”. Esto es cada vez más cierto a medida que los modelos de IA generativa se adaptan para su uso en la empresa. Aunque los modelos de frontera se han entrenado con cantidades ingentes de datos extraídos de Internet y otras fuentes públicas, su utilidad para fines empresariales específicos es limitada.
La capacidad de estos LLM para extraer significado de los datos debe combinarse con datos propios y exclusivos de una organización para obtener beneficios reales. Asegurarse de que los datos están preparados para ello es un paso clave una vez fijados los objetivos empresariales. Gartner estima que preparar los datos para la IA mejora los resultados empresariales en un 20%, lo que significa que los datos deben ser apropiados para los casos de uso previstos, ya sean estructurados o no estructurados. Una razón clave por la que se abandonan el 30% de los proyectos internos de IA, según Gartner, es la mala calidad de los datos introducidos. Esto implica eliminar datos corruptos y duplicados, y rellenar huecos cuando las entradas están incompletas.
Y aunque la calidad es clave, también debe haber suficiente cantidad. Dependiendo de los objetivos y de cómo se ajuste el LLM, esto significa miles de registros como mínimo y posiblemente muchos más.
Puesta a punto
Donde se pueden obtener más beneficios corporativos es en el uso de datos exclusivos propios, desde datos anónimos de clientes y patrones de compra, comentarios de clientes, análisis web e información sobre la cadena de suministro. Los datos de código abierto también pueden ser un complemento útil, pero, por definición, están a disposición de todo el mundo, por lo que no constituyen un factor diferenciador por sí mismos. El uso de datos patentados, siempre que cumplan la normativa sobre privacidad, también reduce las complejidades legales relacionadas con la soberanía de los datos.
Pero la mayoría de las organizaciones no disponen de los recursos, financieros y humanos, necesarios para crear y entrenar sus propios modelos específicos desde cero. Afinar los LLM existentes requiere un tiempo y unos conocimientos considerables que superan las capacidades de las medianas empresas, aunque necesite menos potencia de cálculo y datos que construirlos desde cero. Los métodos más comunes y sencillos son el ajuste y la ingeniería rápida. En lugar de modificar los parámetros del modelo, estas técnicas consumen muchos menos recursos y, aunque requieren conocimientos especializados, pueden adoptarse con relativa facilidad.
En el mundo real
Algunas de las primeras implantaciones de LLM entrenados con datos internos proceden de los grandes bancos y consultoras. Morgan Stanley, por ejemplo, utilizó prompt tuning para entrenar GPT-4 en un conjunto de 100.000 documentos relacionados con sus flujos de trabajo de banca de inversión. El objetivo era ayudar a sus asesores financieros a proporcionar un asesoramiento más preciso y oportuno a los clientes. BCG también ha adoptado un enfoque similar para ayudar a sus consultores a generar ideas y asesoramiento a los clientes junto con un proceso iterativo que afina sus modelos basándose en los comentarios de los usuarios. Esto ha ayudado a mejorar los resultados y reduce las posibilidades de alucinaciones, más comunes en los GPT orientados al consumidor.
Ahora empezamos a ver empresas menos intensivas en tecnología y orientadas a los servicios que personalizan los LLM con datos internos. La empresa de jardinería ScottsMiracle-Gro ha colaborado con Google Cloud para crear un “sommelier de jardinería” basado en IA que ofrece a los clientes consejos de jardinería y recomendaciones de productos. Se ha entrenado con los catálogos de productos y la base de conocimientos interna de la empresa, y pronto se extenderá a sus 1.000 vendedores sobre el terreno para ayudarles a asesorar a clientes minoristas y del mercado de la jardinería sobre precios y disponibilidad. Está previsto que, en función de los resultados, se ponga después a disposición de los consumidores, con el objetivo de impulsar las ventas y la satisfacción del cliente.
Al igual que ScottsMiracle-Gro utiliza la IA para añadir valor a su catálogo de ventas tradicional, Volkswagen of America hace lo propio con sus manuales de coches. Formado en guías de instrucciones de vehículos y complementado con los datos del coche conectado del cliente, el asistente virtual impulsado por IA puede ayudar a los conductores a entender mejor sus vehículos. Esto incluye proporcionar orientación sobre el cambio de neumáticos y la comprensión de lo que significan las luces indicadoras del salpicadero.
Con el auge de los modelos de código abierto y la reducción de las barreras de entrada para los desarrolladores de aplicaciones, los datos irán adquiriendo cada vez más importancia a medida que los LLM se vayan convirtiendo en productos básicos en términos de funciones y capacidades de procesamiento. Los propietarios de contenidos ya se están oponiendo a que empresas como OpenAI y Anthropic recopilen libremente sus datos, lo que pondrá aún más de relieve el valor de la información patentada.
Las empresas de todos los tamaños harían bien en empezar a valorar y proteger sus activos de datos internos con más cuidado, y a pensar en cómo pueden aprovecharse a través de la IA para obtener ventajas competitivas. Incluso el humilde catálogo de productos o manual de usuario, como hemos visto, pueden ser activos maduros para capitalizar.