La IA impulsará un crecimiento significativo en el mercado de gestión de datos, proyectado para alcanzar los 513.3 mil millones de dólares para 2030, según IoT Analytics. La IA depende de siete componentes clave de gestión de datos: fuentes, ingestión, almacenamiento, transformación, análisis, gobernanza y seguridad, y orquestación. Los hiperescalares dominan con más del 50% del mercado, aunque varios proveedores están liderando segmentos específicos.
A medida que el campo de la Inteligencia Artificial (IA) continúa experimentando un crecimiento explosivo, un nuevo artículo de investigación de IoT Analytics arroja luz sobre un aspecto pasado por alto: la gestión de datos. El artículo de investigación, basado en las conclusiones del recientemente publicado «Data Management and Analytics Market Report 2024-2030», revela 7 componentes clave de la gestión de datos que son fundamentales para construir modelos de IA eficaces. Se prevé que la IA impulse un crecimiento significativo en el mercado de la gestión de datos, que alcanzará los 513.300 millones de dólares en 2030.
Knud Lasse Lueth, CEO de IoT Analytics, comenta «Los hiperescaladores como AWS, Microsoft y Google dominan el mercado de gestión de datos con carteras altamente integradas en todos los segmentos principales del mercado. También hay algunas empresas de gestión de datos de rápido crecimiento que se consideran las mejores de su clase y, por tanto, disfrutan de una fuerte tracción en el mercado. Será interesante ver si las empresas optan por la comodidad de tenerlo todo de un solo proveedor o se conforman con tres o cinco soluciones principales de gestión de datos sobre su arquitectura en la nube.»
Oktay Demir, COO de IoT Analytics, añade que «los ejecutivos de nivel C a menudo pasan por alto la importancia crítica de la gestión de datos para la IA. Una sólida gestión de datos es la base para una implementación exitosa de la IA. La IA tiene un poder transformador, y su implantación con éxito aporta un prestigio significativo al liderazgo. Sin embargo, a menudo se descuida el trabajo preliminar menos glamuroso: una estrategia de gestión de datos bien ejecutada. El informe «Data Management and Analytics Market Report 2023-2030» destaca cómo las excelentes estrategias de gestión de datos permiten el éxito de las iniciativas de IA y los efectos adversos de una mala gestión de datos.»
Mohammad Hasan, Analista de IoT Analytics, añade «En mi opinión, el tejido de datos todavía no es muy popular en términos de adopción, ya que puede venir con un alto precio debido a arquitecturas de datos inadecuadas. Sin embargo, dado el aumento de la complejidad de los datos debido al crecimiento exponencial del big data, impulsado por la nube híbrida, la IA, el IoT y la computación de borde, parece haber una buena oportunidad para los proveedores en este escenario.»
Panorama general: No hay estrategia de IA sin estrategia de datos
En el primer trimestre de 2024, los consejeros delegados de casi un tercio de todas las empresas hablaron de la IA en sus convocatorias de resultados, pero solo una parte muy pequeña (el 1 % de todas las convocatorias de resultados) habló de la gestión de datos. Sin embargo, como señala el informe inaugural de IoT Analytics Data Management and Analytics Market Report 2023-2030, una gestión de datos adecuada es la base de la IA.
Esto plantea una pregunta: ¿Están pasando por alto las empresas la necesidad de invertir en gestión de datos para tener éxito en la IA?
«Lo hemos dicho muchas veces: No hay estrategia de IA sin estrategia de datos. La inteligencia a la que todos aspiramos reside en los datos, de ahí que la calidad de ese apuntalamiento sea fundamental.», declaró Frank Slootman - (ex) CEO, Snowflake (Nov 2023).
Dado que una gestión de datos moderna es crucial para el éxito de la IA, el informe sobre gestión de datos prevé un fuerte crecimiento del mercado de gestión de datos en los próximos seis años. Se espera que el crecimiento global sea del 16% anual entre 2023 y 2030, y que el mercado alcance los 513.000 millones de dólares a finales de 2030. La renovada importancia estratégica de la IA y el ML (incluyendo tanto la IA predictiva como la generativa) es el motor clave de esta expansión del mercado.
Los 7 componentes clave de la gestión de datos y por qué son importantes para la IA
Los modelos de IA dependen en gran medida de los datos para su entrenamiento y funcionamiento, lo que hace esencial una sólida gestión de datos. Para entrenar modelos diseñados específicamente para funcionar en el contexto de sus procesos y entornos empresariales particulares, las empresas deben evaluar los 7 componentes clave de su pila tecnológica de gestión de datos:
- Fuentes
- Ingestión
- Almacenamiento
- Transformación
- Análisis
- Gobernanza y seguridad
- Orquestación
Componente de gestión de datos 1: Fuentes
Descripción
Las fuentes abarcan diversos formatos de datos procedentes de múltiples repositorios. Las fuentes de datos pueden incluir sistemas empresariales como la planificación de recursos empresariales (ERP) o la gestión de relaciones con los clientes (CRM), datos de IoT, procedentes de dispositivos como controladores lógicos programables (PLC) o sensores, u otros datos externos, como medios sociales o datos gubernamentales.
Nota: IoT Analytics no cuenta las fuentes como parte del mercado de gestión de datos.
Importancia para la IA
Las fuentes de datos son la base de la IA. Las fuentes de datos proporcionan la base para el entrenamiento de la IA, ya que la IA sofisticada a menudo requiere una mezcla amplia y diversa de datos de diferentes fuentes. Cuantas más fuentes de datos estén conectadas, más potentes y versátiles serán los modelos de IA. Por lo tanto, es crucial identificar qué datos se necesitan, dónde pueden obtenerse y cómo se recopilarán. Por ejemplo, la IA generativa trabaja principalmente con datos no estructurados: información que no encaja perfectamente en bases de datos relacionales, como texto o imágenes. Estos datos no estructurados deben identificarse, organizarse e integrarse perfectamente en el sistema de almacenamiento de datos para maximizar el potencial de la IA.
Informar sobre los datos
Existen tres tipos principales de datos. El informe identifica tres tipos distintos de datos, cada uno con características diferentes que determinan las estrategias de gestión de datos y las tecnologías de bases de datos apropiadas.
- Datos estructurados: Los datos estructurados, que suelen proceder de sistemas empresariales como ERP y CRM, se caracterizan por su formato tabular organizado y sus relaciones definidas entre puntos de datos. Las bases de datos relacionales, como las bases de datos SQL, destacan con los datos estructurados, ya que gestionan con eficacia esquemas y relaciones bien definidos.
- Datos semiestructurados: Incluye datos como archivos JSON o XML, que no se ajustan estrictamente a los esquemas de las bases de datos relacionales, pero mantienen una estructura jerárquica. Las bases de datos NoSQL son idóneas para gestionar datos semiestructurados, ya que manejan formatos que no se ajustan perfectamente a las filas y columnas tradicionales, lo que proporciona flexibilidad en la gestión de datos.
- Datos no estructurados: Incluye texto, imágenes y vídeos. Carecen de un formato predefinido, lo que hace más compleja su gestión. Los sistemas de archivos distribuidos y las bases de datos NoSQL son ideales para los datos no estructurados.
El tipo de estructura de los datos orienta la selección del modelo de base de datos. Si un proyecto se basa principalmente en datos no estructurados, requiere una estrategia de gestión de datos que haga hincapié en las capacidades de búsqueda avanzada para catalogar y recuperar información no estructurada de forma eficiente. Los sistemas de archivos distribuidos y las bases de datos NoSQL ofrecen métodos para gestionar grandes volúmenes de diversos tipos de contenido, lo que permite un procesamiento rápido de los datos y la extracción de información significativa.
Componente de gestión de datos 2: Ingestión
Descripción
La ingesta canaliza los datos de las fuentes hacia el almacenamiento. Recoge datos de fuentes primarias (ERP, CRM, PLC o fuentes externas) y los unifica en un sistema de almacenamiento utilizando conectores para garantizar la compatibilidad y el tratamiento adecuado de los formatos.
Importancia para la IA
La ingestión asegura la ingesta continua de grandes volúmenes de datos. Los datos procedentes de diversas fuentes deben recopilarse continuamente e introducirse en el algoritmo de IA. Para garantizar el funcionamiento de los modelos de IA, es crucial evitar problemas de conexión que puedan provocar lagunas en los datos. Los flujos de datos continuos son especialmente vitales para las aplicaciones de IA que requieren datos en tiempo real, donde los retrasos podrían provocar la pérdida de oportunidades o el aumento de los riesgos.
Perspectivas del informe
La ingesta de datos en tiempo real va en aumento. El informe analiza 8 tendencias clave, una de las cuales es la creciente importancia de la ingestión de datos en tiempo real para la toma inmediata de decisiones. Tecnologías como la estadounidense sin ánimo de lucro Kafka de Apache, una plataforma distribuida de flujo de eventos, facilitan la recopilación y el procesamiento de datos en tiempo real con alto rendimiento y baja latencia. Esto permite a las organizaciones actuar sobre los datos a medida que se generan, mejorando la capacidad de respuesta y la eficiencia operativa. Por ejemplo, el servicio de streaming online Netflix utiliza Kafka para gestionar más de 700.000 millones de eventos diarios, garantizando un flujo de datos fluido y un procesamiento en tiempo real para mantener una experiencia de usuario de alta calidad entre sus más de 260 millones de abonados.
Componente de gestión de datos 3: Almacenamiento
Descripción
El almacenamiento utiliza tecnologías y arquitecturas para salvaguardar, organizar y almacenar datos. Hay dos componentes principales:
- Tecnologías de almacenamiento: incluye hardware (HDDs o SSDs), y software (sistemas de gestión de bases de datos (DBMS)) utilizados para el almacenamiento de datos.
- Arquitecturas de datos: incluye almacenes de datos, lagos de datos o nubes y se utiliza como modelo para la arquitectura de datos y el acceso a los mismos.
Importancia para la IA
El almacenamiento de datos garantiza un acceso eficaz a los datos necesarios. El almacenamiento es crucial porque proporciona la infraestructura necesaria para organizar y gestionar de forma centralizada las enormes cantidades de datos que requieren los modelos de IA. Las tecnologías de almacenamiento garantizan un acceso rápido a los datos, lo que repercute directamente en el rendimiento de las aplicaciones de IA. Además, los sistemas de almacenamiento escalables satisfacen las crecientes necesidades de datos a medida que los proyectos de IA se amplían y evolucionan.
Perspectivas del informe
El mercado de almacenamiento de datos está impulsado por el crecimiento del segmento de arquitectura de datos. A medida que los volúmenes de datos continúan creciendo, el informe prevé una CAGR del 18% para el subsegmento de arquitectura de datos hasta 2030, destacando la creciente importancia de organizar los datos para generar conocimientos valiosos. Por el contrario, se espera que las tecnologías de almacenamiento experimenten un crecimiento inferior a la media del 8% CAGR durante el mismo periodo. El informe señala que los costes de almacenamiento de hardware han disminuido significativamente en la última década. Por ejemplo, en 2016, el coste de la memoria era de 203 dólares por terabyte, que desde entonces ha disminuido a 49,50 dólares por terabyte para el almacenamiento de estado sólido. Se espera que esta tendencia contribuya a la tasa de crecimiento inferior a la media en el subsegmento de mercado de las tecnologías de almacenamiento.
Las bases de datos vectoriales son cada vez más populares en las aplicaciones avanzadas de IA generativa. Además, el informe señala la creciente popularidad de las bases de datos vectoriales para casos de uso de IA generativa. Estas bases de datos son cruciales para la indexación y búsqueda de vectores de alta dimensión utilizados para búsquedas de similitud y coincidencia de patrones. Esta tendencia indica un cambio hacia nuevos sistemas avanzados de gestión de datos para aplicaciones específicas de IA (en este caso, IA generativa).
«Estamos observando un interés significativo en nuestra oferta de búsqueda vectorial por parte de clientes empresariales grandes y sofisticados, a pesar de que todavía está en fase de vista previa. Como ejemplo, una gran consultora de gestión global está utilizando Atlas Vector Search para una aplicación de investigación interna que permite a los consultores buscar semánticamente en más de 1,5 millones de transcripciones de entrevistas a expertos.», declaró Dev Ittycheria, presidente y CEO de MongoDB, 23 de septiembre de 2023.
Componente de gestión de datos 4: Transformación
Descripción
La transformación refina y reestructura los datos en formatos adecuados para un análisis detallado. Esta parte de la pila implica limpiar, integrar y modificar los datos para garantizar su calidad y compatibilidad con las herramientas analíticas y las estructuras de almacenamiento.ETL (extraer, transformar, cargar) desempeña un papel crucial en esta etapa al extraer los datos de varias fuentes, transformarlos en un formato estandarizado y cargarlos en el almacenamiento de destino. Este proceso garantiza que los datos estén limpios, estructurados y listos para el análisis.
Importancia para la IA
La transformación prepara los datos para la IA. La transformación de datos es esencial para la IA porque convierte los datos brutos en formatos limpios y estructurados, haciéndolos digeribles para que la IA los entrene y opere. Este proceso incluye conversiones de formatos de archivo, limpieza de datos, protección de datos confidenciales (especialmente importante para la IA generativa) y agregación de datos para soportar consultas frecuentes. Tanto la IA predictiva como la generativa requieren datos preprocesados para mantener su calidad y utilidad.
Perspectivas del informe
La ETL inversa es importante para integrar los conocimientos generados por la IA en los procesos empresariales. A diferencia de la ETL tradicional, que traslada los datos a un sistema de almacenamiento centralizado (por ejemplo, un almacén de datos centralizado, un lago de datos o la nube) para su análisis, la ETL inversa extrae los datos de estos sistemas y los sincroniza con las aplicaciones operativas. Al trasladar los conocimientos generados por la IA a sistemas como ERP, la ETL inversa permite a las organizaciones integrar los hallazgos de la IA en los procesos empresariales, garantizando que estos conocimientos puedan aplicarse rápidamente para mejorar las operaciones empresariales, las decisiones y mucho más.
Componente de gestión de datos 5: Análisis
Descripción
La analítica convierte los datos en información significativa y procesable. Esta parte de la pila se compone de:
- Herramientas de inteligencia empresarial. Convierte los datos en informes visuales, cuadros de mando y métricas, lo que facilita la comprensión y la comunicación de la información.
- Herramientas de ciencia de datos. Mejora el análisis identificando patrones, tendencias y correlaciones más profundos que pueden no ser inmediatamente visibles a través de los métodos tradicionales.
Importancia para la IA
Las herramientas analíticas ayudan a crear y mantener modelos de IA. La analítica es crucial para la IA porque proporciona las herramientas necesarias para desarrollar y perfeccionar los modelos de IA. Al aprovechar técnicas como la minería de datos, el análisis estadístico y el aprendizaje automático, la analítica ayuda a descubrir patrones y tendencias, extrayendo ideas y conocimientos de datos estructurados y no estructurados.
Perspectivas del informe
La analítica es el segmento del mercado de gestión de datos de más rápido crecimiento. El informe prevé una tasa compuesta de crecimiento anual (TCAC) del 20% para el segmento de mercado de la analítica hasta 2030. Entre los dos subsegmentos, se espera que el de la ciencia de datos sea el que más rápido crezca, con una TCAC del 27%, mientras que el de la inteligencia empresarial crecerá a una TCAC del 16%. Estas previsiones subrayan la creciente importancia e inversión en la toma de decisiones basada en datos.
Para ilustrar esta tendencia, el informe presenta un estudio de caso sobre cómo Airbnb, el mercado estadounidense de alojamiento en familia, aprovecha la IA para mejorar su proceso de emparejamiento de anfitriones y huéspedes, utilizando técnicas como las pruebas A/B, el reconocimiento de imágenes y los modelos predictivos para mejorar la experiencia del usuario y aumentar las reservas. Sus modelos predicen las probabilidades de reserva basándose en las búsquedas de los usuarios, y su función de recomendación de precios aconseja a los anfitriones sobre los precios óptimos. Además, para hacer frente a las altas tasas de rebote entre determinados visitantes asiáticos, Airbnb introdujo modificaciones en el sitio, lo que aumentó las tasas de conversión en un 10%.
Componente de gestión de datos 6: Gobernanza y seguridad de los datos
Descripción
El gobierno y la seguridad de los datos garantizan la integridad, usabilidad y coherencia de los datos organizativos a través de políticas, procesos y funciones, y apuntalan su fiabilidad para las operaciones empresariales.
Importancia para la IA
La gobernanza de datos es importante para la integridad de los datos. La gobernanza y la seguridad de los datos son fundamentales para la IA porque protegen tanto los datos como los modelos de IA. Esto es esencial para desarrollar modelos de IA precisos y éticos y salvaguardar la propiedad intelectual invertida en estos modelos. Los datos mal gestionados corren el riesgo de filtrar información privada y patentada, lo que podría acarrear multas y publicidad negativa. Además, unas medidas sólidas garantizan que los datos utilizados son precisos y no están comprometidos, lo que mejora la calidad de los modelos de IA. También evitan las filtraciones de información y el acceso no autorizado a la IA y al código subyacente de sus modelos.
Perspectivas del informe
El informe identifica tres modelos operativos típicos para implantar la gobernanza de datos:
- Modelo centralizado: Una única entidad de gobierno de datos supervisa y estandariza las actividades en todas las áreas temáticas de la organización.
- Modelo replicado: Cada unidad de negocio adopta y aplica de forma independiente el mismo modelo y normas de gobierno de datos.
- Modelo federado: El órgano de gobierno de datos se coordina con múltiples unidades de negocio para garantizar la uniformidad de las definiciones y normas en toda la organización.
Componente de gestión de datos 7: Orquestación de datos
Descripción
La orquestación de datos es la gestión y coordinación sistemáticas de los flujos de datos entre diferentes sistemas y servicios. Implica el movimiento automatizado de datos, garantizando su disponibilidad en el formato y la ubicación adecuados para el análisis y la toma de decisiones.
Importancia para la IA
La orquestación de datos coordina el movimiento de datos. La orquestación de datos garantiza la perfecta integración, coordinación y flujo de datos entre varios sistemas y facilita la formación, despliegue y perfeccionamiento de modelos de IA. Permite el movimiento automatizado y coordinado de datos a través de varios sistemas, garantizando su disponibilidad en el formato y la ubicación adecuados cuando se necesitan para el procesamiento previo y posterior de los datos.
Perspectivas del informe
El objetivo es automatizar el flujo de datos. El informe muestra un caso práctico sobre cómo la compañía de software estadounidense Cox Automotive aprovecha AWS Step Functions para automatizar la implementación de modelos, mejorando la creación de modelos, la productividad del equipo y la precisión. Este flujo de trabajo automatizado ha permitido a sus científicos de datos y equipos de toma de decisiones centrarse en tareas de mayor valor, mejorando el desempeño y la calidad generales. Además, al reducir la sobrecarga manual en el reentrenamiento y despliegue de modelos, Cox Automotive ha aumentado la velocidad y la precisión de sus iniciativas basadas en IA, lo que ha dado lugar a una toma de decisiones más fiable y oportuna.
Conclusiones de los analistas sobre el mercado actual de la gestión de datos
Conclusión 1: Los hiperescaladores dominan el mercado de gestión de datos con servicios integrados y rentables a pesar de una menor especialización.
Las 3 principales hiperescalas juntas, AWS, Microsoft y Google, dominan el mercado de la gestión de datos con una cuota de mercado combinada del 52% en 2023, y servicios líderes en cada uno de los segmentos de mercado descritos anteriormente. Es importante señalar que, en muchos casos, estas empresas no ofrecen las soluciones más sofisticadas y mejor valoradas, pero proporcionan servicios rentables y altamente integrados que son fáciles de escalar para sus clientes. Las empresas se enfrentan a una importante elección: pueden optar por varias soluciones de gestión de datos de las mejores marcas de empresas más pequeñas y especializadas, o pueden aprovechar la comodidad y la oferta integral de una o dos hiperescalas, que ofrecen todos los servicios necesarios bajo un mismo paraguas.
«Los hiperescaladores como AWS, Microsoft y Google dominan el mercado de la gestión de datos con carteras muy integradas en todos los segmentos principales del mercado. También hay algunas scale-ups de gestión de datos de rápido crecimiento que se consideran las mejores en su clase y, por tanto, disfrutan de una fuerte tracción en el mercado. Será interesante ver si las empresas optan por la comodidad de tenerlo todo de un solo proveedor o se conforman con tres o cinco soluciones principales de gestión de datos sobre su arquitectura en la nube.», declaró Knud Lasse Lueth, director general de IoT Analytics.
Conclusión 2: Algunos ejecutivos no ven el panorama completo: No puede haber una estrategia de IA ganadora sin una estrategia de gestión de datos ganadora.
En el primer trimestre de 2024, los consejeros delegados de casi un tercio de todas las empresas hablaron de IA en sus convocatorias de resultados, pero solo una parte muy pequeña (el 1% de todas las convocatorias de resultados) mencionó la gestión de datos. Aunque la IA encierra un potencial transformador, su éxito está profundamente interrelacionado con unas prácticas integrales de gestión de datos. Mi observación es que algunos ejecutivos de nivel C muestran un enfoque miope, centrándose en el prestigio de la IA sin reconocer el papel esencial de una sólida estrategia de datos. Como se destaca en este artículo, las estrategias de IA ganadoras se basan en una sólida gestión de datos, en la que los siete componentes -abastecimiento de datos, ingesta, almacenamiento, transformación, análisis, gobernanza y seguridad, y orquestación- funcionan a la perfección para apoyar la estrategia de IA.
«Los ejecutivos de alto nivel a menudo pasan por alto la importancia crítica de la gestión de datos para la IA. Una sólida gestión de datos es la base para una implementación exitosa de la IA. La IA tiene un poder transformador, y su implantación con éxito aporta un prestigio significativo al liderazgo. Sin embargo, a menudo se descuida el trabajo preliminar menos glamuroso: una estrategia de gestión de datos bien ejecutada. El informe «Data Management and Analytics Market Report 2023-2030» destaca cómo las excelentes estrategias de gestión de datos permiten el éxito de las iniciativas de IA y los efectos adversos de una mala gestión de datos.», declaró Oktay Demir, Director de Operaciones de IoT Analytics.
Conclusión 3: El tejido de datos está surgiendo como una evolución avanzada del lago de datos.
Data fabric es un término relativamente nuevo, que describe un marco integral de integración y gestión de datos, que abarca arquitectura, herramientas de gestión de datos y conjuntos de datos compartidos, diseñado para ayudar a las organizaciones a gestionar sus datos. Se diferencia de los lagos de datos en que va más allá del almacenamiento de datos en bruto, y de los almacenes de datos en que sólo maneja datos procesados o refinados. Los tejidos de datos ofrecen una interfaz de usuario (IU) cohesiva y coherente, así como acceso en tiempo real a los datos para todos los miembros de una organización, independientemente de su ubicación global.
«En mi opinión, el data fabric todavía no es muy popular en términos de adopción, ya que puede conllevar un precio elevado debido a arquitecturas de datos inadaptadas. Sin embargo, dado el aumento de la complejidad de los datos debido al crecimiento exponencial del big data, impulsado por la nube híbrida, la IA, el IoT y la computación de borde, parece haber una buena oportunidad para los proveedores en este escenario.», declaró Mohammad Hasan, analista de software y nube de IoT Analytics.
(IoT Analytics)