Los datos juegan hoy un papel crítico en las organizaciones: son los que permiten entender al cliente y entregarle mejores experiencias, anticipar situaciones anómalas en el mercado y ajustar la producción a lo que pueda ocurrir, establecer cadenas de suministro alternativas en caso de una disrupción, generar eficiencias, optimizar procesos, lanzar productos y servicios personalizados de acuerdo a las necesidades y las conductas de los competidores, simular cambios en el negocio en ámbitos virtuales y solo replicarlos en la realidad cuando está comprobado que funcionan…
En efecto, las empresas que logren capturar, gestionar y explotar sus datos de la mejor manera posible son las que tienen mayores probabilidades de competir y liderar en este entorno cada vez más competitivo y cambiante. Hasta ahora, parecía haber dos caminos diferentes para llegar a ese objetivo: utilizar como repositorio un Data Warehouse o apostar al modelo de Data Lake.
Dos modelos de repositorio
Data Warehouse había quedado enfocado en el análisis de datos estructurados, SQL y la resolución de transacciones apoyadas en bases de datos compatibles con ACID (siglas en inglés por atomicidad, consistencia, aislamiento y durabilidad, es decir, el conjunto de propiedades que garantizan que las transacciones de una base de datos se procesan de manera fiable). ¿Algunos de sus principales beneficios? Es fácil de utilizar y de comprender por todo tipo de usuarios, incluyendo los operativos, y promueve una gobernanza de datos clara.
Data Lake, por su parte, llegó prometiendo una mayor flexibilidad: su capacidad para almacenar datos tanto estructurados como semiestructurados o no estructurados lo posicionó como la alternativa ideal de repositorio para las soluciones emergentes vinculadas a ciencias de datos, machine learning o bases de datos en tiempo real. Incluye una serie de ventajas, como su habilidad para utilizar los datos en su formato nativo, sin límites fijos en términos de tamaño ni de tipo. Es un mercado que crece a una gran velocidad: SNS Insider estima un crecimiento nada menos que de US$12.000 millones en todo el mundo en 2022 a US$57.000 millones en 2030.
Cada uno tiene sus fortalezas, pero también sus debilidades: Data Warehouse mostró falencias importantes para dar soporte o integrarse con soluciones de ingeniería de datos avanzada, mientras que en Data Lake se “sufre” con la calidad de los datos, el soporte transaccional, cuestiones de gobernanza y problemas de rendimiento en las consultas. De hecho, muchos especialistas advierten que un lago de datos mal gestionado puede convertirse con el tiempo en un “pantano de datos”, una situación difícil de revertir, en especial cuando el volumen de datos continúa aumentando a la velocidad en que lo hace hoy en día.
Lo mejor de dos mundos
¿Por qué, entonces, no utilizar lo mejor de ambos mundos en un nuevo modelo? En efecto, el concepto de Lakehouse nos da la posibilidad de mantener enormes almacenes de datos, sin ningún tipo de restricción en términos de formatos o tipos de datos y con la garantía de que todo será fácil de mantener y de operar, incluso por parte de usuarios con pocos conocimientos específicos en el mundo de los datos.
Como su nombre lo sugiere, un Data Lakehouse integra y unifica un Data Warehouse y un Data Lake. Se trata de una arquitectura que cuenta con una plataforma que gestiona la ingesta hacia una capa de almacenamiento basado en Data Lake y que dispone de una capa de procesamiento, a su vez, permite tanto la flexibilidad para consultas ligadas al mundo de la ciencia de datos como para transacciones robustas, eficientes y sencillas de bases de datos con principios ACID, ya que los motores de consulta están directamente conectados al lago de datos.