Según la editorial experta en tendencias y tecnología Visual Capitalist, cada día se generan 2.5 exabytes de datos, esto es, unos 12,5 billones de páginas de texto. El volumen resulta difícil de entender para las dimensiones que maneja nuestro cerebro: cada un minuto se suben 500 horas de videos a YouTube, se crean unas 350.000 stories de Instagram y se envían más de 41 millones de mensajes de WhatsApp.
Pero no solo en las redes sociales y en internet se están gestando estos datos: las empresas, a través de sus sistemas transaccionales, de las herramientas de software para gestión de la producción, de las aplicaciones de experiencia del cliente o de los sensores de internet de las cosas, por citar apenas un conjunto de ejemplos, contribuyen a esta marea.
Aquellos que resulten capaces de comprender esos datos, es decir, identificar los que pueden resultar útiles, compararlos, analizarlos y obtener conclusiones válidas a partir de ellos, tienen en sus manos la capacidad de llevar sus negocios al siguiente nivel.
Para manejar este complejo entramado, administrar múltiples tipos de datos de una amplísima variedad de fuentes y almacenarlos en un repositorio centralizado (incluyendo tanto los estructurados como los no estructurados o los semiestructurados) existe el concepto de data lake.
Schema on read
Un data lake es una solución de almacenamiento y análisis de datos más ágil y flexible que los repositorios tradicionales. Se caracteriza por conservar los datos en bruto en una arquitectura plana, a diferencia de los data warehouse, que utilizan carpetas y archivos para configurar una estructura jerárquica.
Solo se los transforma en el momento en que se los va a emplear, en un enfoque conocido como schema on read (es decir, esquematización para la lectura). No existe un esquema predefinido en el que deban encajarse previamente los datos: se analizan y se adaptan al formato más conveniente en el momento de la lectura. En un data warehouse se utiliza el modelo de schema on write, esquematización durante la escritura.
En comparación con un data warehouse, data lake conserva todos los datos -incluso aquellos que no tienen utilidad en la actualidad, pero que podrían tenerla alguna vez-, lo que significa un enorme ahorro de esfuerzos en términos de perfilado de datos y en toma de decisiones respecto de qué se incluye y qué no en el almacén. Además, cuando los datos no se utilizan pueden ser excluidos del warehouse para ahorrar los costos de almacenamiento, lo que implica un nuevo esfuerzo que no es necesario cuando se trabaja con data lake.
Identificadores únicos
Cada elemento del data lake cuenta con un identificador único y está etiquetado a partir de un conjunto de metadatos extendidos. Por lo tanto, en cada oportunidad en que es necesario resolver un problema de negocios, es posible recuperar del data lake todos los datos relacionados para efectuar un análisis concentrado en ese subconjunto.
Así, por ejemplo, si la empresa necesita realizar un análisis de sentimiento de sus clientes en las redes sociales o una evaluación de riesgo crediticio de una persona que solicita un crédito bancario, data lake recuperará solo los datos etiquetados de tal manera que guarden relación inequívoca con esa solicitud.
Beneficios del data lake
Entre los beneficios de data lake se cuentan la posibilidad de combinar y procesar fuentes dispares de datos y la capacidad de poner disponibles los datos esenciales, exactamente en el momento en que se los necesita, en las manos de quienes los requieren, manteniendo siempre altísimos estándares de seguridad. Otra ventaja distintiva es la velocidad: la misma arquitectura del data lake habilita a un acceso inmediato a los datos.
A la hora de implementar un data lake, es importante definir primero una visión estratégica de forma tal que quede completamente alineado a las necesidades del negocio.
Por otra parte, habrá que definir la arquitectura y la plataforma tecnológica: en general, se utilizan clústeres de hardware -locales o en la nube- de consumo económico y altos niveles de escalabilidad, para poder volcar los datos sin tener que preocuparse por la capacidad de almacenamiento. En este sentido, destacan soluciones como la propuesta por AWS, que brindan todas las instancias, desde los puntos de almacenamiento hasta la consola centralizada de consultas, para facilitar la implementación y el aprovechamiento del data lake.
En definitiva, data lake es la solución ideal para encontrar los datos realmente relevantes para el negocio, poder compartirlos de manera colaborativa y reutilizarlos tantas veces como sea necesario. En otras palabras, es la llave para entender, desde la perspectiva de los datos, el mundo en el que vivimos.