Analitica de negocios.

Almacenamiento de datos. Data Werehouse vs data lake vs data lakehouse

 

Este Blog aborda la comparación entre tres enfoques clave de almacenamiento y gestión de datos: los «data warehouses», los «data lakes» y los «data lakehouses». Se explora cómo cada uno de estos enfoques almacena, estructura y facilita el acceso a los datos, así como su aplicación en diversos tipos de análisis. Se destaca cómo los data warehouses se centran en datos estructurados para análisis predefinidos, los data lakes almacenan datos en bruto para análisis flexibles y los data lakehouses fusionan la versatilidad de los data lakes con la estructura de los data warehouses. La elección de uno de estos enfoques depende de las necesidades específicas de almacenamiento y análisis de una organización.

Data werehouse

 

«Data warehouse», que en español se traduce como «almacén de datos». Es una estructura organizada de almacenamiento de datos diseñada para permitir un análisis eficiente y la generación de informes. Los data warehouses integran datos de diversas fuentes y los transforman en un formato que facilita las consultas y el análisis. Se utilizan para almacenar y gestionar datos estructurados con el objetivo de respaldar la toma de decisiones informadas en las organizaciones.

Data werehouse (a menudo abreviado como DWH o DW) es un repositorio estructurado de datos recolectados y filtrados para tareas específicas. Integra datos relevantes de fuentes internas y externas como sistemas ERP y CRM, sitios web, redes sociales y aplicaciones móviles.

Antes de cargar los datos en el almacenamiento, deben transformarse y limpiarse para su análisis. Los datos no relevantes se descartan.

 

Data Lake

Un «data lake» (lago de datos) es un repositorio de almacenamiento que permite la acumulación de grandes volúmenes de datos en su forma original y sin procesar, independientemente de su estructura o formato. En un data lake, los datos pueden ser datos estructurados, semi-estructurados y no estructurados, y pueden provenir de diversas fuentes como sistemas transaccionales, redes sociales, sensores, entre otros. A diferencia de los data warehouses tradicionales, en los que los datos se estructuran antes de ser almacenados, los data lakes permiten el almacenamiento flexible y luego se pueden transformar y analizar según sea necesario. Esto brinda a las organizaciones la posibilidad de realizar análisis avanzados y descubrimiento de patrones en una amplia gama de tipos de datos.


Data Lakehouse


Un «data lakehouse» es una combinación de un «data lake» y un «data warehouse». Almacena datos en bruto como un data lake, pero también estructura datos para análisis eficiente, ofreciendo flexibilidad y rendimiento optimizado.


Definición: Un data warehouse es una base de datos centralizada que se utiliza para almacenar datos estructurados y organizados para análisis y generación de informes. Definición: Un data lake es un repositorio que almacena datos en su forma cruda y sin procesar, incluyendo datos estructurados, semi-estructurados y no estructurados. Definición: Un data lakehouse combina características de data warehouses y data lakes para permitir tanto el almacenamiento en bruto como la estructuración de datos para análisis.
Estructura: Los datos se organizan en esquemas predefinidos y tablas. Sigue un modelo de datos rígido. Estructura: No impone una estructura rígida. Los datos se almacenan en su formato original. Estructura: Integra elementos de estructuración y organización similares a los data warehouses.
Tipo de Datos: Principalmente datos estructurados de sistemas transaccionales y aplicaciones empresariales. Tipo de Datos: Puede almacenar una variedad de datos, incluyendo datos no estructurados y semi-estructurados. Tipo de Datos: Puede manejar datos estructurados y no estructurados, proporcionando una plataforma versátil.
Transformación: Los datos se transforman y limpian antes de ser almacenados para cumplir con la estructura predefinida. Transformación: Las transformaciones se realizan después de la etapa de almacenamiento, lo que permite un análisis más flexible. Transformación: Permite estructurar datos según sea necesario, lo que facilita tanto análisis predefinidos como exploratorios.
Uso: Se utiliza para consultas y análisis predefinidos en datos estructurados. Uso: Ideal para análisis exploratorio y descubrimiento de patrones en datos no estructurados y variados. Uso: Ofrece un equilibrio entre análisis de datos estructurados y no estructurados.
Ventajas: Consultas de alto rendimiento en datos estructurados, informes estándar. Ventajas: Flexibilidad para almacenar diversos tipos de datos y análisis flexibles. Ventajas: Combina la flexibilidad de los data lakes con la estructura de los data warehouses.
Resumen comparativo data werehouse, data lake y data lakehouse

https://serokell.io/blog/data-warehouse-vs-lake-vs-lakehouse

https://serokell.io/blog/data-warehouse-vs-lake-vs-lakehouse

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *