Las empresas más grandes a menudo invierten en estrategias de lago de datos(data lakes) para crear y unificar un repositorio centralizado para todos sus datos. Sin embargo, en la práctica, la visión de eliminar los silos de datos y optimizar la integración, el análisis, la seguridad, la gobernanza y el descubrimiento de datos suele ser difícil de alcanzar.
Los lagos de datos suelen ser proyectos personalizados que implican almacenamiento sin procesar y código personalizado para la escalabilidad, la colaboración, el cumplimiento, la seguridad y la gobernanza.
La adopción de patrones de malla de datos (data mesh), en los que cada división de negocio gestiona su propio data lake, puede dar lugar a complejidad y fragmentación. Las organizaciones a menudo recurren a la creación de soluciones complejas de movimiento de datos para permitir el intercambio y la reutilización de datos.
Para que los datos sean accesibles, los departamentos de TI construyen bodegas de datos (data warehouses) o data marts, creando copias adicionales de los datos. Esto da como resultado un pantano de datos, caracterizado por silos de datos y redundancia.
Microsoft One Lake
OneLake tiene como objetivo resolver estos desafíos proporcionando un lago de datos lógico unificado para su uso en toda la empresa. Se incluye en todos los inquilinos (tenants) de Microsoft Fabric y sirve como repositorio único para los datos de análisis.
Unificando datos de una empresa con Microsoft OneLake
Unificar datos de una empresa con Microsoft OneLake elimina la necesidad de múltiples lagos de datos y simplifica la colaboración al permitir que diferentes unidades de negocio operen de forma independiente, pero contribuyan al mismo lago de datosutilizando espacios de trabajo (workspaces). Cada espacio de trabajotiene su propio administrador y control de acceso, lo que permite a los administradores definir la gobernanza a nivel de dominio o espacio de trabajo.
One Lake se basa en Azure Data Lake Storage Gen2 (ADLS Gen2) y admite todo tipo de archivos, estructurados o no estructurados. Los datos se almacenan en formato delta parquet, lo que permite la compatibilidad con las aplicaciones ADLS Gen2 existentes. También admite accesos directos (shortcuts), que actúan como punteros a los datos ubicados en otros sistemas de archivos, lo que elimina la necesidad de movimiento o duplicación de datos.
One Lake se extiende a través de múltiples plataformas en la nube, lo que permite la integración con datos almacenados en buckets de Amazon S3, por ejemplo. Con el almacenamiento Intelligent cache, se puede acceder a los datos desde diferentes motores de proceso sin incurrir en altos costos de salida.
El poder de computo en Fabric impulsa todas las experiencias analíticas en One Lake. Permite que diferentes motores analíticos, como T-SQL, Spark y Analysis Services, tengan acceso a la misma copia de los datos sin duplicación. Esto elimina la necesidad de replicar datos para diferentes motores y permite a los usuarios elegir el motor más adecuado para sus tareas.
El modo Direct Lake de Analysis Services ofrece la velocidad similar a la experiencia de datos importados pero sin duplicación de datos, lo que revoluciona la forma en que se accede a los datos en los informes de Power BI.
One Lake también proporciona un centro de datos, lo que permite a los usuarios ver datos en todos los dominios comerciales y filtrar los datos en función de intereses específicos.
Conclusión
Unificar datos con Microsoft One Lake es una solución integral de lago de datos que tiene como objetivo eliminar los silos de datos, simplificar la administración de datos y permitir el acceso a los datos y la colaboración sin problemas en diferentes motores analíticos. Se extiende a través de múltiples plataformas en la nube, admite accesos directos y proporciona un proceso unificado de construcción de lagos de datos.