
Arquitectura de la Bodega de Datos

Básicamente, la forma de operar del esquema superior se resume de la siguiente manera:
Los datos son extraídos desde aplicaciones, bases de datos, archivos, etc. Esta información generalmente reside en diferentes tipos de sistemas, orígenes y arquitecturas y tienen formatos muy variados.
Los datos son integrados, transformados y limpiados, para luego ser cargados en la Bodega de datos.
Fundamentalmente, la información de la Bodega de datos se estructura en cubos multidimensionales, ya que estos preparan esta información para responder a consultas dinámicas con una buena performance. Pero también pueden utilizarse otros tipos de estructuras de datos para representar la información de la Bodega de datos, como por ejemplo Business Models.
Los usuarios acceden a los cubos multidimensionales, Business Models (u otro tipo de estructura de datos) de la Bodega de datos utilizando diversas herramientas de consulta, exploración, análisis, reportes, etc.
A continuación se detallará cada uno de los componentes de la arquitectura de la Bodega de datos, teniendo como referencia siempre el gráfico antes expuesto, pero resaltando el tema que se tratará.
-
Proceso ETL. Los procesos de extracción, transformación y carga, son muy importantes porque por medio de estos procesos los datos se cargan en una bodega de datos (o en cualquier base de datos). Implican las siguientes operaciones:
-
Extracción. Obtener la información deseada a partir de los datos almacenados en fuentes externas.
-
Transformación. Cualquier operación realizada sobre los datos para que puedan ser cargados en la Bodega de datos se puedan migrar de éste a otra base de datos.
-
Carga. Consiste en almacenar los datos en la base de datos final, o en este caso la Bodega de datos final.
Las bodegas de datos, han monopolizado la investigación sobre la parte conceptual del modelado de datos, se ha dedicado a captura de características conceptuales de esquema de estrella esquema de Datamarts y agregaciones.
Los modelos conceptuales de ETL, el modelo propuesto es informal y la atención se centra en demostrar la complejidad de los esfuerzos, en lugar modelo formal de las propias actividades. En términos de enfoques de tipo industrial, el modelo que se deriva sería una documentación informal del proceso de ETL general.
Para la población de la bodega de datos. Existen 2 razones fundamentales:
En el modelo conceptual para el proceso de ETL, la atención se centra en documentación / formalización de las particularidades de las fuentes de datos con respecto al almacén de datos y no en proporcionar una solución técnica para la ejecución del proceso.
El modelo de ETL conceptual se construye a principios de las etapas del proyecto de Bodegas de Datos durante el cual, el tiempo de las limitaciones del proyecto requieren una documentación rápida de la almacenamiento de los datos en cuestión y sus relaciones.
-
Datawarehouse Manager. Es la base de datos relacional que contienen los datos obtenidos de un servidor que es un objetivo de recogida de datos. Estos datos son utilizados para generar los informes correspondientes a los conjuntos de recopilación de datos del sistema, y también se puede utilizar para crear informes personalizados.
La Datawarehouse Manager presenta las siguientes características y funciones principales:
-
Almacena los datos de forma multidimensional, es decir, a través de tablas de hechos y tablas de dimensiones.
-
Gestiona las diferentes estructuras de datos que se construyan o describan sobre la Bodega de datos, como Cubos Multidimensionales, Business Models, etc.
-
Gestiona y mantiene metadatos. 12
Además, la Datawarehouse Manager se encarga de:
-
Transformar e integrar los datos fuentes y del almacenamiento intermedio en un modelo adecuado para la toma de decisiones.
-
-
Realizar todas las funciones de definición y manipulación del depósito de datos, para poder soportar todos los procesos de gestión del mismo.
-
-
Ejecutar y definir las políticas de particionamiento. El objetivo de realizar esto, es conseguir una mayor eficiencia y performance en las consultas al no tener que manejar todo el grueso de los datos. Esta política debe aplicarse sobre la tabla de hechos que, como se explicará más adelante, es en la que se almacena toda la información que será analizada.
-
Realizar copias de resguardo incremental o total de los datos de la Bodega de datos.13