Qué es un data warehouse

Almacén de datos de aws

La configuración predeterminada recomendada en esta guía suele costar 0,00 dólares al mes, a menos que esté fuera de los límites de la capa gratuita de AWS. Para obtener un desglose de los servicios utilizados y sus costes asociados, consulte Servicios utilizados y costes.

Coste para completar el proyecto: El coste estimado para completar este proyecto es de 0,00 dólares. Este coste supone que se encuentra dentro de los límites de la capa gratuita de AWS, que sigue las configuraciones recomendadas y que finaliza todos los recursos en el plazo de 1 hora tras completar el proyecto. Su caso de uso puede requerir configuraciones diferentes que pueden afectar a su factura. Utilice la calculadora de precios para estimar los costes adaptados a sus necesidades.

Arquitectura del almacén de datos

Este artículo necesita la atención de un experto en Bases de Datos. Por favor, añade una razón o un parámetro de conversación a esta plantilla para explicar el problema con el artículo. El WikiProyecto Bases de Datos puede ayudar a reclutar un experto. (Junio 2009)

Una dimensión es una estructura que categoriza hechos y medidas para permitir a los usuarios responder a preguntas de negocio. Las dimensiones más utilizadas son las personas, los productos, el lugar y el tiempo[1][2] (Nota: las personas y el tiempo a veces no se modelan como dimensiones).

En un almacén de datos, las dimensiones proporcionan información de etiquetado estructurada a medidas numéricas que, de otro modo, serían desordenadas. La dimensión es un conjunto de datos compuesto por elementos de datos individuales y no superpuestos. Las funciones principales de las dimensiones son tres: proporcionar filtrado, agrupación y etiquetado.

Estas funciones se describen a menudo como «slice and dice». Un ejemplo habitual de almacén de datos es el de las ventas como medida, con el cliente y el producto como dimensiones. En cada venta, un cliente compra un producto. Los datos se pueden trocear eliminando todos los clientes excepto los de un grupo en estudio y, a continuación, se pueden trocear agrupándolos por producto.

Ejemplo de almacén de datos

Un almacén de datos (o almacén de datos de la empresa) almacena grandes cantidades de datos que han sido recopilados e integrados desde múltiples fuentes. Dado que las organizaciones dependen de estos datos para el análisis o la elaboración de informes, los datos deben tener un formato coherente y ser fácilmente accesibles, dos cualidades que definen el almacén de datos y lo hacen esencial para las empresas de hoy en día.

En los años 70 y 80, los datos empezaron a proliferar y las organizaciones necesitaban una forma fácil de almacenar y acceder a su información. El informático Bill Inmon, considerado el padre del data warehousing, empezó a definir el concepto en los años 70 y se le atribuye la acuñación del término «data warehouse». En 1992 publicó Building the Data Warehouse, un libro alabado como fuente fundamental de la tecnología de almacenamiento de datos. La definición de Inmon del almacén de datos adopta un enfoque «descendente», en el que primero se establece un repositorio centralizado y luego se crean dentro de ese repositorio los mercados de datos, que contienen subconjuntos específicos de datos.

Almacén de datos frente a lago de datos

Este artículo incluye una lista de referencias generales, pero permanece en gran medida sin verificar porque carece de suficientes citas en línea correspondientes. Por favor, ayude a mejorar este artículo introduciendo citas más precisas. (Noviembre de 2011) (Aprende cómo y cuándo eliminar este mensaje de la plantilla)

Este artículo contiene posiblemente una investigación original. Por favor, mejóralo verificando las afirmaciones realizadas y añadiendo citas en línea. Las afirmaciones que sólo consisten en una investigación original deben ser eliminadas. (Diciembre de 2011) (Aprende cómo y cuándo eliminar este mensaje de la plantilla)

En informática, extraer, transformar, cargar (ETL) es el procedimiento general de copiar datos de una o más fuentes en un sistema de destino que representa los datos de forma diferente a la fuente o fuentes o en un contexto diferente a la fuente o fuentes. El proceso ETL se convirtió en un concepto popular en los años 70 y se utiliza a menudo en el almacenamiento de datos[1].

La extracción de datos implica la extracción de datos de fuentes homogéneas o heterogéneas; la transformación de datos procesa los datos mediante la limpieza de los mismos y su transformación en un formato/estructura de almacenamiento adecuado para fines de consulta y análisis; por último, la carga de datos describe la inserción de los datos en la base de datos de destino final, como un almacén de datos operativos, un data mart, un lago de datos o un almacén de datos[2][3].