Data profiling using informatica

desafíos en la elaboración de perfiles de datos

La creación de perfiles de datos es el proceso de evaluación de la calidad y la estructura de las fuentes de datos para obtener una imagen completa y 100 % exacta de los mismos. La elaboración de perfiles de datos verifica que las columnas de datos están pobladas con los tipos de datos que usted espera. Si un perfil revela problemas en los datos, puede definir pasos en su proyecto de calidad de datos para solucionar esos problemas. La elaboración de perfiles de datos promueve una buena gobernanza de los datos.

Nada pone en riesgo un proyecto más rápidamente que empezar con datos que han sido comprometidos. La experiencia del sector ha demostrado que los proyectos de modernización de aplicaciones y de integración de datos son propensos a los mismos retos y problemas que son comunes a todos los tipos de proyectos de TI: sufren excesos de tiempo y presupuesto, compensaciones entre la calidad y los plazos, y fracasos rotundos del proyecto porque se basan en una comprensión inexacta o incompleta de los datos de origen. Un artículo reciente de McKinsey señalaba que «la calidad de los datos es un reto importante, y a menudo subestimado, que debe abordarse en una fase temprana de cualquier esfuerzo digital».

calidad de datos de informatica ppt

Uno de los primeros pasos para resolver un problema de calidad de datos es realizar un perfilado de datos. Como se ve en el artículo de Jason Hover, Data Profiling: ¿Qué, por qué y cómo?, el perfilado de datos permite analizar los datos para determinar su aspecto y los problemas que existen en ellos. El perfilado de datos manual puede llevarse a cabo; sin embargo, el uso de software como Informatica Data Quality permite a los administradores de datos y a los desarrolladores perfilar los datos de forma colaborativa en un repositorio común con mayor rapidez, lo que a menudo da lugar a un análisis más exhaustivo.

Como se ve en la imagen (A.1), un administrador de datos puede ver que hay 4 registros con un valor NULL en la columna ADDR2. El administrador de datos también puede ver que los valores son mixtos. En este caso, el administrador de datos puede determinar que los valores NULL no son válidos y que los valores deben normalizarse en mayúsculas. Los valores de San Diego, SD, SAN DIEGO también deberían ser todos SAN DIEGO. El administrador de datos puede añadir esto como un comentario para que el desarrollador cree una regla (A.2).

El desarrollador puede ahora aplicar reglas de perfil a la columna ADDR2 basadas en las reglas de negocio proporcionadas. La aplicación de reglas de perfil permite al administrador de datos identificar posibles incoherencias en los datos y corregir potencialmente los datos en el sistema fuente. Nota: El resultado de la regla de perfil es una columna virtual en el perfil; la regla no se ha aplicado a los datos físicamente hasta que se ha creado una asignación en Developer.

mejores prácticas de calidad de datos de informatica

El procesamiento y el análisis de datos no pueden llevarse a cabo sin la elaboración de perfiles de datos, es decir, sin la revisión del contenido y la calidad de los datos de origen. A medida que los datos aumentan de tamaño y la infraestructura se traslada a la nube, la creación de perfiles de datos es cada vez más importante.    ¿Necesita conseguir un perfil de big data con tiempo y recursos limitados?

Validar que los datos son coherentes y están formateados correctamente, y realizar comprobaciones matemáticas de los datos (por ejemplo, suma, mínimo o máximo). El descubrimiento de la estructura ayuda a comprender lo bien que están estructurados los datos; por ejemplo, qué porcentaje de números de teléfono no tienen el número correcto de dígitos.

Examinar los registros de datos individuales para descubrir errores. El descubrimiento del contenido identifica qué filas específicas de una tabla contienen problemas y qué problemas sistémicos se producen en los datos (por ejemplo, números de teléfono sin código de área).

Descubrir cómo se interrelacionan las partes de los datos. Por ejemplo, las relaciones clave entre las tablas de la base de datos o las referencias entre las celdas o tablas de una hoja de cálculo. Comprender las relaciones es crucial para reutilizar los datos; las fuentes de datos relacionadas deben unirse en una sola o importarse de forma que se conserven las relaciones importantes.

tutorial de calidad de datos de informatica

La calidad de datos es el proceso de comprender la calidad de los atributos de los datos, como los tipos de datos, el patrón de datos, los valores existentes, etc. La calidad de datos también consiste en capturar la puntuación de un atributo en función de algunas restricciones específicas. Por ejemplo, obtener el recuento de registros para los que el valor del atributo es NULL, o encontrar el recuento de registros para los que un atributo de fecha no encaja en el Patrón de Fecha especificado.

Esto significa que podemos ponderar la calidad de los datos en cualquier medida, independientemente de que los datos disponibles sean buenos o malos. Este informe de Calidad de Datos puede ser capturado con los detalles completos de los datos, a nivel de registro o incluso a nivel de atributo. Con este informe, las empresas pueden identificar la calidad de los datos y determinar cómo pueden utilizarse para ayudar o beneficiar al cliente. También se puede elaborar un plan para mejorar la calidad de los datos aplicando reglas de negocio y corrigiendo la información requerida en función de las necesidades del negocio.

Esta entrada del blog tiene como objetivo destacar la importancia de la calidad de los datos, la generación de informes de calidad de los datos y los pasos necesarios para la automatización de los informes de calidad de los datos mediante la función de programación de Informatica IDQ.