# Análisis exploratorio de datos con ydata-profiling

Es un módulo open source de Python con el que podemos hacer rápidamente un análisis exploratorio de datos con solo unas pocas líneas de código. Nos genera un informe con toda la información fácilmente visible y nos ayuda a visualizar y entender la distribución de cada variable, al mismo tiempo permite exportar el análisis de datos en diferentes formatos, como html y json.

In [None]:
'''Características del informe

Inferencia de tipos: detección automática de los tipos de datos de las columnas (Categorical, Numerical, Date, etc.)

Advertencias: un resumen de los problemas/desafíos en los datos en los que podría necesitar trabajar (datos faltantes, inexactitudes, asimetría, etc.)

Análisis univariado: incluye estadísticas descriptivas (media, mediana, moda, etc.) y visualizaciones informativas como histogramas de distribución

Análisis multivariado: incluidas las correlaciones, un análisis detallado de los datos faltantes, filas duplicadas y soporte visual para la interacción de pares de variables

Serie temporal: incluye información estadística diferente relativa a los datos dependientes del tiempo, como la autocorrelación y la estacionalidad, a lo largo de los gráficos ACF y PACF.

Análisis de texto: categorías más comunes (mayúsculas, minúsculas, separador), escrituras (latín, cirílico) y bloques (ASCII, cirílico)

Análisis de archivos e imágenes: tamaños de archivos, fechas de creación, dimensiones, indicación de imágenes truncadas y existencia de metadatos EXIF

Comparar conjuntos de datos: solución de una línea para habilitar un informe rápido y completo sobre la comparación de conjuntos de datos

Formatos de salida flexibles: todos los análisis se pueden exportar a un informe HTML que se puede compartir fácilmente con diferentes partes, como JSON para una fácil integración en sistemas automatizados y como widget en un Jupyter Notebook.

El informe contiene tres secciones adicionales:

Descripción general: en su mayoría detalles globales sobre el conjunto de datos (número de registros, número de variables, fallas generales y duplicados, huella de memoria)

Alertas: una lista completa y automática de posibles problemas de calidad de datos (alta correlación, asimetría, uniformidad, ceros, valores faltantes, valores constantes, entre otros)

Reproducción: detalles técnicos sobre el análisis (tiempo, versión y configuración)'''

In [7]:
pip install ydata-profiling

Collecting ydata-profiling
  Downloading ydata_profiling-4.0.0-py2.py3-none-any.whl (344 kB)
Collecting typeguard<2.14,>=2.13.2
  Downloading typeguard-2.13.3-py3-none-any.whl (17 kB)
Collecting visions[type_image_path]==0.7.5
  Downloading visions-0.7.5-py3-none-any.whl (102 kB)
Collecting statsmodels<0.14,>=0.13.2
  Downloading statsmodels-0.13.5-cp39-cp39-win_amd64.whl (9.2 MB)
Collecting packaging>=21.3
  Downloading packaging-23.0-py3-none-any.whl (42 kB)
Installing collected packages: visions, packaging, typeguard, statsmodels, ydata-profiling
  Attempting uninstall: visions
    Found existing installation: visions 0.7.4
    Uninstalling visions-0.7.4:
      Successfully uninstalled visions-0.7.4Note: you may need to restart the kernel to use updated packages.

  Attempting uninstall: packaging
    Found existing installation: packaging 21.0
    Uninstalling packaging-21.0:
      Successfully uninstalled packaging-21.0
  Attempting uninstall: statsmodels
    Found existing instal

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
pandas-profiling 3.2.0 requires visions[type_image_path]==0.7.4, but you have visions 0.7.5 which is incompatible.


Successfully installed packaging-23.0 statsmodels-0.13.5 typeguard-2.13.3 visions-0.7.5 ydata-profiling-4.0.0


In [23]:
import numpy as np
import pandas as pd
from ydata_profiling import ProfileReport

In [24]:
df = pd.DataFrame(np.random.rand(100, 5), columns=["a", "b", "c", "d", "e"])
profile = ProfileReport(df, title="Profiling Report")
profile.to_file("your_report.html")

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

In [25]:
profile.to_widgets()

Render widgets:   0%|          | 0/1 [00:00<?, ?it/s]

VBox(children=(Tab(children=(Tab(children=(GridBox(children=(VBox(children=(GridspecLayout(children=(HTML(valu…