# Perfilamiento de datos

#### I) Qué es/Breve explicación
El perfilamiento de datos es un proceso que se utiliza para analizar y evaluar los datos de una fuente de datos con el fin de comprender su calidad y estructura. El objetivo principal del perfilamiento de datos es descubrir problemas, errores o inconsistencias en los datos que puedan afectar su integridad y calidad.

Durante el proceso de perfilamiento de datos, se pueden identificar diversos aspectos de los datos, como la cantidad de registros, la presencia de valores nulos o duplicados, los tipos de datos, la distribución de los valores, los patrones de los datos y las relaciones entre las variables.

El perfilamiento de datos es un paso crítico en el proceso de preparación de datos para su uso en análisis, minería de datos, modelado y otros procesos que requieren datos precisos y confiables. El perfilamiento de datos ayuda a garantizar que los datos estén limpios, completos y coherentes antes de que se utilicen en aplicaciones críticas. Además, el perfilamiento de datos también puede ayudar a identificar patrones y tendencias en los datos que pueden ser útiles para la toma de decisiones empresariales.

#### II) Herramientas / Package para profiling de datos
Existen varias herramientas útiles para el perfilamiento de los datos. Algunas de ellas son:

- **pandas-profiling**: Este paquete genera informes detallados de análisis exploratorio de datos para DataFrames de pandas. Incluye estadísticas descriptivas, visualizaciones y sugerencias para la limpieza de datos.

- **Dataprep**: Es una biblioteca de Python que proporciona una amplia variedad de herramientas de preparación de datos, incluyendo análisis exploratorio de datos, limpieza de datos y preprocesamiento de datos. Ejemplo de uso: https://www.kaggle.com/code/sureshmecad/dataprep-autoeda

- **Sweetviz** 

- **D-Tale**: Permite hacer análisis de forma visual

- **Exploratory**: Software pagado 


#### III) Pandas Profiling
En este Notebook se va a utilizar pandas profiling y se va a mostrar cómo utilizar este package

Sources: https://pypi.org/project/ydata-profiling/

# RUN

### 1) install
- De acuerdo a la documentación pandas-profiling fue reemplazado por ydata-profiling (⚠️ pandas-profiling package naming was changed. To continue profiling data use ydata-profiling instead!)

- Por lo tanto se utiliza este package (ydata-profiling) en el ejemplo

In [None]:
""" install ydata-profiling (actualización pandas profiling) """
# # actualizar matplotlib para las visualizaciones
# !pip install --upgrade matplotlib

# # para ver reportes de profile en notebooks
# !pip install ipywidgets

# para leer excel desde pandas
# !pip install --upgrade openpyxl

# profiling
# !pip install ydata-profiling

In [None]:
! pip show matplotlib

In [None]:
! pip show ydata-profiling 

### 2) import

In [None]:
import pandas as pd
import ydata_profiling

### 3) quick start

In [None]:
import numpy as np
import pandas as pd
from ydata_profiling import ProfileReport

# generar data
df = pd.DataFrame(np.random.rand(100, 5), columns=["a", "b", "c", "d", "e"])

df.head()

In [None]:
# generar un report estandar de profiling
profile = ProfileReport(df, title="Profiling Report")

In [None]:
# ver reporte profile en notebook
profile

In [None]:
# otra forma de ver reporte en notebook
# profile.to_notebook_iframe()

In [None]:
# guardar html con el reporte
profile.to_file("output_quick_start/report.html")

In [None]:
# generar json del reporte
json_data = profile.to_json()
json_data

In [None]:
# guardar json con el reporte
profile.to_file("output_quick_start/report.json")