# Iris dataset profiling
En este ejemplo se hace el profiling de uno de los datasets más conocidos (iris dataset)

In [None]:
from sklearn import datasets
import pandas as pd
from ydata_profiling import ProfileReport

### 1) Load data

In [None]:
# load data
iris = datasets.load_iris()

In [None]:
# generar x
X = pd.DataFrame(iris.data, columns = iris.feature_names)
X.head()

In [None]:
# generar y
y = pd.DataFrame(iris.target)
y = y.replace({0:'setosa', 1:'versicolor', 2:'virginica'})
y.head()

In [None]:
# unir en un dataset
data = X.copy()
data['taget'] = y
data.head()

In [None]:
# guardar csv con la data
data.to_csv('iris_data.csv')

### 2) Generar reporte html del dataset

In [None]:
# generar un report estandar de profiling
profile = ProfileReport(data, title = "Iris Dataset Report")

# guardar html con el reporte
profile.to_file("output_iris_dataset/report.html")

In [None]:
profile

### 3) Generar reporte minimal
- Ydata-profiling tiene un alto costo computacional para hacer los análisis de correlaciones, interacciones, missing values, valores duplicados
- Entonces se puede fijar el parámetro minimal para generar un reporte que solo realize los cálculos con menor costo computacional
- Esto sirve como punto de partida para el análisis de datasets de gran tamaño
- Documentación profiling large datasets: https://ydata-profiling.ydata.ai/docs/master/pages/use_cases/big_data.html#

In [None]:
# generar un report estandar de profiling - minimal
profile = ProfileReport(data, title = "Iris Dataset Report", minimal=True)

# guardar html con el reporte
profile.to_file("output_iris_dataset/report_minimal.html")

In [None]:
profile

### 4) Separar data en train y test. Luego generar reporte comparando ambos datasets
- Objetivo comparar 2 datasets
- En el ejemplo se comparan train vs test
- Pero también se podría comparar reporte antes de hacer alguna limpieza y luego de hacer alguna limpieza
- También se pueden comparar 3+ datasets (ver documentación)

Documentación: https://ydata-profiling.ydata.ai/docs/master/pages/use_cases/comparing_datasets.html

In [None]:
# separar train test
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

In [None]:
# generar data_train y data_test
data_train = X_train.copy()
data_train['target'] = y_train

data_test = X_test.copy()
data_test['target'] = y_test

In [None]:
data_train.head()

In [None]:
data_test.head()

In [None]:
# generar reporte comparando ambos datasets
from pandas_profiling import ProfileReport


# generar reporte individual
train_report = ProfileReport(data_train, title = "Iris Dataset train")
test_report = ProfileReport(data_test, title = "Iris Dataset test")


# generar reporte comparando reportes individuales
comparison_report = train_report.compare(test_report)
comparison_report.to_file("output_iris_dataset/comparison_train_test.html")

In [None]:
comparison_report