# ***Notebook Processing*** #

## ***_Potencia tu juego de limpieza de datos con esta nueva herramienta_***

### _Roxana Rachel Valencia Ortega_ 

<img src="https://bigprofitdata.com/wp-content/uploads/2020/06/limpiar-db.png"></img>

### ***Contexto*** ###

El proceso de limpieza de datos es quizás una de las partes del proceso de análisis de datos que consume más tiempo, es más exhaustiva y, a menudo, más frustrante. Buscar duplicados, multicolinealidad, valores faltantes o infinitos, por nombrar algunos, es un tiempo precioso que se pierde al comprender los datos y extraer información útil.

En este Notebook, analizaremos el increíble paquete de Python que es _pandas_dq_ y cómo puede mejorar la velocidad y la calidad de su próxima tarea de limpieza de datos.

Instalación de paquetes

In [181]:
import pandas as pd

In [182]:
import piplite
await piplite.install('pandas-dq')

In [183]:
from pandas_dq import dq_report

In [184]:
from pandas_dq import Fix_DQ

In [185]:
from pandas_dq import DataSchemaChecker

In [157]:
import piplite
await piplite.install('requests')

In [99]:
import piplite
await piplite.install('report')

In [159]:
import piplite
await piplite.install('Jinja2')

## ***¿Como funciona?*** ##
Dado un conjunto de datos, comenzar a utilizar la herramienta es muy sencillo. Actualmente tiene 3 funciones principales:

- informe_dq
- Fix_DQ
- Comprobador de esquema de datos

### ***informe_dq*** ###
El propósito de esta función es generar un informe con todos los problemas de calidad de datos que están presentes en nuestro conjunto de datos.

Importar datos(csv) en dataframe

In [162]:
df = pd.read_csv(r'iris.csv')
df

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
5,5.4,3.9,1.7,0.4,Setosa
6,4.6,3.4,1.4,0.3,Setosa
7,5.0,3.4,1.5,0.2,Setosa
8,4.4,2.9,1.4,0.2,Setosa
9,4.9,3.1,1.5,0.1,Setosa


Podemos ejecutar dq_report de la siguiente manera y nos debueleve los siguientes resultados:

In [190]:
dq_report(df, target=None, verbose=1)

    Alert: Dropping 1 duplicate rows can sometimes cause column data types to change to object. Double-check!


Unnamed: 0,Data Type,Missing Values%,Unique Values%,Minimum Value,Maximum Value,DQ Issue
sepal.length,float64,0.0,,4.3,7.9,No issue
sepal.width,float64,0.0,,2.0,4.4,has 4 outliers greater than upper bound (4.05) or lower than lower bound(2.05). Cap them or remove them.
petal.length,float64,0.0,,1.0,6.9,has a high correlation with ['sepal.length']. Consider dropping one of them.
petal.width,float64,0.0,,0.1,2.5,"has a high correlation with ['sepal.length', 'petal.length']. Consider dropping one of them."
species,int32,0.0,2.0,0.0,2.0,No issue


Unnamed: 0,Data Type,Missing Values%,Unique Values%,Minimum Value,Maximum Value,DQ Issue
sepal.length,float64,0.0,,4.3,7.9,No issue
sepal.width,float64,0.0,,2.0,4.4,has 4 outliers greater than upper bound (4.05) or lower than lower bound(2.05). Cap them or remove them.
petal.length,float64,0.0,,1.0,6.9,has a high correlation with ['sepal.length']. Consider dropping one of them.
petal.width,float64,0.0,,0.1,2.5,"has a high correlation with ['sepal.length', 'petal.length']. Consider dropping one of them."
species,int32,0.0,2.0,0.0,2.0,No issue


El paquete nos dice rápidamente que la función _sepal_widthtiene_ 4 valores atípicos y sugiere que los limitemos (establezcamos cualquier valor atípico en un valor máximo) o los eliminemos. También puede identificar si tenemos características multicolineales (características con una alta correlación), como es el caso de _petal_length_ y _petal_width_ por ejemplo.

También tenemos la opción de ejecutar controles de calidad de datos centrados en objetivos. En las tareas de aprendizaje supervisado (siempre que tengamos un objetivo/etiqueta que predecir), también debemos verificar la relación entre las características y nuestro objetivo objetivo. _dq_report_ hace que esto sea muy fácil para nosotros al permitirnos especificar la columna de destino.

***_Nota_*** : la columna de destino no puede ser un valor no numérico

In [192]:
# map string target to numeric
df['species'] = pd.factorize(df['species'])[0]

dq_report(df, target='species', verbose=1)
df

    Alert: Dropping 1 duplicate rows can sometimes cause column data types to change to object. Double-check!


Unnamed: 0,Data Type,Missing Values%,Unique Values%,Minimum Value,Maximum Value,DQ Issue
sepal.length,float64,0.0,,4.3,7.9,No issue
sepal.width,float64,0.0,,2.0,4.4,has 4 outliers greater than upper bound (4.05) or lower than lower bound(2.05). Cap them or remove them.
petal.length,float64,0.0,,1.0,6.9,"has a high correlation with ['sepal.length']. Consider dropping one of them., petal.length has a correlation >= 0.8 with species. Possible data leakage. Double check this variable."
petal.width,float64,0.0,,0.1,2.5,"has a high correlation with ['sepal.length', 'petal.length']. Consider dropping one of them., petal.width has a correlation >= 0.8 with species. Possible data leakage. Double check this variable."
species,int32,0.0,2.0,0.0,2.0,No issue


Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
5,5.4,3.9,1.7,0.4,0
6,4.6,3.4,1.4,0.3,0
7,5.0,3.4,1.5,0.2,0
8,4.4,2.9,1.4,0.2,0
9,4.9,3.1,1.5,0.1,0


Esta función realiza todas estas comprobaciones:

1. Detecta columnas de ID
2. Detecta columnas de variación cero.
3. Identifica categorías raras (menos del 5% de las categorías en una columna)
4. Encuentra valores infinitos en una columna.
5. Detecta tipos de datos mixtos (es decir, una columna que tiene más de un tipo de datos).
6. Detecta valores atípicos (es decir, una columna flotante que está más allá del rango intercuartil)
7. Detecta características de alta cardinalidad (es decir, una característica que tiene más de 100 categorías)
8. Detecta características altamente correlacionadas (es decir, dos características que tienen una correlación absoluta superior a 0,8).
9. Detecta filas duplicadas (es decir, la misma fila aparece más de una vez en el conjunto de datos)
10. Detecta columnas duplicadas (es decir, la misma columna aparece dos o más veces en el conjunto de datos)
11. Detecta distribuciones sesgadas (es decir, una característica que tiene una desviación superior a 1,0)
12. Detecta clases desequilibradas (es decir, la variable objetivo tiene una clase más que otra de manera significativa)
13. Detecta fugas de características (es decir, una característica que está altamente correlacionada con el objetivo con una correlación > 0,8)

### ***Fix_DQ*** ###
Esta función realiza las mismas comprobaciones realizadas por _dq_report_ pero también las ejecuta en una sola línea de código. Esto generalmente se hace en un conjunto de características (excluyendo la columna de destino) como preparación para el modelado.

Obteniendo los resultados y el marco de datos resultante:

In [193]:
fdq = Fix_DQ()
result = fdq.fit_transform(df.drop('species', axis=1))
df

Alert: Detecting 1 duplicate rows...
    Dropping petal.width which has a high correlation with ['petal.length']
Alert: Dropping 1 duplicate rows can sometimes cause column data types to change to object. Double-check!
Dropped 1 columns total in dataset


Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
5,5.4,3.9,1.7,0.4,0
6,4.6,3.4,1.4,0.3,0
7,5.0,3.4,1.5,0.2,0
8,4.4,2.9,1.4,0.2,0
9,4.9,3.1,1.5,0.1,0


### ***Comprobador de esquema de datos*** ####
Esta función incorpora un esquema de datos y garantiza que nuestro marco de datos se adhiera a ese esquema. Esto es útil cuando queremos garantizar los tipos de datos de nuestras columnas, ya sea porque queremos garantizar tipos de datos consistentes cuando usamos un modelo previamente entrenado, realizar alguna validación de tipo, serialización o incluso ingerirlos en una base de datos.

La principal peculiaridad (quizás un error) de esta función es que generará un AttributeError en caso de que no haya problemas con el tipo de datos.

In [194]:
wrong_schema = dict(zip(df.columns, ['float64', 'float64', 'float64', 'float64', 'float64']))
ds = DataSchemaChecker(schema=wrong_schema)
ds.fit_transform(df)

Unnamed: 0,column,expected_dtype,actual_dtype,data_dtype_mismatch
0,species,float64,int32,Column 'species' has data type 'int32' but expected 'float64'


Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,species
0,5.1,3.5,1.4,0.2,0.0
1,4.9,3.0,1.4,0.2,0.0
2,4.7,3.2,1.3,0.2,0.0
3,4.6,3.1,1.5,0.2,0.0
4,5.0,3.6,1.4,0.2,0.0
5,5.4,3.9,1.7,0.4,0.0
6,4.6,3.4,1.4,0.3,0.0
7,5.0,3.4,1.5,0.2,0.0
8,4.4,2.9,1.4,0.2,0.0
9,4.9,3.1,1.5,0.1,0.0


### ***Observaciones finales*** ###
_pandas_dq_ Sigue siendo una herramienta relativamente nueva que ha mejorado drásticamente el proceso de limpieza de datos para mí. Además de automatizar todo el flujo, también realiza estos pasos notablemente rápido. Definitivamente necesitas repasar sus resultados y profundizar más, pero es increíblemente útil para limitar tu enfoque y ahorrar un tiempo precioso en el proceso.

Esta función realiza todas estas comprobaciones:

Detecta columnas de ID
Detecta columnas de variación cero.
Identifica categorías raras (menos del 5% de las categorías en una columna)
Encuentra valores infinitos en una columna.
Detecta tipos de datos mixtos (es decir, una columna que tiene más de un tipo de datos).
Detecta valores atípicos (es decir, una columna flotante que está más allá del rango intercuartil)
Detecta características de alta cardinalidad (es decir, una característica que tiene más de 100 categorías)
Detecta características altamente correlacionadas (es decir, dos características que tienen una correlación absoluta superior a 0,8).
Detecta filas duplicadas (es decir, la misma fila aparece más de una vez en el conjunto de datos)
Detecta columnas duplicadas (es decir, la misma columna aparece dos o más veces en el conjunto de datos)
Detecta distribuciones sesgadas (es decir, una característica que tiene una desviación superior a 1,0)
Detecta clases desequilibradas (es decir, la variable objetivo tiene una clase más que otra de manera significativa)
Detecta fugas de características (es decir, una característica que está altamente correlacionada con el objetivo con una correlación > 0,8)

### ***Fix_DQ*** ###

Esta función realiza las mismas comprobaciones realizadas por dq_reportpero también las ejecuta en una sola línea de código. Esto generalmente se hace en un conjunto de características (excluyendo la columna de destino) como preparación para el modelado.

In [None]:
de pandas_dq importar Fix_DQ 

fdq = Fix_DQ() 
resultado = fdq.fit_transform(df.drop( 'especie' , eje = 1 ))

Obtenemos el siguiente resultado:

y el marco de datos resultante:

### ***Comprobador de esquema de datos*** ###

Esta función incorpora un esquema de datos y garantiza que nuestro marco de datos se adhiera a ese esquema. Esto es útil cuando queremos garantizar los tipos de datos de nuestras columnas, ya sea porque queremos garantizar tipos de datos consistentes cuando usamos un modelo previamente entrenado, realizar alguna validación de tipo, serialización o incluso ingerirlos en una base de datos.

La principal peculiaridad (quizás un error) de esta función es que generará un AttributeError en caso de que no haya problemas con el tipo de datos.

In [None]:
de pandas_dq importar DataSchemaChecker 

esquema_incorrecto = dict ( zip (df.columns, [ 'float64' , 'float64' , 'float64' , 'float64' , 'float64' ])) 
ds = DataSchemaChecker(schema=wrong_schema) 
ds.fit_transform(df )

### ***Observaciones finales*** ###
pandas_dq Sigue siendo una herramienta relativamente nueva que ha mejorado drásticamente el proceso de limpieza de datos. Además de automatizar todo el flujo, también realiza estos pasos notablemente rápido. Definitivamente necesitas repasar sus resultados y profundizar más, pero es increíblemente útil para limitar tu enfoque y ahorrar un tiempo precioso en el proceso.