# PLANTILLA TRANSFORMACIÓN DE DATOS

**IMPORTANTE**: Recuerda hacer una copia de esta plantilla para no machacar la original.

## IMPORTAR PAQUETES

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import OrdinalEncoder
from sklearn.preprocessing import LabelEncoder
from category_encoders import TargetEncoder
from sklearn.preprocessing import KBinsDiscretizer
from sklearn.preprocessing import Binarizer
from sklearn.preprocessing import PowerTransformer
from sklearn.preprocessing import QuantileTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import RobustScaler
from sklearn.preprocessing import MaxAbsScaler
from imblearn.under_sampling import RandomUnderSampler
from imblearn.over_sampling import RandomOverSampler

#Automcompletar rápido
%config IPCompleter.greedy=True

## IMPORTAR LOS DATOS

1.- Sustituir la ruta del proyecto.

In [None]:
ruta_proyecto = 'C:/Users/renata/Google Drive/datosciencia/00_PROYECTO1'

2.- Nombrar los ficheros de datos.

In [None]:
nombre_cat = 'cat_resultado_eda.pickle'
nombre_num = 'num_resultado_eda.pickle'

3.- Cargar los datos.

In [None]:
cat = pd.read_pickle(ruta_proyecto + '/02_Datos/03_Trabajo/' + nombre_cat).reset_index(drop = True)
num = pd.read_pickle(ruta_proyecto + '/02_Datos/03_Trabajo/' + nombre_num).reset_index(drop = True)

4.- Separar la target.

In [None]:
target = num[['contrata_fondos']].copy().reset_index(drop=True)

## TRANSFORMACIÓN DE CATEGÓRICAS

### One Hot Encoding

#### Variables a aplicar OHE

In [None]:
var_ohe = ['estado_civil','hipoteca','impago','consumo']

#### Instanciar

In [None]:
ohe = OneHotEncoder(sparse = False, handle_unknown='ignore')

#### Entrenar y aplicar

In [None]:
cat_ohe = ohe.fit_transform(cat[var_ohe])

#### Guardar como dataframe

In [None]:
cat_ohe = pd.DataFrame(cat_ohe, columns = ohe.get_feature_names_out())

### Ordinal Encoding

#### Variables a aplicar OE

In [None]:
var_oe = ['formacion','resultado_campana_anterior']

#### Orden de los valores de las variables

In [None]:
#Orden de la primera variable
orden_formacion = ['NULO','illiterate','basic.4y','basic.6y','basic.9y','high.school','professional.course','university.degree']

#Orden de la segunda variable
orden_resultado_campana_anterior = ['nonexistent','failure','success']

#### Instanciar

In [None]:
oe = OrdinalEncoder(categories = [orden_formacion,orden_resultado_campana_anterior],
                    handle_unknown = 'use_encoded_value',
                    unknown_value = 10)

#### Entrenar y aplicar

In [None]:
cat_oe = oe.fit_transform(cat[var_oe])

#### Guardar como dataframe

In [None]:
#Añadir sufijos a los nombres
nombres_oe = [variable + '_oe' for variable in var_oe]

#Guardar como dataframe
cat_oe = pd.DataFrame(cat_oe, columns = nombres_oe)

### Target Encoding

#### Variables a aplicar TE

In [None]:
var_te = ['trabajo','mes']

#### Instanciar

In [None]:
te = TargetEncoder(min_samples_leaf=100, return_df = False)

#### Entrenar y aplicar

In [None]:
cat_te = te.fit_transform(cat[var_te], y = target)

#### Guardar como dataframe

In [None]:
#Añadir sufijos a los nombres
nombres_te = [variable + '_te' for variable in var_te]

#Guardar como dataframe
cat_te = pd.DataFrame(cat_te, columns = nombres_te)

### Fechas y textos

Estas variables requieren transformaciones más ad-hoc y no tan susceptibles de aplicar mediante una plantilla.

Acudir a su correspondientes notebooks para recordar los recursos para trabajarlas.

No obstante esta plantilla contiene esta sección para recordar que aquí sería el momento en el que se trabajarían.

## TRANSFORMACIÓN DE NUMÉRICAS

### Discretizar variables

#### Mediante distancia similar

##### Variables a discretizar mediante distancia similar

In [None]:
var_disc_ds = ['num_contactos_esta_campana','num_dias_ultimo_contacto']

##### Instanciar

In [None]:
disc_ds = KBinsDiscretizer(n_bins = 6, strategy = 'uniform', encode = 'ordinal')

##### Entrenar y aplicar

In [None]:
num_disc_ds = disc_ds.fit_transform(num[var_disc_ds])

##### Guardar como dataframe

In [None]:
#Añadir sufijos a los nombres
nombres_ds = [variable + '_disc_ds' for variable in var_disc_ds]

#Guardar como dataframe
num_disc_ds = pd.DataFrame(num_disc_ds,columns = nombres_ds)

#### Mediante número de casos similares

##### Variables a discretizar mediante número de casos similares

In [None]:
var_disc_cs = ['num_contactos_esta_campana','euribor3m']

##### Instanciar

In [None]:
disc_cs = KBinsDiscretizer(n_bins = 2, strategy = 'quantile', encode = 'ordinal')

##### Entrenar y aplicar

In [None]:
num_disc_cs = disc_cs.fit_transform(num[var_disc_cs])

##### Guardar como dataframe

In [None]:
#Añadir sufijos a los nombres
nombres_cs = [variable + '_disc_cs' for variable in var_disc_cs]

#Guardar como dataframe
num_disc_cs = pd.DataFrame(num_disc_cs,columns = nombres_cs)

### Binarizar variables

#### Variables a binarizar

In [None]:
var_bin = ['variacion_tasa_empleo']

#### Instanciar

In [None]:
bin = Binarizer(threshold=0)

#### Entrenar y aplicar

In [None]:
num_bin = bin.fit_transform(num[var_bin])

#### Guardar como dataframe

In [None]:
#Añadir sufijos a los nombres
nombres_bin = [variable + '_bin' for variable in var_bin]

#Guardar como dataframe
num_bin = pd.DataFrame(num_bin,columns = nombres_bin)

### Normalizar (Gauss)

#### Con Yeo-Johnson

##### Variables a normalizar con Yeo-Johnson

In [None]:
var_yeo = ['edad','euribor3m']

##### Instanciar

In [None]:
yeo = PowerTransformer(method = 'yeo-johnson')

##### Entrenar y aplicar

In [None]:
num_yeo = yeo.fit_transform(num[var_yeo])

##### Guardar como dataframe

In [None]:
#Añadir sufijos a los nombres
nombres_yeo = [variable + '_yeo' for variable in var_yeo]

#Guardar como dataframe
num_yeo = pd.DataFrame(num_yeo,columns = nombres_yeo)

#### Con Quantile Transformer

##### Variables a normalizar con Quantile Transformer

In [None]:
var_qt = ['edad','euribor3m']

##### Instanciar

In [None]:
qt = QuantileTransformer(output_distribution='normal')

##### Entrenar y aplicar

In [None]:
num_qt = qt.fit_transform(num[var_qt])

##### Guardar como dataframe

In [None]:
#Añadir sufijos a los nombres
nombres_qt = [variable + '_qt' for variable in var_qt]

#Guardar como dataframe
num_qt = pd.DataFrame(num_qt,columns = nombres_qt)

## UNIFICAR DATASETS TRANSFORMADOS

### Meter en una lista todos los dataframes generados

In [None]:
dataframes = []
dataframes.extend(value for name, value in locals().items() if name.startswith('cat_') or name.startswith('num_'))

### Unir todos los dataframes

In [None]:
df = pd.concat(dataframes, axis = 1)

## REESCALAR VARIABLES

### Con Min-Max

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19330 entries, 0 to 19329
Data columns (total 26 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   estado_civil_OTROS                  19330 non-null  float64
 1   estado_civil_divorced               19330 non-null  float64
 2   estado_civil_married                19330 non-null  float64
 3   estado_civil_single                 19330 non-null  float64
 4   hipoteca_no                         19330 non-null  float64
 5   hipoteca_unknown                    19330 non-null  float64
 6   hipoteca_yes                        19330 non-null  float64
 7   impago_no                           19330 non-null  float64
 8   impago_unknown                      19330 non-null  float64
 9   impago_yes                          19330 non-null  float64
 10  consumo_no                          19330 non-null  float64
 11  consumo_unknown                     19330

#### Variables a reescalar con Min-Max

In [None]:
var_mms = df.iloc[:,13:].columns

#### Instanciar

In [None]:
mms = MinMaxScaler()

#### Entrenar y aplicar

In [None]:
df_mms = mms.fit_transform(df[var_mms])

#### Guardar como dataframe

In [None]:
#Añadir sufijos a los nombres
nombres_mms = [variable + '_mms' for variable in var_mms]

#Guardar como dataframe
df_mms = pd.DataFrame(df_mms,columns = nombres_mms)

### Con estandarización

#### Variables a reescalar con estandarización

In [None]:
var_ss = df.iloc[:,13:].columns

#### Instanciar

In [None]:
ss = StandardScaler()

#### Entrenar y aplicar

In [None]:
df_ss = ss.fit_transform(df[var_ss])

#### Guardar como dataframe

In [None]:
#Añadir sufijos a los nombres
nombres_ss = [variable + '_ss' for variable in var_ss]

#Guardar como dataframe
df_ss = pd.DataFrame(df_ss,columns = nombres_ss)

### Con estandarización robusta

#### Variables a reescalar con estandarización robusta

In [None]:
var_rs = df.iloc[:,13:].columns

#### Percentiles a usar para el rango

In [None]:
p_min = 10.0
p_max = 90.0

#### Instanciar

In [None]:
rs = RobustScaler(quantile_range=(p_min, p_max))

#### Entrenar y aplicar

In [None]:
df_rs = rs.fit_transform(df[var_rs])

#### Guardar como dataframe

In [None]:
#Añadir sufijos a los nombres
nombres_rs = [variable + '_rs' for variable in var_rs]

#Guardar como dataframe
df_rs = pd.DataFrame(df_rs,columns = nombres_rs)

## UNIFICAR DATASETS REESCALADOS

### Crear una lista con los dataframes a incluir en el tablón analítico

In [None]:
incluir = [df, df_mms, df_rs, df_ss, target]

### Unir todos los dataframes en el tablón analítico

In [None]:
df_tablon = pd.concat(incluir, axis = 1)

## GUARDAR DATASET TRAS TRANSFORMACIÓN DE DATOS

En formato pickle para no perder las modificaciones de metadatos.

In [None]:
#Definir los nombres del archivo
ruta_df_tablon = ruta_proyecto + '/02_Datos/03_Trabajo/' + 'df_tablon.pickle'

In [None]:
#Guardar los archivos
df_tablon.to_pickle(ruta_df_tablon)