# PLANTILLA BALANCEO

**IMPORTANTE**: Recuerda hacer una copia de esta plantilla para no machacar la original.

## IMPORTAR PAQUETES

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

from imblearn.under_sampling import RandomUnderSampler
from imblearn.over_sampling import RandomOverSampler
from imblearn.under_sampling import TomekLinks
from imblearn.over_sampling import SMOTE
from imblearn.combine import SMOTETomek

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import roc_auc_score

#Automcompletar rápido
%config IPCompleter.greedy=True

## IMPORTAR LOS DATOS

Sustituir la ruta del proyecto.

In [None]:
ruta_proyecto = 'C:/Users/renata/Google Drive/datosciencia/00_PROYECTO1'

Nombres de los ficheros de datos.

In [None]:
nombre_x = 'x_preseleccionado.pickle'
nombre_y = 'y_preseleccionado.pickle'

Cargar los datos.

In [None]:
x = pd.read_pickle(ruta_proyecto + '/02_Datos/03_Trabajo/' + nombre_x)
y = pd.read_pickle(ruta_proyecto + '/02_Datos/03_Trabajo/' + nombre_y)

## BALANCEO

El objetivo es probar si el balanceo mejora la predicción en el dataset.

Para ello hay que probar diferentes métodos y al final elegir uno (incluyendo la opción de no balancear).

### Sin balanceo

#### Crear train y test

In [None]:
train_x,test_x,train_y,test_y = train_test_split(x,y,test_size=0.3)

#### Instanciar el modelo

In [None]:
rl_sin_balanceo = LogisticRegression(n_jobs = -1)

#### Entrenar

In [None]:
rl_sin_balanceo.fit(train_x,train_y)

LogisticRegression(n_jobs=-1)

#### Aplicar

In [None]:
pred_rl_sin_balanceo = rl_sin_balanceo.predict_proba(test_x)[:,1]

#### Evaluar

In [None]:
roc_rl_sin_balanceo = roc_auc_score(test_y, pred_rl_sin_balanceo)

roc_rl_sin_balanceo

0.7482532548972767

### Crear dataset balanceado mediante undersampling

#### Instanciar el undersampler

In [None]:
rus = RandomUnderSampler(sampling_strategy= 1)

#### Entrenar y aplicar el undersampler

In [None]:
x_rus, y_rus = rus.fit_resample(x,y)

#### Crear train y test

In [None]:
train_x_rus,test_x_rus,train_y_rus,test_y_rus = train_test_split(x_rus,y_rus,test_size=0.3)

#### Instanciar el modelo

In [None]:
rl_rus = LogisticRegression(n_jobs = -1)

#### Entrenar

In [None]:
rl_rus.fit(train_x_rus,train_y_rus)

LogisticRegression(n_jobs=-1)

#### Aplicar

In [None]:
pred_rl_rus = rl_rus.predict_proba(test_x)[:,1]

#### Evaluar

In [None]:
roc_rl_rus = roc_auc_score(test_y, pred_rl_rus)

roc_rl_rus

0.7488830327281416

### Crear dataset balanceado mediante oversampling

#### Instanciar el oversampler

In [None]:
ros = RandomOverSampler(sampling_strategy= 1)

#### Entrenar y aplicar el oversampler

In [None]:
x_ros, y_ros = ros.fit_resample(x,y)

#### Crear train y test

In [None]:
train_x_ros,test_x_ros,train_y_ros,test_y_ros = train_test_split(x_ros,y_ros,test_size=0.3)

#### Instanciar el modelo

In [None]:
rl_ros = LogisticRegression(n_jobs = -1)

#### Entrenar

In [None]:
rl_ros.fit(train_x_ros,train_y_ros)

LogisticRegression(n_jobs=-1)

#### Aplicar

In [None]:
pred_rl_ros = rl_ros.predict_proba(test_x)[:,1]

#### Evaluar

In [None]:
roc_rl_ros = roc_auc_score(test_y, pred_rl_ros)

roc_rl_ros

0.7487098363592929

### Crear dataset balanceado mediante SMOTE-Tomek

#### Instanciar un Tomek y un SMOTE

In [None]:
tom = TomekLinks(n_jobs = -1)

smo = SMOTE(sampling_strategy = 1, n_jobs = -1)

#### Instanciar el SMOTE-Tomek

In [None]:
sto = SMOTETomek(sampling_strategy = 1,
                 smote = smo,
                 tomek = tom,
                 n_jobs = -1)

#### Entrenar y aplicar el SMOTE-Tomek

In [None]:
x_sto, y_sto = sto.fit_resample(x,y)

#### Crear train y test

In [None]:
train_x_sto,test_x_sto,train_y_sto,test_y_sto = train_test_split(x_sto,y_sto,test_size=0.3)

#### Instanciar el modelo

In [None]:
rl_sto = LogisticRegression(n_jobs = -1)

#### Entrenar

In [None]:
rl_sto.fit(train_x_sto,train_y_sto)

LogisticRegression(n_jobs=-1)

#### Aplicar

In [None]:
pred_rl_sto = rl_sto.predict_proba(test_x)[:,1]

#### Evaluar

In [None]:
roc_rl_sto = roc_auc_score(test_y, pred_rl_sto)

roc_rl_sto

0.7484954311992356

## GUARDAR DATASET TRAS PRESELECCION DE VARIABLES

Descomentar el método de balanceo elegido y dejar comentados el resto.

In [None]:
x_final = x
y_final = y

# x_final = x_rus
# y_final = y_rus

# x_final = x_ros
# y_final = y_ros

# x_final = x_sto
# y_final = y_sto

In [None]:
#Definir los nombres de los archivos
nombre_x_final = ruta_proyecto + '/02_Datos/03_Trabajo/' + 'x_final.pickle'
nombre_y_final = ruta_proyecto + '/02_Datos/03_Trabajo/' + 'y_final.pickle'

In [None]:
#Guardar los archivos
x_final.to_pickle(nombre_x_final)
y_final.to_pickle(nombre_y_final)