# PLANTILLA BALANCEO

## 1. IMPORTAR PAQUETES

In [46]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from imblearn.under_sampling import RandomUnderSampler
from imblearn.over_sampling import RandomOverSampler
from imblearn.under_sampling import TomekLinks
from imblearn.over_sampling import SMOTE
from imblearn.combine import SMOTETomek

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
#Automcompletar rápido
%config IPCompleter.greedy=True

## 2. IMPORTAR LOS DATOS

Sustituir la ruta del proyecto.

In [47]:
ruta_proyecto = 'C:/Users/Oscar/OneDrive - FM4/Escritorio/Python Data Mastery/EstructuraDirectorio/03_MACHINE_LEARNING/08_CASOS/007_AIRBNB'

Nombres de los ficheros de datos.

In [48]:
nombre_x = 'x_preseleccionado.pickle'
nombre_y = 'y_preseleccionado.pickle'

Cargar los datos.

In [49]:
x = pd.read_pickle(ruta_proyecto + '/02_Datos/03_Trabajo/' + nombre_x)
y = pd.read_pickle(ruta_proyecto + '/02_Datos/03_Trabajo/' + nombre_y)

## 3. BALANCEO

Objetivo: Probar si el balanceo mejora la predicción en el dataset y/o se puede trabajar con un dataset mas pequeño que reduzca el esfuerzo computacional

Para decidir sobre el balanceo, aplicamos los diferentes métodos o no balanceo y usamos LogisticRegression (Después decidiremos el modelo para predecir)

### 3.1. Sin balanceo

#### 3.1.1. Crear train y test

In [50]:
train_x,test_x,train_y,test_y = train_test_split(x,y,test_size=0.3)
test_y.shape

#### 3.1.2. Instanciar el modelo

In [51]:
rl_sin_balanceo = LogisticRegression(n_jobs = -1)

#### 3.1.3. Entrenar

In [52]:
rl_sin_balanceo.fit(train_x,train_y)

####  3.1.4. Aplicar

In [53]:
pred_rl_sin_balanceo = rl_sin_balanceo.predict_proba(test_x)[:,1]
pred_rl_sin_balanceo.shape

#### 3.1.5. Evaluar

In [54]:
roc_rl_sin_balanceo = roc_auc_score(test_y, pred_rl_sin_balanceo)
roc_rl_sin_balanceo

### 3.2. Crear dataset balanceado mediante undersampling

#### 3.2.1. Instanciar el undersampler

In [55]:
rus = RandomUnderSampler(sampling_strategy= 1)

#### 3.2.2. Entrenar y aplicar el undersampler

In [56]:
x_rus, y_rus = rus.fit_resample(x,y)

#### 3.2.3. Crear train y test

In [57]:
train_x_rus,test_x_rus,train_y_rus,test_y_rus = train_test_split(x_rus,y_rus,test_size=0.3)

#### 3.2.4. Instanciar el modelo

In [58]:
rl_rus = LogisticRegression(n_jobs = -1)

#### 3.2.5. Entrenar

In [59]:
rl_rus.fit(train_x_rus,train_y_rus)

#### 3.2.6.  Aplicar

In [60]:
pred_rl_rus = rl_rus.predict_proba(test_x)[:,1]

#### 3.2.7. Evaluar

In [61]:
roc_rl_rus = roc_auc_score(test_y, pred_rl_rus)
roc_rl_rus

### 3.3. Crear dataset balanceado mediante oversampling

#### 3.3.1. Instanciar el oversampler

In [62]:
ros = RandomOverSampler(sampling_strategy= 1)

#### 3.3.2. Entrenar y aplicar el oversampler

In [63]:
x_ros, y_ros = ros.fit_resample(x,y)

#### 3.3.3. Crear train y test

In [64]:
train_x_ros,test_x_ros,train_y_ros,test_y_ros = train_test_split(x_ros,y_ros,test_size=0.3)

#### 3.3.4. Instanciar el modelo

In [65]:
rl_ros = LogisticRegression(n_jobs = -1)

#### 3.3.5. Entrenar

In [66]:
rl_ros.fit(train_x_ros,train_y_ros)

#### 3.3.6. Aplicar

In [67]:
pred_rl_ros = rl_ros.predict_proba(test_x)[:,1]

#### 3.3.7. Evaluar

In [68]:
roc_rl_ros = roc_auc_score(test_y, pred_rl_ros)
roc_rl_ros

### 3.4. Crear dataset balanceado mediante SMOTE-Tomek

#### 3.4.1. Instanciar un Tomek y un SMOTE

In [69]:
tom = TomekLinks()
smo = SMOTE(sampling_strategy = 1)

#### 3.4.2. Instanciar el SMOTE-Tomek

In [70]:
sto = SMOTETomek(sampling_strategy = 1, 
                 smote = smo,
                 tomek = tom)

#### 3.4.3. Entrenar y aplicar el SMOTE-Tomek

In [71]:
x_sto, y_sto = sto.fit_resample(x,y)

#### 3.4.4. Crear train y test

In [72]:
train_x_sto,test_x_sto,train_y_sto,test_y_sto = train_test_split(x_sto,y_sto,test_size=0.3)

#### 3.4.5. Instanciar el modelo

In [73]:
rl_sto = LogisticRegression(n_jobs = -1)

#### 3.4.6. Entrenar

In [74]:
rl_sto.fit(train_x_sto,train_y_sto)

#### 3.4.7. Aplicar

In [75]:
pred_rl_sto = rl_sto.predict_proba(test_x)[:,1]

#### 3.4.8. Evaluar

In [76]:
roc_rl_sto = roc_auc_score(test_y, pred_rl_sto)
roc_rl_sto

### 3.5. Penalización por peso en el modelo

#### 3.5.1. Crear train y test

In [77]:
#Se cogen los mismos grupos porque en este caso se van a balancear pero para la evaluación es sobre los mismos grupos
train_x,test_x,train_y,test_y = train_test_split(x,y,test_size=0.3)

#### 3.5.2. Instanciar el modelo

In [78]:
roc_rl_pes = LogisticRegression(n_jobs = -1,class_weight = 'balanced')

#### 3.5.3. Entrenar

In [79]:
roc_rl_pes.fit(train_x,train_y)

####  3.5.4. Aplicar

In [80]:
pred_rl_pes = roc_rl_pes.predict_proba(test_x)[:,1]

#### 3.5.5. Evaluar

In [81]:
roc_rl_pes = roc_auc_score(test_y, pred_rl_pes)
roc_rl_pes

## Evaluación de los resultados del balanceo

In [82]:
#Esta función se usa para poder comparar la capacidad de predicción de un modelo (Métrica AUC) sobre un dataset sin balancear
#y balanceado con diferentes métodos y tambien podemos ver la variación de las métricas (Recall/Precision) según el umbral 
#que le marquemos 
'''
1º. Hacer todo el proceso de predicción sin balancear el dataset para tener 
un punto de comparación con el dataset balanceado
2º. Hacer todos los métodos de balanceo que incluyamos en la tupla

Despues:
'''
#Definimos el umbral que aceptaremos
umbral = 0.2

# Calcular AUC para cada método
auc_sin_balanceo = roc_auc_score(test_y, pred_rl_sin_balanceo)
auc_rus = roc_auc_score(test_y, pred_rl_rus)
auc_ros = roc_auc_score(test_y, pred_rl_ros)
auc_sto = roc_auc_score(test_y, pred_rl_sto)
auc_pes = roc_auc_score(test_y, pred_rl_pes)

#Generamos una lista de tuplas para contener la información
resultados_por_metodo = [(('Sin balanceo', test_y, np.where(pred_rl_sin_balanceo > umbral,1,0)),roc_rl_sin_balanceo),
             (('Random Under Sampling',test_y,np.where(pred_rl_rus > umbral,1,0)),roc_rl_rus),
             (('Random Over Sampling',test_y,np.where(pred_rl_ros > umbral,1,0)),roc_rl_ros),
             (('SMOTE - Tomek',test_y,np.where(pred_rl_sto > umbral,1,0)),roc_rl_sto),
             (('Penalizacion peso',test_y,np.where(pred_rl_pes > umbral,1,0)),roc_rl_pes)]

#Ahora vamos a crear una función que nos devuelva toda la info que queremos.
from sklearn.metrics import confusion_matrix

# Definir la función para calcular métricas
def calcular_metricas(tupla, roc):
    
    #TUPLE UNPACKING
    metodo, real, predicho = tupla

    # Calculamos la matriz de confusión
    conf = confusion_matrix(real, predicho)
    tn, fp, fn, tp = conf.ravel()
    total_casos = len(real)  # Usar len(real) en lugar de y.shape[0]

    # Calcular métricas evitando divisiones por 0
    accuracy = (tn + tp) / total_casos
    precision = tp / (tp + fp) if (tp + fp) > 0 else 0
    recall = tp / (tp + fn) if (tp + fn) > 0 else 0
    F1 = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0

    #IMPRIMIR RESULTADOS
    print(metodo.upper())
    print('------------------------------')
    print('AUC: ', round(roc,3))
    print('Matriz de confusión\n',pd.DataFrame(conf))
    print('accuracy:',round(accuracy,3))
    print('recall:',round(recall,3))    
    print('precision:',round(precision,3))
    print('F1:',round(F1,3),'\n\n')

#Hacemos un bucle para ir extrayendo los resultados
for metodo, roc in resultados_por_metodo:
    calcular_metricas(metodo, roc)

In [83]:
print('SIN Balanceo:', round(roc_rl_sin_balanceo,5))
print('Balanceo undersampling:', round(roc_rl_rus,5))
print('Balanceo oversampling:', round(roc_rl_ros,5))
print('Balanceo SMOTE-Tomek:', round(roc_rl_sto,5))
print('Penalización por peso:', round(roc_rl_pes,5))

Comprobamos el tamaño de los datasets

In [84]:
print('SIN Balanceo:', x.shape)
print('Balanceo undersampling:', x_rus.shape) #Mas eficiente. Igual AUC en LogisticRegression con dataset mas pequeño
print('Balanceo oversampling:', x_ros.shape)
print('Balanceo SMOTE-Tomek:', x_sto.shape)
print('Penalización por peso:', x.shape)

## 4. SELECCION DE VARIABLES

Descomentar el método de balanceo elegido y dejar comentados el resto.

In [85]:
x_final = x #SIN Balanceo
y_final = y #SIN Balanceo

# x_final = x_rus #Undersampling
#y_final = y_rus #Undersampling

# x_final = x_ros #Oversampling
# y_final = y_ros #Oversampling

# x_final = x_sto #SMOTE-Tomek
# y_final = y_sto #SMOTE-Tomek

## 5. GUARDADO DE DATASET

In [86]:
#Definir los nombres de los archivos
nombre_x_final = ruta_proyecto + '/02_Datos/03_Trabajo/' + 'x_final.pickle'
nombre_y_final = ruta_proyecto + '/02_Datos/03_Trabajo/' + 'y_final.pickle'

In [87]:
#Guardar los archivos
x_final.to_pickle(nombre_x_final)
y_final.to_pickle(nombre_y_final)