Laboratorio: Manejo del desequilibrio de datos en modelos de clasificación
En este laboratorio y en las próximas lecciones construiremos un modelo sobre el problema de clasificación binaria de la pérdida de clientes. Utilizaremos el archivo files_for_lab/Customer-Churn.csv.

Escenario
Usted trabaja como analista en este proveedor de servicios de Internet. Se le proporcionan estos datos históricos sobre los clientes de su empresa y sus tendencias de abandono. Su tarea consiste en crear un modelo de aprendizaje automático que ayude a la empresa a identificar a los clientes con más probabilidades de impago/cancelación y, de este modo, evitar las pérdidas ocasionadas por dichos clientes.

Instrucciones
En este laboratorio, primero echaremos un vistazo al grado de desequilibrio de los datos y lo corregiremos utilizando las técnicas que aprendimos en clase.

Esta es la lista de pasos a seguir (construcción de un modelo simple sin equilibrar los datos):

Importa las librerías y módulos que necesites.
Leer los datos en Python y llamar al dataframe churnData.
Compruebe los tipos de datos de todas las columnas de los datos. Verá que la columna TotalCharges es de tipo objeto. Convierta esta columna a tipo numérico utilizando la función pd.to_numeric.
Compruebe si hay valores nulos en el marco de datos. Sustituya los valores nulos.
Utilice las siguientes características: tenencia, SeniorCitizen, MonthlyCharges y TotalCharges:
Escale las características utilizando un normalizador o un escalador estándar.
Divida los datos en un conjunto de entrenamiento y un conjunto de prueba.
Ajuste un modelo de regresión logística a los datos de entrenamiento.
Comprobar la precisión en los datos de prueba.
Nota: Hasta ahora no hemos equilibrado los datos.

Gestión del desequilibrio en el conjunto de datos

Compruebe el desequilibrio.
Utiliza las estrategias de remuestreo usadas en clase para el remuestreo ascendente y descendente con el fin de crear un equilibrio entre las dos clases.
Ajuste cada vez el modelo y compruebe su precisión.

In [1]:
# 1. Import the required libraries and modules that you would need.

import pandas as pd
df = pd.read_csv(r"C:\Users\anasa\Desktop\Ana\IRONHACK\Labs\Python ll\Lab Handling Data Imbalance in Classification Models\Customer-Churn.csv")


In [2]:
# 2. Read that data into Python and call the dataframe churnData.
df.head()

Unnamed: 0,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,MonthlyCharges,TotalCharges,Churn
0,Female,0,Yes,No,1,No,No,Yes,No,No,No,No,Month-to-month,29.85,29.85,No
1,Male,0,No,No,34,Yes,Yes,No,Yes,No,No,No,One year,56.95,1889.5,No
2,Male,0,No,No,2,Yes,Yes,Yes,No,No,No,No,Month-to-month,53.85,108.15,Yes
3,Male,0,No,No,45,No,Yes,No,Yes,Yes,No,No,One year,42.3,1840.75,No
4,Female,0,No,No,2,Yes,No,No,No,No,No,No,Month-to-month,70.7,151.65,Yes


In [3]:
# 3. Check the datatypes of all the columns in the data. You would see that the column TotalCharges is object type. 
# # Convert this column into numeric type using pd.to_numeric function.
df.dtypes

gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
MonthlyCharges      float64
TotalCharges         object
Churn                object
dtype: object

In [4]:
df["TotalCharges"] = df["TotalCharges"].replace({" ": 0})
df["TotalCharges"] = pd.to_numeric(df["TotalCharges"])

In [5]:
df.dtypes

gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
MonthlyCharges      float64
TotalCharges        float64
Churn                object
dtype: object

In [6]:
# 4. Check for null values in the dataframe. Replace the null values
conteo_null_por_columna = df.isnull().sum()

# Muestra el conteo de NaN por columna
print(conteo_null_por_columna)

gender              0
SeniorCitizen       0
Partner             0
Dependents          0
tenure              0
PhoneService        0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
Contract            0
MonthlyCharges      0
TotalCharges        0
Churn               0
dtype: int64


In [7]:
# 5. Use the following features: tenure, SeniorCitizen, MonthlyCharges and TotalCharges:
    # Scale the features either by using normalizer or a standard scaler.
    # Split the data into a training set and a test set.
    # Fit a logistic regression model on the training data.
    # Check the accuracy on the test data.

In [8]:
X=df[["tenure", "SeniorCitizen", "MonthlyCharges", "TotalCharges"]]
y= df[["Churn"]]

In [9]:
from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(df['Churn'])
df_reducido2 = label_encoder.fit_transform(df['Churn'])

In [10]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

In [11]:
# División en conjunto de entrenamiento y conjunto de prueba (80% entrenamiento, 20% prueba)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=42)

In [12]:
# Inicializar el modelo de regresión lineal
model = LinearRegression()

In [13]:
# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

In [14]:
# Predicción en el conjunto de prueba
y_pred = model.predict(X_test)

In [15]:
# Podemos ahora valorar la precisón del modleo creado:
# Predecir los valores para el conjunto de prueba
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
y_pred = model.predict(X_test)

# Calcular las métricas de evaluación
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error (MSE): {mse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"R² Score: {r2:.2f}")

Mean Squared Error (MSE): 0.14
Mean Absolute Error (MAE): 0.30
R² Score: 0.28


In [40]:
from sklearn.metrics import mean_squared_error, accuracy_score
# Podemos ahora valorar la precisón del modleo creado:
# Predecir los valores para el conjunto de prueba

y_pred_binary = y_pred.round().astype(int)


# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred_binary)
print(f"Accuracy: {accuracy * 100:.2f}%")

Accuracy: 79.57%


Managing imbalance in the dataset

Check for the imbalance.
Use the resampling strategies used in class for upsampling and downsampling to create a balance between the two classes.
Each time fit the model and see how the accuracy of the model is.

In [18]:
df.head()

Unnamed: 0,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,MonthlyCharges,TotalCharges,Churn
0,Female,0,Yes,No,1,No,No,Yes,No,No,No,No,Month-to-month,29.85,29.85,No
1,Male,0,No,No,34,Yes,Yes,No,Yes,No,No,No,One year,56.95,1889.5,No
2,Male,0,No,No,2,Yes,Yes,Yes,No,No,No,No,Month-to-month,53.85,108.15,Yes
3,Male,0,No,No,45,No,Yes,No,Yes,Yes,No,No,One year,42.3,1840.75,No
4,Female,0,No,No,2,Yes,No,No,No,No,No,No,Month-to-month,70.7,151.65,Yes


In [20]:
df=df.replace({"Churn":{"No":0, "Yes":1}})

  df=df.replace({"Churn":{"No":0, "Yes":1}})


In [21]:
(df["Churn"]==0).sum()

5174

In [22]:
(df["Churn"]==1).sum()

1869

In [24]:
# APLICAMOS EL METODO SMOTE
from imblearn.over_sampling import SMOTE
df_reducido2=df[["tenure", "SeniorCitizen", "MonthlyCharges", "TotalCharges", "Churn"]]
# Definir las variables independientes (X) y la variable objetivo (y)
X2 = df_reducido2.drop(columns=['Churn'])
y2 = df_reducido2['Churn']

# Dividir los datos en entrenamiento y prueba (80%-20%)
X_train2, X_test2, y_train2, y_test2 = train_test_split(X2, y2, test_size=0.2, random_state=42)

# Aplicar SMOTE al conjunto de entrenamiento
smote = SMOTE(random_state=42)
X_train_smote2, y_train_smote2 = smote.fit_resample(X_train2, y_train2)

# Verificar el balance de clases después de aplicar SMOTE
print("Distribución de clases antes de SMOTE:")
print(y_train2.value_counts())

print("Distribución de clases después de SMOTE:")
print(y_train_smote2.value_counts())

Distribución de clases antes de SMOTE:
Churn
0    4138
1    1496
Name: count, dtype: int64
Distribución de clases después de SMOTE:
Churn
0    4138
1    4138
Name: count, dtype: int64


In [39]:
from sklearn.metrics import mean_squared_error, accuracy_score
# Podemos ahora valorar la precisón del modleo creado:
# Predecir los valores para el conjunto de prueba
y_pred2 = model.predict(X_test2)

y_pred2_binary = y_pred2.round().astype(int)


# Calcular la precisión del modelo
accuracy = accuracy_score(y_test2, y_pred2_binary)
print(f"Accuracy: {accuracy * 100:.2f}%")

Accuracy: 80.41%
