# Subiendo archivos e importando bibliotecas

In [39]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns


import warnings
warnings.filterwarnings('ignore')

from sklearn.preprocessing import MinMaxScaler
from sklearn.dummy import DummyClassifier
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

In [2]:
df = pd.read_csv('/content/datos_tratados.csv')

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 22 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   id_cliente               7043 non-null   object 
 1   perdida                  7043 non-null   int64  
 2   genero                   7043 non-null   object 
 3   ciudadano_Mayor          7043 non-null   int64  
 4   socio                    7043 non-null   int64  
 5   dependientes             7043 non-null   int64  
 6   antiguedad               7043 non-null   int64  
 7   servicio_telefonico      7043 non-null   int64  
 8   lineas_multiples         7043 non-null   object 
 9   servicio_internet        7043 non-null   object 
 10  seguridad_online         7043 non-null   object 
 11  copia_seguridad_online   7043 non-null   object 
 12  proteccion_dispositivo   7043 non-null   object 
 13  soporte_tecnico          7043 non-null   object 
 14  streaming_tv            

# Se elimina la informacion y columnas irrelevantes

In [4]:
#Se elimina la informacion y columnas irrelevantes

# Se crea una copia del dataframe original
df_limpio = df.copy()

#Se elimina id cliente ya que es irrelevante para el modelo predictivo
df_limpio = df_limpio.drop(columns=['id_cliente'])

cols_fix = [
            'seguridad_online','copia_seguridad_online','proteccion_dispositivo',
            'soporte_tecnico','streaming_tv','streaming_peliculas'
]

for col in cols_fix:
  df_limpio[col] = df_limpio[col].replace('No internet service', 'No')

In [5]:
df_limpio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   perdida                  7043 non-null   int64  
 1   genero                   7043 non-null   object 
 2   ciudadano_Mayor          7043 non-null   int64  
 3   socio                    7043 non-null   int64  
 4   dependientes             7043 non-null   int64  
 5   antiguedad               7043 non-null   int64  
 6   servicio_telefonico      7043 non-null   int64  
 7   lineas_multiples         7043 non-null   object 
 8   servicio_internet        7043 non-null   object 
 9   seguridad_online         7043 non-null   object 
 10  copia_seguridad_online   7043 non-null   object 
 11  proteccion_dispositivo   7043 non-null   object 
 12  soporte_tecnico          7043 non-null   object 
 13  streaming_tv             7043 non-null   object 
 14  streaming_peliculas     

# OneHotEncoding

In [6]:
categorical_cols = [
       'perdida', 'genero', 'ciudadano_Mayor', 'socio', 'dependientes',
       'servicio_telefonico', 'lineas_multiples', 'servicio_internet',
       'seguridad_online', 'copia_seguridad_online',
       'proteccion_dispositivo', 'soporte_tecnico', 'streaming_tv',
       'streaming_peliculas', 'contrato', 'facturacion_electronica',
       'metodo_pago'
]

# Excluir columnas numéricas que no necesitan codificación
# 'perdida', 'ciudadano_Mayor', 'socio', 'dependientes', 'servicio_telefonico', 'facturacion_electronica'
# Ya son numéricas binarias o representan categorías que no requieren one-hot encoding basado en el contexto.
# 'antiguedad', 'cargos_mensuales', 'cargos_totales', 'cargos_diarios' son numéricas continuas.

cols_to_encode = [col for col in categorical_cols if col in df_limpio.columns and df_limpio[col].dtype == 'object']


df_encoded = pd.get_dummies(df_limpio, columns=cols_to_encode, drop_first=True)

display(df_encoded.head())

Unnamed: 0,perdida,ciudadano_Mayor,socio,dependientes,antiguedad,servicio_telefonico,facturacion_electronica,cargos_mensuales,cargos_totales,cargos_diarios,...,copia_seguridad_online_Yes,proteccion_dispositivo_Yes,soporte_tecnico_Yes,streaming_tv_Yes,streaming_peliculas_Yes,contrato_One year,contrato_Two year,metodo_pago_Credit card (automatic),metodo_pago_Electronic check,metodo_pago_Mailed check
0,0,0,1,1,9,1,1,65.6,593.3,2.19,...,True,False,True,True,False,True,False,False,False,True
1,0,0,0,0,9,1,0,59.9,542.4,2.0,...,False,False,False,False,True,False,False,False,False,True
2,1,0,0,0,4,1,1,73.9,280.85,2.46,...,False,True,False,False,False,False,False,False,True,False
3,1,1,1,0,13,1,1,98.0,1237.85,3.27,...,True,True,False,True,True,False,False,False,True,False
4,1,1,1,0,3,1,1,83.9,267.4,2.8,...,False,False,True,True,False,False,False,False,False,True


In [7]:
df_encoded.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 26 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   perdida                              7043 non-null   int64  
 1   ciudadano_Mayor                      7043 non-null   int64  
 2   socio                                7043 non-null   int64  
 3   dependientes                         7043 non-null   int64  
 4   antiguedad                           7043 non-null   int64  
 5   servicio_telefonico                  7043 non-null   int64  
 6   facturacion_electronica              7043 non-null   int64  
 7   cargos_mensuales                     7043 non-null   float64
 8   cargos_totales                       7032 non-null   float64
 9   cargos_diarios                       7043 non-null   float64
 10  genero_Male                          7043 non-null   bool   
 11  lineas_multiples_No phone serv

In [8]:
#Verificaremos los valores nulos
nulos_por_columna = df_encoded.isnull().sum()

# Filtrar para mostrar solo columnas con valores nulos
columnas_con_nulos = nulos_por_columna[nulos_por_columna > 0]

# Mostrar las columnas con nulos
if not columnas_con_nulos.empty:
  print("Columnas con valores nulos:")
  display(columnas_con_nulos)
else:
  print("No hay columnas con valores nulos en el DataFrame.")

Columnas con valores nulos:


Unnamed: 0,0
cargos_totales,11


In [9]:
df_encoded = df_encoded.dropna(subset=['cargos_totales'])

# Verificacion de proporcion de evasion

In [10]:
df_encoded['perdida'].value_counts()

Unnamed: 0_level_0,count
perdida,Unnamed: 1_level_1
0,5163
1,1869


In [11]:
print(f'El porcentaje de NO evasores es de: {df_encoded["perdida"].value_counts(normalize=True)[0]*100:.3f}%')
print(f'El porcentaje de evasores es de: {df_encoded["perdida"].value_counts(normalize=True)[1]*100:.3f}%')

El porcentaje de NO evasores es de: 73.422%
El porcentaje de evasores es de: 26.578%


In [19]:
import plotly.graph_objects as go

# Obtener los conteos de cada clase
counts = df_encoded['perdida'].value_counts()

# Crear el histograma usando graph_objects
fig = go.Figure(data=[
    go.Bar(name='No pérdida', x=[0], y=[counts.get(0, 0)], marker_color='#636EFA', width=0.3), # Ajustar ancho de barra
    go.Bar(name='Pérdida', x=[1], y=[counts.get(1, 0)], marker_color='#EF553B', width=0.3) # Ajustar ancho de barra
])

# Ajustar el layout para que las barras estén más juntas y con ticks en 0 y 1
fig.update_layout(
    xaxis = dict(
        tickvals=[0, 1],
        ticktext=['Clientes', 'Evasores']
    ),
    bargap=0.1, # Ajustar el espacio entre grupos de barras
    title='Distribución de la columna "perdida"',
    xaxis_title='Diferencia entre clientes que pagan y evasores',
    yaxis_title='Frecuencia',
    width=600, # Ajustar el ancho de la ventana del gráfico
    height=400, # Ajustar la altura de la ventana del gráfico
    showlegend=False # Ocultar la leyenda
)

fig.show()

# Oversampling y undersampling

In [25]:
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import NearMiss

X = df_encoded.drop('perdida', axis=1)
y = df_encoded['perdida']

oversample=SMOTE(random_state=5)
X_bal_over,y_bal_over=oversample.fit_resample(X,y)

y_bal_over.value_counts()

Unnamed: 0_level_0,count
perdida,Unnamed: 1_level_1
0,5163
1,5163


In [27]:
#Aca podemos ver el undersample que nos deja con bastantes menos registros y podria afectar el resultado del modelo
undersample=NearMiss(version=3)
X_bal_under,y_bal_under=undersample.fit_resample(X,y)
y_bal_under.value_counts()

Unnamed: 0_level_0,count
perdida,Unnamed: 1_level_1
0,1869
1,1869


# Evaluacion de modelos

In [42]:
# Dividir los datos balanceados en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_bal_over, y_bal_over, random_state=42)


# Inicializar modelos
dummy = DummyClassifier(random_state=5) # Mantener random_state para reproducibilidad
modelo_arbol = DecisionTreeClassifier(random_state=5) # Mantener random_state para reproducibilidad

# Entrenar los modelos
dummy.fit(X_train, y_train)
modelo_arbol.fit(X_train, y_train)

# Realizar predicciones (aunque no se usan directamente para los scores de esta celda, se mantienen si se necesitan después)
y_pred_dummy = dummy.predict(X_test)
y_pred_arbol = modelo_arbol.predict(X_test)


# Mostrar los scores de los modelos
print(f'Score del Dummy Classifier: {dummy.score(X_test, y_test):.4f}')
print(f'Score del Árbol de Decisión: {modelo_arbol.score(X_test, y_test):.4f}')

Score del Dummy Classifier: 0.4864
Score del Árbol de Decisión: 0.7947
