<a href="https://colab.research.google.com/github/CarolinaOutoffice/desafio_telecomx_2/blob/main/desafio_telecom_x_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Desafio Telecom X 2


##Parte 1: Carga y preparacion datos


📘 DICCIONARIO DE DATOS

| Campo             | Descripción                                                                 |
|-------------------|------------------------------------------------------------------------------|
| customerID        | Número de identificación único de cada cliente                              |
| Churn             | Si el cliente dejó o no la empresa                                           |
| gender            | Género (masculino o femenino)                                                |
| SeniorCitizen     | Información sobre si un cliente tiene o no una edad igual o mayor a 65 años |
| Partner           | Si el cliente tiene o no una pareja                                          |
| Dependents        | Si el cliente tiene o no dependientes                                        |
| tenure            | Meses de contrato del cliente                                                |
| PhoneService      | Suscripción al servicio telefónico                                           |
| MultipleLines     | Suscripción a más de una línea telefónica                                    |
| InternetService   | Suscripción a un proveedor de internet                                       |
| OnlineSecurity    | Suscripción adicional de seguridad en línea                                  |
| OnlineBackup      | Suscripción adicional de respaldo en línea                                   |
| DeviceProtection  | Suscripción adicional de protección del dispositivo                          |
| TechSupport       | Suscripción adicional de soporte técnico, menor tiempo de espera             |
| StreamingTV       | Suscripción de televisión por cable                                          |
| StreamingMovies   | Suscripción de streaming de películas                                        |
| Contract          | Tipo de contrato                                                             |
| PaperlessBilling  | Si el cliente prefiere recibir la factura en línea                           |
| PaymentMethod     | Forma de pago                                                                |
| Charges.Monthly   | Total de todos los servicios del cliente por mes                             |
| Charges.Total     | Total gastado por el cliente                                                 |


In [73]:
#!pip install requests
import requests
import pandas as pd
import matplotlib.pyplot as plt

#url de la API
url='https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/refs/heads/main/TelecomX_Data.json'

#realizamos la solicitud GET
respuesta_api=requests.get(url)
data=respuesta_api.json()


In [74]:
df=pd.DataFrame(data)
print(df.head())

   customerID Churn                                           customer  \
0  0002-ORFBO    No  {'gender': 'Female', 'SeniorCitizen': 0, 'Part...   
1  0003-MKNFE    No  {'gender': 'Male', 'SeniorCitizen': 0, 'Partne...   
2  0004-TLHLJ   Yes  {'gender': 'Male', 'SeniorCitizen': 0, 'Partne...   
3  0011-IGKFF   Yes  {'gender': 'Male', 'SeniorCitizen': 1, 'Partne...   
4  0013-EXCHZ   Yes  {'gender': 'Female', 'SeniorCitizen': 1, 'Part...   

                                             phone  \
0   {'PhoneService': 'Yes', 'MultipleLines': 'No'}   
1  {'PhoneService': 'Yes', 'MultipleLines': 'Yes'}   
2   {'PhoneService': 'Yes', 'MultipleLines': 'No'}   
3   {'PhoneService': 'Yes', 'MultipleLines': 'No'}   
4   {'PhoneService': 'Yes', 'MultipleLines': 'No'}   

                                            internet  \
0  {'InternetService': 'DSL', 'OnlineSecurity': '...   
1  {'InternetService': 'DSL', 'OnlineSecurity': '...   
2  {'InternetService': 'Fiber optic', 'OnlineSecu...   
3  {'I

In [75]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   object
 1   Churn       7267 non-null   object
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(6)
memory usage: 340.8+ KB


## Transformación

In [76]:
#Normalizamos
df_normalizado=pd.json_normalize(data)
print(df_normalizado.head())

   customerID Churn customer.gender  customer.SeniorCitizen customer.Partner  \
0  0002-ORFBO    No          Female                       0              Yes   
1  0003-MKNFE    No            Male                       0               No   
2  0004-TLHLJ   Yes            Male                       0               No   
3  0011-IGKFF   Yes            Male                       1              Yes   
4  0013-EXCHZ   Yes          Female                       1              Yes   

  customer.Dependents  customer.tenure phone.PhoneService phone.MultipleLines  \
0                 Yes                9                Yes                  No   
1                  No                9                Yes                 Yes   
2                  No                4                Yes                  No   
3                  No               13                Yes                  No   
4                  No                3                Yes                  No   

  internet.InternetService  ... 

In [77]:
df_normalizado.info()
df_normalizado.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   customerID                 7267 non-null   object 
 1   Churn                      7267 non-null   object 
 2   customer.gender            7267 non-null   object 
 3   customer.SeniorCitizen     7267 non-null   int64  
 4   customer.Partner           7267 non-null   object 
 5   customer.Dependents        7267 non-null   object 
 6   customer.tenure            7267 non-null   int64  
 7   phone.PhoneService         7267 non-null   object 
 8   phone.MultipleLines        7267 non-null   object 
 9   internet.InternetService   7267 non-null   object 
 10  internet.OnlineSecurity    7267 non-null   object 
 11  internet.OnlineBackup      7267 non-null   object 
 12  internet.DeviceProtection  7267 non-null   object 
 13  internet.TechSupport       7267 non-null   objec

Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


## Parte 2:  Limpieza y preparacion datos

In [79]:
# Modificar account.Charges.Total vacios a ceros y se pasa el mismo campo a tipo float
''' Debido a que los registros vacios de account.Charges.Total coinciden con los casos que tienen 0 meses facturados (customer.tenure) se decido modificar estos caso a valor 0.'''
df_normalizado.loc[df_normalizado['account.Charges.Total'].str.strip() == '', 'account.Charges.Total'] = '0'
df_normalizado['account.Charges.Total']=df_normalizado['account.Charges.Total'].astype('float')

In [85]:
# Modificación y revision columna churn
df_normalizado.loc[df_normalizado['Churn'].str.strip() == '', 'Churn'] = 'No'
df_normalizado['Churn'] = df_normalizado['Churn'].replace({'No':0,'Yes':1})
df_normalizado['Churn']=df_normalizado['Churn'].astype('int')

# Ver cuántos clientes han hecho churn
print(df_normalizado["Churn"].value_counts())

# También en porcentaje
print(df_normalizado["Churn"].value_counts(normalize=True))


Churn
0    5398
1    1869
Name: count, dtype: int64
Churn
0    0.74281
1    0.25719
Name: proportion, dtype: float64


  df_normalizado['Churn'] = df_normalizado['Churn'].replace({'No':0,'Yes':1})


In [86]:
df_normalizado=df_normalizado.drop(columns=['customerID'])

KeyError: "['customerID'] not found in axis"

In [89]:
# Convertir columnas categóricas en variables dummy (OneHotEncoding)
df_normalizado = pd.get_dummies(df_normalizado, drop_first=True)

df_normalizado.head()


Unnamed: 0,Churn,customer.SeniorCitizen,customer.tenure,account.Charges.Monthly,account.Charges.Total,Cuentas_Diarias,customer.gender_Male,customer.Partner_Yes,customer.Dependents_Yes,phone.PhoneService_Yes,...,internet.StreamingTV_No internet service,internet.StreamingTV_Yes,internet.StreamingMovies_No internet service,internet.StreamingMovies_Yes,account.Contract_One year,account.Contract_Two year,account.PaperlessBilling_Yes,account.PaymentMethod_Credit card (automatic),account.PaymentMethod_Electronic check,account.PaymentMethod_Mailed check
0,0,0,9,65.6,593.3,2.186667,False,True,True,True,...,False,True,False,False,True,False,True,False,False,True
1,0,0,9,59.9,542.4,1.996667,True,False,False,True,...,False,False,False,True,False,False,False,False,False,True
2,1,0,4,73.9,280.85,2.463333,True,False,False,True,...,False,False,False,False,False,False,True,False,True,False
3,1,1,13,98.0,1237.85,3.266667,True,True,False,True,...,False,True,False,True,False,False,True,False,True,False
4,1,1,3,83.9,267.4,2.796667,False,True,False,True,...,False,True,False,False,False,False,True,False,False,True


In [90]:
#Crear columna cuentas diarias
df_normalizado['Cuentas_Diarias'] = df_normalizado['account.Charges.Monthly'] / 30
df_normalizado.head()

Unnamed: 0,Churn,customer.SeniorCitizen,customer.tenure,account.Charges.Monthly,account.Charges.Total,Cuentas_Diarias,customer.gender_Male,customer.Partner_Yes,customer.Dependents_Yes,phone.PhoneService_Yes,...,internet.StreamingTV_No internet service,internet.StreamingTV_Yes,internet.StreamingMovies_No internet service,internet.StreamingMovies_Yes,account.Contract_One year,account.Contract_Two year,account.PaperlessBilling_Yes,account.PaymentMethod_Credit card (automatic),account.PaymentMethod_Electronic check,account.PaymentMethod_Mailed check
0,0,0,9,65.6,593.3,2.186667,False,True,True,True,...,False,True,False,False,True,False,True,False,False,True
1,0,0,9,59.9,542.4,1.996667,True,False,False,True,...,False,False,False,True,False,False,False,False,False,True
2,1,0,4,73.9,280.85,2.463333,True,False,False,True,...,False,False,False,False,False,False,True,False,True,False
3,1,1,13,98.0,1237.85,3.266667,True,True,False,True,...,False,True,False,True,False,False,True,False,True,False
4,1,1,3,83.9,267.4,2.796667,False,True,False,True,...,False,True,False,False,False,False,True,False,False,True


In [91]:
df_normalizado.describe()

Unnamed: 0,Churn,customer.SeniorCitizen,customer.tenure,account.Charges.Monthly,account.Charges.Total,Cuentas_Diarias
count,7267.0,7267.0,7267.0,7267.0,7267.0,7267.0
mean,0.25719,0.162653,32.346498,64.720098,2277.182035,2.157337
std,0.437115,0.369074,24.571773,30.129572,2268.648587,1.004319
min,0.0,0.0,0.0,18.25,0.0,0.608333
25%,0.0,0.0,9.0,35.425,396.2,1.180833
50%,0.0,0.0,29.0,70.3,1389.2,2.343333
75%,1.0,0.0,55.0,89.875,3778.525,2.995833
max,1.0,1.0,72.0,118.75,8684.8,3.958333


## Parte 3: EDA

In [93]:
# Ver cuántos clientes han hecho churn
print(df_normalizado["Churn"].value_counts())

# También en porcentaje
print(df_normalizado["Churn"].value_counts(normalize=True))


Churn
0    5398
1    1869
Name: count, dtype: int64
Churn
0    0.74281
1    0.25719
Name: proportion, dtype: float64


In [94]:
#Separar variable predictoras(x) y objeto(y)
#objetivo Churn
y=df_normalizado['Churn']

#predictoras
X=df_normalizado.drop(columns=['Churn'])

In [96]:
#Dividir datos de entrenamiento y prueba
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#revisar tamaños
print("Entrenamiento:", X_train.shape)
print("Prueba:", X_test.shape)


Entrenamiento: (5813, 31)
Prueba: (1454, 31)


## Parte 4 Linea base

### DesicionTreeClassifier

In [103]:
##Parte 4: Linea Base con DecisionTreeClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Crear y entrenar el modelo
modelo_tree = DecisionTreeClassifier(max_depth=10,random_state=42)
modelo_tree.fit(X_train, y_train)

# Predecir
y_pred_tree = modelo_tree.predict(X_test)

# Evaluación
print("🔍 Accuracy:", accuracy_score(y_test, y_pred_tree))
print("\n📊 Reporte de clasificación:\n", classification_report(y_test, y_pred_tree))
print("\n🧩 Matriz de confusión:\n", confusion_matrix(y_test, y_pred_tree))


🔍 Accuracy: 0.7716643741403026

📊 Reporte de clasificación:
               precision    recall  f1-score   support

           0       0.84      0.86      0.85      1082
           1       0.56      0.53      0.54       372

    accuracy                           0.77      1454
   macro avg       0.70      0.69      0.69      1454
weighted avg       0.77      0.77      0.77      1454


🧩 Matriz de confusión:
 [[926 156]
 [176 196]]


### RandomForestClassifier

In [98]:
from sklearn.ensemble import RandomForestClassifier

# Crear el modelo
modelo_rf = RandomForestClassifier(random_state=42, )

# Entrenar
modelo_rf.fit(X_train, y_train)

# Predecir
y_pred_rf = modelo_rf.predict(X_test)

# Evaluación
print("🌲 Accuracy (Random Forest):", accuracy_score(y_test, y_pred_rf))
print("\n📊 Reporte de clasificación:\n", classification_report(y_test, y_pred_rf))
print("\n🧩 Matriz de confusión:\n", confusion_matrix(y_test, y_pred_rf))


🌲 Accuracy (Random Forest): 0.7929848693259972

📊 Reporte de clasificación:
               precision    recall  f1-score   support

           0       0.84      0.90      0.87      1082
           1       0.62      0.49      0.55       372

    accuracy                           0.79      1454
   macro avg       0.73      0.70      0.71      1454
weighted avg       0.78      0.79      0.78      1454


🧩 Matriz de confusión:
 [[969 113]
 [188 184]]


### RandomForest y Kfold

In [102]:
### RandomForest y Kfold
from sklearn.model_selection import KFold

# Definir el KFold manualmente
kfold = KFold(n_splits=5, shuffle=True, random_state=42)

# Validar con el objeto KFold
resultados_logreg = cross_validate(
                    modelo_rf,
                    X,
                    y,
                    cv=kfold,
                    scoring=['accuracy', 'precision', 'recall', 'f1'],
                    return_train_score=False
)

# Mostrar promedios
print("📊 Resultados LogisticRegression (con KFold):")
print("Accuracy promedio:", resultados_logreg['test_accuracy'].mean())
print("Precision promedio:", resultados_logreg['test_precision'].mean())
print("Recall promedio:", resultados_logreg['test_recall'].mean())
print("F1 promedio:", resultados_logreg['test_f1'].mean())


📊 Resultados LogisticRegression (con KFold):
Accuracy promedio: 0.7879439304536173
Precision promedio: 0.6167363009441964
Recall promedio: 0.46217001841680727
F1 promedio: 0.5282144559048632


### LogisticRegresion y Kfold

In [105]:
# Probar con LogisticRegresion y KFOLD

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_validate, KFold

# 1. Crear el modelo
modelo_logreg = LogisticRegression(max_iter=2000)

# 2. Definir el KFold
kfold = KFold(n_splits=5, shuffle=True, random_state=42)

# 3. Validar el modelo con múltiples métricas
resultados_logreg = cross_validate(
    modelo_logreg,
    X,
    y,
    cv=kfold,
    scoring=['accuracy', 'precision', 'recall', 'f1'],
    return_train_score=False
)

# 4. Mostrar resultados promedio
print("📊 Resultados LogisticRegression (KFold):")
print("Accuracy promedio:", resultados_logreg['test_accuracy'].mean())
print("Precision promedio:", resultados_logreg['test_precision'].mean())
print("Recall promedio:", resultados_logreg['test_recall'].mean())
print("F1 promedio:", resultados_logreg['test_f1'].mean())


📊 Resultados LogisticRegression (KFold):
Accuracy promedio: 0.8033573756710728
Precision promedio: 0.6452196731201096
Recall promedio: 0.522656332068367
F1 promedio: 0.5773875161770304
