<a href="https://colab.research.google.com/github/JorgeAccardi/cienciadedatos/blob/main/TelecomX_Parte2_Latam_v2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📋 Checklist de Progreso – Predicción de Churn Telecom X

- [x] 1. Cargar e inspeccionar los datos
- [x] 2. Eliminar columnas irrelevantes (`customerID`)
- [ ] 3. Revisar y tratar valores nulos
- [ ] 4. Analizar y codificar variables categóricas (encoding)
- [ ] 5. Verificar el balance de clases en `Churn`
- [ ] 6. Aplicar técnicas de balanceo (si es necesario)
- [ ] 7. Normalizar/Estandarizar variables (si corresponde)
- [ ] 8. Análisis de correlación y selección de variables
- [ ] 9. Análisis dirigido de variables clave vs. churn (gráficos)
- [ ] 10. Separar los datos en entrenamiento y prueba
- [ ] 11. Entrenar modelo 1 (requiere normalización, ej: Regresión Logística/KNN)
- [ ] 12. Entrenar modelo 2 (no requiere normalización, ej: Árbol de Decisión/Random Forest)
- [ ] 13. Evaluar modelos (accuracy, precision, recall, F1, matriz de confusión)
- [ ] 14. Comparar modelos y analizar overfitting/underfitting
- [ ] 15. Interpretar la importancia de las variables en cada modelo
- [ ] 16. Redactar conclusiones estratégicas y recomendaciones

---

**Nota:** Actualiza este checklist a medida que completes cada paso, cambiando `[ ]` por `[x]`.

#**Telecom X 🛰️ - Predicción de Cancelación de Clientes (Churn)**

##Paso 1: Carga e inspección inicial de los datos
###Primero, cargaremos el archivo datos_tratados.csv, inspeccionaremos las primeras filas y revisaremos la estructura básica del dataset.

### **Explicación**

- **Importación de pandas:** Es la librería estándar para manipulación y análisis de datos en Python.
- **Carga del archivo:** Utilizamos `pd.read_csv()` para leer el archivo CSV limpio y tratado previamente.
- **Inspección inicial:** `df.head()` nos permite visualizar las primeras filas del DataFrame y hacernos una idea de la estructura, tipos de datos y posibles valores de las variables.

In [1]:
# Importar librerías necesarias
import pandas as pd

# Cargar el archivo CSV
df = pd.read_csv('datos_tratados.csv')

# Mostrar las primeras 5 filas del dataset
df.head()

Unnamed: 0,customerID,Churn,customer_gender,customer_SeniorCitizen,customer_Partner,customer_Dependents,customer_tenure,phone_PhoneService,phone_MultipleLines,internet_InternetService,...,internet_OnlineBackup,internet_DeviceProtection,internet_TechSupport,internet_StreamingTV,internet_StreamingMovies,account_Contract,account_PaperlessBilling,account_PaymentMethod,account_Charges_Monthly,account_Charges_Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


## Paso 2: Revisión de la estructura de datos y eliminación de columnas irrelevantes

###En este paso vamos a examinar el tipo de datos de cada columna y eliminar aquellas que no aportan valor predictivo, como los identificadores únicos (`customerID`).

### **Explicación**

- **`df.info()`:** Nos muestra el número de filas, columnas, tipos de datos y si hay valores nulos en el DataFrame.
- **Eliminación de columnas irrelevantes:** Los identificadores únicos (como 'customerID') no contienen información útil para la predicción y pueden incluso perjudicar el modelo si se incluyen.
- **Verificación:** Volvemos a inspeccionar el dataset para asegurarnos de que la columna fue eliminada correctamente.

In [2]:
# Ver información general del DataFrame
df.info()

# Eliminar la columna 'customerID' por ser un identificador único
df = df.drop(columns=['customerID'])

# Comprobar que la columna fue eliminada y revisar las primeras filas nuevamente
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   customerID                 7267 non-null   object 
 1   Churn                      7043 non-null   object 
 2   customer_gender            7267 non-null   object 
 3   customer_SeniorCitizen     7267 non-null   int64  
 4   customer_Partner           7267 non-null   object 
 5   customer_Dependents        7267 non-null   object 
 6   customer_tenure            7267 non-null   int64  
 7   phone_PhoneService         7267 non-null   object 
 8   phone_MultipleLines        7267 non-null   object 
 9   internet_InternetService   7267 non-null   object 
 10  internet_OnlineSecurity    7267 non-null   object 
 11  internet_OnlineBackup      7267 non-null   object 
 12  internet_DeviceProtection  7267 non-null   object 
 13  internet_TechSupport       7267 non-null   objec

Unnamed: 0,Churn,customer_gender,customer_SeniorCitizen,customer_Partner,customer_Dependents,customer_tenure,phone_PhoneService,phone_MultipleLines,internet_InternetService,internet_OnlineSecurity,internet_OnlineBackup,internet_DeviceProtection,internet_TechSupport,internet_StreamingTV,internet_StreamingMovies,account_Contract,account_PaperlessBilling,account_PaymentMethod,account_Charges_Monthly,account_Charges_Total
0,No,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,No,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,Yes,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4
