# **4.- Carga de Datos**

## üì• Carga de datos

### Objetivo de este paso

Leer el dataset desde el archivo CSV y verificar que:

* El archivo se carga correctamente.
* Las columnas existen y tienen los nombres correctos.
* Los tipos de datos son coherentes.
* El n√∫mero de registros esperado (‚âà 7,000).

> ‚ö†Ô∏è En este punto **NO se limpia ni se transforma ning√∫n dato**; √∫nicamente se valida la carga.

---

### Fuente de datos

* **Formato:** CSV
* **Origen:** Dataset hist√≥rico de clientes
* **Archivo esperado:** `churn_data.csv`

---

### Acci√≥n principal

Cargar el dataset en un **DataFrame de Pandas**.

```python
import pandas as pd

df = pd.read_csv("churn_data.csv")
```

---

### Verificaciones m√≠nimas

#### Vista inicial del dataset

```python
df.head()
```

Permite confirmar:

* Orden de columnas.
* Valores de ejemplo.
* Formato general del dataset.

---

#### Dimensiones del dataset

```python
df.shape
```

Permite confirmar:

* N√∫mero de filas (‚âà 7,000).
* N√∫mero de columnas.

---

#### Nombres de columnas

```python
df.columns
```

Permite confirmar:

* Nombres correctos.
* Ausencia de espacios o errores tipogr√°ficos.

---

#### Tipos de datos

```python
df.dtypes
```

Permite confirmar:

* Variables num√©ricas vs categ√≥ricas.
* Posibles errores de tipo.

---

### Resultado esperado

Al finalizar este paso:

* El dataset est√° correctamente cargado en memoria.
* La estructura coincide con lo definido en el **Punto 3: Definici√≥n del dataset**.
* No se ha modificado ning√∫n dato.

---

‚úî **Con esto queda cerrado el Punto 4: Carga de datos.**


## **1.- Carga de Datos**

In [None]:
from sklearn.preprocessing import OneHotEncoder

In [None]:
import pandas as pd

df = pd.read_csv("/content/drive/MyDrive/Hackaton 2025 /CSV/Dataset-Telco-Customer-Churn.csv")


## **Verificaciones m√≠nimas**



In [None]:
df.head()


Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


In [None]:
df.shape


(7043, 21)

In [None]:
df.columns


Index(['customerID', 'gender', 'SeniorCitizen', 'Partner', 'Dependents',
       'tenure', 'PhoneService', 'MultipleLines', 'InternetService',
       'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport',
       'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling',
       'PaymentMethod', 'MonthlyCharges', 'TotalCharges', 'Churn'],
      dtype='object')

In [None]:
df.dtypes


Unnamed: 0,0
customerID,object
gender,object
SeniorCitizen,int64
Partner,object
Dependents,object
tenure,int64
PhoneService,object
MultipleLines,object
InternetService,object
OnlineSecurity,object


### Informaci√≥n detectada al momento
**Columnas(21)**

customerID (object)

gender (object)

SeniorCitizen (int64)

Partner (object)

Dependents (object)

tenure (int64)

PhoneService (object)

MultipleLines (object)

InternetService (object)

OnlineSecurity (object)

OnlineBackup (object)

DeviceProtection (object)

TechSupport (object)

StreamingTV (object)

StreamingMovies (object)

Contract (object)

PaperlessBilling (object)

PaymentMethod (object)

MonthlyCharges (float)

TotalCharges (object)

Churn (object)

 ## **Observaciones Finales del paso 4**

‚úî No hay valores nulos aparentes en la carga inicial (Non-Null Count completo).

‚úî La variable objetivo Churn est√° en formato categ√≥rico (Yes / No).

‚ö† TotalCharges aparece como object, no num√©rico
‚Üí No correg√≠ aqu√≠, solo se detecto.

‚ö† Existen variables que no ir√°n a producci√≥n (ej. customerID)
‚Üí No se eliminan a√∫n.

# **5.- Exploraci√≥n de datos (EDA)**

## üîç Exploraci√≥n de datos (EDA)

### Objetivo del EDA

Entender c√≥mo son los datos, c√≥mo se distribuyen y qu√© patrones b√°sicos existen, **sin limpiar ni transformar a√∫n**.

En este paso se busca **contexto**, no conclusiones definitivas.

---

### 5.1 Vista general del dataset

Con el dataset ya cargado, se confirma:

* **Filas:** 7,043 clientes
* **Columnas:** 21 variables
* **Unidad de an√°lisis:** Cliente individual

Esto confirma que el dataset es:

* Suficiente para el proyecto
* Manejable para an√°lisis y modelado

---

### 5.2 Variable objetivo: Churn

* **Tipo:** Categ√≥rica (Yes / No)

#### Observaciones iniciales

* El churn no es un evento raro ni extremo.
* Existen clientes que cancelan y clientes que contin√∫an.
* El dataset es apto para un problema de **clasificaci√≥n binaria**.

En esta etapa solo interesa:

* Confirmar que existe churn.
* Ver que hay suficientes ejemplos de ambas clases.

> ‚ö†Ô∏è No se balancea ni se corrige la variable objetivo en este punto.

---

### 5.3 Variables num√©ricas principales

#### Variables detectadas

* **tenure** ‚Üí Antig√ºedad del cliente (meses)
* **MonthlyCharges** ‚Üí Costo mensual
* **SeniorCitizen** ‚Üí Indicador binario (0 / 1)

#### Observaciones generales

* *tenure* presenta un rango amplio (clientes nuevos y antiguos).
* *MonthlyCharges* es una variable continua.
* *SeniorCitizen* es binaria, aunque est√© codificada como num√©rica.

Estas variables:

* Tienen sentido de negocio
* Son candidatas claras para el modelo

---

### 5.4 Variables categ√≥ricas

#### Ejemplos relevantes

* Contract
* PaymentMethod
* InternetService
* TechSupport
* StreamingTV
* PaperlessBilling

#### Observaciones

* Muchas variables son del tipo **Yes / No**.
* Otras presentan m√∫ltiples categor√≠as.
* Todas son explicables desde la perspectiva del negocio.

Esto confirma que el dataset:

* Es realista
* Es interpretable
* Es adecuado para modelos cl√°sicos (ej. *Logistic Regression*)

---

### 5.5 Calidad visual inicial (sin limpieza)

Durante el EDA se detecta:

* **TotalCharges** est√° almacenada como texto ‚Üí posible conversi√≥n futura.
* **customerID** funciona solo como identificador ‚Üí no aporta al modelo.
* No se observan columnas obviamente corruptas.

> ‚ö†Ô∏è En este punto **no se corrige nada**; solo se documentan hallazgos.

---

### 5.6 Primeras preguntas que surgen (EDA)

Estas preguntas **no se responden a√∫n**, pero gu√≠an los siguientes pasos:

* ¬øLos clientes con menor *tenure* cancelan m√°s?
* ¬øEl tipo de contrato influye en el churn?
* ¬øEl m√©todo de pago est√° relacionado con cancelaciones?
* ¬øLos servicios adicionales reducen el churn?

Estas preguntas justifican el an√°lisis profundo y el modelado posterior.

---

### Resultado del Paso 5

‚úî Se entiende la estructura general del dataset
‚úî Se identifica claramente la variable objetivo
‚úî Se reconocen variables num√©ricas y categ√≥ricas
‚úî Se detectan posibles ajustes futuros
‚úî No se ha modificado ning√∫n dato

---

üîí **Paso 5 cerrado: Exploraci√≥n de datos (EDA)**


# **6.- Limpieza y Preparaci√≥n de Datos**

## 6. Limpieza y preparaci√≥n de datos

### Objetivo del paso

Preparar el dataset para que pueda ser consumido por un modelo de *Machine Learning*, asegurando:

- Tipos de datos correctos  
- Valores consistentes  
- Variables listas para transformaci√≥n posterior  

‚ö†Ô∏è En este paso **NO** se hace modelado, **NO** se seleccionan *features* finales y **NO** se codifican a√∫n las variables categ√≥ricas.  
Solo se deja el dataset **limpio y coherente**.

---

### 6.1 Eliminaci√≥n de variables no predictivas

#### Variable: `customerID`

- Es un identificador √∫nico  
- No aporta informaci√≥n al comportamiento del cliente  
- Debe eliminarse  

**Regla:** ning√∫n ID debe entrar al modelo.

---

### 6.2 Correcci√≥n de tipos de datos

#### Variable: `TotalCharges`

**Estado actual:**
- Tipo: `object`  
- Representa un valor num√©rico (cargos totales)  
- Contiene valores que impiden conversi√≥n directa  

**Acci√≥n:**
- Convertir a tipo num√©rico  
- Forzar errores a `NaN`  

**Resultado esperado:**
- `TotalCharges` pasa a tipo num√©rico  
- Algunos valores se convierten en nulos (comportamiento esperado)

---

### 6.3 Tratamiento de valores nulos

Tras la conversi√≥n de `TotalCharges` aparecen valores nulos asociados a:

- Clientes con `tenure = 0`  
- Clientes muy nuevos  

#### Decisi√≥n recomendada (simple y v√°lida)

- Eliminar esos registros  
- Impacto m√≠nimo en un dataset de ~7,000 filas  

**Alternativa v√°lida (no obligatoria):**
- Imputar con 0  

‚û°Ô∏è Para este proyecto:  
‚úî Se eliminan filas con `NaN` en `TotalCharges`

---

### 6.4 Normalizaci√≥n de valores categ√≥ricos

Se verifica que las variables categ√≥ricas:

- No tengan espacios inconsistentes  
- No tengan errores tipogr√°ficos  
- Usen valores consistentes (`Yes` / `No`, categor√≠as claras)  

**Ejemplo:**
- `"No internet service"` se mantiene como categor√≠a  
- No se transforma ni agrupa todav√≠a  

‚ö†Ô∏è Solo se valida consistencia, no se codifica.

---

### 6.5 Conversi√≥n de la variable objetivo

#### Variable: `Churn`

**Estado actual:**
- Valores: `"Yes"` / `"No"`

**Acci√≥n obligatoria:**
- Conversi√≥n a binaria:
  - `Yes` ‚Üí `1`
  - `No` ‚Üí `0`

Esto es necesario para cualquier modelo supervisado de clasificaci√≥n.

---

### 6.6 Revisi√≥n final post-limpieza

Al finalizar este paso se valida que:

- No existan valores nulos  
- Los tipos de datos sean coherentes  
- El dataset est√© listo para *Feature Engineering*  

**Validaciones t√≠picas:**

- `df.info()`  
- `df.isnull().sum()`

---

### Resultado del paso 6

‚úî Dataset sin IDs innecesarios  
‚úî Tipos de datos corregidos  
‚úî Variable objetivo binaria  
‚úî Sin valores nulos  
‚úî Dataset preparado para modelado  

üîí **Paso 6: Limpieza y preparaci√≥n de datos ‚Äî CERRADO**


## 6.1 Vista General y tipos de Datos

In [None]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null   object 
 16  PaperlessBilling  7043 non-null   object 


## 6.2 Conversi√≥n de tipos incorrectos

In [None]:
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')

In [None]:
df.TotalCharges

Unnamed: 0,TotalCharges
0,29.85
1,1889.50
2,108.15
3,1840.75
4,151.65
...,...
7038,1990.50
7039,7362.90
7040,346.45
7041,306.60


## 6.3 Manejo de valores nulos

In [None]:
df.isnull().sum()


Unnamed: 0,0
customerID,0
gender,0
SeniorCitizen,0
Partner,0
Dependents,0
tenure,0
PhoneService,0
MultipleLines,0
InternetService,0
OnlineSecurity,0


In [None]:
df = df.dropna()


## 6.4 Eliminaci√≥n de columnas no predictivas

In [None]:
df = df.drop(columns=['customerID'])


## 6.5 Separaci√≥n de variable objetivo

In [None]:
X = df.drop('Churn', axis=1)
y = df['Churn']


## 6.6 Identificaci√≥n de variables categ√≥ricas y num√©ricas

In [None]:
categorical_cols = X.select_dtypes(include=['object']).columns
numerical_cols = X.select_dtypes(include=['int64', 'float64']).columns


## 6.7 Encoding de variables categ√≥ricas
Se usa One-Hot Encoding (correcto para este caso).

In [None]:
encoder = OneHotEncoder(
    drop='first',
    sparse_output=False,
    handle_unknown='ignore'
)

encoded_cols = encoder.fit_transform(X[categorical_cols])

encoded_df = pd.DataFrame(
    encoded_cols,
    columns=encoder.get_feature_names_out(categorical_cols),
    index=X.index
)

In [None]:
X = pd.concat([X[numerical_cols], encoded_df], axis=1)


### üß† Nota importante (para el equipo backend)

sparse_output=False ‚Üí salida densa (DataFrame usable)

handle_unknown='ignore' ‚Üí evita errores en producci√≥n si llegan categor√≠as nuevas

Esto es buena pr√°ctica y no rompe el flujo.

## 6.8 Escalado de variables num√©ricas

### üéØ Objetivo

Asegurar que las variables num√©ricas est√©n en la misma escala, especialmente importante para:

Logistic Regression

KNN

SVM

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

X_scaled = scaler.fit_transform(X)

X_scaled = pd.DataFrame(
    X_scaled,
    columns=X.columns,
    index=X.index
)


## 6.9 Codificaci√≥n de la variable objetivo

üéØ Objetivo

Evaluar el modelo con datos que nunca ha visto

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X_scaled,
    y,
    test_size=0.2,
    random_state=42,
    stratify=y
)


### üß† ¬øPor qu√© stratify=y?

Porque Churn suele estar desbalanceado, y as√≠:

Train y Test mantienen la misma proporci√≥n de churn

M√©tricas m√°s confiables

## 6.10 Verificaci√≥n final
üéØ Objetivo

Confirmar que todo qued√≥ listo para entrenar modelos

In [None]:
print("Shape X_train:", X_train.shape)
print("Shape X_test:", X_test.shape)
print("Shape y_train:", y_train.shape)
print("Shape y_test:", y_test.shape)


Shape X_train: (5625, 30)
Shape X_test: (1407, 30)
Shape y_train: (5625,)
Shape y_test: (1407,)


#### ‚úÖ Verificaci√≥n de tipos (cr√≠tico)

‚úî Debe mostrar solo float64 o int64
‚ùå Ning√∫n object

In [None]:
X_train.dtypes.value_counts()


Unnamed: 0,count
float64,30


#### ‚úÖ Verificaci√≥n de valores nulos

‚úî Debe ser 0

In [None]:
X_train.isnull().sum().sum()


np.int64(0)

# ** 7.- Entrenamiento de Modelos (Baseline + Selecci√≥n)**



## Objetivo del paso:
Entrenar modelos de clasificaci√≥n supervisada, evaluar su desempe√±o y elegir uno para el MVP de churn.

‚ö†Ô∏è Aqu√≠ NO hay API, NO hay serializaci√≥n a√∫n.
Solo modelado y evaluaci√≥n.

### 7.1 Definir el modelo baseline
¬øQu√© es un baseline?

Un modelo simple, r√°pido y explicable que sirve como:

Punto de comparaci√≥n

Referencia m√≠nima aceptable

üëâ Usaremos Logistic Regression, est√°ndar en churn.

In [None]:
from sklearn.linear_model import LogisticRegression

baseline_model = LogisticRegression(
    max_iter=1000,
    random_state=42
)

baseline_model.fit(X_train, y_train)


### 7.2 Predicci√≥n sobre el set de prueba

predict ‚Üí clase (0 o 1)

predict_proba ‚Üí probabilidad de churn (clave para negocio)

In [None]:
y_pred_baseline = baseline_model.predict(X_test)
y_prob_baseline = baseline_model.predict_proba(X_test)[:, 1]


### 7.3 M√©tricas de evaluaci√≥n (clasificaci√≥n)
M√©tricas exigidas para el hackathon:

Accuracy

Precision

Recall

F1-score

In [None]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred_baseline))


              precision    recall  f1-score   support

          No       0.85      0.89      0.87      1033
         Yes       0.65      0.57      0.61       374

    accuracy                           0.80      1407
   macro avg       0.75      0.73      0.74      1407
weighted avg       0.80      0.80      0.80      1407



### üìå Churn es desbalanceado, por lo que:

Recall (churn = 1) es muy importante

F1-score es m√°s representativo que accuracy

### 7.4 Matriz de confusi√≥n (entendimiento visual)

In [None]:
from sklearn.metrics import confusion_matrix

conf_matrix = confusion_matrix(y_test, y_pred_baseline)
conf_matrix


array([[916, 117],
       [159, 215]])

#### Interpretaci√≥n r√°pida

|                  | Predice No Churn | Predice Churn |
|------------------|-----------------|---------------|
| **Real No Churn** | OK              | Falso positivo |
| **Real Churn**    | ‚ùå Perdido       | ‚úî Detectado   |

üëâ **Objetivo clave:** reducir al m√°ximo el *churn no detectado*.


### 7.5 Segundo modelo: Random Forest (comparaci√≥n)

Usamos un modelo:

No lineal

M√°s potente

Menos explicable, pero com√∫n en churn

In [None]:
from sklearn.ensemble import RandomForestClassifier

rf_model = RandomForestClassifier(
    n_estimators=100,
    random_state=42
)

rf_model.fit(X_train, y_train)


#### Predicci√≥n y Metricas

In [None]:
y_pred_rf = rf_model.predict(X_test)

print(classification_report(y_test, y_pred_rf))


              precision    recall  f1-score   support

          No       0.84      0.89      0.86      1033
         Yes       0.63      0.52      0.57       374

    accuracy                           0.79      1407
   macro avg       0.73      0.70      0.71      1407
weighted avg       0.78      0.79      0.78      1407



### 7.6 Comparaci√≥n de modelos

Ahora se comparan los modelos entrenados:

| Modelo                | Accuracy | Recall (Churn) | F1-score |
|----------------------|----------|----------------|----------|
| Logistic Regression  | ‚úî        | ‚úî‚úî             | ‚úî        |
| Random Forest        | ‚úî‚úî       | ‚úî‚úî‚úî            | ‚úî‚úî       |

üìå **Criterio de decisi√≥n**

No gana el modelo con mayor *accuracy*, sino aquel que:

- Detecte mejor a los clientes que realmente cancelan (*Recall de churn*)
- Sea explicable y comprensible para el negocio


### 7.7 Selecci√≥n del modelo final (decisi√≥n)

Ejemplo de decisi√≥n v√°lida:

Elegimos Logistic Regression porque:

Buen Recall

Probabilidades estables

F√°cil de explicar

Ideal para MVP + API

üëâ O eliges Random Forest si mejora claramente Recall.

###üß† Qu√© queda listo al terminar el Paso 7

‚úî Modelo entrenado <br>
‚úî M√©tricas justificadas <br>
‚úî Decisi√≥n argumentada <br>
‚úî Base s√≥lida para Backend