# **Conoce el conjunto de datos**

Es fundamental comprender la estructura del dataset y el significado de sus columnas.

In [1]:
#Importación de las librerías necesarias
import pandas as pd
import os

In [2]:
# Definimos la ruta al archivo limpio
ruta_limpia = os.path.join("..", "data", "processed", "telecom_final.csv")

try:
    df = pd.read_csv(ruta_limpia)
    print(f"Datos cargados exitosamente: {df.shape[0]} filas, {df.shape[1]} columnas.")
except FileNotFoundError:
    print("Error: No se encuentra el archivo. Ejecuta primero el notebook 1.0.")

Datos cargados exitosamente: 7267 filas, 21 columnas.


In [3]:
#Vamos a verificar si los datos se cargaron correctamente
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7043 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


In [4]:
# Verificamos que 'Total', 'Monthly' y 'tenure' sean numéricos 
display(df.dtypes)

customerID           object
Churn                object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
Monthly             float64
Total               float64
dtype: object

##  Diccionario de Datos & Identificación de Variables

| Variable | Descripción | Tipo | ¿Relevante para Churn? |
|----------|-------------|------|------------------------|
| **customerID** | ID único del cliente | Texto |  No (Es solo un identificador) |
| **gender** | Género (Male/Female) | Texto |  Quizás (Demográfico) |
| **SeniorCitizen**| ¿Es jubilado? (1,0) | Entero |  Sí (Perfil de riesgo) |
| **Partner/Dependents** | Familia | Texto |  Sí (Estabilidad) |
| **tenure** | Meses que lleva en la empresa | Entero |  **Muy Crítico** (Fidelidad) |
| **Phone/InternetService** | Servicios contratados | Texto |  Sí (Calidad de servicio) |
| **Contract** | Tipo de contrato (Mes, Año) | Texto |  **Muy Crítico** (Barrera de salida) |
| **Charges.Monthly** | Factura mensual | Float |  **Muy Crítico** (Sensibilidad precio) |
| **Total** | Total pagado en la historia | Float |  Sí (Valor del cliente/LTV) |
| **Churn** | **Variable Objetivo** (Se fue o no) | Texto |  **TARGET** |

In [5]:
# Lista de columnas que identificamos como CRÍTICAS para el negocio
cols_relevantes = ['Contract', 'tenure', 'Monthly', 'Total', 'Churn']

display(df[cols_relevantes].head(10))

Unnamed: 0,Contract,tenure,Monthly,Total,Churn
0,One year,9,65.6,593.3,No
1,Month-to-month,9,59.9,542.4,No
2,Month-to-month,4,73.9,280.85,Yes
3,Month-to-month,13,98.0,1237.85,Yes
4,Month-to-month,3,83.9,267.4,Yes
5,Month-to-month,9,69.4,571.45,No
6,Two year,71,109.7,7904.25,No
7,Two year,63,84.65,5377.8,No
8,Month-to-month,7,48.2,340.35,No
9,Two year,65,90.45,5957.9,No
