In [None]:
# Telco Customer Churn - Limpieza y Análisis Exploratorio de Datos
# Fecha: 13/06/2025

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Cargar el archivo CSV
df = pd.read_csv("WA_Fn-UseC_-Telco-Customer-Churn.csv")

# Mostrar las primeras 10 filas del archivo
print("Primeras 10 filas:")
print(df.head())


# -------------------------
# 1. EXPLORACION INICIAL DE LOS DATOS
# -------------------------

# 1.1 Mostrar las últimas 5 filas
print("Últimas 5 filas:")
print(df.tail(5))

# 1.2 Información general del DataFrame
print("Información general:")
print(df.info())

# 1.3 Estadísticas descriptivas
print("Estadísticas descriptivas:")
print(df.describe(include='all'))

# 1.4 Contar valores nulos por columna
print("Conteo de valores faltantes por columna:")
missing_values = df.isnull().sum() # Calcula la cantidad de valores nulos por cada columna
print(missing_values)

# 1.5 Filtrar solo las columnas que tienen valores faltantes
print("Columnas con al menos un valor faltante:")
print(missing_values[missing_values > 0]) # Filtra e imprime solo las columnas que tienen al menos un valor nulo

# -------------------------
# 2. LIMPIEZA DE DATOS
# -------------------------

# 2.1 Verificar duplicados
duplicados = df.duplicated().sum()

# 2.2 Eliminar duplicados
df = df.drop_duplicates()

# 2.3 Corregir tipo de dato de 'TotalCharges'
# Reemplazar espacios en blanco por NaN
df['TotalCharges'] = df['TotalCharges'].replace(" ", np.nan)

# Convertir a float
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'])

# 2.4 Rellenar valores faltantes con la mediana (tipo numérico)
df['TotalCharges'] = df['TotalCharges'].fillna(df['TotalCharges'].median())

# 2.5 Normalizar valores categóricos tipo 'No internet service' -> 'No'
cols_servicio = [
    'OnlineSecurity', 'OnlineBackup', 'DeviceProtection',
    'TechSupport', 'StreamingTV', 'StreamingMovies'
]
for col in cols_servicio:
    df[col] = df[col].replace({'No internet service': 'No'})

df['MultipleLines'] = df['MultipleLines'].replace({'No phone service': 'No'})

# Verificar que no queden valores nulos
print(df.isnull().sum()) # Verificamos que no queden valores nulos después de la limpieza

# Verificar los tipos de datos
print(df.dtypes) # Mostramos los tipos de datos de cada columna para confirmar los cambios


# -------------------------
# 3. ANÁLISIS EXPLORATORIO
# -------------------------

# 2.1 Visualización univariada 1: Distribución de Tenure
plt.figure(figsize=(8, 5))
plt.hist(df['tenure'], bins=30, color='skyblue', edgecolor='black')
plt.title('Distribución de meses con la compañía (Tenure)')
plt.xlabel('Meses')
plt.ylabel('Número de clientes')
plt.grid(True)
plt.show()
# Interpretación: la mayoría de los clientes han estado menos de 20 meses.

# 2.2 Visualización univariada 2: Churn (clientes que cancelaron)
plt.figure(figsize=(6, 4))
df['Churn'].value_counts().plot(kind='bar', color=['lightgreen', 'salmon'])
plt.title('Distribución de Cancelaciones (Churn)')
plt.xlabel('¿Canceló?')
plt.ylabel('Cantidad de clientes')
plt.xticks(rotation=0)
plt.show()
# Interpretación: hay más clientes que NO han cancelado el servicio.

# 2.3 Visualización multivariada 1: Churn por tipo de contrato
plt.figure(figsize=(8, 5))
pd.crosstab(df['Contract'], df['Churn']).plot(kind='bar', stacked=True, colormap='coolwarm')
plt.title('Relación entre tipo de contrato y cancelación')
plt.xlabel('Tipo de contrato')
plt.ylabel('Cantidad de clientes')
plt.xticks(rotation=0)
plt.show()
# Interpretación: los contratos mes a mes tienen una mayor tasa de cancelación.

# 2.4 Visualización multivariada 2: Ingresos mensuales vs cancelación
plt.figure(figsize=(8, 5))
plt.boxplot([df[df['Churn'] == 'No']['MonthlyCharges'], df[df['Churn'] == 'Yes']['MonthlyCharges']],
            labels=['No', 'Yes'])
plt.title('Distribución de cargos mensuales por estado de cancelación')
plt.xlabel('¿Canceló?')
plt.ylabel('Cargos mensuales')
plt.grid(True)
plt.show()
# Interpretación: los clientes que cancelan tienden a tener cargos mensuales más altos.
