<a href="https://colab.research.google.com/github/sandrazuniga/Challenge_TelecomX_Parte2/blob/main/TelecomX_Parte2_LATAM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Telecom X - An√°lisis de Evasi√≥n de Clientes

La empresa enfrenta una alta tasa de cancelaciones y necesita comprender los factores que llevan a la p√©rdida de clientes.

El √°nalisis contiene:

Importaci√≥n y manipulaci√≥n de datos desde una API.
Aplicaci√≥n de los conceptos de ETL (Extracci√≥n, Transformaci√≥n y Carga) en la preparaci√≥n de los datos.
Creaci√≥n de visualizaciones estrat√©gicas para identificar patrones y tendencias.
An√°lisis Exploratorio de Datos (EDA) e informe con insights relevantes.

#üìå Extracci√≥n

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
from matplotlib.lines import Line2D
import seaborn as sns
import requests
import json

In [None]:
url = 'https://raw.githubusercontent.com/sandrazuniga/Challenge_TelecomX_Parte2/refs/heads/main/TelecomX_Data.json'

df = pd.read_json(url)

In [None]:
df.head()

In [None]:
df.info()

#üîß Transformaci√≥n

In [None]:
# Paso 1: Normalizar columnas anidadas
customer_df = pd.json_normalize(df['customer'])
phone_df = pd.json_normalize(df['phone'])
internet_df = pd.json_normalize(df['internet'])
account_df = pd.json_normalize(df['account'])

# Paso 2: Eliminar las columnas anidadas originales del DataFrame
df.drop(columns=['customer', 'phone', 'internet', 'account'], inplace=True)

# Paso 3: Concatenar el DataFrame original con los nuevos datos normalizados
df = pd.concat([df, customer_df, phone_df, internet_df, account_df], axis=1)

# Paso 4: Verificar los cambios
df.head()

In [None]:
df.columns

In [None]:

df.rename(columns={
    'customerID': 'ID',
    'Churn':'cancelo',
    'gender': 'genero',
    'SeniorCitizen': 'mayor_de_65',
    'Partner': 'tiene_pareja',
    'Dependents': 'tiene_dependentes',
    'tenure': 'meses_de_contrato',
    'PhoneService': 'servicio_telefonico',
    'MultipleLines': 'lineas_multiples',
    'InternetService': 'servicio_internet',
    'OnlineSecurity': 'seguridad_en_linea',
    'OnlineBackup': 'Soporte_en_linea',
    'DeviceProtection': 'proteccion_dispositivos',
    'TechSupport': 'soporte_tecnico',
    'StreamingTV': 'servicio_tv',
    'StreamingMovies': 'servicio_peliculas',
    'PaperlessBilling': 'facturas_electronicas',
    'PaymentMethod': 'metodo_pago',
    'Contract': 'tipo_contrato',
    'Charges.Monthly': 'gastos_mensuales',
    'Charges.Total': 'gastos_totales'
}, inplace=True)

In [None]:
df.head()

In [None]:
df.isnull().sum()

In [None]:
(df['cancelo'] == '').sum()

In [None]:
(df['gastos_totales'] == ' ').sum()

In [None]:
df['cancelo'] = df['cancelo'].replace('', np.nan)
df['gastos_totales'] = df['gastos_totales'].replace(' ', np.nan)

In [None]:
(df['cancelo'] == '').sum()
(df['gastos_totales'] == ' ').sum()

In [None]:
df.isnull().sum()

In [None]:
df = df.dropna(subset=['cancelo', 'gastos_totales'])

In [None]:
df[['cancelo', 'gastos_totales']].isnull().sum()

In [None]:
df.info()

In [None]:
df.head()

In [None]:
# Convertir a float
df['gastos_totales'] = df['gastos_totales'].astype(np.float64)

In [None]:
# Convertir a str
vars_a_str = ['ID', 'genero', 'servicio_internet', 'tipo_contrato', 'metodo_pago']

In [None]:
# Convertirlas a string
df[vars_a_str] = df[vars_a_str].astype(str)

In [None]:
# creo una variable que contiene todas las variables que van a ser transformadas en booleanos

columnas_bool = ['cancelo','mayor_de_65', 'tiene_pareja', 'tiene_dependentes', 'facturas_electronicas']
df[columnas_bool] = df[columnas_bool].replace({'Yes': True, 'No': False}).infer_objects(copy=False)

In [None]:
# Transformaci√≥n de variables a categoricas

columnas_categoricas = ['lineas_multiples', 'seguridad_en_linea', 'Soporte_en_linea', 'proteccion_dispositivos', 'soporte_tecnico', 'servicio_tv', 'servicio_peliculas']
df[columnas_categoricas] = df[columnas_categoricas].astype('category')

In [None]:
df.head()

In [None]:
df.duplicated().sum()

In [None]:
df['cuentas_diarias'] = df['gastos_mensuales'].astype(float) / 30

In [None]:
df.head()

In [None]:
df[columnas_bool] = df[columnas_bool].astype(int)

In [None]:
df[columnas_bool].head()

In [None]:
df.info()

In [None]:
df.head()

In [None]:
df.dtypes

#üìä Carga y an√°lisis

In [None]:
df.describe()

In [None]:
# identifica variables categoricas

columnas_categoricas = df.select_dtypes(include=['object', 'category', 'bool']).columns.tolist()
columnas_categoricas

In [None]:
# Realizar recuentos cruzados con cancelo

for col in columnas_categoricas:
    print(f'\n--- Porcentaje de evasi√≥n por {col} ---')
    porcentaje = pd.crosstab(df[col], df['cancelo'], normalize='index') * 100
    print(porcentaje.round(2))

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# Definimos los colores
AZUL = '#1f77b4'         # azul corporativo
VERDE = '#2ca02c'        # verde corporativo
GRIS = '#4D4D4D'         # gris para t√≠tulos

In [None]:
def cancelacion_tipo_internet():

  # Ordenar categor√≠as seg√∫n porcentaje de cancelaci√≥n
  orden = df.groupby('servicio_internet')['cancelo'].mean().sort_values().index

  # Crear gr√°fica
  plt.figure(figsize=(10, 6))
  ax = sns.barplot(
      x='servicio_internet',
      y='cancelo',
      data=df,
      estimator=lambda x: x.mean() * 100,
      order=orden,
      errorbar=None
  )

  # Asignar colores barra por barra (sin palette -> sin warning)
  for i, bar in enumerate(ax.patches):
      color = AZUL if i % 2 == 0 else VERDE
      bar.set_facecolor(color)

  # A√±adir porcentaje sobre cada barra
  for container in ax.containers:
      ax.bar_label(container, fmt='%.1f%%', label_type='edge', padding=3, color=AZUL, fontsize=12)

  # Personalizaci√≥n
  ax.set_title('Cancelaci√≥n por tipo de Internet', fontsize=18, color=GRIS)

  # Eje Y: suprimir ticks y etiqueta
  ax.set_ylabel('')
  ax.set_yticklabels([])  # oculta los valores del eje y
  ax.tick_params(axis='y', length=0)  # oculta las marcas de ticks del eje y

  # Eje X: etiquetas en azul, tama√±o 12
  ax.set_xlabel('')
  ax.tick_params(axis='x', labelsize=12, colors=AZUL)

  # Eliminar bordes superior, derecho e izquierdo
  ax.spines['top'].set_visible(False)
  ax.spines['right'].set_visible(False)
  ax.spines['left'].set_visible(False)

  plt.tight_layout()



  return plt

In [None]:
def cancelacion_tipo_contrato():

  # Ordenar categor√≠as seg√∫n porcentaje de cancelaci√≥n
  orden = df.groupby('tipo_contrato')['cancelo'].mean().sort_values().index

  # Crear gr√°fica
  plt.figure(figsize=(10, 6))
  ax = sns.barplot(
      x='tipo_contrato',
      y='cancelo',
      data=df,
      estimator=lambda x: x.mean() * 100,
      order=orden,
      errorbar=None
  )

  # Asignar colores barra por barra (alternancia azul/verde)
  for i, bar in enumerate(ax.patches):
      color = AZUL if i % 2 == 0 else VERDE
      bar.set_facecolor(color)

  # A√±adir porcentaje sobre cada barra
  for container in ax.containers:
      ax.bar_label(container, fmt='%.1f%%', label_type='edge', padding=3, color=AZUL, fontsize=12)

  # Personalizaci√≥n
  ax.set_title('Cancelaci√≥n por tipo de contrato', fontsize=18, color=GRIS)

  # Eje Y: suprimir ticks y etiqueta
  ax.set_ylabel('')
  ax.set_yticklabels([])  # oculta los valores del eje y
  ax.tick_params(axis='y', length=0)  # oculta las marcas de ticks del eje y

  # Eje X: etiquetas en azul, tama√±o 12
  ax.set_xlabel('')
  ax.tick_params(axis='x', labelsize=12, colors=AZUL)

  # Eliminar bordes superior, derecho e izquierdo
  ax.spines['top'].set_visible(False)
  ax.spines['right'].set_visible(False)
  ax.spines['left'].set_visible(False)

  # Fondo gris
  ax.set_facecolor('#f0f0f0')  # Fondo del gr√°fico
  plt.gcf().set_facecolor('#f0f0f0')  # Fondo de la figura completa

  plt.tight_layout()

  return plt


def cancelacion_servicios_adicionales():

  # Lista de servicios adicionales
  servicios = ['seguridad_en_linea', 'Soporte_en_linea', 'proteccion_dispositivos', 'soporte_tecnico']
  titulos = ['Seguridad en l√≠nea', 'Soporte en l√≠nea', 'Protecci√≥n de dispositivos', 'Soporte t√©cnico']

  # Orden l√≥gico de categor√≠as
  orden = ['No', 'Yes', 'No internet service']

  # Crear figura y ejes
  fig, axs = plt.subplots(2, 2, figsize=(12, 8))
  fig.subplots_adjust(hspace=0.5, wspace=0.3)
  fig.suptitle('Cancelaci√≥n seg√∫n servicios adicionales', fontsize=20, color=GRIS)
  fig.patch.set_facecolor('#f0f0f0')  # fondo de la figura

  # Gr√°ficas
  for i, (servicio, titulo) in enumerate(zip(servicios, titulos)):
      fila = i // 2
      col = i % 2
      ax = axs[fila, col]
      ax.set_facecolor('#f0f0f0')  # fondo del gr√°fico individual

      # Gr√°fica de barras sin usar hue
      plot = sns.barplot(
      x=servicio,
      y='cancelo',
      data=df,
      estimator=lambda x: x.mean() * 100,
      order=orden,
      errorbar=None,
      hue=servicio,           # agregamos hue (aunque no usaremos leyenda)
      legend=False,           # ocultamos leyenda
      ax=ax,
      palette=[AZUL, VERDE, AZUL]
  )


      # T√≠tulo
      ax.set_title(titulo, fontsize=16, color=GRIS)

      # Etiqueta del eje Y solo en la primera columna
      if col == 0:
          ax.set_ylabel('')
          ax.set_yticklabels([])  # suprimir etiquetas y
          ax.tick_params(axis='y', length=0)  # sin ticks eje y
      else:
          ax.set_ylabel('')
          ax.set_yticklabels([])
          ax.tick_params(axis='y', length=0)

      # Eje X
      ax.set_xlabel('')
      ax.tick_params(axis='x', labelsize=12, colors=AZUL)

      # Bordes
      ax.spines['top'].set_visible(False)
      ax.spines['right'].set_visible(False)
      ax.spines['left'].set_visible(False)

      # Rango com√∫n para comparar
      ax.set_ylim(0, 50)

      # Etiquetas sobre las barras
      for container in ax.containers:
          ax.bar_label(container, fmt='%.1f%%', label_type='edge', padding=3, color=AZUL, fontsize=12)

  plt.tight_layout(rect=[0, 0, 1, 0.95])  # para que el t√≠tulo no se encime

  return plt

In [None]:
# Realizar recuentos cruzados con cancelo
variables_binarias = ['mayor_de_65', 'tiene_pareja', 'tiene_dependentes']

for col in variables_binarias:
    print(f'\n--- Porcentaje de evasi√≥n por {col} ---')
    porcentaje = pd.crosstab(df[col], df['cancelo'], normalize='index') * 100
    print(porcentaje.round(2))

In [None]:
def cancelacion_bin():

  plt.figure(figsize=(14, 4))


  for i, var in enumerate(variables_binarias):
      plt.subplot(1, 4, i+1)

      # Calcular porcentaje de cancelaci√≥n
      data = df.groupby(var)['cancelo'].mean() * 100
      categorias = data.index
      valores = data.values

      # Convertimos a DataFrame para usar x=hue
      temp_df = pd.DataFrame({var: categorias, 'cancelacion': valores})

      # Gr√°fico de barras con colores alternos
      sns.barplot(
          data=temp_df,
          x=var,
          y='cancelacion',
          hue=var,
          palette=[AZUL, VERDE],
          legend=False
      )

      # Texto sobre las barras
      for j, v in enumerate(valores):
          plt.text(j, v + 2, f'{v:.1f}%', ha='center', fontsize=12, color=AZUL)

      # Limites y personalizaci√≥n
      plt.ylim(0, 100)
      plt.title(var.replace('_', ' ').capitalize(), fontsize=16, )

      # Eje Y sin etiquetas ni ylabel
      plt.tick_params(axis='y', labelleft=False)
      plt.ylabel('')

      # Eje X personalizado
      plt.xlabel('')
      plt.xticks([0, 1], ['No', 'S√≠'], fontsize=12, color=AZUL)

      # Eliminar bordes superior, derecho e izquierdo
      ax = plt.gca()
      ax.spines['top'].set_visible(False)
      ax.spines['right'].set_visible(False)
      ax.spines['left'].set_visible(False)

  plt.tight_layout()

  return plt


In [None]:
# Variables numericas

columnas_numericas = [['gastos_mensuales','gastos_totales','cuentas_diarias']]

# Promedios y desviaciones por grupo
df.groupby('cancelo')[['gastos_mensuales', 'gastos_totales', 'cuentas_diarias']].agg(['mean', 'std'])


In [None]:
print(columnas_numericas)
print(type(columnas_numericas))

In [None]:
columnas_numericas = columnas_numericas[0]

In [None]:
def boxplot_cancelacion(columnas_numericas):

  plt.figure(figsize=(15, 5))
  plt.gcf().set_facecolor('#F2F2F2')  # Fondo claro

  for i, col in enumerate(columnas_numericas):
      plt.subplot(1, 3, i + 1)

      # Boxplot con alternancia de colores
      sns.boxplot(
      x='cancelo',
      y=col,
      hue='cancelo',
      data=df,
      showfliers=False,
      palette=[AZUL, VERDE],
      legend=False
     )



      # T√≠tulo en GRIS
      plt.title(f'{col.replace("_", " ").capitalize()} seg√∫n cancelaci√≥n', fontsize=16, color=GRIS)

      # Eje X
      plt.xlabel('Cancel√≥', fontsize=12, color=AZUL)
      plt.xticks([0, 1], ['No', 'S√≠'], fontsize=12, color=AZUL)

      # Eje Y
      plt.ylabel(col.replace('_', ' ').capitalize(), fontsize=12, color=AZUL)
      plt.tick_params(axis='y', labelsize=12, colors=AZUL)

      # Eliminar bordes superior, derecho e izquierdo
      ax = plt.gca()
      ax.set_facecolor('#F2F2F2')  # Fondo claro en subplot
      ax.spines['top'].set_visible(False)
      ax.spines['right'].set_visible(False)
      ax.spines['left'].set_visible(False)

  plt.tight_layout()
  return plt


In [None]:
def cancelacion_segun_meses():

  # Boxplot para meses de contrato
  plt.figure(figsize=(10, 5))
  sns.boxplot(x='cancelo', y='meses_de_contrato', data=df, showfliers=False)
  plt.title('Meses de contrato seg√∫n cancelaci√≥n', fontsize=18, color=GRIS)
  plt.xlabel('Cancel√≥')
  plt.ylabel('Meses de contrato')

  # Eliminar bordes superior, derecho e izquierdo
  ax = plt.gca()
  ax.set_facecolor('#F2F2F2')  # Fondo claro en subplot
  ax.spines['top'].set_visible(False)
  ax.spines['right'].set_visible(False)
  ax.spines['left'].set_visible(False)


  plt.tight_layout()
  return plt

#üìÑInforme final

In [None]:
cancelacion_tipo_internet().show()

In [None]:
 cancelacion_tipo_contrato().show()

In [None]:
cancelacion_servicios_adicionales().show()

In [None]:
cancelacion_bin().show()

In [None]:
boxplot_cancelacion(columnas_numericas).show()

In [None]:
cancelacion_segun_meses().show()

üîπ Conclusiones e Insights:
üß™ Principales hallazgos

Mayor cancelaci√≥n con fibra √≥ptica: Los usuarios con internet de fibra √≥ptica presentan un porcentaje de cancelaci√≥n m√°s alto (41.9%).

Contratos mes a mes tienen mayor evasi√≥n: Las personas con contratos mensuales tienen una tasa de cancelaci√≥n elevada (42.7%), en comparaci√≥n con otros tipos de contrato.

Menor fidelizaci√≥n sin servicios adicionales: Los clientes que no cuentan con servicios adicionales cancelan con mayor frecuencia:

Seguridad en l√≠nea: 41.8%

Soporte en l√≠nea: 39.9%

Protecci√≥n de dispositivos: 39.1%

Soporte t√©cnico: 41.6%

Edad avanzada y mayor tasa de cancelaci√≥n: Los clientes mayores de 65 a√±os tienen una tasa de cancelaci√≥n mucho m√°s alta (41.7%) que los m√°s j√≥venes.

Estado civil influye: Los clientes sin pareja cancelan m√°s (~33%) que aquellos con pareja.

Menos dependientes, m√°s cancelaci√≥n: Los clientes sin personas a su cargo cancelan en mayor proporci√≥n (31.3%) que los que s√≠ tienen dependientes.

Mayor gasto mensual, mayor probabilidad de cancelaci√≥n: A medida que aumenta el gasto mensual, tambi√©n lo hace la tasa de cancelaci√≥n. Esto puede deberse a la percepci√≥n de que el servicio es costoso.

Clientes nuevos cancelan m√°s: Quienes cancelaron tienen un total facturado significativamente menor, lo que indica que llevaban poco tiempo como clientes.

M√°s uso no garantiza fidelidad: Los clientes que cancelaron presentan ligeramente m√°s conexiones diarias. Aunque la diferencia no es muy marcada, podr√≠a sugerir que usaban el servicio activamente pero no estaban satisfechos.

Contratos cortos = m√°s cancelaciones: Los clientes que cancelaron tienden a tener contratos mucho m√°s cortos (mediana ~10 meses), lo que sugiere menor compromiso o una etapa temprana de prueba del servicio.

üõ†Ô∏è ¬øC√≥mo reducir la evasi√≥n?

Revisar el servicio de fibra √≥ptica: Identificar y corregir posibles fallas t√©cnicas. Ofrecer alternativas tecnol√≥gicas (como otro tipo de conexi√≥n) en zonas problem√°ticas para evitar cancelaciones.

Incentivar contratos m√°s duraderos: Ofrecer beneficios como descuentos o promociones para quienes eligen contratos m√°s largos, sin imponer cl√°usulas de permanencia r√≠gidas.

Incluir servicios adicionales sin recargo: Crear paquetes integrales que incluyan servicios como soporte t√©cnico, seguridad en l√≠nea y protecci√≥n de dispositivos, mejorando as√≠ la experiencia del cliente sin aumentar su factura.

Enfocarse en el p√∫blico mayor: Dise√±ar ofertas espec√≠ficas para adultos mayores, con contenidos o canales afines a sus intereses (por ejemplo, pel√≠culas cl√°sicas o programaci√≥n religiosa).

Promociones para personas solas o sin dependientes: Brindar beneficios especiales como descuentos o servicios gratuitos adicionales a este grupo, que muestra mayor tendencia a cancelar.

Reducir la percepci√≥n de altos costos: Ajustar tarifas o implementar opciones de pago flexibles, como pagos quincenales, para mejorar la percepci√≥n de accesibilidad y evitar que los usuarios sientan que est√°n pagando de m√°s.

üîπ Recomendaciones:
Con base en los hallazgos obtenidos, se proponen las siguientes estrategias para reducir la tasa de cancelaci√≥n y aumentar la fidelizaci√≥n de clientes:

Optimizar la experiencia de nuevos clientes:
Desarrollar un programa de bienvenida que acompa√±e a los nuevos usuarios durante los primeros meses.

Realizar encuestas de satisfacci√≥n temprana para detectar problemas a tiempo y evitar cancelaciones tempranas.

Mejorar la percepci√≥n de valor del servicio:
Reestructurar los paquetes para incluir servicios adicionales sin aumentar el precio final.

Comunicar de forma m√°s clara los beneficios incluidos en el servicio (soporte, seguridad, protecci√≥n).

Implementar opciones de pago m√°s flexibles (ej. pagos quincenales o personalizados) para clientes con alto gasto mensual.

Fidelizar a los clientes con contratos mes a mes:
Ofrecer incentivos exclusivos para quienes migren de contrato mensual a uno de mayor duraci√≥n (como beneficios permanentes o tarifas especiales).

Crear un sistema de recompensas o puntos por antig√ºedad, aplicable incluso en contratos mensuales.

Segmentar ofertas seg√∫n el perfil del cliente:
Para adultos mayores: ofrecer contenido personalizado, soporte preferencial, atenci√≥n al cliente dedicada y capacitaci√≥n b√°sica para el uso del servicio.

Para personas solteras o sin dependientes: crear campa√±as enfocadas en independencia, flexibilidad y autosuficiencia, con promociones dise√±adas para su estilo de vida.

Auditar y mejorar el servicio de fibra √≥ptica:
Analizar reclamos t√©cnicos y evaluar la infraestructura por zonas geogr√°ficas.

Priorizar mejoras en las √°reas con mayores tasas de cancelaci√≥n asociadas a fibra √≥ptica.

Capacitar al personal t√©cnico para garantizar instalaciones sin inconvenientes.

Monitorear la actividad del usuario:
Identificar patrones de uso que preceden a la cancelaci√≥n (como reducci√≥n en conexiones diarias).

Usar esta informaci√≥n para activar alertas preventivas o campa√±as personalizadas de retenci√≥n.

Crear una unidad de an√°lisis de cancelaciones:
Implementar un sistema continuo de an√°lisis de evasi√≥n para identificar nuevas tendencias.

Hacer seguimiento mensual de m√©tricas clave (edad, tipo de contrato, servicios adicionales, antig√ºedad, etc.).

In [None]:
df.columns

In [None]:
df

In [None]:
X = df.drop('cancelo', axis = 1)
y = df['cancelo']

In [None]:
X

In [None]:
y

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, stratify = y, random_state=42)

In [None]:
columnas_categoricas = X_train.select_dtypes(include=['object', 'category']).columns.tolist()
columnas_numericas = ['meses_de_contrato', 'gastos_mensuales']

In [None]:
from sklearn.compose import make_column_transformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler

In [None]:
one_hot = make_column_transformer((OneHotEncoder(sparse_output=False, handle_unknown='ignore'), columnas_categoricas), (StandardScaler(), columnas_numericas), remainder='passthrough', sparse_threshold=0)

In [None]:
X_train_encoded = one_hot.fit_transform(X_train)
X_test_encoded = one_hot.transform(X_test)

In [None]:
one_hot.get_feature_names_out()

In [None]:
X_train_df = pd.DataFrame(X_train_encoded, columns = one_hot.get_feature_names_out())
X_train_df

In [None]:
X_train_df.info()

In [None]:
X_test_df = pd.DataFrame(X_test_encoded, columns=one_hot.get_feature_names_out())
X_test_df

In [None]:
X_test_df.info()

In [None]:
X_train_corr = X_train_df.copy()
X_train_corr['churn'] = y_train.reset_index(drop=True)

correlaciones = X_train_corr.corr()['churn'].sort_values(ascending=False)
print(correlaciones)