<a href="https://colab.research.google.com/github/WSARMIE32139/Programacion_para_CD/blob/main/analisis-churn-telecom/Guia_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Guía 2**

Objetivo: aplicar los conceptos de Pandas en la manipulación y análisis de datos estructurados. Se trabajará con Series y DataFrames, aplicando técnicas de acceso, selección, filtrado y agregación de datos.

### **Caso de Negocio: Análisis de Deserción de Clientes en una Empresa de Telecomunicaciones**

**Contexto**

En la industria de las telecomunicaciones, la retención de clientes es un factor crítico para la sostenibilidad del negocio. La competencia es feroz y adquirir nuevos clientes suele ser más costoso que mantener a los actuales. En este análisis, exploraremos un conjunto de datos que contiene información detallada sobre clientes que han abandonado el servicio (churn) y aquellos que permanecen activos.

Nuestro objetivo es identificar los factores clave que influyen en la deserción, comprender patrones de comportamiento y generar estrategias efectivas para reducir la tasa de abandono.

La empresa ha experimentado un aumento en la tasa de deserción de clientes, lo que ha provocado:
- Pérdida de ingresos recurrentes.
- Incremento en los costos de adquisición de nuevos clientes.
- Menor estabilidad en la base de clientes a largo plazo.

Para abordar esta problemática, es crucial identificar las razones detrás de la deserción y desarrollar estrategias para mejorar la retención de clientes.



**Entrega del Trabajo**

Los estudiantes deben trabajar en grupos de entre 2 y 4 personas. Cada grupo deberá subir su trabajo a un repositorio de GitHub, asegurándose de que el código y los archivos necesarios estén bien organizados y documentados. Posteriormente, deberán enviar el enlace del repositorio en la plataforma Canvas para su evaluación.

Instrucciones para la entrega:

Crear un repositorio en GitHub con un nombre descriptivo para el proyecto.

Subir el código en Jupyter Notebook (.ipynb) o en formato Python (.py).

Incluir un archivo README.md con una breve descripción del trabajo y las instrucciones de ejecución.

Compartir el enlace del repositorio en Canvas dentro del plazo establecido.



**Descripción de las variables del dataset telecom_churn**

El dataset telecom_churn contiene información detallada sobre clientes de una empresa de telecomunicaciones, incluyendo datos generales, planes contratados, uso del servicio telefónico y llamadas al servicio al cliente. Su propósito principal es analizar patrones de deserción de clientes, identificados a través de la variable churn, que indica si un cliente ha abandonado la empresa (1) o sigue siendo cliente (0).

Dentro del dataset, encontramos información general como el estado (state) donde reside el cliente, el código de área (area code), y el número de teléfono (phone number), aunque esta última variable no aporta información útil para el análisis, ya que es un identificador único.

Además, el dataset registra el tiempo que un cliente ha estado en la empresa a través de la variable account length, lo que puede ayudar a analizar si la duración del contrato influye en la deserción. También se incluyen detalles sobre los planes contratados, como si el cliente tiene un plan internacional (international plan), que le permite realizar llamadas internacionales, o un buzón de voz (voice mail plan), que le permite recibir mensajes de voz.

En cuanto al uso del servicio, se registran datos detallados sobre el tiempo en llamadas y los costos asociados. Se divide en tres períodos del día: diurno (total day minutes, total day calls, total day charge), vespertino (total eve minutes, total eve calls, total eve charge) y nocturno (total night minutes, total night calls, total night charge), lo que permite evaluar si hay patrones de consumo que influyen en la deserción. También se incluye información sobre el uso del servicio internacional, con variables como total intl minutes (minutos en llamadas internacionales), total intl calls (cantidad de llamadas internacionales) y total intl charge (costos por llamadas internacionales).

Otro aspecto clave del dataset es el número de llamadas al servicio al cliente (customer service calls), ya que una mayor cantidad de llamadas puede indicar insatisfacción y estar relacionada con la decisión del cliente de abandonar la empresa.

Finalmente, la variable más importante del análisis es churn, que indica si un cliente ha desertado de la empresa. A partir de esta variable, podemos analizar qué factores influyen en la deserción y encontrar patrones en los clientes que tienen mayor probabilidad de abandonar el servicio.


**Exploración y Limpieza de Datos**

Cargar y explorar el dataset

Importa Pandas y carga el dataset telecom_churn.csv en un DataFrame.

Muestra las primeras 5 filas del DataFrame.

Verifica cuántas filas y columnas tiene el dataset.

Muestra información general del dataset, incluyendo los tipos de datos.

Identifica si hay valores nulos en alguna columna.

In [None]:
#!pip install pandas numpy

In [None]:
# Solución propuesta
# 1. Importa Pandas y carga el dataset telecom_churn.csv en un DataFrame.
import pandas as pd

df = pd.read_csv('/content/telecom_churn.csv')

print(df)

In [None]:
# 2. Muestra las primeras 5 filas del DataFrame.
# Cargar el dataset
df = pd.read_csv('telecom_churn.csv')

# Ajustar el ancho máximo de las columnas para tener una mejor vista del df
pd.set_option('display.max_columns', None)  # Muestra todas las columnas
pd.set_option('display.width',1000)       # Ajustar el ancho total de la pantalla

# Mostramos las primeras 5 filas
print(df.head())

In [None]:
#3. Verifica cuántas filas y columnas tiene el dataset.
print ("Confirmación de Filas y Columnas")
print(f"El dataset tiene {df.shape[0]} filas y {df.shape[1]} columnas.")

In [None]:
#4. Muestra información general del dataset, incluyendo los tipos de datos.
print(df.info())

In [None]:
#5. Identifica si hay valores nulos en alguna columna.
print ("se Identifican los valores nulos")
print(df.isnull().sum())

In [None]:
# Estadísticas descriptivas
df.describe()

In [None]:
# Conteo de valores únicos
print(df.nunique())

In [None]:
# Distribución de valores
print(df['churn'].value_counts())
print(df['area code'].value_counts())
print(df['international plan'].value_counts())
print(df['voice mail plan'].value_counts())

**Análisis de Churn y Factores Relacionados**

Calcula el porcentaje de clientes que han desertado (churn = 1).

Identifica si los clientes con plan internacional (international plan) tienen mayor tasa de deserción.

Identifica si los clientes con buzón de voz (voice mail plan) tienen menor tasa de deserción.

In [None]:
# Solución propuesta
# Calcular el porcentaje de churn
porcentaje_churn = (df['churn'].sum() / len(df)) * 100 #suma los valores True de la columna sobre el total clientes

print(f"El porcentaje de clientes que han desertado es del {porcentaje_churn:.2f}%")

In [None]:
# Análisis del plan internacional
churn_con_plan_internacional = df[df['international plan'] == 'yes']['churn'].mean() * 100
churn_sin_plan_internacional = df[df['international plan'] == 'no']['churn'].mean() * 100

print(f"Tasa de deserción con plan internacional: {churn_con_plan_internacional:.2f}%")
print(f"Tasa de deserción sin plan internacional: {churn_sin_plan_internacional:.2f}%")

if churn_con_plan_internacional > churn_sin_plan_internacional:
    print("Los clientes con plan internacional tienen una mayor tasa de deserción.")
else:
    print("Los clientes con plan internacional no tienen una mayor tasa de deserción.")

# Análisis del buzón de voz
churn_con_buzon_voz = df[df['voice mail plan'] == 'yes']['churn'].mean() * 100
churn_sin_buzon_voz = df[df['voice mail plan'] == 'no']['churn'].mean() * 100

print(f"\nTasa de deserción con buzón de voz: {churn_con_buzon_voz:.2f}%")
print(f"Tasa de deserción sin buzón de voz: {churn_sin_buzon_voz:.2f}%")

if churn_con_buzon_voz < churn_sin_buzon_voz:
    print("Los clientes con buzón de voz tienen una menor tasa de deserción.")
else:
    print("Los clientes con buzón de voz no tienen una menor tasa de deserción.")

**Análisis de la Duración del Servicio y Deserción**

¿Cuál es la duración promedio de la cuenta (account length) entre clientes que desertaron y los que permanecen?

¿Los clientes con cuentas más antiguas tienen más probabilidades de desertar?

In [None]:
# Solución propuesta
# Calcular la duración promedio para cada grupo (en meses)
duracion_promedio_churn_meses = df[df['churn'] == 1]['account length'].mean()
duracion_promedio_no_churn_meses = df[df['churn'] == 0]['account length'].mean()

# Convertir a meses y días
def convertir_a_meses_dias(meses):
    dias = (meses * 30.44) % 30.44  # Usamos 30.44 días/mes (promedio) teniendo en cuenta el total de días por cada mes
    meses_int = int(meses)
    dias_int = int(dias)
    return meses_int, dias_int

duracion_churn_meses, duracion_churn_dias = convertir_a_meses_dias(duracion_promedio_churn_meses)
duracion_no_churn_meses, duracion_no_churn_dias = convertir_a_meses_dias(duracion_promedio_no_churn_meses)

print(f"Duración promedio de cuenta (desertaron): {duracion_churn_meses} meses y {duracion_churn_dias} días")
print(f"Duración promedio de cuenta (permanecen): {duracion_no_churn_meses} meses y {duracion_no_churn_dias} días")

In [None]:
# Creamos 3 grupos de antigüedad
df['antiguedad_grupo'] = pd.cut(df['account length'], bins=[0, 50, 100, float('inf')], labels=['< 50', '50-100', '> 100'])

# Calculos estadísticas por grupo
resultados = df.groupby('antiguedad_grupo', observed=True).agg({
    'churn': ['mean', 'sum', 'count']
})

# Renombrar columnas
resultados.columns = ['tasa_desercion', 'cantidad_desercion', 'cantidad_clientes']

# Calculos porcentaje de deserción
resultados['tasa_desercion'] = resultados['tasa_desercion'] * 100

# Encontrar el grupo con la mayor tasa de deserción
grupo_max_desercion = resultados['tasa_desercion'].idxmax()  # Encuentra el grupo con la tasa de deserción más alta
tasa_max_desercion = resultados['tasa_desercion'].max()      # Encuentra el valor de la tasa de deserción más alta

# Imprimir resultados
print("\nResultados por grupo de antigüedad:")
print(resultados)

print(f"\nEl grupo con la mayor tasa de deserción es: {grupo_max_desercion} ({tasa_max_desercion:.2f}%)")

# Respuesta a la pregunta
if resultados.index.get_loc(grupo_max_desercion) > resultados.index.get_loc('< 50'):
    print("\nLos clientes con cuentas más antiguas tienen más probabilidades de desertar.")
else:
    print("\nLos clientes con cuentas más antiguas NO tienen más probabilidades de desertar.")

**Relación entre Deserción y Uso del Servicio**

Compara la cantidad de minutos usados en llamadas diurnas (total day minutes) entre clientes con y sin churn.

Compara la cantidad de minutos usados en llamadas nocturnas (total night minutes).

Compara el número total de llamadas (total day calls) entre clientes con y sin churn.

In [None]:
# Función para analizar un tipo de llamada
def analizar_llamadas(df, tipo_llamada):
    minutos_col = f'total {tipo_llamada} minutes'
    llamadas_col = f'total {tipo_llamada} calls'

    print(f"\nAnálisis de llamadas {tipo_llamada}:")
    resultados = df.groupby('churn').agg({minutos_col: ['sum'], llamadas_col: ['sum']})

    # Formatear números con separadores de miles
    for col in resultados.columns:
        resultados[col] = resultados[col].apply(lambda x: "{:,}".format(x))

    print(resultados)

    # Comparación de la suma de minutos
    suma_minutos_churn = df[df['churn'] == 1][minutos_col].sum()
    suma_minutos_no_churn = df[df['churn'] == 0][minutos_col].sum()

    if suma_minutos_churn > suma_minutos_no_churn:
        print(f"\nEn total, los clientes que desertan usan más minutos en llamadas {tipo_llamada}.")
    else:
        print(f"\nEn total, los clientes que desertan no usan más minutos en llamadas {tipo_llamada}.")

    # Comparación de la suma de llamadas
    suma_llamadas_churn = df[df['churn'] == 1][llamadas_col].sum()
    suma_llamadas_no_churn = df[df['churn'] == 0][llamadas_col].sum()

    if suma_llamadas_churn > suma_llamadas_no_churn:
        print(f"\nEn total, los clientes que desertan realizan más llamadas {tipo_llamada}.")
    else:
        print(f"\nEn total, los clientes que desertan no realizan más llamadas {tipo_llamada}.")

# Análisis por tipo de llamada
tipos_llamada = ['day', 'eve', 'night', 'intl']
for tipo in tipos_llamada:
    analizar_llamadas(df, tipo)

# Análisis global
print("\nAnálisis global de llamadas:")
df['total_minutes'] = df['total day minutes'] + df['total eve minutes'] + df['total night minutes'] + df['total intl minutes']
df['total_calls'] = df['total day calls'] + df['total eve calls'] + df['total night calls'] + df['total intl calls']

resultados_globales = df.groupby('churn').agg({'total_minutes': ['sum'], 'total_calls': ['sum']})

# Formatear números con separadores de miles
for col in resultados_globales.columns:
    resultados_globales[col] = resultados_globales[col].apply(lambda x: "{:,}".format(x))

print(resultados_globales)

# Comparación global de la suma de minutos
suma_minutos_churn = df[df['churn'] == 1]['total_minutes'].sum()
suma_minutos_no_churn = df[df['churn'] == 0]['total_minutes'].sum()

if suma_minutos_churn > suma_minutos_no_churn:
    print("\nEn total, los clientes que desertan usan más minutos en total.")
else:
    print("\nEn total, los clientes que desertan no usan más minutos en total.")

# Comparación global de la suma de llamadas
suma_llamadas_churn = df[df['churn'] == 1]['total_calls'].sum()
suma_llamadas_no_churn = df[df['churn'] == 0]['total_calls'].sum()

if suma_llamadas_churn > suma_llamadas_no_churn:
    print("\nEn total, los clientes que desertan realizan más llamadas en total.")
else:
    print("\nEn total, los clientes que desertan no realizan más llamadas en total.")

**Impacto de las Llamadas al Servicio al Cliente en la Deserción**

Calcula el número promedio de llamadas al servicio al cliente (customer service calls) entre clientes que desertaron y los que no.

Divide los clientes en dos grupos:

- Grupo 1: Clientes que llamaron más de 3 veces al servicio al cliente.
- Grupo 2: Clientes que llamaron 3 veces o menos.
Compara la tasa de churn entre ambos grupos.

In [None]:
# Solución propuesta
# Se calcula el número promedio de llamadas al servicio al cliente
print("\nPromedio de llamadas al servicio al cliente:")
print(df.groupby('churn')['customer service calls'].mean())

# Dividir a los clientes en grupos según la cantidad de llamadas
df['grupo_llamadas'] = pd.cut(df['customer service calls'], bins=[-1, 3, float('inf')], labels=['Grupo 1 (3 o menos)', 'Grupo 2 (Más de 3)'])

# Se calcular la tasa de churn en cada grupo
tasa_churn_por_grupo = df.groupby('grupo_llamadas', observed=True)['churn'].mean() * 100
print("\nTasa de churn por grupo de llamadas:")
print(tasa_churn_por_grupo)

# Comparar la tasa de churn entre los grupos
print("\nComparación de la tasa de churn:")
if tasa_churn_por_grupo['Grupo 2 (Más de 3)'] > tasa_churn_por_grupo['Grupo 1 (3 o menos)']:
    print("Los clientes en el Grupo 2 (Más de 3 llamadas) tienen una mayor tasa de churn.")
else:
    print("Los clientes en el Grupo 1 (3 o menos llamadas) tienen una mayor tasa de churn.")

**Análisis del Costo de las Llamadas y Churn**

Compara el costo total de llamadas diurnas (total day charge) entre clientes con y sin churn.

Compara el costo total de llamadas nocturnas (total night charge).

¿Los clientes con mayor gasto en llamadas internacionales (total intl charge) tienen más probabilidades de desertar?

In [None]:
# Solución propuesta
import numpy as np

# Función para analizar un tipo de llamada (costo)
def analizar_costo_llamadas(df, tipo_llamada):
    costo_col = f'total {tipo_llamada} charge'

    print(f"\nAnálisis del costo de llamadas {tipo_llamada}:")
    resultados = df.groupby('churn').agg({costo_col: ['mean', 'median', 'sum']})

    # Formatear como moneda
    for col in resultados.columns:
        resultados[col] = resultados[col].apply(lambda x: "${:,.2f}".format(x))

    print(resultados)

    # Comparación del costo total (con formato)
    costo_churn = df[df['churn'] == 1][costo_col].sum()
    costo_no_churn = df[df['churn'] == 0][costo_col].sum()

    print(f"Costo total llamadas {tipo_llamada} (desercion): ${costo_churn:,.2f}")
    print(f"Costo total llamadas {tipo_llamada} (no desercion): ${costo_no_churn:,.2f}")

    if costo_churn > costo_no_churn:
        print(f"\nEn total, los clientes que desertan tienen un mayor costo de llamadas {tipo_llamada}.")
    else:
        print(f"\nEn total, los clientes que desertan no tienen un mayor costo de llamadas {tipo_llamada}.")

# Análisis del costo de llamadas diurnas
analizar_costo_llamadas(df, 'day')

# Análisis del costo de llamadas nocturnas
analizar_costo_llamadas(df, 'night')

# Análisis del costo de llamadas internacionales
analizar_costo_llamadas(df, 'intl')

# Análisis de la relación entre el gasto en llamadas internacionales y la deserción
print("\nAnálisis de la relación entre el gasto en llamadas internacionales y la deserción:")

# Dividir a los clientes en grupos según el gasto en llamadas internacionales
min_gasto = df['total intl charge'].min()
max_gasto = df['total intl charge'].max()

bins = np.linspace(min_gasto, max_gasto, 4)  # 4 porque queremos 3 intervalos (Bajo, Medio, Alto) **** Indica el número de puntos (incluyendo los extremos) que se van a generar. En este caso, se generan 4 puntos, lo que resulta en 3 intervalos.
df['grupo_gasto_internacional'] = pd.cut(df['total intl charge'], bins=bins, labels=['Bajo', 'Medio', 'Alto'],
                                         include_lowest=True)

# Calcular la tasa de churn en cada grupo
tasa_churn_por_gasto = df.groupby('grupo_gasto_internacional', observed=True)['churn'].mean() * 100

# Formatear como porcentaje
tasa_churn_por_gasto = tasa_churn_por_gasto.apply(lambda x: "{:.2f}%".format(x))

print("\nTasa de churn por grupo de gasto internacional:")
print(tasa_churn_por_gasto)

# Comparar la tasa de churn entre los grupos
# Manejar el caso de que no haya grupo "Alto"
if 'Alto' in tasa_churn_por_gasto and 'Medio' in tasa_churn_por_gasto and 'Bajo' in tasa_churn_por_gasto:  # Verifica si existen todos los grupos
    if tasa_churn_por_gasto['Alto'] > tasa_churn_por_gasto['Medio'] and tasa_churn_por_gasto['Medio'] > tasa_churn_por_gasto['Bajo']:  # Verifica si la tasa aumenta con el gasto
        print("Los clientes con mayor gasto en llamadas internacionales tienen más probabilidades de desertar.")  # Imprime mensaje si la relación es clara
    else:
        print("No hay una relación clara entre el gasto en llamadas internacionales y la deserción.")  # Imprime mensaje si no hay relación clara
else:
    print("No hay suficientes grupos para determinar una relación clara.")  # Imprime mensaje si faltan grupos