# **Guía 2**

Objetivo: aplicar los conceptos de Pandas en la manipulación y análisis de datos estructurados. Se trabajará con Series y DataFrames, aplicando técnicas de acceso, selección, filtrado y agregación de datos.

### **Caso de Negocio: Análisis de Deserción de Clientes en una Empresa de Telecomunicaciones**

**Contexto**

En la industria de las telecomunicaciones, la retención de clientes es un factor crítico para la sostenibilidad del negocio. La competencia es feroz y adquirir nuevos clientes suele ser más costoso que mantener a los actuales. En este análisis, exploraremos un conjunto de datos que contiene información detallada sobre clientes que han abandonado el servicio (churn) y aquellos que permanecen activos.

Nuestro objetivo es identificar los factores clave que influyen en la deserción, comprender patrones de comportamiento y generar estrategias efectivas para reducir la tasa de abandono.

La empresa ha experimentado un aumento en la tasa de deserción de clientes, lo que ha provocado:
- Pérdida de ingresos recurrentes.
- Incremento en los costos de adquisición de nuevos clientes.
- Menor estabilidad en la base de clientes a largo plazo.

Para abordar esta problemática, es crucial identificar las razones detrás de la deserción y desarrollar estrategias para mejorar la retención de clientes.



**Entrega del Trabajo**

Los estudiantes deben trabajar en grupos de entre 2 y 4 personas. Cada grupo deberá subir su trabajo a un repositorio de GitHub, asegurándose de que el código y los archivos necesarios estén bien organizados y documentados. Posteriormente, deberán enviar el enlace del repositorio en la plataforma Canvas para su evaluación.

Instrucciones para la entrega:

Crear un repositorio en GitHub con un nombre descriptivo para el proyecto.

Subir el código en Jupyter Notebook (.ipynb) o en formato Python (.py).

Incluir un archivo README.md con una breve descripción del trabajo y las instrucciones de ejecución.

Compartir el enlace del repositorio en Canvas dentro del plazo establecido.



**Descripción de las variables del dataset telecom_churn**

El dataset telecom_churn contiene información detallada sobre clientes de una empresa de telecomunicaciones, incluyendo datos generales, planes contratados, uso del servicio telefónico y llamadas al servicio al cliente. Su propósito principal es analizar patrones de deserción de clientes, identificados a través de la variable churn, que indica si un cliente ha abandonado la empresa (1) o sigue siendo cliente (0).

Dentro del dataset, encontramos información general como el estado (state) donde reside el cliente, el código de área (area code), y el número de teléfono (phone number), aunque esta última variable no aporta información útil para el análisis, ya que es un identificador único.

Además, el dataset registra el tiempo que un cliente ha estado en la empresa a través de la variable account length, lo que puede ayudar a analizar si la duración del contrato influye en la deserción. También se incluyen detalles sobre los planes contratados, como si el cliente tiene un plan internacional (international plan), que le permite realizar llamadas internacionales, o un buzón de voz (voice mail plan), que le permite recibir mensajes de voz.

En cuanto al uso del servicio, se registran datos detallados sobre el tiempo en llamadas y los costos asociados. Se divide en tres períodos del día: diurno (total day minutes, total day calls, total day charge), vespertino (total eve minutes, total eve calls, total eve charge) y nocturno (total night minutes, total night calls, total night charge), lo que permite evaluar si hay patrones de consumo que influyen en la deserción. También se incluye información sobre el uso del servicio internacional, con variables como total intl minutes (minutos en llamadas internacionales), total intl calls (cantidad de llamadas internacionales) y total intl charge (costos por llamadas internacionales).

Otro aspecto clave del dataset es el número de llamadas al servicio al cliente (customer service calls), ya que una mayor cantidad de llamadas puede indicar insatisfacción y estar relacionada con la decisión del cliente de abandonar la empresa.

Finalmente, la variable más importante del análisis es churn, que indica si un cliente ha desertado de la empresa. A partir de esta variable, podemos analizar qué factores influyen en la deserción y encontrar patrones en los clientes que tienen mayor probabilidad de abandonar el servicio.


**Exploración y Limpieza de Datos**

Cargar y explorar el dataset

Importa Pandas y carga el dataset telecom_churn.csv en un DataFrame.

Muestra las primeras 5 filas del DataFrame.

Verifica cuántas filas y columnas tiene el dataset.

Muestra información general del dataset, incluyendo los tipos de datos.

Identifica si hay valores nulos en alguna columna.

In [None]:
# Importación de pandas
import pandas as pd

#Cargar el archivo e imprimir las primeras 5 filas y dimensiones de la base
df = pd.read_csv('telecom_churn.csv')
print(df.shape)
df.head(5)

(3333, 21)


Unnamed: 0,state,account length,area code,phone number,international plan,voice mail plan,number vmail messages,total day minutes,total day calls,total day charge,...,total eve calls,total eve charge,total night minutes,total night calls,total night charge,total intl minutes,total intl calls,total intl charge,customer service calls,churn
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False


In [None]:
#Chequeo de tipo de dato en la base
df.dtypes

state                      object
account length              int64
area code                   int64
phone number               object
international plan         object
voice mail plan            object
number vmail messages       int64
total day minutes         float64
total day calls             int64
total day charge          float64
total eve minutes         float64
total eve calls             int64
total eve charge          float64
total night minutes       float64
total night calls           int64
total night charge        float64
total intl minutes        float64
total intl calls            int64
total intl charge         float64
customer service calls      int64
churn                        bool
dtype: object

In [None]:
#Porcentaje de datos nullos por columna
null_percentage = df.isnull().mean() * 100
print(null_percentage)

state                     0.0
account length            0.0
area code                 0.0
phone number              0.0
international plan        0.0
voice mail plan           0.0
number vmail messages     0.0
total day minutes         0.0
total day calls           0.0
total day charge          0.0
total eve minutes         0.0
total eve calls           0.0
total eve charge          0.0
total night minutes       0.0
total night calls         0.0
total night charge        0.0
total intl minutes        0.0
total intl calls          0.0
total intl charge         0.0
customer service calls    0.0
churn                     0.0
dtype: float64


In [None]:
#Calculos estadisticos basicos para la base
df.describe()

Unnamed: 0,account length,area code,number vmail messages,total day minutes,total day calls,total day charge,total eve minutes,total eve calls,total eve charge,total night minutes,total night calls,total night charge,total intl minutes,total intl calls,total intl charge,customer service calls
count,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0
mean,101.064806,437.182418,8.09901,179.775098,100.435644,30.562307,200.980348,100.114311,17.08354,200.872037,100.107711,9.039325,10.237294,4.479448,2.764581,1.562856
std,39.822106,42.37129,13.688365,54.467389,20.069084,9.259435,50.713844,19.922625,4.310668,50.573847,19.568609,2.275873,2.79184,2.461214,0.753773,1.315491
min,1.0,408.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,23.2,33.0,1.04,0.0,0.0,0.0,0.0
25%,74.0,408.0,0.0,143.7,87.0,24.43,166.6,87.0,14.16,167.0,87.0,7.52,8.5,3.0,2.3,1.0
50%,101.0,415.0,0.0,179.4,101.0,30.5,201.4,100.0,17.12,201.2,100.0,9.05,10.3,4.0,2.78,1.0
75%,127.0,510.0,20.0,216.4,114.0,36.79,235.3,114.0,20.0,235.3,113.0,10.59,12.1,6.0,3.27,2.0
max,243.0,510.0,51.0,350.8,165.0,59.64,363.7,170.0,30.91,395.0,175.0,17.77,20.0,20.0,5.4,9.0


In [None]:
#Conteo de duplicados 
duplicados_totales = df.duplicated()
print(f"\nTotal de filas duplicadas en todas las columnas: {duplicados_totales.sum()}")


Total de filas duplicadas en todas las columnas: 0


In [64]:
#Creacion de columna para vision de cargos totales
df['total_charges'] = df['total day charge'] + df['total night charge'] + df['total eve charge'] + df['total intl charge']

In [None]:
#Vision de cargos totales por estado

agrupado = df.groupby(["state"]).agg(
    total_cargos=("total_charges", "sum"),
    Promedio_cargos=("total_charges", "mean")).round(2).sort_values('total_cargos', ascending=False)

print(agrupado.head(10))

       total_cargos  Promedio_cargos
state                               
WV          6079.48            57.35
MN          5071.19            60.37
NY          4843.77            58.36
AL          4755.43            59.44
OH          4733.69            60.69
VA          4615.30            59.94
WY          4611.81            59.89
OR          4592.00            58.87
WI          4589.03            58.83
IN          4457.93            62.79


**Análisis de Churn y Factores Relacionados**

Calcula el porcentaje de clientes que han desertado (churn = 1).

Identifica si los clientes con plan internacional (international plan) tienen mayor tasa de deserción.

Identifica si los clientes con buzón de voz (voice mail plan) tienen menor tasa de deserción.

In [73]:
#Funcion para determinar si la tasa de desercion es mayor o menor
def comparacion_tasa_desercion(tasa, valor):
    if tasa < valor :
        compa = 'mayor'
    elif tasa > valor:
        compa = 'menor'
    else:
        compa = 'Las tasas de deserción son iguales'
    return compa

In [None]:

#Calculo de porcentaje de Churn
print(f"Porcentaje de Churn == 1: {(df['churn'] == 1).mean() * 100:.2f}%")
churn_percentage = (df['churn'] == 1).sum() / len(df) * 100


Porcentaje de Churn == 1: 14.49%


In [80]:
#Identificacion de clientes con plan internacional que han abandonado el servicio
churned_with_international_plan = df.loc[(df['international plan'] == 'yes') & (df['churn'] == 1)]
churn_percentage_inter = len(churned_with_international_plan) / len(df) * 100
print(f"Porcentaje de deserción en clientes con plan internacional es: {churn_percentage_inter:.2f}%")
print(f"El porcentaje de clientes con deserción en planes internacionales es {comparacion_tasa_desercion(churn_percentage, churn_percentage_inter)} al porcentaje general de clientes que han abandonado el servicio")


Porcentaje de deserción en clientes con plan internacional es: 4.11%
El porcentaje de clientes con deserción en planes internacionales es menor al porcentaje general de clientes que han abandonado el servicio


In [None]:
#Indentificacion de clientes con plan de voice mail que han abandonado el servicio
churned_with_voicemail = df.loc[(df['voice mail plan'] == 'yes') & (df['churn'] == 1)]
churn_percentage_voicemail = len(churned_with_voicemail) / len(df) * 100
print(f"Porcentaje de deserción en clientes con voice mail plan: {churn_percentage_voicemail:.2f}%")
print(f"El porcentaje de clientes con deserción en planes internacionales es {comparacion_tasa_desercion(churn_percentage, churn_percentage_voicemail)} al porcentaje general de clientes que han abandonado el servicio")


Porcentaje de deserción en clientes con voice mail plan: 2.40%
El porcentaje de clientes con deserción en planes internacionales es menor al porcentaje general de clientes que han abandonado el servicio


**Análisis de la Duración del Servicio y Deserción**

¿Cuál es la duración promedio de la cuenta (account length) entre clientes que desertaron y los que permanecen?


In [None]:

#Agrupacion por abandono falso o verdeadero teniendo en cuenta la variable account length para determinar la duracion promedio
df.groupby('churn')['account length'].mean()

churn
False    100.793684
True     102.664596
Name: account length, dtype: float64

**Relación entre Deserción y Uso del Servicio**

Compara la cantidad de minutos usados en llamadas diurnas (total day minutes) entre clientes con y sin churn.

Compara la cantidad de minutos usados en llamadas nocturnas (total night minutes).

Compara el número total de llamadas (total day calls) entre clientes con y sin churn.

In [None]:
#Agrupacion para la cantidad de minutos usados en llamadas diurnas
print(f"Minutos diurnos: ")
stats_churn_dia = df.groupby("churn")["total day minutes"].agg(["sum", "mean", "max"])
print(stats_churn_dia)

Minutos diurnos: 
            sum        mean    max
churn                             
False  499250.9  175.175754  315.6
True    99939.5  206.914079  350.8


In [90]:
#Agrupacion para la cantidad de minutos usados en llamadas nocturnas
print(f"Minutos nocturnos: ")
stats_churn_noche = df.groupby("churn")["total night minutes"].agg(["sum", "mean", "max"])
print(stats_churn_noche)

Minutos nocturnos: 
            sum        mean    max
churn                             
False  570379.6  200.133193  395.0
True    99126.9  205.231677  354.9


In [None]:
#Agrupacion para la comparación del número total de llamadas entre clientes con y in churn
stats_churn_llamadas_total = df.groupby("churn")["total day calls"].agg(["sum", "mean", "max"])
print(f"Llamadas en el dia: ")
print(stats_churn_llamadas_total)

Llamadas en el dia: 
          sum        mean  max
churn                         
False  285807  100.283158  163
True    48945  101.335404  165


**Impacto de las Llamadas al Servicio al Cliente en la Deserción**

Calcula el número promedio de llamadas al servicio al cliente (customer service calls) entre clientes que desertaron y los que no.

Divide los clientes en dos grupos:

- Grupo 1: Clientes que llamaron más de 3 veces al servicio al cliente.
- Grupo 2: Clientes que llamaron 3 veces o menos.
Compara la tasa de churn entre ambos grupos.

In [None]:

# Promedio de llamadas al servicio al cliente por grupo de churn
print(f"Numero promedio de llamadas al servicio al cliente vs Churn: ")
df.groupby('churn')['customer service calls'].mean()

Numero promedio de llamadas al servicio al cliente vs Churn: 


churn
False    1.449825
True     2.229814
Name: customer service calls, dtype: float64

In [None]:
#Etiquetado por grupo dependiendo del numero de llamadas a servicio al cliente
df['service_call_group'] = df['customer service calls'].apply(lambda x: 'Grupo 1' if x > 3 else 'Grupo 2')
# Calcular la tasa de churn en cada grupo
churn_rate_by_group = df.groupby(['service_call_group'])['churn'].mean() * 100
churn_rate_by_group.name = 'Churn rate by group'

print(churn_rate_by_group)

service_call_group
Grupo 1    51.685393
Grupo 2    11.252446
Name: Churn rate by group, dtype: float64


**Análisis del Costo de las Llamadas y Churn**

Compara el costo total de llamadas diurnas (total day charge) entre clientes con y sin churn.

Compara el costo total de llamadas nocturnas (total night charge).


In [None]:
# Costo total de llamadas diurnas por clientes con y sin churn
print(f"Costo total de llamadas diurnas: ")
llamadas_diurnas = df.groupby("churn")["total day charge"].agg(["sum", "mean", "max"])
print(llamadas_diurnas)

Costo total de llamadas diurnas: 
            sum       mean    max
churn                            
False  84874.20  29.780421  53.65
True   16989.97  35.175921  59.64


In [None]:
# Costo total de llamadas nocturnas por clientes
print(f"Costo total de llamadas nocturnas: ")
llamadas_noc = df.groupby("churn")["total night charge"].agg(["sum", "mean", "max"])
print(llamadas_noc)

Costo total de llamadas nocturnas: 
            sum      mean    max
churn                           
False  25667.31  9.006074  17.77
True    4460.76  9.235528  15.97
