# **Guía 2**

Objetivo: aplicar los conceptos de Pandas en la manipulación y análisis de datos estructurados. Se trabajará con Series y DataFrames, aplicando técnicas de acceso, selección, filtrado y agregación de datos.

### **Caso de Negocio: Análisis de Deserción de Clientes en una Empresa de Telecomunicaciones**

**Contexto**

En la industria de las telecomunicaciones, la retención de clientes es un factor crítico para la sostenibilidad del negocio. La competencia es feroz y adquirir nuevos clientes suele ser más costoso que mantener a los actuales. En este análisis, exploraremos un conjunto de datos que contiene información detallada sobre clientes que han abandonado el servicio (churn) y aquellos que permanecen activos.

Nuestro objetivo es identificar los factores clave que influyen en la deserción, comprender patrones de comportamiento y generar estrategias efectivas para reducir la tasa de abandono.

La empresa ha experimentado un aumento en la tasa de deserción de clientes, lo que ha provocado:
- Pérdida de ingresos recurrentes.
- Incremento en los costos de adquisición de nuevos clientes.
- Menor estabilidad en la base de clientes a largo plazo.

Para abordar esta problemática, es crucial identificar las razones detrás de la deserción y desarrollar estrategias para mejorar la retención de clientes.



**Entrega del Trabajo**

Los estudiantes deben trabajar en grupos de entre 2 y 4 personas. Cada grupo deberá subir su trabajo a un repositorio de GitHub, asegurándose de que el código y los archivos necesarios estén bien organizados y documentados. Posteriormente, deberán enviar el enlace del repositorio en la plataforma Canvas para su evaluación.

Instrucciones para la entrega:

Crear un repositorio en GitHub con un nombre descriptivo para el proyecto.

Subir el código en Jupyter Notebook (.ipynb) o en formato Python (.py).

Incluir un archivo README.md con una breve descripción del trabajo y las instrucciones de ejecución.

Compartir el enlace del repositorio en Canvas dentro del plazo establecido.



**Descripción de las variables del dataset telecom_churn**

El dataset telecom_churn contiene información detallada sobre clientes de una empresa de telecomunicaciones, incluyendo datos generales, planes contratados, uso del servicio telefónico y llamadas al servicio al cliente. Su propósito principal es analizar patrones de deserción de clientes, identificados a través de la variable churn, que indica si un cliente ha abandonado la empresa (1) o sigue siendo cliente (0).

Dentro del dataset, encontramos información general como el estado (state) donde reside el cliente, el código de área (area code), y el número de teléfono (phone number), aunque esta última variable no aporta información útil para el análisis, ya que es un identificador único.

Además, el dataset registra el tiempo que un cliente ha estado en la empresa a través de la variable account length, lo que puede ayudar a analizar si la duración del contrato influye en la deserción. También se incluyen detalles sobre los planes contratados, como si el cliente tiene un plan internacional (international plan), que le permite realizar llamadas internacionales, o un buzón de voz (voice mail plan), que le permite recibir mensajes de voz.

En cuanto al uso del servicio, se registran datos detallados sobre el tiempo en llamadas y los costos asociados. Se divide en tres períodos del día: diurno (total day minutes, total day calls, total day charge), vespertino (total eve minutes, total eve calls, total eve charge) y nocturno (total night minutes, total night calls, total night charge), lo que permite evaluar si hay patrones de consumo que influyen en la deserción. También se incluye información sobre el uso del servicio internacional, con variables como total intl minutes (minutos en llamadas internacionales), total intl calls (cantidad de llamadas internacionales) y total intl charge (costos por llamadas internacionales).

Otro aspecto clave del dataset es el número de llamadas al servicio al cliente (customer service calls), ya que una mayor cantidad de llamadas puede indicar insatisfacción y estar relacionada con la decisión del cliente de abandonar la empresa.

Finalmente, la variable más importante del análisis es churn, que indica si un cliente ha desertado de la empresa. A partir de esta variable, podemos analizar qué factores influyen en la deserción y encontrar patrones en los clientes que tienen mayor probabilidad de abandonar el servicio.


**Exploración y Limpieza de Datos**

Cargar y explorar el dataset

Importa Pandas y carga el dataset telecom_churn.csv en un DataFrame.

Muestra las primeras 5 filas del DataFrame.

Verifica cuántas filas y columnas tiene el dataset.

Muestra información general del dataset, incluyendo los tipos de datos.

Identifica si hay valores nulos en alguna columna.

In [None]:
""" SE DIVIDE EL PRIMER EJERCICIO EN VARIAS PARTES DE CÓDIGO PARA MÁS CLARIDAD"""
#Punto 1. Importa Pandas y carga el dataset telecom_churn.csv en un DataFrame. 
# Se impotarn pandar con import con sobrenombre pd. Se inserta la BD con pd.read
import pandas as pd
df= pd.read_csv("C:\\Users\\Lenovo\\Documents\\Programación Ciencia de datos\\telecom_churn.csv")
#Punto 2. Muestra las primeras 5 filas del DataFrame. 
# Se utiliza la función df.head() para llamar las primeras 5 filas. Se pone 6 porque 0 también cuenta.
print(f"2.Estas son las primeras 5 filas de Telecomm:\n\n {df.head(5)}")

2.Estas son las primeras 5 filas de Telecomm:

   state  account length  area code phone number international plan  \
0    KS             128        415     382-4657                 no   
1    OH             107        415     371-7191                 no   
2    NJ             137        415     358-1921                 no   
3    OH              84        408     375-9999                yes   
4    OK              75        415     330-6626                yes   
5    AL             118        510     391-8027                yes   

  voice mail plan  number vmail messages  total day minutes  total day calls  \
0             yes                     25              265.1              110   
1             yes                     26              161.6              123   
2              no                      0              243.4              114   
3              no                      0              299.4               71   
4              no                      0              166.7  

In [None]:
# Punto 3. Verifica cuántas filas y columnas tiene el dataset.
# Se utiliza la funcion df.shape() para traer el total de filas y columnas de la tabla.
print(f"3.la base de datos de telecom tiene las siguientes filas y columnas {df.shape}\n\n")
# Punto 4. Muestra información general del dataset, incluyendo los tipos de datos.
# Se muestra la información general de la tabla con df.info().
print(f"4.Esta es la información general de la base de datos detelecom \n\n {df.info()}")

3.la base de datos de telecom tiene las siguientes filas y columnas (3333, 21)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3333 entries, 0 to 3332
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   state                   3333 non-null   object 
 1   account length          3333 non-null   int64  
 2   area code               3333 non-null   int64  
 3   phone number            3333 non-null   object 
 4   international plan      3333 non-null   object 
 5   voice mail plan         3333 non-null   object 
 6   number vmail messages   3333 non-null   int64  
 7   total day minutes       3333 non-null   float64
 8   total day calls         3333 non-null   int64  
 9   total day charge        3333 non-null   float64
 10  total eve minutes       3333 non-null   float64
 11  total eve calls         3333 non-null   int64  
 12  total eve charge        3333 non-null   float64
 13  total night 

In [None]:
#Punto 5. Identifica si hay valores nulos en alguna columna.
# se identifican los valores nulos con la funcion df.isnull() y se le agrega .sum() para solo obtener el resumen por columna.
print(f"5.Estos son los valores nulos:\n\n  {df.isnull().sum()}")

5.Estos son los valores nulos:

  state                     0
account length            0
area code                 0
phone number              0
international plan        0
voice mail plan           0
number vmail messages     0
total day minutes         0
total day calls           0
total day charge          0
total eve minutes         0
total eve calls           0
total eve charge          0
total night minutes       0
total night calls         0
total night charge        0
total intl minutes        0
total intl calls          0
total intl charge         0
customer service calls    0
churn                     0
dtype: int64


**Análisis de Churn y Factores Relacionados**

Calcula el porcentaje de clientes que han desertado (churn = 1).

Identifica si los clientes con plan internacional (international plan) tienen mayor tasa de deserción.

Identifica si los clientes con buzón de voz (voice mail plan) tienen menor tasa de deserción.

In [None]:
# 1.Calcula el porcentaje de clientes que han desertado (churn = 1).
# Para calcular el porcentaje de decersión utilizamo los valores true=1 con .sum; y los dividimos contra
# el número de filas. finalmente lo * 100 para obtener un numero con 2 decimales. En el print se utiliza .2f para dos decimal.es
total_columnas = len(df)
porcentaje_true =  (df["churn"].sum()/total_columnas)*100
porcentaje_true2 =  df["churn"].sum()
porcentaje_false = total_columnas - porcentaje_true2
porcentajek = (porcentaje_false / total_columnas)*100
print(f"1.El porcentaje de los usuarios que han abandonado su contrato con telecomo es es {porcentaje_true:.2f}%\n\n")

resultado = pd.DataFrame({
            "Descripción":["churn clientes","keep plan"],
            "porcentajes":[porcentaje_true, porcentajek]
})

resultado["porcentajes"] = resultado["porcentajes"].map(lambda x: f"{x:.2f}%")

print(resultado)


#2.Identifica si los clientes con plan internacional (international plan) tienen mayor tasa de deserción.
# primero úbicamos la columna international plan con los valores iguales a yes y hacemos una variable de los que pertencen al servicio. 
# Después, creamos otra variable que utilizando .mean nos indica el promedio de Churn dentro international plan * 100 para darnos el %
# de la tasa de desercion. Finalmenete se agrega un condicional para que imprima cuál de las condiciones se cumple (con plan o sin plan).
with_plan = df[df["international plan"]=="yes"]
desercionw = with_plan["churn"].mean()*100

no_plan = df[df["international plan"]=="no"]
desercionn = (no_plan["churn"]).mean()*100

if desercionw > desercionn:
    print(f"\n\n 2.Los clientes con un International Plan tienen una mayor deserción con {desercionw:.2f}% en comparación con los que no lo tienen {desercionn:.2f}%\n\n ")
else:
    print(f"\n\n 2.Los clientes sin el International Plan tienen una mayor deserción con {desercionn:.2f}% en comparación con los que lo tienen {desercionw:.2f}%\n\n ")


resultado2 = pd.DataFrame({
    "International":["Keep Plan","Churn Clients"],
    "Porcentaje":[desercionw,desercionn]
    })

resultado2["Porcentaje"] = resultado2["Porcentaje"].map(lambda x: f"{x:.2f}%")

print(f"{resultado2}\n\n")

#3.Identifica si los clientes con buzón de voz (voice mail plan) tienen menor tasa de deserción.
# Volvemos a realizar el mismo procedimiento del anterior punto. 1. En la columna VMP elejimos los yes,
#después con esa variable elejimos churn y le aplicamos .mean() para sacar el promedio y lo * 100.
#Finalmente imprimimos con un condicional de si tienen mayor o menor tasa de deserción.
with_mail = df[df["voice mail plan"]=="yes"]
total = with_mail["churn"].mean()*100

no_mail = df[df["voice mail plan"]=="no"]
total1 = no_mail["churn"].mean()*100
# Este es el condicional de voice mail
if total > total1:
    print(f"3.Los clientes con un Voice Mail Plan tienen una mayor deserción con {total:.2f}% en comparación con los que no lo tienen {total1:.2f}% ")
else:
    print(f"3.Los clientes sin el Voice Mail Plan tienen una mayor deserción con {total1:.2f}% y los que lo tienen, tienen una menor deserción con {total:.2f}% ")
# Aquí creamos  el data frame para comparar el chrun de voice mail.
resultado3 = pd.DataFrame({
    "Voice Mail":["Keep plan","Churn Clients"],
    "Porcentaje":[total,total1]
})
# Finalmente, se crea un data frame comparando lso 3 puntos es decir si siguen o abandonaron (total, international, voice plane)
resultado3["Porcentaje"]= resultado3["Porcentaje"].map(lambda x:  f"{x:.2f}%")
print(f"\n\n {resultado3}")

Tabla = pd.DataFrame({
     "Description": ["Stay","Leave"],
     "Total churn": [porcentajek,porcentaje_true],
     "International Plan": [desercionw,desercionn],
     "Voice Mail":[total,total1]
})
# Convertimos todos los fatos a porcentaje con .map y lambda.
Tabla["Total churn"]= Tabla["Total churn"].map(lambda x: f"{x:.2f}%") 
Tabla["International Plan"]= Tabla["International Plan"].map(lambda x: f"{x:.2f}%") 
Tabla["Voice Mail"]= Tabla["Voice Mail"].map(lambda x: f"{x:.2f}%") 
print(f"\n\n Aquí se muestra la tabla con toda la comparación de los que se fueron y los que siguen con Telecom:\n\n {Tabla}")

1.El porcentaje de los usuarios que han abandonado su contrato con telecomo es es 14.49%


      Descripción porcentajes
0  churn clientes      14.49%
1       keep plan      85.51%


 2.Los clientes con un International Plan tienen una mayor deserción con 42.41% en comparación con los que no lo tienen 11.50%

 
   International Porcentaje
0      Keep Plan     42.41%
1  Churn Clients     11.50%


3.Los clientes sin el Voice Mail Plan tienen una mayor deserción con 16.72% y los que lo tienen, tienen una menor deserción con 8.68% 


       Voice Mail Porcentaje
0      Keep plan      8.68%
1  Churn Clients     16.72%


 Aquí se muestra la tabla con toda la comparación de los que se fueron y los que siguen con Telecom:

   Description Total churn International Plan Voice Mail
0        Stay      85.51%             42.41%      8.68%
1       Leave      14.49%             11.50%     16.72%


**Análisis de la Duración del Servicio y Deserción**

¿Cuál es la duración promedio de la cuenta (account length) entre clientes que desertaron y los que permanecen?

¿Los clientes con cuentas más antiguas tienen más probabilidades de desertar?

In [364]:
# ¿Cuál es la duración promedio de la cuenta (account length) entre clientes que desertaron y los que permanecen?
#1. primero, filtramos en Chrun los clientes que abandonaron (true) y posteriormente elegimos los datos filtrados 
# en account length para sacar su promedio con .mean().
go1 = df[df["churn"]==True]["account length"].mean()
go2 = round(go1)
#print(go2)
# segundo, filtramos en Chrun los clientes que siguen con (False) y posteriormente elegimos los datos filtrados 
# en account length para sacar su promedio con .mean().
stay1 = df[df["churn"]==False]["account length"].mean()
stay2 = round(stay1)
#print(stay2)
# Imprimimos los dos resultados para saber el promedio en ambos casos.
print(f"1. Los clientes que abandonaron la compañias en promedio duraron {go2} días, mientras que los clientes que continuan han durado en promedio {stay2} días")

resultado = pd.DataFrame({
    "Type":["Churn Client","Keep Plan"],
    "Days":[go2,stay2]
})

print(f"\n{resultado}")

1. Los clientes que abandonaron la compañias en promedio duraron 103 días, mientras que los clientes que continuan han durado en promedio 101 días

           Type  Days
0  Churn Client   103
1     Keep Plan   101


**Relación entre Deserción y Uso del Servicio**

Compara la cantidad de minutos usados en llamadas diurnas (total day minutes) entre clientes con y sin churn.

Compara la cantidad de minutos usados en llamadas nocturnas (total night minutes).

Compara el número total de llamadas (total day calls) entre clientes con y sin churn.

In [388]:
# 1. Compara la cantidad de minutos usados en llamadas diurnas (total day minutes) entre clientes con y sin churn.
# primero, filtramos en churn por True y False, después con este filtro sumamos la cantidad de minutos day con .sum() para ambos casos.
day = int(df[df["churn"]==True]["total day minutes"].sum())
dayyes = int(df[df["churn"]==False]["total day minutes"].sum())

# Después, creamos un condicional que nos imprima los valores conseguidos. conclusión: Los clientes que siguen tienen más minutos diurnos.
if day > dayyes:
    print(f"1.los clientes que han desertado tienen en total {day:.0f} minutos diurnos\n mientras que los clientes que permanecen tienen en total {dayyes:.0f}  diurnos")
else:
      print(f"1.los clientes que siguen en telecom tienen en total {dayyes:.0f} minutos diurnos\n mientras que los clientes que cancelaron sus servicios tienen en total {day:.0f} minutos diurnos\n\n")

resultado = pd.DataFrame({
    "Type":["Churn Client","Keep Plan"],
    "Day Minutes":[day,dayyes]
})


print(f"{resultado}\n\n ")

#2.Compara la cantidad de minutos usados en llamadas nocturnas (total night minutes).
# primero, filtramos en churn por True y False, después con este filtro sumamos la cantidad de minutos night con .sum() para ambos casos.
night = int(df[df["churn"]==True]["total night minutes"].sum())
nightyes = int(df[df["churn"]==False]["total night minutes"].sum())
# Después, creamos un condicional que nos imprima los valores conseguidos. conclusión: Los clientes que siguen tienen más minutos night.
if night > nightyes:
     print(f"2.los clientes que han desertado tienen en total {night:.0f} minutos nocturnos\n mientras que los clientes que permanecen tienen en total {nightyes:.0f} minutos nocturnos")
else:
    print(f"2.los clientes que siguen en telecom tienen en total {nightyes:.0f} minutos nocturnos\n mientras que los clientes que cancelaron sus servicios tienen en total {night:.0f} minutos nocturnos\n\n")
# Creamos el data frame e imprimimos
resultado = pd.DataFrame({
    "Type":["Churn Client","Keep Plan"],
    "Night Minutes":[night,nightyes]
})


print(f"{resultado}\n\n ")

#3.Compara el número total de llamadas (total day calls) entre clientes con y sin churn.
# Realizamos un filtro de True y False en Churn, y luego sumamos el total day calls.
totald = int(df[df["churn"]==True]["total day calls"].sum())
totaldy = int(df[df["churn"]==False]["total day calls"].sum())
# Imprimmimos con un condicional.
if totald > totaldy:
    print(f"3.los clientes que han desertado hicieron  {totald:.0f} llamadas diurnas\n mientras que los clientes que permanecen tienen en total {totaldy:.0f} llamadas diurnas")
else:
    print(f"3.los clientes que siguen en telecom tienen en total {totaldy:.0f} llamadas diurnas\n mientras que los clientes que cancelaron sus servicios tienen en total {totald:.0f} llamadas diurnas\n\n")
# Creamos el data frame e imprimimos.
    resultado = pd.DataFrame({
    "Type":["Churn Client","Keep Plan"],
    "Total Day Calls":[totald,totaldy]
})


print(f"{resultado}\n\n ")

tabla = pd.DataFrame({
    "Type":["Churn Client","Keep Plan"],
    "Day Minutes":[day,dayyes],
     "Night Minutes":[night,nightyes],
     "Total Day Calls":[totald,totaldy]
     })

print(f"Esta es una tabla que compara los puntos analizados arriba;\n\n {tabla}")

1.los clientes que siguen en telecom tienen en total 499250 minutos diurnos
 mientras que los clientes que cancelaron sus servicios tienen en total 99939 minutos diurnos


           Type  Day Minutes
0  Churn Client        99939
1     Keep Plan       499250

 
2.los clientes que siguen en telecom tienen en total 570379 minutos nocturnos
 mientras que los clientes que cancelaron sus servicios tienen en total 99126 minutos nocturnos


           Type  Night Minutes
0  Churn Client          99126
1     Keep Plan         570379

 
3.los clientes que siguen en telecom tienen en total 285807 llamadas diurnas
 mientras que los clientes que cancelaron sus servicios tienen en total 48945 llamadas diurnas


           Type  Total Day Calls
0  Churn Client            48945
1     Keep Plan           285807

 
Esta es una tabla que compara los puntos analizados arriba;

            Type  Day Minutes  Night Minutes  Total Day Calls
0  Churn Client        99939          99126            48945
1     

**Impacto de las Llamadas al Servicio al Cliente en la Deserción**

Calcula el número promedio de llamadas al servicio al cliente (customer service calls) entre clientes que desertaron y los que no.

Divide los clientes en dos grupos:

- Grupo 1: Clientes que llamaron más de 3 veces al servicio al cliente.
- Grupo 2: Clientes que llamaron 3 veces o menos.
Compara la tasa de churn entre ambos grupos.

In [None]:
#1.Calcula el número promedio de llamadas al servicio al cliente (customer service calls) entre clientes que desertaron y los que no.
# Primero filtramos por los F y V en la columna churn, con esas division promediamos las customer service calls.
customer = int(df[df["churn"]==True]["customer service calls"].mean())
customeryes = int(df[df["churn"]==False]["customer service calls"].mean())
# Segundo, imprimimos los resultados de las customer service calls.
print(f"1.En promedio los clientes que abandonaron telecom llamaron {customer:.0f} veces,  mientras los que siguen con el servicio llamaron {customeryes:.0f} ves.")


resultado = pd.DataFrame({
    "Type":["Churn Client","Keep Plan"],
    "Total Day Calls":[customer,customeryes]
})


print(f"\n{resultado}\n\n ")

#2. Divide los clientes en dos grupos:
#Grupo 1: Clientes que llamaron más de 3 veces al servicio al cliente.
#Grupo 2: Clientes que llamaron 3 veces o menos.
#Compara la tasa de churn entre ambos grupos.
#2. primero, creamos una columna ficticia "grupos" y en esa columna dividimos en 2 grupos, grupo 1 (más de 3 calls) groupo 2 (3 o menos calls)
df["grupos"]= df["customer service calls"].apply(lambda x: "group1" if x > 3 else "group2")
#2. Después filtramos por separado grupo 1 y grupo 2 por separado, para filtra las calls a customer service utilizando count para datos únicos.
grupo1 = df[df["grupos"]=="group1"]["customer service calls"].count()
print(f"2a. El número de clientes que llamaron más de 3 veces fue {grupo1}")
grupo2 = df[df["grupos"]=="group2"]["customer service calls"].count()
print(f"2b. El número de clientes que llamaron 3 veces o menos fue {grupo2}")

resultado = pd.DataFrame({
    "Type":["Group 1 (more 3)","Group 2 (less or 3)"],
    "Total Day Calls":[grupo1,grupo2]
})


print(f"\n{resultado}\n\n ")

#2. tres, Filtramos los trues (abandonaron) y después  filtramos por grupo 1 usando.shape
churn1 = df[(df["churn"]==True)&(df["grupos"]=="group1")].shape[0] 
#print(churn1)
#2. cuatro, Filtramos los false (siguen ) y después filtramos por grupo 1 usando  .shape
churn2 = df[(df["churn"]==False)&(df["grupos"]=="group1")].shape[0] 
#print(churn2)
#2. cinco, Filtramos los trues (abandonaron) y después  filtramos por grupo 2 usando .shape
churna = df[(df["churn"]==True)&(df["grupos"]=="group2")].shape[0] 
#print(churna)
#2. Filtramos los false (siguen ) y después filtramos por grupo 2 usando .shape
churnb = df[(df["churn"]==False)&(df["grupos"]=="group2")].shape[0] 
#print(churnb)
#2. Finalmente sacamos el porcentaje de churn del grupo 1 y 2 dividiendo los ususarios que abandonaron por el total del grupo.
tasa_churn_1 = (churn1/grupo1)*100 
tasa_churn_2 = (churna/grupo2)*100 
print(f"2c. El porcentaje de personas que abandonaron Telecom del grupo 1 (más de 3 llamadas) fue del {tasa_churn_1:.0f}%")
print(f"2d. El porcentaje de personas que abandonaron Telecom del grupo 2 ( 3 llamadas o menos) fue del {tasa_churn_2:.0f}%")
grupo2 = df[df["grupos"]=="group2"]["customer service calls"].count()



resultado = pd.DataFrame({
    "Type":["Group 1 (more 3)","Group 2 (less or 3)"],
    "Abandon":[tasa_churn_1,tasa_churn_2]
})

resultado["Abandon"] = resultado["Abandon"].map( lambda x: f"{x:.0f}%" )
print(f"\n{resultado}\n\n ")

1.En promedio los clientes que abandonaron telecom llamaron 2 veces,  mientras los que siguen con el servicio llamaron 1 ves.

           Type  Total Day Calls
0  Churn Client                2
1     Keep Plan                1

 
2a. El número de clientes que llamaron más de 3 veces fue 267
2b. El número de clientes que llamaron 3 veces o menos fue 3066

                  Type  Total Day Calls
0     Group 1 (more 3)              267
1  Group 2 (less or 3)             3066

 
2c. El porcentaje de personas que abandonaron Telecom del grupo 1 (más de 3 llamadas) fue del 52%
2d. El porcentaje de personas que abandonaron Telecom del grupo 2 ( 3 llamadas o menos) fue del 11%

                  Type Abandon
0     Group 1 (more 3)     52%
1  Group 2 (less or 3)     11%

 


**Análisis del Costo de las Llamadas y Churn**

Compara el costo total de llamadas diurnas (total day charge) entre clientes con y sin churn.

Compara el costo total de llamadas nocturnas (total night charge).

¿Los clientes con mayor gasto en llamadas internacionales (total intl charge) tienen más probabilidades de desertar?

In [404]:
1. #Compara el costo total de llamadas diurnas (total day charge) entre clientes con y sin churn.
# Primero creamos una copia del DF donde solo me trae los true de churn, después en esa copia multiplicamos
# el total de minutos por los costos total day charge. y después sumamos el resultado.
costosin = df[df["churn"]==True].copy()
costosin["costo"]= costosin["total day minutes"]*costosin["total day charge"]
total_costo = int(costosin["costo"].sum())
# Primero creamos una copia del DF donde solo me trae los false de churn, después en esa copia multiplicamos
# el total de minutos por los costos total day charge. y después sumamos el resultado.
costocon = df[df["churn"]== False].copy()
costocon["costo"]= costocon["total day minutes"]*costocon["total day charge"]
total_costo2 = int(costocon["costo"].sum())
# Finalmente comparamos con un condicional varios supuestos.
if total_costo > total_costo2:
   print(f"1a.El costo total de las llamadas diurnas  de las personas que abandonaron telecom es de ${total_costo:.0f} pesos, mientras que el costo total de los usuario que siguen es de ${total_costo2:.0f} pesos")
else:
   print(f"1a.El costo total de las llamadas diurnas  de las personas que siguen con telecom es de ${total_costo2:.0f} pesos, mientras que el costo total de los usuario que abandonaron es de ${total_costo:.0f} pesos")
# Creamos el data frame del día.
results = pd.DataFrame({
    "Estado_DAY": ["Abandon", "keep"],
    "Costo total": [total_costo, total_costo2]
})

results["Costo total"] = results["Costo total"].astype(int)

print(f"\n{results}")
2. #Compara el costo total de llamadas nocturnas (total night charge).
# Primero, filtramos por True y False creando una copia con .copy() y después en cada uno el costos total, por el total de minutos.
costonightsin = df[df["churn"]==True].copy()
costonightsin["costob"] = costonightsin["total night minutes"]*costonightsin["total night charge"]
total_costob = int(costonightsin["costob"].sum())
#print(total_costob)

costonightcon = df[df["churn"]== False].copy()
costonightcon["costob"] = costonightcon["total night minutes"]*costonightcon["total night charge"]
total_costoc = int(costonightcon["costob"].sum())
#print(total_costoc)
# Segundo, comparamos con un condicional.
if total_costob > total_costoc:
    print(f"2a.El costo total de las llamadas nocturnas  de las personas que abandonaron telecom es de ${total_costob:.0f} pesos, mientras que el costo total de los usuario que siguen es de ${total_costoc:.0f} pesos")
else:
    print(f"2a.El costo total de las llamadas nocturnas  de las personas que siguen con telecom es de ${total_costoc:.0f} pesos, mientras que el costo total de los usuario que abandonaron es de ${total_costob:.0f} pesos")
# Tercero, creamos el data frame de la comparación el escenario de la noche.
results = pd.DataFrame({
    "Estado_NIGHT": ["Abandon", "keep"],
    "Costo total": [total_costob, total_costoc]
})

results["Costo total"] = results["Costo total"].astype(int)

print(f"\n{results}")
# cuarto, creamos el data frame de la comparación de ambos escenarios day and night.
tabla = pd.DataFrame({
      "Type": ["Abandon", "keep"],
      "Charge Day": [total_costo, total_costo2],
      "Costo Night": [total_costob, total_costoc]
})

print(f"\n Esta es la tabla que compara el costo de llamadas por tipo:\n\n {tabla}")



1a.El costo total de las llamadas diurnas  de las personas que siguen con telecom es de $16087534 pesos, mientras que el costo total de los usuario que abandonaron es de $3905558 pesos

  Estado_DAY  Costo total
0    Abandon      3905558
1       keep     16087534
2a.El costo total de las llamadas nocturnas  de las personas que siguen con telecom es de $5471722 pesos, mientras que el costo total de los usuario que abandonaron es de $963675 pesos

  Estado_NIGHT  Costo total
0      Abandon       963675
1         keep      5471722

 Esta es la tabla que compara el costo de llamadas por tipo:

       Type  Charge Day  Costo Night
0  Abandon     3905558       963675
1     keep    16087534      5471722
