<a href="https://colab.research.google.com/github/parradoandres/guia_2_SS1/blob/main/Guia_2_SS1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Guía 2**

Objetivo: aplicar los conceptos de Pandas en la manipulación y análisis de datos estructurados. Se trabajará con Series y DataFrames, aplicando técnicas de acceso, selección, filtrado y agregación de datos.

### **Caso de Negocio: Análisis de Deserción de Clientes en una Empresa de Telecomunicaciones**

**Contexto**

En la industria de las telecomunicaciones, la retención de clientes es un factor crítico para la sostenibilidad del negocio. La competencia es feroz y adquirir nuevos clientes suele ser más costoso que mantener a los actuales. En este análisis, exploraremos un conjunto de datos que contiene información detallada sobre clientes que han abandonado el servicio (churn) y aquellos que permanecen activos.

Nuestro objetivo es identificar los factores clave que influyen en la deserción, comprender patrones de comportamiento y generar estrategias efectivas para reducir la tasa de abandono.

La empresa ha experimentado un aumento en la tasa de deserción de clientes, lo que ha provocado:
- Pérdida de ingresos recurrentes.
- Incremento en los costos de adquisición de nuevos clientes.
- Menor estabilidad en la base de clientes a largo plazo.

Para abordar esta problemática, es crucial identificar las razones detrás de la deserción y desarrollar estrategias para mejorar la retención de clientes.



**Entrega del Trabajo**

Los estudiantes deben trabajar en grupos de entre 2 y 4 personas. Cada grupo deberá subir su trabajo a un repositorio de GitHub, asegurándose de que el código y los archivos necesarios estén bien organizados y documentados. Posteriormente, deberán enviar el enlace del repositorio en la plataforma Canvas para su evaluación.

Instrucciones para la entrega:

Crear un repositorio en GitHub con un nombre descriptivo para el proyecto.

Subir el código en Jupyter Notebook (.ipynb) o en formato Python (.py).

Incluir un archivo README.md con una breve descripción del trabajo y las instrucciones de ejecución.

Compartir el enlace del repositorio en Canvas dentro del plazo establecido.



**Descripción de las variables del dataset telecom_churn**

El dataset telecom_churn contiene información detallada sobre clientes de una empresa de telecomunicaciones, incluyendo datos generales, planes contratados, uso del servicio telefónico y llamadas al servicio al cliente. Su propósito principal es analizar patrones de deserción de clientes, identificados a través de la variable churn, que indica si un cliente ha abandonado la empresa (1) o sigue siendo cliente (0).

Dentro del dataset, encontramos información general como el estado (state) donde reside el cliente, el código de área (area code), y el número de teléfono (phone number), aunque esta última variable no aporta información útil para el análisis, ya que es un identificador único.

Además, el dataset registra el tiempo que un cliente ha estado en la empresa a través de la variable account length, lo que puede ayudar a analizar si la duración del contrato influye en la deserción. También se incluyen detalles sobre los planes contratados, como si el cliente tiene un plan internacional (international plan), que le permite realizar llamadas internacionales, o un buzón de voz (voice mail plan), que le permite recibir mensajes de voz.

En cuanto al uso del servicio, se registran datos detallados sobre el tiempo en llamadas y los costos asociados. Se divide en tres períodos del día: diurno (total day minutes, total day calls, total day charge), vespertino (total eve minutes, total eve calls, total eve charge) y nocturno (total night minutes, total night calls, total night charge), lo que permite evaluar si hay patrones de consumo que influyen en la deserción. También se incluye información sobre el uso del servicio internacional, con variables como total intl minutes (minutos en llamadas internacionales), total intl calls (cantidad de llamadas internacionales) y total intl charge (costos por llamadas internacionales).

Otro aspecto clave del dataset es el número de llamadas al servicio al cliente (customer service calls), ya que una mayor cantidad de llamadas puede indicar insatisfacción y estar relacionada con la decisión del cliente de abandonar la empresa.

Finalmente, la variable más importante del análisis es churn, que indica si un cliente ha desertado de la empresa. A partir de esta variable, podemos analizar qué factores influyen en la deserción y encontrar patrones en los clientes que tienen mayor probabilidad de abandonar el servicio.


**Exploración y Limpieza de Datos**

Cargar y explorar el dataset

Importa Pandas y carga el dataset telecom_churn.csv en un DataFrame.

Muestra las primeras 5 filas del DataFrame.

Verifica cuántas filas y columnas tiene el dataset.

Muestra información general del dataset, incluyendo los tipos de datos.

Identifica si hay valores nulos en alguna columna.

In [None]:
# Solución propuesta
# Creación del entorno requerido para la ejecución de los distintos programas, partiendo de la importación de librerías requeridas y los directorios
import pandas as pd
import os
os.getcwd()  # Devuelve el directorio de trabajo actual
os.makedirs('Datos', exist_ok=True)  # Crea un nuevo directorio
os.path.exists('/content/Datos/telecom_churn.csv')  # Devuelve True si el archivo o directorio existe

False

In [None]:
#Creación del Dataframe a partir del archivo CSV
# IMPORTANTE Subir el archivo telecom_churn.csv al directorio /content/Dato
dftelecom = pd.read_csv('/content/Datos/telecom_churn.csv')  # Lee un archivo CSV en un DataFrame

FileNotFoundError: [Errno 2] No such file or directory: '/content/Datos/telecom_churn.csv'

In [None]:
dftelecom.head(5)  # Muestra las primeras (5) filas del DataFrame

In [None]:
dftelecom.shape  # Retorna el número de filas y columnas del DataFrame

In [None]:
dftelecom.info()  # Muestra información general del DataFrame

In [None]:
null_counts = dftelecom.isnull().sum()  # Cuenta los valores nulos en cada columna
print(null_counts) #muestra los valores encontrados en nulo en las diderentes columnas

**Análisis de Churn y Factores Relacionados**

Calcula el porcentaje de clientes que han desertado (churn = 1).

Identifica si los clientes con plan internacional (international plan) tienen mayor tasa de deserción.

Identifica si los clientes con buzón de voz (voice mail plan) tienen menor tasa de deserción.

In [None]:
# Calculo del Porcentaje de Clientes que han desertado (Churn=True) y los que no (Churn=False), a partir de la función value_counts con el parámetro de normalize=True
churn_percentage = (dftelecom['churn'].value_counts(normalize=True) * 100)
churn_percentage


In [None]:
# Solución propuesta
#Primero filtramos los clientes que hayan desertado en la siguiente instrucción y creamos un dataframe con ellos
dfdeser = dftelecom[dftelecom['churn'] == True]
# Después separamos analizamos los grupos de acuerdo al plan internacional y buzón de voz para identificar los porcentajes dentro de cada categoría y verificar los hallazgos obtenidos
interplan_percentage = (dfdeser['international plan'].value_counts(normalize=True) * 100)
voicemail_percentage = (dfdeser['voice mail plan'].value_counts(normalize=True) * 100)
print(interplan_percentage)
print(voicemail_percentage)
#identificamos que los clientes que tienen plan internacional no tienen la mayor tasa de deserción
#identificamos que los clientes que tienen buzón de voz tienen la menor tasa de deserción con respecto a los que no lo tienen



NameError: name 'dftelecom' is not defined

**Análisis de la Duración del Servicio y Deserción**

¿Cuál es la duración promedio de la cuenta (account length) entre clientes que desertaron y los que permanecen?

¿Los clientes con cuentas más antiguas tienen más probabilidades de desertar?

In [None]:
# Cálculo del pormedio de duración del contrato para los que desertaron o no. Es lo obtuvimos calculando el promedio sobre la duración del contrato, y previamente agrupando por churn
average_account_length_by_churn = dftelecom.groupby('churn')['account length'].mean()
average_account_length_by_churn

In [None]:
# Solución propuesta

**Relación entre Deserción y Uso del Servicio**

Compara la cantidad de minutos usados en llamadas diurnas (total day minutes) entre clientes con y sin churn.

Compara la cantidad de minutos usados en llamadas nocturnas (total night minutes).

Compara el número total de llamadas (total day calls) entre clientes con y sin churn.

In [None]:
# Solución propuesta
#stats_uso = dftelecom.groupby("churn")[['total day minutes', "total night minutes", "total day calls"]].agg(["sum"])
# Para obtener los resultados agrupamos por Churn, y se have la sumatoria de los minutos usados
stats_uso = dftelecom.groupby("churn").agg(Total_Min_Dia=("total day minutes", "sum"),
    Total_Min_Noche=("total night minutes", "sum"),Total_Llamadas_Dia=("total day calls", "sum"))
print(stats_uso)

NameError: name 'dftelecom' is not defined

**Impacto de las Llamadas al Servicio al Cliente en la Deserción**

Calcula el número promedio de llamadas al servicio al cliente (customer service calls) entre clientes que desertaron y los que no.

Divide los clientes en dos grupos:

- Grupo 1: Clientes que llamaron más de 3 veces al servicio al cliente.
- Grupo 2: Clientes que llamaron 3 veces o menos.
Compara la tasa de churn entre ambos grupos.

In [None]:
# Solución propuesta
#para obtener el resultado, calculamos el promedio de llamadas de los que desertaron o no, agrupados por éste indicador.
stats_llamadas = dftelecom.groupby("churn").agg(Promedio_Llamadas=("customer service calls", "mean"))
print(stats_llamadas)

       Promedio_Llamadas
churn                   
False           1.449825
True            2.229814


**Conclusión.**
El resultado obtenido es que los clientes que desertaron realizaron en promedio mayor de llamadas (2.23) que los no desertardos (1.45)

In [None]:
# Agrupación de clientes basados en la cantidad de llamadas realizadas
#Se crea una función para categorizar los clientes de acuerdo al número de llamadas realizadas
def categoria_llamadas(valor):
    if valor > 3:
        return 'Mayor que 3'
    else:
        return 'Menor o igual a 3'
# tomamos un subconjunto de dataframe inicial con los valores a ser procesados para los clientes que hayan tenido deserción
resultado = dftelecom.loc[dftelecom['churn'], ['churn','customer service calls']]
resultado['customer service calls'] = resultado['customer service calls'].apply(categoria_llamadas)
# cálculo del porcentaje de acuerdo con la clasificación )más de 3, ó menores o iguales a 3
churn_percentage = (resultado['customer service calls'].value_counts(normalize=True) * 100)
churn_percentage

Unnamed: 0_level_0,proportion
customer service calls,Unnamed: 1_level_1
Menor o igual a 3,71.428571
Mayor que 3,28.571429


**Conclusión.**
Notamos que dentro de los clientes desertados, el mayor porcentaje lo tiene aquellos clientes que realizaron 3 llamadas o menos con un total de 71.43%.

In [None]:
# prompt: We need to select "Churn" is true, then to calculate the "churn" rate splited in 1 grouped by "customer service calls" greater than 3 and "customer service calls" equal or less than 3, indicating the rate by tipe of "customer service calls"

# Group customers based on customer service calls
group1 = dftelecom[dftelecom['customer service calls'] > 3]
group2 = dftelecom[dftelecom['customer service calls'] <= 3]

# Calculate churn rates for each group
churn_rate_group1 = (group1['churn'].sum() / len(group1)) * 100
churn_rate_group2 = (group2['churn'].sum() / len(group2)) * 100

# Print the results
print(f"Churn rate for customers with more than 3 service calls: {churn_rate_group1:.2f}%")
print(f"Churn rate for customers with 3 or fewer service calls: {churn_rate_group2:.2f}%")


Churn rate for customers with more than 3 service calls: 51.69%
Churn rate for customers with 3 or fewer service calls: 11.25%


In [None]:
#Solución Porpuesta
# tomamos el dataframe inicial y generamos uno nuevo que contenga la agrupación y los atributos requeridos para obtener los valores buscados
# luego aplicamos los métodos y funciones de la librería de pandas de abajo.
resultado = dftelecom.groupby([dftelecom['customer service calls'].apply(lambda x: 'Mayor que 3' if x > 3 else 'Menor o igual a 3')]).size().reset_index(name='conteo')
#resultado = dftelecom.groupby([dftelecom['customer service calls'].apply(lambda x: 'Mayor que 3' if x > 3 else 'Menor o igual a 3'), 'churn']).size().reset_index(name='conteo')
#resultado = dftelecom.groupby(['churn', dftelecom['customer service calls'].apply(lambda x: 'Mayor que 3' if x > 3 else 'Menor o igual a 3')]).size().reset_index(name='conteo')
#  NO resultado = dftelecom.groupby(['churn', dftelecom['customer service calls'].apply(lambda x: 'Mayor que 3' if x > 3 else 'Menor o igual a 3')]).agg("count")
# Mostramos el resultado
print(resultado)
interplan_percentage = (dftelecom['customer service calls'].value_counts(normalize=True) * 100)
#voicemail_percentage = (dfdeser['voice mail plan'].value_counts(normalize=True) * 100)
print(interplan_percentage)
#print(voicemail_percentage)

**Análisis del Costo de las Llamadas y Churn**

Compara el costo total de llamadas diurnas (total day charge) entre clientes con y sin churn.

Compara el costo total de llamadas nocturnas (total night charge).

¿Los clientes con mayor gasto en llamadas internacionales (total intl charge) tienen más probabilidades de desertar?

In [None]:
# Solución propuesta
# Agrupar por churn y calcular el total del costo de llamadas diurnas
total_day_charge = dftelecom.groupby('churn')['total day charge'].sum()
print("Suma Total del costo de llamadas diurnas por estado de churn:")
print(total_day_charge)


Suma Total del costo de llamadas diurnas por estado de churn:
churn
False    84874.20
True     16989.97
Name: total day charge, dtype: float64


In [None]:
# Agrupar por churn y calcular el total del costo de llamadas nocturnas
total_night_charge = dftelecom.groupby('churn')['total night charge'].sum()
print("Suma Total del costo de llamadas nocturnas por estado de churn:")
print(total_night_charge)


Suma Total del costo de llamadas nocturnas por estado de churn:
churn
False    25667.31
True      4460.76
Name: total night charge, dtype: float64


**Conclusión.**
Lo que podimos evidenciar es que para clientes desertados o no, el costo total de llamadas diurnas es mayor que el costo de las nocturnas

Entendemos que la última pregunta no forma parte de la guía por lo explicado en el tutoria