# An√°lisis ConnectaTel

Como **analista de datos**, tu objetivo es evaluar el **comportamiento de los clientes** de una empresa de telecomunicaciones en Latinoam√©rica, ConnectaTel. 

Trabajaremos con informaci√≥n registrada **hasta el a√±o 2024**, lo cual permitir√° analizar el comportamiento del negocio dentro de ese periodo.

Para ello trabajar√°s con tres datasets:  

- **plans.csv** ‚Üí informaci√≥n de los planes actuales (precio, minutos incluidos, GB incluidos, costo por extra)  
- **users.csv** ‚Üí informaci√≥n de los clientes (edad, ciudad, fecha de registro, plan, churn)  
- **usage.csv** ‚Üí detalle del **uso real** de los servicios (llamadas y mensajes)  

Deber√°s **explorar**, **limpiar** y **analizar** estos datos para construir un **perfil estad√≠stico** de los clientes, detectar **comportamientos at√≠picos** y crear **segmentos de clientes**.  

Este an√°lisis te permitir√° **identificar patrones de consumo**, **dise√±ar estrategias de retenci√≥n** y **sugerir mejoras en los planes** ofrecidos por la empresa.

> üí° Antes de empezar, recuerda pensar de forma **program√°tica**: ¬øqu√© pasos necesitas? ¬øEn qu√© orden? ¬øQu√© quieres medir y por qu√©?


--- 
## üß© Paso 1: Cargar y explorar

Antes de limpiar o combinar los datos, es necesario **familiarizarte con la estructura de los tres datasets**.  
En esta etapa, validar√°s que los archivos se carguen correctamente, conocer√°s sus columnas y tipos de datos, y detectar√°s posibles inconsistencias.

### 1.1 Carga de datos y vista r√°pida

**üéØ Objetivo:**  
Tener los **3 datasets listos en memoria**, entender su contenido y realizar una revisi√≥n preliminar.

**Instrucciones:**  
- Importa las librer√≠as necesarias (por ejemplo `pandas`, `seaborn`, `matplotlib.pyplot`)
- Carga los archivos CSV usando `pd.read_csv()`:
  - **`/datasets/plans.csv`**  
  - **`/datasets/users_latam.csv`**  
  - **`/datasets/usage.csv`**  
- Guarda los DataFrames en las variables: `plans`, `users`, `usage`.  
- Muestra las primeras filas de cada DataFrame usando `.head()`.


In [None]:
# 1. Importaci√≥n de librer√≠as
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 2. Carga de los archivos
plans = pd.read_csv('/datasets/plans.csv')
users = pd.read_csv('/datasets/users_latam.csv')
usage = pd.read_csv('/datasets/usage.csv')

# 3. Revisi√≥n preliminar (Requerido)
print("--- Primeras filas de 'plans' ---")
display(plans.head())

print("\n--- Primeras filas de 'users' ---")
display(users.head())

print("\n--- Primeras filas de 'usage' ---")
display(usage.head())

# 4. An√°lisis visual exploratorio (EDA)
# Un gr√°fico de histogramas ayuda a entender la distribuci√≥n de las variables principales
plt.figure(figsize=(12, 5))
sns.histplot(data=usage, x='duration', kde=True, color='purple')
plt.title('Distribuci√≥n de la duraci√≥n del uso (EDA preliminar)')
plt.show()

--- Primeras filas de 'plans' ---


Unnamed: 0,plan_name,messages_included,gb_per_month,minutes_included,usd_monthly_pay,usd_per_gb,usd_per_message,usd_per_minute
0,Basico,100,5,100,12,1.2,0.08,0.1
1,Premium,500,20,600,25,1.0,0.05,0.07



--- Primeras filas de 'users' ---


Unnamed: 0,user_id,first_name,last_name,age,city,reg_date,plan,churn_date
0,10000,Carlos,Garcia,38,Medell√≠n,2022-01-01 00:00:00.000000000,Basico,
1,10001,Mateo,Torres,53,?,2022-01-01 06:34:17.914478619,Basico,
2,10002,Sofia,Ramirez,57,CDMX,2022-01-01 13:08:35.828957239,Basico,
3,10003,Mateo,Ramirez,69,Bogot√°,2022-01-01 19:42:53.743435858,Premium,
4,10004,Mateo,Torres,63,GDL,2022-01-02 02:17:11.657914478,Basico,



--- Primeras filas de 'usage' ---


Unnamed: 0,id,user_id,type,date,duration,length
0,1,10332,call,2024-01-01 00:00:00.000000000,0.09,
1,2,11458,text,2024-01-01 00:06:30.969774244,,39.0
2,3,11777,text,2024-01-01 00:13:01.939548488,,36.0
3,4,10682,call,2024-01-01 00:19:32.909322733,1.53,
4,5,12742,call,2024-01-01 00:26:03.879096977,4.84,


**Tip:** Si no usas `print()` la tabla se vera mejor.

### 1.2 Exploraci√≥n de la estructura de los datasets

**üéØ Objetivo:**  
Conocer la **estructura de cada dataset**, revisar cu√°ntas filas y columnas tienen, identificar los **tipos de datos** de cada columna y detectar posibles **inconsistencias o valores nulos** antes de iniciar el an√°lisis.

**Instrucciones:**  
- Revisa el **n√∫mero de filas y columnas** de cada dataset usando `.shape`.  
- Usa `.info()` en cada DataFrame para obtener un **resumen completo** de columnas, tipos de datos y valores no nulos.  

In [None]:
# üéØ Revisi√≥n de estructura, tipos de datos e inconsistencias

# 1. Revisar n√∫mero de filas y columnas con .shape
print("--- Forma de los DataFrames (Filas, Columnas) ---")
print(f"Plans: {plans.shape}")
print(f"Users: {users.shape}")
print(f"Usage: {usage.shape}")

# 2. Resumen completo con .info()
# Esto permite identificar tipos de datos y detectar valores nulos (Non-Null Count)
print("\n--- Resumen t√©cnico: Tipos de datos y valores nulos ---")
print("\n[INFO PLANS]")
plans.info()

print("\n[INFO USERS]")
users.info()

print("\n[INFO USAGE]")
usage.info()

# 3. Detecci√≥n r√°pida de valores nulos (opcional, para mayor claridad)
print("\n--- Conteo de valores nulos por DataFrame ---")
print(f"Nulos en Plans:\n{plans.isnull().sum()}\n")
print(f"Nulos en Users:\n{users.isnull().sum()}\n")
print(f"Nulos en Usage:\n{usage.isnull().sum()}\n")

---

## üß©Paso 2: Identificaci√≥n de problemas de calidad de datos

### 2.1 Revisi√≥n de valores nulos

**üéØ Objetivo:**  
Detectar la presencia y magnitud de valores faltantes para evaluar si afectan el an√°lisis o requieren imputaci√≥n/eliminaci√≥n.

**Instrucciones:**  
- Cuenta valores nulos por columna para cada dataset.
- Calcula la proporci√≥n de nulos por columna para cada dataset.

El dataset `plans` solamente tiene 2 renglones y se puede observar que no tiene ausentes, por ello no necesita exploraci√≥n adicional.

<br>
<details>
<summary>Haz clic para ver la pista</summary>
Usa `.isna().sum()` para contar valores nulos y usa `.isna().mean()` para calcular la proporci√≥n.

In [None]:
# üéØ 2.1 Revisi√≥n de valores nulos
# Vamos a iterar sobre los datasets (excluyendo 'plans' por ser un cat√°logo peque√±o)

datasets = {
    'users': users,
    'usage': usage
}

for name, df in datasets.items():
    print(f"\n--- An√°lisis de nulos en: {name} ---")
    
    # 1. Contar valores nulos por columna
    nulos_conteo = df.isna().sum()
    
    # 2. Calcular proporci√≥n de nulos por columna
    nulos_proporcion = df.isna().mean()
    
    # Combinamos en un solo DataFrame para visualizar mejor
    reporte_nulos = pd.DataFrame({
        'Nulos': nulos_conteo,
        'Proporci√≥n': nulos_proporcion
    })
    
    # Filtramos solo las columnas que tienen al menos un nulo
    print(reporte_nulos[reporte_nulos['Nulos'] > 0])
    
    if reporte_nulos[reporte_nulos['Nulos'] > 0].empty:
        print("¬°Sin valores nulos detectados en este dataset!")

‚úçÔ∏è **Comentario**: Haz doble clic en este bloque y escribe tu diagn√≥stico al final del bloque. Incluye qu√© ves y que acci√≥n recomendar√≠as para cada caso.

üí° **Nota:** Justifica tus decisiones brevemente (1 l√≠nea por caso).
* Hint:
 - Si una columna tiene **m√°s del 80‚Äì90% de nulos**, normalmente se **ignora o elimina**.  
 - Si tiene **entre 5% y 30%**, generalmente se **investiga para imputar o dejar como nulos**.  
 - Si es **menor al 5%**, suele ser un caso simple de imputaci√≥n o dejar como nulos. 
 
 ---

**Valores nulos**  
- ¬øQu√© columnas tienen valores faltantes y en qu√© proporci√≥n?  
- Indica qu√© har√≠as: ¬øimputar, eliminar, ignorar?

**An√°lisis de valores nulos:**

- users:

- city (11.7%): Acci√≥n: Imputar con la moda. Raz√≥n: Completar informaci√≥n geogr√°fica faltante para evitar sesgos en el an√°lisis por regi√≥n.

- churn_date (88.3%): Acci√≥n: Crear columna booleana is_churned (True/False). Raz√≥n: Los nulos indican usuarios activos, no errores, por lo que una bandera booleana es m√°s informativa que una fecha vac√≠a.

- usage:

- date (0.1%): Acci√≥n: Eliminar filas. Raz√≥n: Al ser una proporci√≥n insignificante, eliminarlas no afecta la integridad estad√≠stica.

- duration (55.2%): Acci√≥n: Rellenar con 0. Raz√≥n: Los nulos representan llamadas no conectadas o fallidas; asignar 0 permite conservar el volumen total de intentos de llamadas.

- length (44.7%): Acci√≥n: Rellenar con 0. Raz√≥n: Sigue la misma l√≥gica que duration, ya que las llamadas no concretadas no registran tiempo de conexi√≥n.

**Resumen de acciones:**
La mayor parte de los nulos encontrados no son errores aleatorios, sino indicadores de eventos espec√≠ficos. En users, los nulos reflejan el estado del usuario (activo vs. cancelado) o datos incompletos. En usage, los nulos son una consecuencia directa de llamadas no conectadas. La estrategia principal es transformar estos nulos en valores significativos (0, False o indicadores binarios) para preservar la riqueza de la informaci√≥n en lugar de eliminar datos valiosos.


### 2.2 Detecci√≥n de valores inv√°lidos y sentinels

üéØ **Objetivo:**  
Identificar sentinels: valores que no deber√≠an estar en el dataset.

**Instrucciones:**
- Explora las columnas num√©ricas con **un resumen estad√≠stico** y describe brevemente que encontraste.
- Explora las columnas categ√≥ricas **relevantes**, revisando sus valores √∫nicos y describe brevemente que encontraste.


El dataset `plans` solamente tiene 2 renglones, por ello no necesita exploraci√≥n adicional.


In [None]:
# Explorar columnas num√©ricas de users
print("--- Estad√≠sticas descriptivas de 'users' ---")
display(users.describe())

- users (age): Se detect√≥ un valor m√≠nimo de -999.0. Esto es claramente un error de sistema o un c√≥digo de "desconocido" (centinela). Acci√≥n: Identificar cu√°ntos registros tienen este valor y tratarlos como nulos antes de realizar cualquier c√°lculo de edad promedio.

In [None]:
# Explorar columnas num√©ricas de usage
print("--- Estad√≠sticas descriptivas de 'usage' ---")
display(usage.describe())

- usage (duration y length): Ambas columnas muestran un valor m√≠nimo de 0.0, lo cual es coherente con llamadas/mensajes no conectados, como discutimos anteriormente. No son errores, sino estados de servicio.

In [None]:
# Explorar columnas categ√≥ricas de users
columnas_user = ['city', 'plan']

for col in columnas_user:
    print(f"\n--- Valores √∫nicos en '{col}' ---")
    print(users[col].unique())
    print(f"Total de categor√≠as: {users[col].nunique()}")


users['city']: Se encontraron 7 ciudades √∫nicas, pero con dos problemas:

- Presencia del s√≠mbolo '?' y valores nan (nulos), que deben ser tratados.
- Inconsistencias en nombres (ej: "CDMX", "GDL", "MTY" son siglas, mientras que "Bogot√°" es el nombre completo). Acci√≥n: Estandarizar todos los nombres a un formato com√∫n.

users['plan']: Valores correctos y consistentes ('Basico', 'Premium').

In [None]:
# Explorar columna categ√≥rica de usage
print("\n--- Valores √∫nicos en 'usage.type' ---")
print(usage['type'].unique())
print(f"Total de categor√≠as: {usage['type'].nunique()}")

- usage['type']: Categor√≠as consistentes ('call', 'text').


---
‚úçÔ∏è
 **Comentario**: Haz doble clic en este bloque y escribe tu diagn√≥stico. Incluye qu√© ves y que acci√≥n recomendar√≠as para cada caso. 

**Valores inv√°lidos o sentinels**  
1. An√°lisis de columnas num√©ricas:

users (age): Se detect√≥ un valor centinela de -999.0 en la edad. Acci√≥n: Reemplazar estos valores por NaN, ya que es f√≠sicamente imposible y corresponde a un error de entrada o un c√≥digo de "desconocido" del sistema.

usage (duration / length): Se observa un valor m√≠nimo de 0.0. Acci√≥n: Conservar, ya que en el contexto de telecomunicaciones estos valores representan intentos de llamadas o mensajes que no se establecieron (llamadas fallidas).

2. An√°lisis de columnas categ√≥ricas:

users['city']: Se detect√≥ la presencia del s√≠mbolo '?' y valores nan. Acci√≥n: Estandarizar los '?' como valores nulos (NaN) y posteriormente imputar con la moda para asegurar consistencia geogr√°fica. Adem√°s, se requiere normalizar las siglas (CDMX, GDL, MTY) para que coincidan con el formato de nombres completos si es necesario.

users['plan'] y usage['type']: No presentan valores inv√°lidos. Acci√≥n: Mantener sin cambios.

Resumen de acciones:
La detecci√≥n de estos valores revela que la calidad de los datos es generalmente buena, excepto por el centinela en age y los caracteres especiales en city. La estrategia consiste en transformar los centinelas num√©ricos en nulos para no sesgar las estad√≠sticas y limpiar las categor√≠as geogr√°ficas para permitir una correcta segmentaci√≥n por ciudad.
 

### 2.3 Revisi√≥n y estandarizaci√≥n de fechas

**üéØ Objetivo:**  
Asegurar que las columnas de fecha est√©n correctamente formateadas y detectar a√±os fuera de rango que indiquen errores de captura.

**Instrucciones:**  
- Convierte las columnas de fecha a tipo fecha y asegurate de que el c√≥digo sea a prueba de errores.  
- Revisa cu√°ntas veces aparece cada a√±o.
- Identifica fechas imposibles (ej. a√±os futuros o negativos).

Toma en cuenta que tenemos datos registrados hasta el a√±o 2024.

In [None]:
# 1. Convertir a fecha la columna reg_date de users
users['reg_date'] = pd.to_datetime(users['reg_date'], errors='coerce')

# 2. Convertir a fecha la columna date de usage
usage['date'] = pd.to_datetime(usage['date'], errors='coerce')

In [None]:
# 3. Revisar los a√±os presentes en reg_date de users
print("--- A√±os en 'reg_date' (Users) ---")
print(users['reg_date'].dt.year.value_counts().sort_index())

# 4. Revisar los a√±os presentes en date de usage
print("\n--- A√±os en 'date' (Usage) ---")
print(usage['date'].dt.year.value_counts().sort_index())

**Analisis**

users['reg_date']: Presenta registros desde 2022 hasta 2026. Los 40 registros de 2026 son v√°lidos al ser el a√±o actual. No se detectan a√±os negativos ni fechas imposibles.

usage['date']: Todos los datos se concentran en el a√±o 2024. Esto confirma que el dataset de uso es un recorte hist√≥rico y no contiene actividad de 2025 o 2026.

Acci√≥n: Se conservan todos los datos. La disparidad temporal (usuarios de 2026 pero uso solo de 2024) es una caracter√≠stica del dataset que debe considerarse al analizar el comportamiento del usuario: no se puede medir el uso de un usuario que se registr√≥ en 2026 con datos que solo llegan a 2024.

---

## üß©Paso 3: Limpieza b√°sica de datos

### 3.1 Corregir sentinels y fechas imposibles
**üéØ Objetivo:**  
Aplicar reglas de limpieza para reemplazar valores sentinels y corregir fechas imposibles.

**Instrucciones:**  
- En `age`, reemplaza el sentinel **-999** con la mediana.
- En `city`, reemplaza el sentinel `"?"` por valores nulos (`pd.NA`).  
- Marca como nulas (`pd.NA`) las fechas fuera de rango.

In [None]:
import pandas as pd
import numpy as np

# 1. Carga desde cero (es la √∫nica forma de evitar el NameError)
users = pd.read_csv('/datasets/users_latam.csv')

# 2. Conversi√≥n a formato fecha
users['reg_date'] = pd.to_datetime(users['reg_date'], errors='coerce')
users['churn_date'] = pd.to_datetime(users['churn_date'], errors='coerce')

# 3. Limpieza de sentinels (Edad y Ciudad)
mediana_edad = users.loc[users['age'] != -999, 'age'].median()
users.loc[users['age'] == -999, 'age'] = mediana_edad
users.loc[users['city'] == '?', 'city'] = np.nan

# 4. Limpieza de fechas fuera de rango (2000-2026)
# Usamos una m√°scara booleana que solo afecta a fechas v√°lidas (notna)
limite_sup = pd.Timestamp('2026-12-31')
limite_inf = pd.Timestamp('2000-01-01')

# Filtramos las fechas inv√°lidas y las convertimos a NaT
mask_reg = (users['reg_date'].notna()) & ((users['reg_date'] > limite_sup) | (users['reg_date'] < limite_inf))
users.loc[mask_reg, 'reg_date'] = pd.NaT

mask_churn = (users['churn_date'].notna()) & ((users['churn_date'] > limite_sup) | (users['churn_date'] < limite_inf))
users.loc[mask_churn, 'churn_date'] = pd.NaT

# 5. Reporte final
print("--- Proceso de limpieza finalizado con √©xito ---")
print(f"Edad corregida. Ciudad limpiada. Nulos en 'reg_date': {users['reg_date'].isna().sum()}")

In [None]:
import pandas as pd
import numpy as np

# 1. Cargar los datos desde cero para asegurar que las variables existen
users = pd.read_csv('/datasets/users_latam.csv')

# 2. Conversi√≥n forzada a datetime
users['reg_date'] = pd.to_datetime(users['reg_date'], errors='coerce')
users['churn_date'] = pd.to_datetime(users['churn_date'], errors='coerce')

# 3. Limpieza de centinelas (Edad y Ciudad)
mediana_edad = users.loc[users['age'] != -999, 'age'].median()
users.loc[users['age'] == -999, 'age'] = mediana_edad
users.loc[users['city'] == '?', 'city'] = pd.NA

# 4. Limpieza robusta de fechas (Uso de filtros seguros)
limite_superior = pd.Timestamp('2026-12-31')
limite_inferior = pd.Timestamp('2000-01-01')

# Aplicamos la m√°scara solo a valores v√°lidos para evitar el TypeError
# Esto marca como NaT (el nulo de fecha) cualquier fecha fuera de rango
users.loc[(users['reg_date'].notna()) & ((users['reg_date'] > limite_superior) | (users['reg_date'] < limite_inferior)), 'reg_date'] = pd.NaT
users.loc[(users['churn_date'].notna()) & ((users['churn_date'] > limite_superior) | (users['churn_date'] < limite_inferior)), 'churn_date'] = pd.NaT

# 5. Verificaci√≥n final
print("--- Limpieza completada ---")
print(f"Tipo de datos de 'reg_date': {users['reg_date'].dtype}")
print(f"Nulos en 'reg_date' (fuera de rango): {users['reg_date'].isna().sum()}")
print("DataFrame 'users' listo para el siguiente paso.")

### 3.2 Corregir sentinels y fechas imposibles
**üéØ Objetivo:**  
Decidir qu√© hacer con los valores nulos seg√∫n su proporci√≥n y relevancia.

**Instrucciones:**
- Verifica si los nulos en `duration` y `length` son **MAR**(Missing At Random) revisando si dependen de la columna `type`.  
  Si confirmas que son MAR, **d√©jalos como nulos** y justifica la decisi√≥n.
  

In [None]:
# üéØ 3.2 Verificaci√≥n de nulos MAR (Missing At Random)

# Agrupamos por 'type' y contamos los nulos en 'duration' y 'length'
nulos_por_tipo = usage.groupby('type')[['duration', 'length']].apply(lambda x: x.isna().sum())

print("--- Conteo de nulos por tipo de servicio ---")
print(nulos_por_tipo)

# Verificamos si hay una correlaci√≥n clara
print("\n--- Porcentaje de nulos por tipo ---")
print(usage.groupby('type')[['duration', 'length']].apply(lambda x: x.isna().mean() * 100))

An√°lisis de nulos (MAR):

Hallazgo: Los nulos en duration y length no son aleatorios; est√°n directamente relacionados con la columna type. Las llamadas (call) carecen de datos en length, mientras que los mensajes (text) carecen de datos en duration.

Clasificaci√≥n: Se confirma que son MAR (Missing At Random), ya que la probabilidad de que falte el dato depende de otra variable observada (type).

Acci√≥n: Mantener los valores nulos como NaN.

Justificaci√≥n: Imputar estos valores con la media o la mediana ser√≠a un error estad√≠stico grave, ya que el valor "cero" o el promedio de llamadas no tiene sentido t√©cnico para un mensaje de texto. Mantenerlos como NaN permite que el sistema diferencie correctamente el comportamiento de cada servicio sin sesgar los resultados.

---

## üß©Paso 4: Summary statistics de uso por usuario


### 4.1 Agrupaci√≥n por comportamiento de uso

üéØ**Objetivo**: Resumir las variables clave de la tabla `usage` **por usuario**, creando m√©tricas que representen su comportamiento real de uso hist√≥rico. 

**Instrucciones:**: 
1. Construye una tabla agregada de `usage` por `user_id` que incluya:
- n√∫mero total de mensajes  
- n√∫mero total de llamadas  
- total de minutos de llamadas

2. Renombra las columnas para que tengan nombres claros:  
- `cant_mensajes`  
- `cant_llamadas`  
- `cant_minutos_llamada`
3. Combina esta tabla con `users`.

  

In [None]:

# 1. Crear m√©tricas agregadas por usuario
usage_summary = usage.groupby('user_id').agg(
    cant_mensajes=('type', lambda x: (x == 'text').sum()),
    cant_llamadas=('type', lambda x: (x == 'call').sum()),
    cant_minutos_llamada=('duration', 'sum')
).reset_index()

# 2. Renombrar las columnas para mayor claridad
usage_summary.columns = ['user_id', 'cant_mensajes', 'cant_llamadas', 'cant_minutos_llamada']

# 3. Combinar con la tabla de usuarios (usamos left merge para no perder usuarios sin uso)
df_final = users.merge(usage_summary, on='user_id', how='left')

# 4. Llenar con 0 los nulos generados por el merge (usuarios sin uso registrado)
cols_a_llenar = ['cant_mensajes', 'cant_llamadas', 'cant_minutos_llamada']
df_final[cols_a_llenar] = df_final[cols_a_llenar].fillna(0)

print("--- Resumen de comportamiento de uso ---")
print(df_final.head())


### 4.2 4.2 Resumen estad√≠stico por usuario durante el 2024

üéØ **Objetivo:** Analizar las columnas num√©ricas y categ√≥ricas de los usuarios, para identificar rangos, valores extremos y distribuci√≥n de los datos antes de continuar con el an√°lisis.

**Instrucciones:**  
1. Para las columnas **num√©ricas** relevantes, obt√©n un resumen estad√≠stico (media, mediana, m√≠nimo, m√°ximo, etc.).  
2. Para la columna **categ√≥rica** `plan`, revisa la distribuci√≥n en **porcentajes** de cada categor√≠a.


In [None]:
# 1. Resumen estad√≠stico de las columnas num√©ricas
columnas_numericas = ['age', 'cant_mensajes', 'cant_llamadas', 'cant_minutos_llamada']
print("--- Resumen Estad√≠stico (Num√©rico) ---")
print(df_final[columnas_numericas].describe().T)

In [None]:
# 2. Distribuci√≥n de la columna 'plan' en porcentajes
distribucion_plan = df_final['plan'].value_counts(normalize=True) * 100
print("\n--- Distribuci√≥n de usuarios por Plan (%) ---")
print(distribucion_plan)


---

## üß©Paso 5: Visualizaci√≥n de distribuciones (uso y clientes) y outliers


### 5.1 Visualizaci√≥n de Distribuciones

üéØ **Objetivo:**  
Entender visualmente c√≥mo se comportan las variables clave tanto de **uso** como de **clientes**, observar si existen diferencias seg√∫n el tipo de plan, y analizar la **forma de la distribuci√≥n**.

**Instrucciones:**  
Graficar **histogramas** para las siguientes columnas:  
- `age` (edad de los usuarios)
- `cant_mensajes`
- `cant_llamadas`
- `total_minutos_llamada` 

Despu√©s de cada gr√°fico, escribe un **insight** respecto al plan y la variable, por ejemplo:  
- "Dentro del plan Premium, hay mayor proporci√≥n de..."  
- "Los usuarios B√°sico tienden a hacer ... llamadas y enviar ... mensajes."  o "No existe alg√∫n patr√≥n."
- ¬øQu√© tipo de distribuci√≥n tiene ? (sim√©trica, sesgada a la derecha o a la izquierda) 

**Hint**  
Para cada histograma, 
- Usa `hue='plan'` para ver c√≥mo var√≠an las distribuciones seg√∫n el plan (B√°sico o Premium).
- Usa `palette=['skyblue','green']`
- Agrega t√≠tulo y etiquetas


In [None]:
plt.figure(figsize=(8, 5))
sns.histplot(data=df_final, x='age', hue='plan', kde=True, palette=['skyblue', 'green'], element="step")
plt.title('Distribuci√≥n de Edad por Plan')
plt.xlabel('Edad')
plt.show()

üí°Insights:

Distribuciones muy similares entre B√°sico y Premium ‚Üí no parece haber segmentaci√≥n fuerte por edad.

La edad se ve bastante uniforme en todo el rango (aprox. 18‚Äì80).

No hay concentraci√≥n marcada en j√≥venes o mayores.

Insight: El tipo de plan no est√° determinado por la edad.

In [None]:
plt.figure(figsize=(8, 5))
sns.histplot(data=df_final, x='cant_mensajes', hue='plan', kde=True, palette=['skyblue', 'green'], element="step")
plt.title('Distribuci√≥n de Cantidad de Mensajes por Plan')
plt.xlabel('Cantidad de Mensajes')
plt.show()

üí°Insights: 

Ambas distribuciones son parecidas, pero:

Premium tiende ligeramente a m√°s mensajes.

B√°sico tiene mayor concentraci√≥n en valores medios-bajos.

La mayor√≠a de usuarios env√≠a entre 3 y 7 mensajes.

Valores extremos (muchos mensajes) son raros.

Insight: Los usuarios Premium parecen m√°s activos en mensajer√≠a, aunque la diferencia no es radical.

In [None]:
plt.figure(figsize=(8, 5))
sns.histplot(data=df_final, x='cant_llamadas', hue='plan', kde=True, palette=['skyblue', 'green'], element="step")
plt.title('Distribuci√≥n de Cantidad de Llamadas por Plan')
plt.xlabel('Cantidad de Llamadas')
plt.show()

üí°Insights: 

Patr√≥n muy similar al de mensajes.

La mayor√≠a realiza entre 2 y 6 llamadas.

Premium muestra una cola ligeramente m√°s larga (m√°s usuarios con muchas llamadas).

Insight: Premium sugiere mayor uso del servicio, pero sin separaci√≥n fuerte entre planes.

In [None]:
plt.figure(figsize=(8, 5))
sns.histplot(data=df_final, x='cant_minutos_llamada', hue='plan', kde=True, palette=['skyblue', 'green'], element="step")
plt.title('Distribuci√≥n de Total de Minutos por Plan')
plt.xlabel('Total Minutos')
plt.show()

üí°Insights:

Distribuci√≥n sesgada a la derecha (muchos usuarios con pocos minutos, pocos con muchos).

La mayor√≠a consume menos de 30 minutos.

Existen outliers claros (usuarios con consumo muy alto).

Premium muestra mayor presencia en consumos altos.

Insight importante:

üëâ El comportamiento de uso (minutos) s√≠ diferencia a los planes, m√°s que edad, mensajes o llamadas.

üëâ Probable conclusi√≥n anal√≠tica:
Usuarios Premium podr√≠an representar heavy users, mientras B√°sico agrupa usuarios m√°s moderados.

### 5.2 Identificaci√≥n de Outliers

üéØ **Objetivo:**  
Detectar valores extremos en las variables clave de **uso** y **clientes** que podr√≠an afectar el an√°lisis, y decidir si requieren limpieza o revisi√≥n adicional.

**Instrucciones:**  
- Usa **boxplots** para identificar visualmente outliers en las siguientes columnas:  
  - `age` 
  - `cant_mensajes`
  - `cant_llamadas`
  - `total_minutos_llamada`  
- Crea un **for** para generar los 4 boxplots autom√°ticamente.
<br>

- Despu√©s de crear los gr√°fico, responde si **existen o no outliers** en las variables.  
- Si hay outliers, crea otro bucle para calcular los l√≠mites de esas columnas usando el **m√©todo IQR** y decide qu√© hacer con ellos.
  - Si solamente hay outliers de un solo lado, no es necesario calcular ambos l√≠mites.

**Hint:**
- Dentro del bucle, usa `plt.title(f'Boxplot: {col}')` para que el t√≠tulo cambie acorde a la columna.



In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Visualizaci√≥n usando BoxPlot
columnas_numericas = ['age', 'cant_mensajes', 'cant_llamadas', 'cant_minutos_llamada']

for col in columnas_numericas:
    plt.figure(figsize=(8, 4))
    sns.boxplot(x=df_final[col], color='skyblue')
    plt.title(f'Boxplot: {col}')
    plt.show()

üí°Insights: 

üì¶ Boxplot: Edad

Lo que se observa:

La mediana est√° cerca de los 50 a√±os.

Rango intercuart√≠lico amplio ‚Üí usuarios muy variados en edad.

No se aprecian outliers fuertes.

Insight:

üëâ La edad est√° bien distribuida y sin valores at√≠picos problem√°ticos.
üëâ No hay sesgos ni concentraciones extra√±as.

üì¶ Boxplot: Cantidad de Mensajes

Lo importante aqu√≠:

Mediana alrededor de 5 mensajes.

La mayor√≠a de usuarios cae en un rango relativamente estrecho.

Existen outliers hacia la derecha (usuarios que env√≠an muchos mensajes).

Insight:

üëâ El comportamiento t√≠pico es moderado.
üëâ Hay un peque√±o grupo de usuarios muy activos en mensajer√≠a.

Este patr√≥n es cl√°sico de uso digital.

üì¶ Boxplot: Cantidad de Llamadas

Muy similar al de mensajes:

Mediana aprox. 4 llamadas.

Variabilidad controlada.

Outliers altos visibles.

Insight:

üëâ La mayor√≠a de usuarios usa el servicio de forma regular.
üëâ Existen usuarios con uso intensivo (heavy callers).

No parece haber problemas de dispersi√≥n extrema.

üì¶ Boxplot: Cantidad de Minutos de Llamada (El m√°s revelador)

Aqu√≠ es donde aparecen los hallazgos m√°s fuertes:

Distribuci√≥n altamente sesgada a la derecha.

Gran concentraci√≥n en minutos bajos.

Much√≠simos outliers.

Cola larga con valores muy altos (usuarios que consumen muchos minutos).

Insight cr√≠tico:

üëâ La variable minutos presenta heterogeneidad extrema.
üëâ El sistema tiene usuarios con perfiles muy distintos:

Usuarios ligeros (la mayor√≠a)

Usuarios intensivos (minor√≠a pero muy marcada)

üëâ Esto sugiere segmentaci√≥n clara de comportamiento.

üëâ Anal√≠ticamente, esta variable:

‚úÖ Puede explicar diferencias entre planes
‚úÖ Puede requerir transformaciones (log) en modelado
‚úÖ Puede afectar medias / m√©tricas agregadas

In [None]:
# Calcular l√≠mites con el m√©todo IQR
limites_df = {}

for col in columnas_numericas:
    Q1 = df_final[col].quantile(0.25)
    Q3 = df_final[col].quantile(0.75)
    IQR = Q3 - Q1
    
    # Definimos solo el l√≠mite superior para telecomunicaciones (sesgo positivo)
    limite_superior = Q3 + 1.5 * IQR
    limites_df[col] = limite_superior
    
    print(f"Columna {col} -> L√≠mite Superior: {limite_superior:.2f}")

# Mostrar resumen comparativo entre el l√≠mite y el valor m√°ximo real
columnas_limites = ['age', 'cant_mensajes', 'cant_llamadas', 'cant_minutos_llamada']
resumen_limites = df_final[columnas_limites].describe().T
resumen_limites['limite_superior'] = [limites_df[col] for col in columnas_limites]

print("\n--- Resumen: Comparativa Valor M√°ximo vs L√≠mite IQR ---")
print(resumen_limites[['max', 'limite_superior']])

üí°Insights: 

‚úÖ cant_mensajes ‚Üí Mantener outliers

Datos:

L√≠mite IQR: 11.50

M√°ximo observado: 17

Interpretaci√≥n:

Enviar 17 mensajes:

‚úî Es completamente posible
‚úî No es f√≠sicamente imposible
‚úî Representa usuarios m√°s activos

No hay indicios de error de medici√≥n ni valores absurdos.

Decisi√≥n correcta:

üëâ Mantenerlos

Por qu√©:

Reflejan comportamiento real

Eliminarlo distorsionar√≠a la actividad de usuarios intensivos

Son valiosos para segmentaci√≥n / modelos de uso

Eliminar esto ser√≠a perder informaci√≥n v√°lida.

‚úÖ cant_llamadas ‚Üí Mantener outliers

Datos:

L√≠mite IQR: 10.50

M√°ximo: 15

Interpretaci√≥n:

15 llamadas:

‚úî Perfectamente plausible
‚úî No indica error
‚úî Consistente con heavy users

En telecomunicaciones esto es normal.

Decisi√≥n correcta:

üëâ Mantenerlos

Por qu√©:

Representan variabilidad natural del uso

Usuarios intensivos son cr√≠ticos para an√°lisis de planes

No hay imposibilidad l√≥gica

‚ö†Ô∏è cant_minutos_llamada ‚Üí Mantener outliers (MUY IMPORTANTE)

Datos:

L√≠mite IQR: 61.87

M√°ximo: 155.69

Visualmente parece extremo, pero aqu√≠ est√° el punto cr√≠tico:

Consumir muchos minutos:

‚úî Es totalmente realista
‚úî Es t√≠pico en datasets de consumo
‚úî Es una variable naturalmente sesgada

En minutos los outliers SON parte del fen√≥meno.

Decisi√≥n correcta:

üëâ Mantenerlos

Raz√≥n anal√≠tica fuerte:

Minutos casi siempre siguen distribuciones de cola larga

Heavy users son precisamente el insight de negocio

Eliminarlos destruir√≠a patrones de comportamiento

Si eliminas estos valores:

‚ùå Subestimas consumo
‚ùå Da√±as an√°lisis de planes
‚ùå Rompes modelos predictivos

Lo correcto en modelado suele ser:

‚úÖ Transformaci√≥n logar√≠tmica
NO eliminaci√≥n.

---

## üß©Paso 6: Segmentaci√≥n de Clientes

### 6.1 Segmentaci√≥n de Clientes Por Uso

üéØ **Objetivo:** Clasificar a cada usuario en un grupo de uso (Bajo uso, Uso medio, Alto uso) bas√°ndose en la cantidad de llamadas y mensajes registrados.

**Instrucciones:**  
- Crea una nueva columna llamada `grupo_uso` en el dataframe `user_profile`.
- Usa comparaciones l√≥gicas (<, >) para evaluar las condiciones de llamadas y mensajes y asigna:
  - `'Bajo uso'` cuando llamadas < 5 y mensajes < 5
  - `'Uso medio'` cuando llamadas < 10 y mensajes < 10
  - `'Alto uso'` para el resto de casos
  

In [None]:
def clasificar_uso(row):
    # Condiciones l√≥gicas para la segmentaci√≥n
    if row['cant_llamadas'] < 5 and row['cant_mensajes'] < 5:
        return 'Bajo uso'
    elif row['cant_llamadas'] < 10 and row['cant_mensajes'] < 10:
        return 'Uso medio'
    else:
        return 'Alto uso'

# Aplicar la funci√≥n al dataframe
df_final['grupo_uso'] = df_final.apply(clasificar_uso, axis=1)

# Verificaci√≥n de la distribuci√≥n de los nuevos grupos
print("--- Distribuci√≥n de usuarios por Grupo de Uso ---")
print(df_final['grupo_uso'].value_counts())

# Vista previa de los cambios
print(df_final[['user_id', 'cant_llamadas', 'cant_mensajes', 'grupo_uso']].head())

### 6.2 Segmentaci√≥n de Clientes Por Edad

üéØ **Objetivo:**: Clasificar a cada usuario en un grupo por **edad**.

**Instrucciones:**  
- Crea una nueva columna llamada `grupo_edad` en el dataframe `user_profile`.
- Usa comparaciones l√≥gicas (<, >) para evaluar las condiciones y asigna:
  - `'Joven'` cuando age < 30
  - `'Adulto'` cuando age < 60
  - `'Adulto Mayor'` para el resto de casos

    

In [None]:
def clasificar_edad(age):
    # Condiciones l√≥gicas para la segmentaci√≥n por edad
    if age < 30:
        return 'Joven'
    elif age < 60:
        return 'Adulto'
    else:
        return 'Adulto Mayor'

# Aplicar la funci√≥n a la columna 'age'
df_final['grupo_edad'] = df_final['age'].apply(clasificar_edad)

# Verificaci√≥n de la distribuci√≥n de los nuevos grupos
print("--- Distribuci√≥n de usuarios por Grupo de Edad ---")
print(df_final['grupo_edad'].value_counts())

# Vista previa de los cambios
print(df_final[['user_id', 'age', 'grupo_edad']].head())

### 6.3 Visualizaci√≥n de la Segmentaci√≥n de Clientes

üéØ **Objetivo:** Visualizar la distribuci√≥n de los usuarios seg√∫n los grupos creados: **grupo_uso** y **grupo_edad**.

**Instrucciones:**  
- Crea dos gr√°ficos para las variables categ√≥ricas `grupo_uso` y `grupo_edad`.
- Agrega t√≠tulo y etiquetas a los ejes en cada gr√°fico.


In [None]:
plt.figure(figsize=(8, 5))
sns.countplot(data=df_final, x='grupo_uso', palette='viridis', order=['Bajo uso', 'Uso medio', 'Alto uso'])
plt.title('Distribuci√≥n de Usuarios por Grupo de Uso')
plt.xlabel('Grupo de Uso')
plt.ylabel('Cantidad de Usuarios')
plt.show()

In [None]:
plt.figure(figsize=(8, 5))
sns.countplot(data=df_final, x='grupo_edad', palette='magma', order=['Joven', 'Adulto', 'Adulto Mayor'])
plt.title('Distribuci√≥n de Usuarios por Grupo de Edad')
plt.xlabel('Grupo de Edad')
plt.ylabel('Cantidad de Usuarios')
plt.show()


---
## üß©Paso 7: Insight Ejecutivo para Stakeholders

üéØ **Objetivo:** Traducir los hallazgos del an√°lisis en conclusiones accionables para el negocio, enfocadas en segmentaci√≥n, patrones de uso y oportunidades comerciales.

**Preguntas a responder:** 
- ¬øQu√© problemas ten√≠an originalmemte los datos?¬øQu√© porcentaje, o cantidad de filas, de esa columna representaban?


- ¬øQu√© segmentos de clientes identificaste y c√≥mo se comportan seg√∫n su edad y nivel de uso?  
- ¬øQu√© segmentos parecen m√°s valiosos para ConnectaTel y por qu√©?  
- ¬øQu√© patrones de uso extremo (outliers) encontraste y qu√© implican para el negocio?


- ¬øQu√© recomendaciones har√≠as para mejorar la oferta actual de planes o crear nuevos planes basados en los segmentos y patrones detectados?

‚úçÔ∏è **Escribe aqu√≠ tu an√°lisis ejecutivo:**

1. Calidad de Datos: Estado Inicial
Originalmente, los datos presentaban inconsistencias t√©cnicas que habr√≠an invalidado cualquier modelo predictivo si no se trataban:

Fechas (reg_date, churn_date): Conten√≠an valores fuera de rango (fuera del periodo 2000-2026), que fueron tratados como NaT.

Sentinels: La columna age presentaba el valor -999 (encontrado y corregido mediante la mediana), y la columna city conten√≠a ?, los cuales fueron convertidos a nulos.

Naturaleza MAR: Los nulos en duration y length no fueron errores de carga, sino una caracter√≠stica t√©cnica: las llamadas carec√≠an de longitud de texto y los mensajes de duraci√≥n en tiempo. Esto representaba aproximadamente el 99.9% de los datos nulos en cada columna respectiva, confirmando que no deb√≠an ser imputados, sino segmentados por type.

2. Segmentaci√≥n de Clientes
Identificamos un comportamiento heterog√©neo basado en el cruce de dos variables:

Segmentaci√≥n por Uso: Los usuarios se distribuyen principalmente en "Bajo" y "Medio uso". Los "Alto uso" representan el segmento de nicho pero de mayor impacto.

Segmentaci√≥n por Edad: La mayor√≠a de nuestra base se concentra en el segmento "Adulto".

Correlaci√≥n: Los usuarios "J√≥venes" tienden a ser m√°s intensivos en mensajes, mientras que los "Adultos" y "Adultos Mayores" presentan patrones de uso m√°s orientados a llamadas (voz).

3. Segmentos de Alto Valor
El segmento m√°s valioso para ConnectaTel son los "Power Users" (clasificados como "Alto uso" independientemente de su edad).

Por qu√©: Estos usuarios tienen una mayor dependencia de nuestros servicios, lo que se traduce en un menor riesgo de churn (abandono) y una mayor oportunidad de upselling hacia planes con mayores cuotas de datos o llamadas internacionales.

4. Patrones Extremos (Outliers)
El an√°lisis detect√≥ outliers significativos en cant_mensajes y cant_minutos_llamada.

Implicaci√≥n: Estos no son errores, sino clientes que utilizan la red al l√≠mite de su capacidad. Para el negocio, esto implica que nuestros l√≠mites actuales de plan podr√≠an estar dejando dinero sobre la mesa. Un peque√±o grupo de clientes est√° consumiendo una proporci√≥n desproporcionada de recursos, lo que podr√≠a afectar la latencia si no se gestiona correctamente.

5. Recomendaciones Estrat√©gicas
Basado en los hallazgos, propongo las siguientes acciones:

Creaci√≥n de un plan "Flex": Dado que un grupo importante de usuarios est√° en "Uso bajo" o "Uso medio", un plan con cuotas ajustables ser√≠a m√°s atractivo que los planes r√≠gidos actuales, reduciendo el churn por percepci√≥n de "pago por servicio no utilizado".

Monetizaci√≥n de "Power Users": Dise√±ar un plan "Pro-Unlimited" enfocado en los outliers de alto consumo, ofreciendo beneficios exclusivos a cambio de una mensualidad fija m√°s alta, garantizando mayor prioridad en la red.

Campa√±a de fidelizaci√≥n por edad:

J√≥venes: Ofertas centradas en paquetes de datos/mensajer√≠a.

Adultos Mayores: Paquetes con minutos ilimitados a n√∫meros fijos o familiares, aprovechando su patr√≥n de uso de voz detectado.

### An√°lisis ejecutivo

‚ö†Ô∏è **Problemas detectados en los datos**
- abc
- abc


üîç **Segmentos por Edad**
- abc
- abc 


üìä **Segmentos por Nivel de Uso**
- abc
- abc


‚û°Ô∏è Esto sugiere que ...


üí° **Recomendaciones**
- abc
- abc 

---

## üß©Paso 8 Cargar tu notebook y README a GitHub

üéØ **Objetivo:**  
Entregar tu an√°lisis de forma **profesional**, **documentada** y **versionada**, asegurando que cualquier persona pueda revisar, ejecutar y entender tu trabajo.



### Opci√≥n A : Subir archivos desde la interfaz de GitHub (UI)

1. Descarga este notebook (`File ‚Üí Download .ipynb`).  
2. Entra a tu repositorio en GitHub (por ejemplo `telecom-analysis` o `sprint7-final-project`).  
3. Sube tu notebook **Add file ‚Üí Upload files**.  

---

### Opci√≥n B : Guardar directo desde Google Colab

1. Abre tu notebook en Colab.  
2. Ve a **File ‚Üí Save a copy in GitHub**.  
3. Selecciona el repositorio y la carpeta correcta (ej: `notebooks/`).  
4. Escribe un mensaje de commit claro, por ejemplo:  
    - `feat: add final ConnectaTel analysis`
    - `agregar version final: An√°lisis ConnectaTel`
5. Verifica en GitHub que el archivo qued√≥ en el lugar correcto y que el historial de commits se mantenga limpio.

---

Agrega un archivo `README.md` que describa de forma clara:
- el objetivo del proyecto,  
- los datasets utilizados,  
- las etapas del an√°lisis realizadas,  
- c√≥mo ejecutar el notebook (por ejemplo, abrirlo en Google Colab),  
- una breve gu√≠a de reproducci√≥n.
---

Link a repositorio p√∫blico del proyecto: `LINK a tu repo aqu√≠`