#📌 Extracción

Ahora que has extraído los datos, es fundamental comprender la estructura del dataset y el significado de sus columnas. Esta etapa te ayudará a identificar qué variables son más relevantes para el análisis de evasión de clientes.

📌 Para facilitar este proceso, hemos creado un diccionario de datos con la descripción de cada columna. Aunque no es obligatorio utilizarlo, puede ayudarte a comprender mejor la información disponible.

🔗 Enlace al diccionario y a la API

¿Qué debes hacer?
✅ Explorar las columnas del dataset y verificar sus tipos de datos.
✅ Consultar el diccionario para comprender mejor el significado de las variables.
✅ Identificar las columnas más relevantes para el análisis de evasión.

In [None]:
import requests
import pandas as pd

url = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/refs/heads/main/TelecomX_Data.json"
response = requests.get(url)
data = response.json()

df = pd.DataFrame(data)
print(df.head(10))

   customerID Churn                                           customer  \
0  0002-ORFBO    No  {'gender': 'Female', 'SeniorCitizen': 0, 'Part...   
1  0003-MKNFE    No  {'gender': 'Male', 'SeniorCitizen': 0, 'Partne...   
2  0004-TLHLJ   Yes  {'gender': 'Male', 'SeniorCitizen': 0, 'Partne...   
3  0011-IGKFF   Yes  {'gender': 'Male', 'SeniorCitizen': 1, 'Partne...   
4  0013-EXCHZ   Yes  {'gender': 'Female', 'SeniorCitizen': 1, 'Part...   
5  0013-MHZWF    No  {'gender': 'Female', 'SeniorCitizen': 0, 'Part...   
6  0013-SMEOE    No  {'gender': 'Female', 'SeniorCitizen': 1, 'Part...   
7  0014-BMAQU    No  {'gender': 'Male', 'SeniorCitizen': 0, 'Partne...   
8  0015-UOCOJ    No  {'gender': 'Female', 'SeniorCitizen': 1, 'Part...   
9  0016-QLJIS    No  {'gender': 'Female', 'SeniorCitizen': 0, 'Part...   

                                             phone  \
0   {'PhoneService': 'Yes', 'MultipleLines': 'No'}   
1  {'PhoneService': 'Yes', 'MultipleLines': 'Yes'}   
2   {'PhoneService': 'Y

Ahora que se ha extraído los datos, es fundamental comprender la estructura del dataset y el significado de sus columnas. Esta etapa te ayudará a identificar qué variables son más relevantes para el análisis de evasión de clientes.

📌 Para facilitar este proceso, existe un diccionario de datos con la descripción de cada columna.

¿Qué debes hacer?
✅ Explorar las columnas del dataset y verificar sus tipos de datos.
✅ Consultar el diccionario para comprender mejor el significado de las variables.
✅ Identificar las columnas más relevantes para el análisis de evasión.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   object
 1   Churn       7267 non-null   object
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(6)
memory usage: 340.8+ KB


In [None]:
from IPython.display import Markdown, display
# URL RAW del archivo .md en GitHub
url = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/main/TelecomX_diccionario.md"

# Hacer la solicitud y obtener el texto
response = requests.get(url)

# Mostrarlo como Markdown en el notebook
display(Markdown(response.text))

#### Diccionario de datos

- `customerID`: número de identificación único de cada cliente
- `Churn`: si el cliente dejó o no la empresa
- `gender`: género (masculino y femenino)
- `SeniorCitizen`: información sobre si un cliente tiene o no una edad igual o mayor a 65 años
- `Partner`: si el cliente tiene o no una pareja
- `Dependents`: si el cliente tiene o no dependientes
- `tenure`: meses de contrato del cliente
- `PhoneService`: suscripción al servicio telefónico
- `MultipleLines`: suscripción a más de una línea telefónica
- `InternetService`: suscripción a un proveedor de internet
- `OnlineSecurity`: suscripción adicional de seguridad en línea
- `OnlineBackup`: suscripción adicional de respaldo en línea
- `DeviceProtection`: suscripción adicional de protección del dispositivo
- `TechSupport`: suscripción adicional de soporte técnico, menor tiempo de espera
- `StreamingTV`: suscripción de televisión por cable
- `StreamingMovies`: suscripción de streaming de películas
- `Contract`: tipo de contrato
- `PaperlessBilling`: si el cliente prefiere recibir la factura en línea
- `PaymentMethod`: forma de pago
- `Charges.Monthly`: total de todos los servicios del cliente por mes
- `Charges.Total`: total gastado por el cliente

In [None]:
from pandas import json_normalize
df_normalizado = json_normalize(data)
df_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   customerID                 7267 non-null   object 
 1   Churn                      7267 non-null   object 
 2   customer.gender            7267 non-null   object 
 3   customer.SeniorCitizen     7267 non-null   int64  
 4   customer.Partner           7267 non-null   object 
 5   customer.Dependents        7267 non-null   object 
 6   customer.tenure            7267 non-null   int64  
 7   phone.PhoneService         7267 non-null   object 
 8   phone.MultipleLines        7267 non-null   object 
 9   internet.InternetService   7267 non-null   object 
 10  internet.OnlineSecurity    7267 non-null   object 
 11  internet.OnlineBackup      7267 non-null   object 
 12  internet.DeviceProtection  7267 non-null   object 
 13  internet.TechSupport       7267 non-null   objec

In [None]:
df_normalizado.head(30)

Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4
5,0013-MHZWF,No,Female,0,No,Yes,9,Yes,No,DSL,...,No,No,Yes,Yes,Yes,Month-to-month,Yes,Credit card (automatic),69.4,571.45
6,0013-SMEOE,No,Female,1,Yes,No,71,Yes,No,Fiber optic,...,Yes,Yes,Yes,Yes,Yes,Two year,Yes,Bank transfer (automatic),109.7,7904.25
7,0014-BMAQU,No,Male,0,Yes,No,63,Yes,Yes,Fiber optic,...,No,No,Yes,No,No,Two year,Yes,Credit card (automatic),84.65,5377.8
8,0015-UOCOJ,No,Female,1,No,No,7,Yes,No,DSL,...,No,No,No,No,No,Month-to-month,Yes,Electronic check,48.2,340.35
9,0016-QLJIS,No,Female,0,Yes,Yes,65,Yes,Yes,DSL,...,Yes,Yes,Yes,Yes,Yes,Two year,Yes,Mailed check,90.45,5957.9


In [None]:
 # Verifique si hay valores únicos en cada columna
for col in df_normalizado.columns:
    print(f"valores únicos en la columna '{col}': {df_normalizado[col].nunique()}")
    if df_normalizado[col].nunique() < 50: # Imprima los valores solamente si no hay muchos
        print(df_normalizado[col].unique())
        print('-' * 50)                    # Línea divisoria para una mejor visualización.

valores únicos en la columna 'customerID': 7267
valores únicos en la columna 'Churn': 3
['No' 'Yes' '']
--------------------------------------------------
valores únicos en la columna 'customer.gender': 2
['Female' 'Male']
--------------------------------------------------
valores únicos en la columna 'customer.SeniorCitizen': 2
[0 1]
--------------------------------------------------
valores únicos en la columna 'customer.Partner': 2
['Yes' 'No']
--------------------------------------------------
valores únicos en la columna 'customer.Dependents': 2
['Yes' 'No']
--------------------------------------------------
valores únicos en la columna 'customer.tenure': 73
valores únicos en la columna 'phone.PhoneService': 2
['Yes' 'No']
--------------------------------------------------
valores únicos en la columna 'phone.MultipleLines': 3
['No' 'Yes' 'No phone service']
--------------------------------------------------
valores únicos en la columna 'internet.InternetService': 3
['DSL' 'Fiber o


Comprobación de incoherencias en los datos en la lista

En este paso, se verifica si hay problemas en los datos que puedan afectar el análisis, prestando atención a valores ausentes, duplicados, errores de formato e inconsistencias en las categorías. Este proceso es esencial para asegur que los datos estén listos para las siguientes etapas.

  Acciones más comunes:

	  - Duplicados
	  - valores vacíos
	  - Valores nulos
	  - Tipos de datos
	  - Valores atípicos
	  - Consistencia y validez de datos categóricos
	  - Normalización de textos

In [None]:
#Verificando si hay duplicados
duplicados = df_normalizado.duplicated().sum()
print(f"Número de líneas duplicadas: {duplicados}")

Número de líneas duplicadas: 0


In [None]:
# verificando si hay valores nulos
valores_nulos = df_normalizado.isnull().values.sum()
print("\nvalores nulos por columna:")
print(valores_nulos[valores_nulos >0])


valores nulos por columna:
[]


In [None]:
# Filas que contienen al menos un valor nulo
filas_con_nulos = df_normalizado[df_normalizado.isnull().any(axis=1)]
print("Filas con valores nulos:")
print(filas_con_nulos)

Filas con valores nulos:
Empty DataFrame
Columns: [customerID, Churn, customer.gender, customer.SeniorCitizen, customer.Partner, customer.Dependents, customer.tenure, phone.PhoneService, phone.MultipleLines, internet.InternetService, internet.OnlineSecurity, internet.OnlineBackup, internet.DeviceProtection, internet.TechSupport, internet.StreamingTV, internet.StreamingMovies, account.Contract, account.PaperlessBilling, account.PaymentMethod, account.Charges.Monthly, account.Charges.Total]
Index: []

[0 rows x 21 columns]


In [None]:
# Verificando si hay valores nulos
total_nulos = df_normalizado.isnull().values.sum()
print(f"\nNúmero total de valores nulos: {total_nulos}")
# Otra forma Nulos
print("Numero de Nulos", df_normalizado.isnull().sum())


Número total de valores nulos: 0
Numero de Nulos customerID                   0
Churn                        0
customer.gender              0
customer.SeniorCitizen       0
customer.Partner             0
customer.Dependents          0
customer.tenure              0
phone.PhoneService           0
phone.MultipleLines          0
internet.InternetService     0
internet.OnlineSecurity      0
internet.OnlineBackup        0
internet.DeviceProtection    0
internet.TechSupport         0
internet.StreamingTV         0
internet.StreamingMovies     0
account.Contract             0
account.PaperlessBilling     0
account.PaymentMethod        0
account.Charges.Monthly      0
account.Charges.Total        0
dtype: int64


In [None]:
#Verificando blancos o vacíos:
valores_en_blanco_o_vacio = df_normalizado.apply(lambda x: x.astype(str).str.strip() == '').sum()
print("\nValores en blanco o string vacíos por columna:")
print(valores_en_blanco_o_vacio[valores_en_blanco_o_vacio > 0])


Valores en blanco o string vacíos por columna:
Churn                    224
account.Charges.Total     11
dtype: int64


In [None]:
# Verificando Vacíos o en blanco, otra forma:
df_normalizado.apply(lambda x: x.astype(str).str.strip() == '').sum()

Unnamed: 0,0
customerID,0
Churn,224
customer.gender,0
customer.SeniorCitizen,0
customer.Partner,0
customer.Dependents,0
customer.tenure,0
phone.PhoneService,0
phone.MultipleLines,0
internet.InternetService,0


In [None]:
#Cambiando la columna "account.Charges.Total" a Float

df_normalizado['account.Charges.Total'] = pd.to_numeric(df_normalizado['account.Charges.Total'], errors='coerce')
print(df_normalizado['account.Charges.Total'].dtype)

float64


In [None]:
# Eliminando las filas de Churn. Se eliminarán 224. N° Inicial de registros: 7267 - 224= 7043

df_normalizado = df_normalizado[df_normalizado['Churn'].str.strip() != '']
print("Número de filas después de eliminar las vacías en 'Churn':", len(df_normalizado))

Número de filas después de eliminar las vacías en 'Churn': 7043


In [None]:
# Eliminando las filas de account.Charges.Total. Se eliminarán 224. N° Inicial de registros: 7267 - 11= 7256
#Opción 3: Solo eliminar strings vacíos, ignorando los float válidos.
mask = df_normalizado['account.Charges.Total'].apply(lambda x: not (isinstance(x, str) and x.strip() == ''))
df_normalizado = df_normalizado[mask]
print("Número de filas después de eliminar strings vacíos en 'account.Charges.Total':", len(df_normalizado))

Número de filas después de eliminar strings vacíos en 'account.Charges.Total': 7043


In [None]:
# ¿Cómo verificar si los vacíos de account.Charges.Total ya no existen?
# Cuántos registros vacíos quedan en 'account.Charges.Total' después de limpiar 'Churn'
# Eso explica el desfase. Si ya se habían eliminado las filas vacías en la columna Churn (que eran 224 registros), entonces el nuevo total después de esa limpieza era:7043 registros
# Entonces cuando más adelante eliminas 11 filas vacías en account.Charges.
# Total, esos 11 registros ya no están presentes, porque muy probablemente también eran parte de los que ya se eliminaron antes en Churn.
print("Vacíos restantes en 'account.Charges.Total':",
      df_normalizado['account.Charges.Total'].apply(lambda x: isinstance(x, str) and x.strip() == '').sum())

Vacíos restantes en 'account.Charges.Total': 0



Análisis Descriptivo

Para comenzar, se realiza un análisis descriptivo de los datos, calculando métricas como media, mediana, desviación estándar y otras medidas que ayuden a comprender mejor la distribución y el comportamiento de los clientes. Columna de cuentas diarias.


Luego de trasformar los registros, es momento de crear la columna "Cuentas_Diarias". Utiliza la facturación mensual para calcular el valor diario, proporcionando una visión más detallada del comportamiento de los clientes a lo largo del tiempo.
Esta columna ayudar a profundizar en el análisis y a obtener información valiosa para las siguientes etapas.

In [None]:
df_normalizado.describe()

Unnamed: 0,customer.SeniorCitizen,customer.tenure,account.Charges.Monthly,account.Charges.Total
count,7043.0,7043.0,7043.0,7032.0
mean,0.162147,32.371149,64.761692,2283.300441
std,0.368612,24.559481,30.090047,2266.771362
min,0.0,0.0,18.25,18.8
25%,0.0,9.0,35.5,401.45
50%,0.0,29.0,70.35,1397.475
75%,0.0,55.0,89.85,3794.7375
max,1.0,72.0,118.75,8684.8


 Significado sobre las columnas (por orden):

Churn (columna binaria: 0 o 1) La tasa de abandono se refiere al número de clientes que terminan su relación con una empresa en un período determinado.

account.Tenure (antigüedad en meses)

account.Charges.Monthly (cargos mensuales)

account.Charges.Total (cargos acumulados totales)

In [None]:
df_normalizado.describe().round(2)

Unnamed: 0,customer.SeniorCitizen,customer.tenure,account.Charges.Monthly,account.Charges.Total
count,7043.0,7043.0,7043.0,7032.0
mean,0.16,32.37,64.76,2283.3
std,0.37,24.56,30.09,2266.77
min,0.0,0.0,18.25,18.8
25%,0.0,9.0,35.5,401.45
50%,0.0,29.0,70.35,1397.48
75%,0.0,55.0,89.85,3794.74
max,1.0,72.0,118.75,8684.8


In [None]:
# Cambiando la columna account.Charges.Monthly que corresponde a cargos mensuales a Cuentas_Diarias que se divide entre 30, por 30 días.
df_normalizado['Cuentas_Diarias'] = df_normalizado['account.Charges.Monthly'] / 30
print(df_normalizado[['account.Charges.Monthly', 'Cuentas_Diarias']])

      account.Charges.Monthly  Cuentas_Diarias
0                       65.60         2.186667
1                       59.90         1.996667
2                       73.90         2.463333
3                       98.00         3.266667
4                       83.90         2.796667
...                       ...              ...
7262                    55.15         1.838333
7263                    85.10         2.836667
7264                    50.30         1.676667
7265                    67.85         2.261667
7266                    59.00         1.966667

[7043 rows x 2 columns]


In [None]:
print("Filas antes de calcular cuentas diarias:", len(df_normalizado))

Filas antes de calcular cuentas diarias: 7043


In [None]:
print(globals())

{'__name__': '__main__', '__doc__': 'Automatically created module for IPython interactive environment', '__package__': None, '__loader__': None, '__spec__': None, '__builtin__': <module 'builtins' (built-in)>, '__builtins__': <module 'builtins' (built-in)>, '_ih': ['', '#Verificando\nprint("Filas vacías en \'Churn\':", data[\'Churn\'].apply(lambda x: isinstance(x, str) and x.strip() == \'\').sum())', 'import requests\nimport pandas as pd\n\nurl = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/refs/heads/main/TelecomX_Data.json"\nresponse = requests.get(url)\ndata = response.json()\n\ndf = pd.DataFrame(data)\nprint(df.head(10))', 'df.info()', 'from IPython.display import Markdown, display\n# URL RAW del archivo .md en GitHub\nurl = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/main/TelecomX_diccionario.md"\n\n# Hacer la solicitud y obtener el texto\nresponse = requests.get(url)\n\n# Mostrarlo como Markdown en el notebook\ndi

In [None]:
df_normalizado = df_normalizado[df_normalizado['Churn'].str.strip() != '']
# Paso 2: eliminar vacíos en 'Churn'
# Confirmar que ahora hay 7043 registros
print("Después de eliminar vacíos en 'Churn':", len(df_normalizado))  # ← debería dar 7043

Después de eliminar vacíos en 'Churn': 7043


In [None]:
# Paso 3: Crear columna Cuentas_Diarias
df_normalizado['Cuentas_Diarias'] = df_normalizado['account.Charges.Monthly'] / 30
print("Después de calcular cuentas diarias:", len(df_normalizado))  # ← debe seguir dando 7043

Después de calcular cuentas diarias: 7043


In [None]:
df_normalizado = df_normalizado.drop('Cuentas_Diarias', errors='ignore')

In [None]:
df_normalizado

Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total,Cuentas_Diarias
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,No,Yes,Yes,No,One year,Yes,Mailed check,65.60,593.30,2.186667
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,Yes,Month-to-month,No,Mailed check,59.90,542.40,1.996667
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.90,280.85,2.463333
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.00,1237.85,3.266667
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.90,267.40,2.796667
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,9987-LUTYD,No,Female,0,No,No,13,Yes,No,DSL,...,No,Yes,No,No,One year,No,Mailed check,55.15,742.90,1.838333
7263,9992-RRAMN,Yes,Male,0,Yes,No,22,Yes,Yes,Fiber optic,...,No,No,No,Yes,Month-to-month,Yes,Electronic check,85.10,1873.70,2.836667
7264,9992-UJOEL,No,Male,0,No,No,2,Yes,No,DSL,...,No,No,No,No,Month-to-month,Yes,Mailed check,50.30,92.75,1.676667
7265,9993-LHIEB,No,Male,0,Yes,Yes,67,Yes,No,DSL,...,Yes,Yes,No,Yes,Two year,No,Mailed check,67.85,4627.65,2.261667


Análisis gráfico

In [None]:
import plotly.express as px

In [None]:
px.histogram(df_normalizado, x = 'customer.gender', text_auto = True, color = 'Churn', barmode = 'group')

In [None]:
px.histogram(df_normalizado, x = 'customer.SeniorCitizen', text_auto = True, color = 'Churn', barmode = 'group')

In [None]:
px.histogram(df_normalizado, x = 'customer.tenure', text_auto = True, color = 'Churn', barmode = 'group')

In [None]:
# Agrupar por tenure y Churn
df_grouped = df_normalizado.groupby(['customer.tenure', 'Churn']).size().unstack(fill_value=0)

# Calcular el % de churn por tenure
df_grouped['churn_rate'] = (df_grouped.get('Yes', 0) / df_grouped.sum(axis=1)) * 100

# Mostrar el resultado
print(df_grouped[['churn_rate']])

Churn            churn_rate
customer.tenure            
0                  0.000000
1                 61.990212
2                 51.680672
3                 47.000000
4                 47.159091
...                     ...
68                 9.000000
69                 8.421053
70                 9.243697
71                 3.529412
72                 1.657459

[73 rows x 1 columns]


In [None]:
fig = px.line(df_grouped.reset_index(),
              x='customer.tenure',
              y='churn_rate',
              markers=True,
              title='Tasa de Churn (%) por Tenure')
fig.show()

In [None]:
px.scatter(df_normalizado,
           x="customer.tenure",
           y="account.Charges.Monthly",
           color="Churn",
           title="Tenure vs Cargos mensuales por Churn")

In [None]:
px.histogram(df_normalizado, x = 'account.Contract', text_auto = True, color = 'Churn', barmode = 'group')

In [None]:
px.box(df_normalizado, x = 'Churn', y = 'account.Charges.Monthly', color = 'Churn')

In [None]:
px.histogram(df_normalizado, x = 'phone.PhoneService',  text_auto = True, color = 'Churn', barmode = 'group')

In [None]:
px.histogram(df_normalizado, x = 'internet.InternetService',  text_auto = True, color = 'Churn', barmode = 'group')

In [None]:
px.histogram(df_normalizado, x = 'internet.StreamingTV',  text_auto = True, color = 'Churn', barmode = 'group')

In [None]:
px.histogram(df_normalizado, x = 'account.PaymentMethod',  text_auto = True, color = 'Churn', barmode = 'group')

#📊 Carga y análisis


Recuento de evasión por variables categóricas


Se an explorado cómo se distribuye la evasión según variables categóricas, como género, tipo de contrato, método de pago, entre otras, como indica el análisis gráfico llevado previamente.

Este análisis puede revelar patrones interesantes, por ejemplo, si los clientes de ciertos perfiles tienen una mayor tendencia a cancelar el servicio, lo que ayudará a orientar acciones estratégicas.


Conteo de evasión por variables numéricas

En esta paso, se explora cómo las variables numéricas, tales como "total gastado" o "tiempo de contrato", se distribuyen entre los clientes que cancelaron (evasión) y los que no cancelaron, visto gráficamente.

Este análisis ayuda a entender si ciertos valores numéricos están más asociados con la evasión, proporcionando insights sobre los factores que influyen en el comportamiento de los clientes.

 Análisis columna por columna
1. Churn (0 o 1): Métrica	Valor count	7043 mean	0.162 std	0.368

Conclusión: Solo el 16,2% de los clientes se han dado de baja (Churn = 1), lo que indica una tasa de retención del 83,8%, bastante buena.

2. account.Tenure (antigüedad):
Métrica	Valor
mean	32.37 meses (~2.7 años)
std	24.56
min / max	0 / 72 meses (6 años)

Conclusión: La mayoría de los clientes llevan entre 9 y 55 meses.

Hay clientes nuevos (tenure = 0) y algunos muy antiguos (hasta 6 años).

La distribución parece estar sesgada hacia tenures más bajos.
3. account.Charges.Monthly:
Métrica	Valor
mean	$64.76
std	$30.09
min / max	$18.25 / $118.75

Conclusión: Los cargos mensuales varían bastante.

Hay planes económicos ($18)  otros premium ($118).

El promedio indica que la mayoría de los clientes está en planes medios o superiores.
4. account.Charges.Total:
Métrica	Valor
count	7032 (faltan 11 registros)
mean	$2,283.30
std	$2,266.77
min / max	$18.80 / $8,684.80

Conclusión: Hay gran dispersión en los cargos totales.

Algunos clientes han acumulado muy poco (quizás recién comenzaron), mientras que otros han gastado más de $8,000.

El hecho de que count sea 7032 y no 7043 indica que faltan 11 valores, lo que amerita limpieza o imputación.

Conclusiones generales
La base tiene 7043 registros, con buena calidad general (pocos valores faltantes).

La tasa de churn (deserción) es baja (~16%), lo que sugiere buen desempeño comercial.

La antigüedad y cargos totales reflejan una base de clientes diversa, con tanto clientes nuevos como antiguos.

Hay gran variabilidad en los cargos mensuales y totales, lo que puede indicar segmentación de planes.


#📄Informe final



🔹 1. Introducción
En este proyecto se analizan los datos de clientes de una empresa de telecomunicaciones, con el objetivo de comprender el fenómeno de evasión de clientes (Churn). Esta problemática afecta directamente los ingresos y la estabilidad financiera de la empresa, por lo que entender quiénes abandonan el servicio y por qué es crucial para la toma de decisiones estratégicas.

El análisis se basa en un conjunto de datos en formato JSON, que fue transformado en un DataFrame usando pandas, y se trabajó utilizando herramientas como NumPy, matplotlib y seaborn.

🔹 2. Limpieza y Tratamiento de Datos
Se realizaron los siguientes pasos para preparar los datos:

✅ Importación del JSON desde GitHub usando requests y conversión a DataFrame.

✅ Eliminación de filas con campos vacíos en variables críticas como Churn y account.Charges.Total.

✅ Conversión de tipos de datos: por ejemplo, account.Charges.Total a float.

✅ Generación de nuevas variables como Cuentas_Diarias (cargos mensuales dividido en 30).

✅ Verificación de valores nulos y duplicados: se detectaron 11 valores vacíos en account.Charges.Total, los cuales fueron eliminados.

🔹 3. Análisis Exploratorio de Datos (EDA)
Se llevaron a cabo varios análisis para identificar patrones relevantes:

📌 Distribución del Churn: 16.2% de los clientes abandonaron el servicio.

📌 Tenencia (Tenure): los clientes que se dan de baja tienden a tener menor antigüedad.

📌 Cargos Mensuales: los clientes con cargos mensuales más altos tienen mayor tasa de abandono.

📌 Cargos Totales: los clientes que han pagado menos tienden a desertar más.

📊 Visualizaciones: se utilizaron gráficos de barras, histogramas y boxplots para analizar la distribución de variables por Churn.

Ejemplo de visualizaciones:
sns.boxplot(x='Churn', y='account.Tenure', data=df_normalizado)
🔹 4. Conclusiones e Insights
🔍 La mayoría de los clientes que desertan tienen menos de 20 meses de antigüedad.

🔍 Existe una correlación entre cargos mensuales altos y una mayor probabilidad de Churn.

🔍 Clientes que no acumulan muchos cargos totales (poca permanencia) tienden a irse más rápido.

🔍 El 83.8% de los clientes se mantiene, lo que implica una buena tasa de retención, aunque hay margen de mejora.

🔹 5. Recomendaciones Estratégicas
💡 Fortalecer la retención en los primeros 6 meses: ofrecer descuentos o beneficios iniciales.

💡 Crear planes diferenciados para clientes con cargos mensuales altos.

💡 Implementar alertas tempranas de deserción: si un cliente tiene poca antigüedad y alto cargo mensual, es un candidato a desertar.

💡 Realizar seguimiento proactivo a clientes con baja actividad (bajo cargo total).

💡 Optimizar la comunicación y atención al cliente durante los primeros meses del servicio.

🚀 Cierre
El análisis de datos permitió identificar perfiles de clientes con mayor probabilidad de evasión. Implementar estrategias personalizadas y proactivas permitirá reducir la tasa de Churn y mejorar la fidelización de los clientes actuales.