<a href="https://colab.research.google.com/github/rocioivonneperezgonzalez-ship-it/Challenge_TlecomX_Alura_LATAM/blob/main/TelecomX_LATAM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Telecom X - An√°lisis de Evasi√≥n de Clientes**


Has sido contratado como asistente de an√°lisis de datos en Telecom X y formar√°s parte del proyecto "Churn de Clientes". La empresa enfrenta una alta tasa de cancelaciones y necesita comprender los factores que llevan a la p√©rdida de clientes.
Tu desaf√≠o ser√° recopilar, procesar y analizar los datos, utilizando Python y sus principales bibliotecas para extraer informaci√≥n valiosa. A partir de tu an√°lisis, el equipo de Data Science podr√° avanzar en modelos predictivos y desarrollar estrategias para reducir la evasi√≥n.
¬øQu√© vas a practicar?
‚úÖ Importar y manipular datos desde una API de manera eficiente.
‚úÖ Aplicar los conceptos de ETL (Extracci√≥n, Transformaci√≥n y Carga) en la preparaci√≥n de los datos.
‚úÖ Crear visualizaciones estrat√©gicas para identificar patrones y tendencias.
‚úÖ Realizar un An√°lisis Exploratorio de Datos (EDA) y generar un informe con insights relevantes.

##üìå Extracci√≥n

Para iniciar tu an√°lisis, necesitar√°s importar los datos de la API de Telecom X. Estos datos est√°n disponibles en formato JSON y contienen informaci√≥n esencial sobre los clientes, incluyendo datos demogr√°ficos, tipo de servicio contratado y estado de evasi√≥n.




***¬øQu√© debes hacer?***

‚úÖ Cargar los datos directamente desde la API utilizando Python.

‚úÖ Convertir los datos a un DataFrame de Pandas para facilitar su manipulaci√≥n.

In [1]:
import pandas as pd
import requests
import json

In [2]:
url = 'https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/refs/heads/main/TelecomX_Data.json'
response = requests.get(url)
data = response.json()
df = pd.DataFrame(data)
df.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


In [3]:
df = pd.json_normalize(data)  # df plano (normalizado)
df.head()

Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


üîç **An√°lisis de la Estructura de los Datos**
Los datos est√°n organizados en un formato jer√°rquico (diccionario dentro de diccionario), conteniendo la siguiente informaci√≥n:

1. **Identificaci√≥n del Cliente** - `'customerID'`: Identificador √∫nico del cliente.
* `'Churn'`: Indica si el cliente cancel√≥ el servicio (`Yes` o `No`).


2. **Informaci√≥n del Cliente** (`'customer'`)
* `'gender'`: G√©nero del cliente (`Male` o `Female`).
* `'SeniorCitizen'`: Indica si el cliente es una persona mayor (0 = No, 1 = S√≠).
* `'Partner'`: Si el cliente tiene pareja.
* `'Dependents'`: Si el cliente tiene dependientes.
* `'tenure'`: Tiempo de permanencia como cliente (en meses).


3. **Servicios de Telefon√≠a** (`'phone'`)
* `'PhoneService'`: Indica si el cliente posee servicio de tel√©fono (`Yes` o `No`).
* `'MultipleLines'`: Si posee m√∫ltiples l√≠neas telef√≥nicas.


4. **Servicios de Internet** (`'internet'`)
* Tipo de servicio de internet contratado (`DSL`, `Fiber optic`, `No`).
* Servicios adicionales (`OnlineSecurity`, `OnlineBackup`, `DeviceProtection`, `TechSupport`, `StreamingTV`, `StreamingMovies`).


5. **Informaci√≥n de la Cuenta** (`'account'`)
* `'Contract'`: Tipo de contrato (`Month-to-month`, `One year`, `Two year`).
* `'PaperlessBilling'`: Si el cliente recibe facturas electr√≥nicas.
* `'PaymentMethod'`: M√©todo de pago (`Bank transfer`, `Credit card`, `Electronic check`, `Mailed check`).
* `'Charges'`:
* `'Monthly'`: Valor mensual cobrado.
* `'Total'`: Valor total pagado por el cliente.

##üîß Transformaci√≥n

### Conociendo el conjunto de datos

Ahora que has extra√≠do los datos, es fundamental comprender la estructura del dataset y el significado de sus columnas. Esta etapa te ayudar√° a identificar qu√© variables son m√°s relevantes para el an√°lisis de evasi√≥n de clientes.

üìå Para facilitar este proceso, hemos creado un diccionario de datos con la descripci√≥n de cada columna. Aunque no es obligatorio utilizarlo, puede ayudarte a comprender mejor la informaci√≥n disponible.

üîó Enlace al diccionario y a la API

¬øQu√© debes hacer?

‚úÖ Explorar las columnas del dataset y verificar sus tipos de datos.

‚úÖ Consultar el diccionario para comprender mejor el significado de las variables.

‚úÖ Identificar las columnas m√°s relevantes para el an√°lisis de evasi√≥n

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   customerID                 7267 non-null   object 
 1   Churn                      7267 non-null   object 
 2   customer.gender            7267 non-null   object 
 3   customer.SeniorCitizen     7267 non-null   int64  
 4   customer.Partner           7267 non-null   object 
 5   customer.Dependents        7267 non-null   object 
 6   customer.tenure            7267 non-null   int64  
 7   phone.PhoneService         7267 non-null   object 
 8   phone.MultipleLines        7267 non-null   object 
 9   internet.InternetService   7267 non-null   object 
 10  internet.OnlineSecurity    7267 non-null   object 
 11  internet.OnlineBackup      7267 non-null   object 
 12  internet.DeviceProtection  7267 non-null   object 
 13  internet.TechSupport       7267 non-null   objec

In [5]:
df.shape
df.columns
df.dtypes
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   customerID                 7267 non-null   object 
 1   Churn                      7267 non-null   object 
 2   customer.gender            7267 non-null   object 
 3   customer.SeniorCitizen     7267 non-null   int64  
 4   customer.Partner           7267 non-null   object 
 5   customer.Dependents        7267 non-null   object 
 6   customer.tenure            7267 non-null   int64  
 7   phone.PhoneService         7267 non-null   object 
 8   phone.MultipleLines        7267 non-null   object 
 9   internet.InternetService   7267 non-null   object 
 10  internet.OnlineSecurity    7267 non-null   object 
 11  internet.OnlineBackup      7267 non-null   object 
 12  internet.DeviceProtection  7267 non-null   object 
 13  internet.TechSupport       7267 non-null   objec

### Comprobaci√≥n de incohernecias en los datos

En este paso, verifica si hay problemas en los datos que puedan afectar el an√°lisis.

Presta atenci√≥n a valores ausentes, duplicados, errores de formato e inconsistencias en las categor√≠as.

Este proceso es esencial para asegurarte de que los datos est√©n listos para las siguientes etapas.

VERIFICACI√ìN DE VALORES UNICOS

In [6]:
for col in df.columns:
    print(f"{col}: {df[col].unique()}")
    if df[col].nunique()<50:
      print (df[col].unique())
      print('-' * 50)

customerID: ['0002-ORFBO' '0003-MKNFE' '0004-TLHLJ' ... '9992-UJOEL' '9993-LHIEB'
 '9995-HOTOH']
Churn: ['No' 'Yes' '']
['No' 'Yes' '']
--------------------------------------------------
customer.gender: ['Female' 'Male']
['Female' 'Male']
--------------------------------------------------
customer.SeniorCitizen: [0 1]
[0 1]
--------------------------------------------------
customer.Partner: ['Yes' 'No']
['Yes' 'No']
--------------------------------------------------
customer.Dependents: ['Yes' 'No']
['Yes' 'No']
--------------------------------------------------
customer.tenure: [ 9  4 13  3 71 63  7 65 54 72  5 56 34  1 45 50 23 55 26 69 11 37 49 66
 67 20 43 59 12 27  2 25 29 14 35 64 39 40  6 30 70 57 58 16 32 33 10 21
 61 15 44 22 24 19 47 62 46 52  8 60 48 28 41 53 68 51 31 36 17 18 38 42
  0]
phone.PhoneService: ['Yes' 'No']
['Yes' 'No']
--------------------------------------------------
phone.MultipleLines: ['No' 'Yes' 'No phone service']
['No' 'Yes' 'No phone service']
------

VALORES DUPLICADOS

In [7]:
print(f"N√∫mero de filas duplicadas: {df.duplicated().sum()}")

N√∫mero de filas duplicadas: 0


*El dataset no presenta registros duplicados, ni filas id√©nticas ni identificadores customerID repetidos.*

VALORES NULOS

In [8]:
print(f"N√∫mero de valores nulos\n: {df.isnull().sum()}")

N√∫mero de valores nulos
: customerID                   0
Churn                        0
customer.gender              0
customer.SeniorCitizen       0
customer.Partner             0
customer.Dependents          0
customer.tenure              0
phone.PhoneService           0
phone.MultipleLines          0
internet.InternetService     0
internet.OnlineSecurity      0
internet.OnlineBackup        0
internet.DeviceProtection    0
internet.TechSupport         0
internet.StreamingTV         0
internet.StreamingMovies     0
account.Contract             0
account.PaperlessBilling     0
account.PaymentMethod        0
account.Charges.Monthly      0
account.Charges.Total        0
dtype: int64


*Lo que nos indica que no existe ningun valor nulo*

VALORES VACIOS O EN BLANCO

In [9]:
df.apply(lambda x: x.astype(str).str.strip()=='').sum()

Unnamed: 0,0
customerID,0
Churn,224
customer.gender,0
customer.SeniorCitizen,0
customer.Partner,0
customer.Dependents,0
customer.tenure,0
phone.PhoneService,0
phone.MultipleLines,0
internet.InternetService,0


 *Se tiene 224 valores vac√≠os/solo-espacios en Churn.*

### Manejo de inconsistencias

1) Corregir formato de Charges.Total (a Float) ‚úÖ

Para un mejor manejo de os datos, ya que se pudo observa que se encuentra como object

In [10]:
df['account.Charges.Total'] = pd.to_numeric(df['account.Charges.Total'], errors='coerce')

2. Para un mejor manejo de el DataFrame se procede a aliminar los 224 valores vacio que se encontraron en `Churn`

In [11]:
df = df[df['Churn'].str.strip() !='']
print(f"N√∫mero de filas despues de eliminar las avcia en churn:", len(df))

N√∫mero de filas despues de eliminar las avcia en churn: 7043


*Una vez eliminadas los 224 valores vacios nos quedamos con 7043 valores*

3. Prodedemos a verificar cuantos valores vacios o en blancos quedaron en el DataFrame despues de eliminar los 224 valores en Churn

In [12]:
df.apply(lambda x: x.astype(str).str.strip() == '').sum()

Unnamed: 0,0
customerID,0
Churn,0
customer.gender,0
customer.SeniorCitizen,0
customer.Partner,0
customer.Dependents,0
customer.tenure,0
phone.PhoneService,0
phone.MultipleLines,0
internet.InternetService,0


In [13]:
print("Numero de Nulos \n", df.isnull().sum())

Numero de Nulos 
 customerID                    0
Churn                         0
customer.gender               0
customer.SeniorCitizen        0
customer.Partner              0
customer.Dependents           0
customer.tenure               0
phone.PhoneService            0
phone.MultipleLines           0
internet.InternetService      0
internet.OnlineSecurity       0
internet.OnlineBackup         0
internet.DeviceProtection     0
internet.TechSupport          0
internet.StreamingTV          0
internet.StreamingMovies      0
account.Contract              0
account.PaperlessBilling      0
account.PaymentMethod         0
account.Charges.Monthly       0
account.Charges.Total        11
dtype: int64


### Columna de cuentas diarias (Opcional)

Ahora que los datos est√°n limpios, es momento de crear la columna "Cuentas_Diarias". Utiliza la facturaci√≥n mensual para calcular el valor diario, proporcionando una visi√≥n m√°s detallada del comportamiento de los clientes a lo largo del tiempo.
üìå Esta columna te ayudar√° a profundizar en el an√°lisis y a obtener informaci√≥n valiosa para las siguientes etapas.

In [14]:
df["Cuentas_Diarias"] = df["account.Charges.Total"] / 30
df.head()


Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total,Cuentas_Diarias
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3,19.776667
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4,18.08
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85,9.361667
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85,41.261667
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4,8.913333


In [15]:
df["Cuentas_Diarias"].describe()


Unnamed: 0,Cuentas_Diarias
count,7032.0
mean,76.110015
std,75.559045
min,0.626667
25%,13.381667
50%,46.5825
75%,126.49125
max,289.493333


### Estandarizaci√≥n y tranformaci√≥n de datos (Opcional)

Para un mejor manejo de columnas reasignaremos nombres a √©stas

In [16]:
col = {                                                        # Diccionario con los nuevos nombres de las columnas.
    'customerID': 'id',
    'customer.gender': 'genero',
    'customer.SeniorCitizen': 'mayor_de_60',
    'customer.Partner': 'posee_pareja',
    'customer.Dependents': 'posee_dependientes',
    'customer.tenure': 'tiempo_contrato',
    'phone.PhoneService': 'servicio_telefono',
    'phone.MultipleLines': 'multiples_lineas',
    'internet.InternetService': 'tipo_internet',
    'internet.OnlineSecurity': 'seguridad_online',
    'internet.OnlineBackup': 'backup_online',
    'internet.DeviceProtection': 'proteccion_dispositivo',
    'internet.TechSupport': 'soporte_tecnico',
    'internet.StreamingTV': 'streaming_tv',
    'internet.StreamingMovies': 'streaming_peliculas',
    'account.Contract': 'tipo_contrato',
    'account.PaperlessBilling': 'factura_digital',
    'account.PaymentMethod': 'metodo_pago',
    'account.Charges.Monthly': 'valor_mensal',
    'account.Charges.Total': 'total_cobrado'
}
df = df.rename(columns= col)
df

Unnamed: 0,id,Churn,genero,mayor_de_60,posee_pareja,posee_dependientes,tiempo_contrato,servicio_telefono,multiples_lineas,tipo_internet,...,proteccion_dispositivo,soporte_tecnico,streaming_tv,streaming_peliculas,tipo_contrato,factura_digital,metodo_pago,valor_mensal,total_cobrado,Cuentas_Diarias
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,No,Yes,Yes,No,One year,Yes,Mailed check,65.60,593.30,19.776667
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,Yes,Month-to-month,No,Mailed check,59.90,542.40,18.080000
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.90,280.85,9.361667
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.00,1237.85,41.261667
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.90,267.40,8.913333
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,9987-LUTYD,No,Female,0,No,No,13,Yes,No,DSL,...,No,Yes,No,No,One year,No,Mailed check,55.15,742.90,24.763333
7263,9992-RRAMN,Yes,Male,0,Yes,No,22,Yes,Yes,Fiber optic,...,No,No,No,Yes,Month-to-month,Yes,Electronic check,85.10,1873.70,62.456667
7264,9992-UJOEL,No,Male,0,No,No,2,Yes,No,DSL,...,No,No,No,No,Month-to-month,Yes,Mailed check,50.30,92.75,3.091667
7265,9993-LHIEB,No,Male,0,Yes,Yes,67,Yes,No,DSL,...,Yes,Yes,No,Yes,Two year,No,Mailed check,67.85,4627.65,154.255000


Tambien remplazaremos pasaremos la informaci√≥n de ingles a espa√±ol

In [17]:
df['Churn'] = df['Churn'].replace({'No': '0', 'Yes': '1'})
df['genero'] = df['genero'].replace({'Female': 'Femenino', 'Male': 'Masculino'})
df['posee_pareja'] = df['posee_pareja'].replace({'Yes': '1', 'No': '0'})
df['posee_dependientes'] = df['posee_dependientes'].replace({'Yes': '1', 'No': '0'})
df['servicio_telefono'] = df['servicio_telefono'].replace({'Yes': '1', 'No': '0'})
df['multiples_lineas'] = df['multiples_lineas'].replace({'No': '0', 'Yes': '1', 'No phone service': 'Sin servicio de tel√©fono'})
df['tipo_internet'] = df['tipo_internet'].replace({'No': '0'})
df['tipo_contrato'] = df['tipo_contrato'].replace({'One year': 'Anual', 'Month-to-month': 'Mensual', 'Two year': 'Bienal'})
df.head()

Unnamed: 0,id,Churn,genero,mayor_de_60,posee_pareja,posee_dependientes,tiempo_contrato,servicio_telefono,multiples_lineas,tipo_internet,...,proteccion_dispositivo,soporte_tecnico,streaming_tv,streaming_peliculas,tipo_contrato,factura_digital,metodo_pago,valor_mensal,total_cobrado,Cuentas_Diarias
0,0002-ORFBO,0,Femenino,0,1,1,9,1,0,DSL,...,No,Yes,Yes,No,Anual,Yes,Mailed check,65.6,593.3,19.776667
1,0003-MKNFE,0,Masculino,0,0,0,9,1,1,DSL,...,No,No,No,Yes,Mensual,No,Mailed check,59.9,542.4,18.08
2,0004-TLHLJ,1,Masculino,0,0,0,4,1,0,Fiber optic,...,Yes,No,No,No,Mensual,Yes,Electronic check,73.9,280.85,9.361667
3,0011-IGKFF,1,Masculino,1,1,0,13,1,0,Fiber optic,...,Yes,No,Yes,Yes,Mensual,Yes,Electronic check,98.0,1237.85,41.261667
4,0013-EXCHZ,1,Femenino,1,1,0,3,1,0,Fiber optic,...,No,Yes,Yes,No,Mensual,Yes,Mailed check,83.9,267.4,8.913333


In [18]:
columnas_a_traducir = ['seguridad_online', 'backup_online', 'proteccion_dispositivo', 'soporte_tecnico', 'streaming_tv', 'streaming_peliculas']
mapeo = {'No': '0', 'Yes': '1', 'No internet service': 'Sin servicio de internet'}

for col in columnas_a_traducir:
    df[col] = df[col].replace(mapeo)

df.head()

Unnamed: 0,id,Churn,genero,mayor_de_60,posee_pareja,posee_dependientes,tiempo_contrato,servicio_telefono,multiples_lineas,tipo_internet,...,proteccion_dispositivo,soporte_tecnico,streaming_tv,streaming_peliculas,tipo_contrato,factura_digital,metodo_pago,valor_mensal,total_cobrado,Cuentas_Diarias
0,0002-ORFBO,0,Femenino,0,1,1,9,1,0,DSL,...,0,1,1,0,Anual,Yes,Mailed check,65.6,593.3,19.776667
1,0003-MKNFE,0,Masculino,0,0,0,9,1,1,DSL,...,0,0,0,1,Mensual,No,Mailed check,59.9,542.4,18.08
2,0004-TLHLJ,1,Masculino,0,0,0,4,1,0,Fiber optic,...,1,0,0,0,Mensual,Yes,Electronic check,73.9,280.85,9.361667
3,0011-IGKFF,1,Masculino,1,1,0,13,1,0,Fiber optic,...,1,0,1,1,Mensual,Yes,Electronic check,98.0,1237.85,41.261667
4,0013-EXCHZ,1,Femenino,1,1,0,3,1,0,Fiber optic,...,0,1,1,0,Mensual,Yes,Mailed check,83.9,267.4,8.913333


In [19]:
df['metodo_pago'] = df['metodo_pago'].replace({
    'Mailed check': 'Cheque enviado por correo',
    'Electronic check': 'Cheque electr√≥nico',
    'Credit card (automatic)': 'Tarjeta de cr√©dito (autom√°tico)',
    'Bank transfer (automatic)': 'Transferencia bancaria (autom√°tica)'
})
df.head()

Unnamed: 0,id,Churn,genero,mayor_de_60,posee_pareja,posee_dependientes,tiempo_contrato,servicio_telefono,multiples_lineas,tipo_internet,...,proteccion_dispositivo,soporte_tecnico,streaming_tv,streaming_peliculas,tipo_contrato,factura_digital,metodo_pago,valor_mensal,total_cobrado,Cuentas_Diarias
0,0002-ORFBO,0,Femenino,0,1,1,9,1,0,DSL,...,0,1,1,0,Anual,Yes,Cheque enviado por correo,65.6,593.3,19.776667
1,0003-MKNFE,0,Masculino,0,0,0,9,1,1,DSL,...,0,0,0,1,Mensual,No,Cheque enviado por correo,59.9,542.4,18.08
2,0004-TLHLJ,1,Masculino,0,0,0,4,1,0,Fiber optic,...,1,0,0,0,Mensual,Yes,Cheque electr√≥nico,73.9,280.85,9.361667
3,0011-IGKFF,1,Masculino,1,1,0,13,1,0,Fiber optic,...,1,0,1,1,Mensual,Yes,Cheque electr√≥nico,98.0,1237.85,41.261667
4,0013-EXCHZ,1,Femenino,1,1,0,3,1,0,Fiber optic,...,0,1,1,0,Mensual,Yes,Cheque enviado por correo,83.9,267.4,8.913333


In [20]:
df

Unnamed: 0,id,Churn,genero,mayor_de_60,posee_pareja,posee_dependientes,tiempo_contrato,servicio_telefono,multiples_lineas,tipo_internet,...,proteccion_dispositivo,soporte_tecnico,streaming_tv,streaming_peliculas,tipo_contrato,factura_digital,metodo_pago,valor_mensal,total_cobrado,Cuentas_Diarias
0,0002-ORFBO,0,Femenino,0,1,1,9,1,0,DSL,...,0,1,1,0,Anual,Yes,Cheque enviado por correo,65.60,593.30,19.776667
1,0003-MKNFE,0,Masculino,0,0,0,9,1,1,DSL,...,0,0,0,1,Mensual,No,Cheque enviado por correo,59.90,542.40,18.080000
2,0004-TLHLJ,1,Masculino,0,0,0,4,1,0,Fiber optic,...,1,0,0,0,Mensual,Yes,Cheque electr√≥nico,73.90,280.85,9.361667
3,0011-IGKFF,1,Masculino,1,1,0,13,1,0,Fiber optic,...,1,0,1,1,Mensual,Yes,Cheque electr√≥nico,98.00,1237.85,41.261667
4,0013-EXCHZ,1,Femenino,1,1,0,3,1,0,Fiber optic,...,0,1,1,0,Mensual,Yes,Cheque enviado por correo,83.90,267.40,8.913333
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,9987-LUTYD,0,Femenino,0,0,0,13,1,0,DSL,...,0,1,0,0,Anual,No,Cheque enviado por correo,55.15,742.90,24.763333
7263,9992-RRAMN,1,Masculino,0,1,0,22,1,1,Fiber optic,...,0,0,0,1,Mensual,Yes,Cheque electr√≥nico,85.10,1873.70,62.456667
7264,9992-UJOEL,0,Masculino,0,0,0,2,1,0,DSL,...,0,0,0,0,Mensual,Yes,Cheque enviado por correo,50.30,92.75,3.091667
7265,9993-LHIEB,0,Masculino,0,1,1,67,1,0,DSL,...,1,1,0,1,Bienal,No,Cheque enviado por correo,67.85,4627.65,154.255000


In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7043 entries, 0 to 7266
Data columns (total 22 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   id                      7043 non-null   object 
 1   Churn                   7043 non-null   object 
 2   genero                  7043 non-null   object 
 3   mayor_de_60             7043 non-null   int64  
 4   posee_pareja            7043 non-null   object 
 5   posee_dependientes      7043 non-null   object 
 6   tiempo_contrato         7043 non-null   int64  
 7   servicio_telefono       7043 non-null   object 
 8   multiples_lineas        7043 non-null   object 
 9   tipo_internet           7043 non-null   object 
 10  seguridad_online        7043 non-null   object 
 11  backup_online           7043 non-null   object 
 12  proteccion_dispositivo  7043 non-null   object 
 13  soporte_tecnico         7043 non-null   object 
 14  streaming_tv            7043 non-null   objec

##üìä Carga y an√°lisis

1. ANALISIS DECRIPTIVO

Para comenzar, realiza un an√°lisis descriptivo de los datos, calculando m√©tricas como media, mediana, desviaci√≥n est√°ndar y otras medidas que ayuden a comprender mejor la distribuci√≥n y el comportamiento de los clientes. üìå Consejos: üîó Documentaci√≥n de DataFrame.describe()

In [22]:
# An√°lisis descriptivo general (incluye num√©ricas)
df.describe()

Unnamed: 0,mayor_de_60,tiempo_contrato,valor_mensal,total_cobrado,Cuentas_Diarias
count,7043.0,7043.0,7043.0,7032.0,7032.0
mean,0.162147,32.371149,64.761692,2283.300441,76.110015
std,0.368612,24.559481,30.090047,2266.771362,75.559045
min,0.0,0.0,18.25,18.8,0.626667
25%,0.0,9.0,35.5,401.45,13.381667
50%,0.0,29.0,70.35,1397.475,46.5825
75%,0.0,55.0,89.85,3794.7375,126.49125
max,1.0,72.0,118.75,8684.8,289.493333


2. Distribuci√≥n de evasi√≥n (Churn)

En este paso, el objetivo es comprender c√≥mo est√° distribuida la variable "churn" (evasi√≥n) entre los clientes. Utiliza gr√°ficos para visualizar la proporci√≥n de clientes que permanecieron y los que se dieron de baja.

3. Recuento de evasi√≥n por variables categoricas

Ahora, exploraremos c√≥mo se distribuye la evasi√≥n seg√∫n variables categ√≥ricas, como g√©nero, tipo de contrato, m√©todo de pago, entre otras. Este an√°lisis puede revelar patrones interesantes, por ejemplo, si los clientes de ciertos perfiles tienen una mayor tendencia a cancelar el servicio, lo que ayudar√° a orientar acciones estrat√©gicas.

### Conteo de evasi√≥n por variables numericas

En este paso, explora c√≥mo las variables num√©ricas, como "total gastado" o "tiempo de contrato", se distribuyen entre los clientes que cancelaron (evasi√≥n) y los que no cancelaron. Este an√°lisis ayuda a entender si ciertos valores num√©ricos est√°n m√°s asociados con la evasi√≥n, proporcionando insights sobre los factores que influyen en el comportamiento de los clientes.

##üìÑInforme final