<a href="https://colab.research.google.com/github/veterydaisy/TelecomX_LATAM_daisy/blob/main/TelecomX_LATAM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Telecom X - Análisis de Evasión de Clientes**

<div align="justify">Has sido contratado como asistente de análisis de datos en Telecom X y formarás parte del proyecto "Churn de Clientes". La empresa enfrenta una alta tasa de cancelaciones y necesita comprender los factores que llevan a la pérdida de clientes.

Tu desafío será recopilar, procesar y analizar los datos, utilizando Python y sus principales bibliotecas para extraer información valiosa. A partir de tu análisis, el equipo de Data Science podrá avanzar en modelos predictivos y desarrollar estrategias para reducir la evasión.</div>

#📌 Extracción

In [1]:
#usamos requests porque lo estamos extrayendo directamente de una API

import requests
import pandas as pd
url = ('https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/refs/heads/main/TelecomX_Data.json')
response = requests.get(url)
data = response.json()

df  = pd.DataFrame(data)
print(df.head())

   customerID Churn                                           customer  \
0  0002-ORFBO    No  {'gender': 'Female', 'SeniorCitizen': 0, 'Part...   
1  0003-MKNFE    No  {'gender': 'Male', 'SeniorCitizen': 0, 'Partne...   
2  0004-TLHLJ   Yes  {'gender': 'Male', 'SeniorCitizen': 0, 'Partne...   
3  0011-IGKFF   Yes  {'gender': 'Male', 'SeniorCitizen': 1, 'Partne...   
4  0013-EXCHZ   Yes  {'gender': 'Female', 'SeniorCitizen': 1, 'Part...   

                                             phone  \
0   {'PhoneService': 'Yes', 'MultipleLines': 'No'}   
1  {'PhoneService': 'Yes', 'MultipleLines': 'Yes'}   
2   {'PhoneService': 'Yes', 'MultipleLines': 'No'}   
3   {'PhoneService': 'Yes', 'MultipleLines': 'No'}   
4   {'PhoneService': 'Yes', 'MultipleLines': 'No'}   

                                            internet  \
0  {'InternetService': 'DSL', 'OnlineSecurity': '...   
1  {'InternetService': 'DSL', 'OnlineSecurity': '...   
2  {'InternetService': 'Fiber optic', 'OnlineSecu...   
3  {'I

##**Conociendo el conjunto de datos**

###**Explorar las columnas del dataset y verificar sus tipos de datos.**

In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   object
 1   Churn       7267 non-null   object
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(6)
memory usage: 340.8+ KB


###**Consultar el diccionario para comprender mejor el significado de las variables.**

**Diccionario de datos**

- `customerID`: número de identificación único de cada cliente
- `Churn`: si el cliente dejó o no la empresa
- `gender`: género (masculino y femenino)
- `SeniorCitizen`: información sobre si un cliente tiene o no una edad igual o mayor a 65 años
- `Partner`: si el cliente tiene o no una pareja
- `Dependents`: si el cliente tiene o no dependientes
- `tenure`: meses de contrato del cliente
- `PhoneService`: suscripción al servicio telefónico
- `MultipleLines`: suscripción a más de una línea telefónica
- `InternetService`: suscripción a un proveedor de internet
- `OnlineSecurity`: suscripción adicional de seguridad en línea
- `OnlineBackup`: suscripción adicional de respaldo en línea
- `DeviceProtection`: suscripción adicional de protección del dispositivo
- `TechSupport`: suscripción adicional de soporte técnico, menor tiempo de espera
- `StreamingTV`: suscripción de televisión por cable
- `StreamingMovies`: suscripción de streaming de películas
- `Contract`: tipo de contrato
- `PaperlessBilling`: si el cliente prefiere recibir la factura en línea
- `PaymentMethod`: forma de pago
- `Charges.Monthly`: total de todos los servicios del cliente por mes
- `Charges.Total`: total gastado por el cliente

###**Identificar las columnas más relevantes para el análisis de evasión.**

#🔧 Transformación

**Acciones más comunes**

+ Duplicados
+ Valores Vacíos
+ Valores nulos
+ Tipos de datos
+ Valores atípicos
+ Consistencia y validez de datos categóricos
+ Normalización de textos

In [3]:
df_normalizado = pd.json_normalize(data)
df_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   customerID                 7267 non-null   object 
 1   Churn                      7267 non-null   object 
 2   customer.gender            7267 non-null   object 
 3   customer.SeniorCitizen     7267 non-null   int64  
 4   customer.Partner           7267 non-null   object 
 5   customer.Dependents        7267 non-null   object 
 6   customer.tenure            7267 non-null   int64  
 7   phone.PhoneService         7267 non-null   object 
 8   phone.MultipleLines        7267 non-null   object 
 9   internet.InternetService   7267 non-null   object 
 10  internet.OnlineSecurity    7267 non-null   object 
 11  internet.OnlineBackup      7267 non-null   object 
 12  internet.DeviceProtection  7267 non-null   object 
 13  internet.TechSupport       7267 non-null   objec

In [4]:
df_normalizado.head(50)

Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4
5,0013-MHZWF,No,Female,0,No,Yes,9,Yes,No,DSL,...,No,No,Yes,Yes,Yes,Month-to-month,Yes,Credit card (automatic),69.4,571.45
6,0013-SMEOE,No,Female,1,Yes,No,71,Yes,No,Fiber optic,...,Yes,Yes,Yes,Yes,Yes,Two year,Yes,Bank transfer (automatic),109.7,7904.25
7,0014-BMAQU,No,Male,0,Yes,No,63,Yes,Yes,Fiber optic,...,No,No,Yes,No,No,Two year,Yes,Credit card (automatic),84.65,5377.8
8,0015-UOCOJ,No,Female,1,No,No,7,Yes,No,DSL,...,No,No,No,No,No,Month-to-month,Yes,Electronic check,48.2,340.35
9,0016-QLJIS,No,Female,0,Yes,Yes,65,Yes,Yes,DSL,...,Yes,Yes,Yes,Yes,Yes,Two year,Yes,Mailed check,90.45,5957.9


In [5]:
#verifique si hay valores únicos en cada columna
for col in df_normalizado.columns:
  print(f"valores únicos en la columna'{col}': {df_normalizado[col].nunique()}")
  if df_normalizado[col].nunique() < 50: #imprima los valores solamente si no hay muchos
    print(df_normalizado[col].unique())
    print('-' * 50) #linea divisoria para mejorar visualización

valores únicos en la columna'customerID': 7267
valores únicos en la columna'Churn': 3
['No' 'Yes' '']
--------------------------------------------------
valores únicos en la columna'customer.gender': 2
['Female' 'Male']
--------------------------------------------------
valores únicos en la columna'customer.SeniorCitizen': 2
[0 1]
--------------------------------------------------
valores únicos en la columna'customer.Partner': 2
['Yes' 'No']
--------------------------------------------------
valores únicos en la columna'customer.Dependents': 2
['Yes' 'No']
--------------------------------------------------
valores únicos en la columna'customer.tenure': 73
valores únicos en la columna'phone.PhoneService': 2
['Yes' 'No']
--------------------------------------------------
valores únicos en la columna'phone.MultipleLines': 3
['No' 'Yes' 'No phone service']
--------------------------------------------------
valores únicos en la columna'internet.InternetService': 3
['DSL' 'Fiber optic' 'No'

In [6]:
# Verificando si hay duplicados
duplicados = df_normalizado.duplicated().sum()
print(f"Número de duplicados: {duplicados}")

#verificamos si hay valores Nulos
#es .values para que nos entregue un numero y no nos entregue un objeto
valores_nulos = df_normalizado.isnull().values.sum()
print(f"\nValores nuos por comlumna: ")
print(valores_nulos[valores_nulos > 0])

Número de duplicados: 0

Valores nuos por comlumna: 
[]


In [7]:
#verificando valores vacios o en blanco
valores_en_blanco_o_vacio = df_normalizado.apply(lambda x: x.astype(str).str.strip() == '').sum()
print("\nValores en blanco o vecíos por columna:")
print(valores_en_blanco_o_vacio[valores_en_blanco_o_vacio > 0])


Valores en blanco o vecíos por columna:
Churn                    224
account.Charges.Total     11
dtype: int64


In [8]:
df_normalizado.apply(lambda x: x.astype(str).str.strip() == '').sum()

Unnamed: 0,0
customerID,0
Churn,224
customer.gender,0
customer.SeniorCitizen,0
customer.Partner,0
customer.Dependents,0
customer.tenure,0
phone.PhoneService,0
phone.MultipleLines,0
internet.InternetService,0


In [9]:
#cambiando la columna account.Charges.Total  a Float
df_normalizado['account.Charges.Total'] = pd.to_numeric(df_normalizado['account.Charges.Total'], errors='coerce')
print(df_normalizado['account.Charges.Total'].dtype)

float64


In [10]:
#eliminamos las columnas vacias de Churn ya que no es un dato que perjudique  el resultado final
df_normalizado = df_normalizado[df_normalizado['Churn'].str.strip() != '']
print('Número de filas desppués de eliminar las vacias en "Churn":',len(df_normalizado))

Número de filas desppués de eliminar las vacias en "Churn": 7043


In [11]:
#Vacios o en blanco
df_normalizado.apply(lambda x: x.astype(str).str.strip() == '').sum()

Unnamed: 0,0
customerID,0
Churn,0
customer.gender,0
customer.SeniorCitizen,0
customer.Partner,0
customer.Dependents,0
customer.tenure,0
phone.PhoneService,0
phone.MultipleLines,0
internet.InternetService,0


In [12]:
df_normalizado.describe()

Unnamed: 0,customer.SeniorCitizen,customer.tenure,account.Charges.Monthly,account.Charges.Total
count,7043.0,7043.0,7043.0,7032.0
mean,0.162147,32.371149,64.761692,2283.300441
std,0.368612,24.559481,30.090047,2266.771362
min,0.0,0.0,18.25,18.8
25%,0.0,9.0,35.5,401.45
50%,0.0,29.0,70.35,1397.475
75%,0.0,55.0,89.85,3794.7375
max,1.0,72.0,118.75,8684.8


In [13]:
#Creando la columna cuentas diarias
df_normalizado['Cuentas_Diarias'] = df_normalizado['account.Charges.Monthly'] / 30
print(df_normalizado[['account.Charges.Monthly','Cuentas_Diarias']])

      account.Charges.Monthly  Cuentas_Diarias
0                       65.60         2.186667
1                       59.90         1.996667
2                       73.90         2.463333
3                       98.00         3.266667
4                       83.90         2.796667
...                       ...              ...
7262                    55.15         1.838333
7263                    85.10         2.836667
7264                    50.30         1.676667
7265                    67.85         2.261667
7266                    59.00         1.966667

[7043 rows x 2 columns]


In [14]:
#eliminando los dos NaN del final
df_normalizado = df_normalizado.drop('Cuentas_Diarias', errors='ignore')

In [15]:
df_normalizado

Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total,Cuentas_Diarias
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,No,Yes,Yes,No,One year,Yes,Mailed check,65.60,593.30,2.186667
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,Yes,Month-to-month,No,Mailed check,59.90,542.40,1.996667
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.90,280.85,2.463333
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.00,1237.85,3.266667
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.90,267.40,2.796667
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,9987-LUTYD,No,Female,0,No,No,13,Yes,No,DSL,...,No,Yes,No,No,One year,No,Mailed check,55.15,742.90,1.838333
7263,9992-RRAMN,Yes,Male,0,Yes,No,22,Yes,Yes,Fiber optic,...,No,No,No,Yes,Month-to-month,Yes,Electronic check,85.10,1873.70,2.836667
7264,9992-UJOEL,No,Male,0,No,No,2,Yes,No,DSL,...,No,No,No,No,Month-to-month,Yes,Mailed check,50.30,92.75,1.676667
7265,9993-LHIEB,No,Male,0,Yes,Yes,67,Yes,No,DSL,...,Yes,Yes,No,Yes,Two year,No,Mailed check,67.85,4627.65,2.261667


In [16]:
# Renombrar las columnas
nuevos_nombres = {'customerID': 'ClienteID','Churn': 'Evadio','customer.gender': 'Genero', 'customer.SeniorCitizen': 'Adulto mayor', 'customer.Partner':'Tiene Pareja', 'customer.Dependents':'Tiene dependientes',
                  'customer.tenure':'Meses de contrato', 'phone.PhoneService':'Servicio telefonico', 'phone.MultipleLines':'Multilineas', 'internet.InternetService':'Servicio Internet',
                  'internet.OnlineSecurity':'Seguridad en linea', 'internet.OnlineBackup':'Respaldo en linea', 'internet.DeviceProtection':'Proteccion de dispositivos',
                  'internet.TechSupport':'Soporte tecnico', 'internet.StreamingTV':'Television por streaming','internet.StreamingMovies':'Suscripcion peliculas','account.Contract':'Tipo de Contrato',
                  'account.PaperlessBilling':'Factura online', 'account.PaymentMethod':'Metodo de pago', 'account.Charges.Monthly':'Total del mes',
                  'account.Charges.Total':'Total cliente'}
df_normalizado = df_normalizado.rename(columns=nuevos_nombres)

# Imprimir el DataFrame con los nuevos nombres de las columnas
df_normalizado.columns


Index(['ClienteID', 'Evadio', 'Genero', 'Adulto mayor', 'Tiene Pareja',
       'Tiene dependientes', 'Meses de contrato', 'Servicio telefonico',
       'Multilineas', 'Servicio Internet', 'Seguridad en linea',
       'Respaldo en linea', 'Proteccion de dispositivos', 'Soporte tecnico',
       'Television por streaming', 'Suscripcion peliculas', 'Tipo de Contrato',
       'Factura online', 'Metodo de pago', 'Total del mes', 'Total cliente',
       'Cuentas_Diarias'],
      dtype='object')

In [17]:
df_normalizado.shape

(7043, 22)

In [18]:
#columnas en minusculas
df_normalizado.columns = df_normalizado.columns.str.lower()
df_normalizado.columns

Index(['clienteid', 'evadio', 'genero', 'adulto mayor', 'tiene pareja',
       'tiene dependientes', 'meses de contrato', 'servicio telefonico',
       'multilineas', 'servicio internet', 'seguridad en linea',
       'respaldo en linea', 'proteccion de dispositivos', 'soporte tecnico',
       'television por streaming', 'suscripcion peliculas', 'tipo de contrato',
       'factura online', 'metodo de pago', 'total del mes', 'total cliente',
       'cuentas_diarias'],
      dtype='object')

In [19]:
#traduciendo al español la columna genero (gender)
# Reemplazar los valores
df_normalizado['genero'] = df_normalizado['genero'].replace({'Male': 'Hombre', 'Female': 'Mujer'})

# Imprimir el DataFrame para verificar
print(df_normalizado['genero'].unique())

['Mujer' 'Hombre']


In [20]:
#traduciendo al español las celdas de la columna evadio (churn)
df_normalizado['evadio'] = df_normalizado['evadio'].replace({'Yes': 'Si'})
#traducendo las celdas de la columna tiene pareja
df_normalizado['tiene pareja'] = df_normalizado['tiene pareja'].replace({'Yes': 'Si'})
#traduciendo las celdas de la columna tiene dependientes
df_normalizado['tiene dependientes'] = df_normalizado['tiene dependientes'].replace({'Yes': 'Si'})
#traduciendo las celdas de la columna servicio telefonico
df_normalizado['servicio telefonico'] = df_normalizado['servicio telefonico'].replace({'Yes': 'Si'})
#traduciendo las celdas de la columna multilineas
df_normalizado['multilineas'] = df_normalizado['multilineas'].replace({'Yes': 'Si','No phone service':'Sin servicio telefonico'})
#traduciendo las celdas de la columna servicio internet
df_normalizado['servicio internet'] = df_normalizado['servicio internet'].replace({'Fiber optic': 'Fibra optica'})
#traduciendo las celdas de la columna seguridad en linea
df_normalizado['seguridad en linea'] = df_normalizado['seguridad en linea'].replace({'Yes': 'Si','No internet service':'Sin servicio de internet'})
#traduciendo las celdas de la columna respaldo en linea
df_normalizado['respaldo en linea'] = df_normalizado['respaldo en linea'].replace({'Yes': 'Si','No internet service':'Sin servicio de internet'})
#traduciendo las celdas de la columna proteccion de dispositivo
df_normalizado['proteccion de dispositivos'] = df_normalizado['proteccion de dispositivos'].replace({'Yes': 'Si','No internet service':'Sin servicio de internet'})
#traduciendo las celdas de la columna soporte tecnico
df_normalizado['soporte tecnico'] = df_normalizado['soporte tecnico'].replace({'Yes': 'Si','No internet service':'Sin servicio de internet'})
#traduciendo las celdas de la columna television por Streaming
df_normalizado['television por streaming'] = df_normalizado['television por streaming'].replace({'Yes': 'Si','No internet service':'Sin servicio de internet'})
#traduciendo las celdas de la columna suscripcion de peliculas
df_normalizado['suscripcion peliculas'] = df_normalizado['suscripcion peliculas'].replace({'Yes': 'Si','No internet service':'Sin servicio de internet'})
#traduciendo las celdas de la columna tipo de contrato
df_normalizado['tipo de contrato'] = df_normalizado['tipo de contrato'].replace({'Month-to-month': 'Mensual','One year': 'Anual','Two year': 'Dos años'})
#traduciendo la sceldas de la columna factura online
df_normalizado['factura online'] = df_normalizado['factura online'].replace({'Yes': 'Si'})
#traduciendo las celdas de la columna metodo  de pago
df_normalizado['metodo de pago'] = df_normalizado['metodo de pago'].replace({'Electronic check': 'Cheque electronico','Mailed check': 'Cheque por correo','Bank transfer (automatic)': 'Transferencia bancaria (automatico)','Credit card (automatic)': 'Tarjeta de credito (automatico)'})

In [21]:
#receteando en index
df_normalizado.reset_index(inplace=True, drop=True)
df_normalizado

Unnamed: 0,clienteid,evadio,genero,adulto mayor,tiene pareja,tiene dependientes,meses de contrato,servicio telefonico,multilineas,servicio internet,...,proteccion de dispositivos,soporte tecnico,television por streaming,suscripcion peliculas,tipo de contrato,factura online,metodo de pago,total del mes,total cliente,cuentas_diarias
0,0002-ORFBO,No,Mujer,0,Si,Si,9,Si,No,DSL,...,No,Si,Si,No,Anual,Si,Cheque por correo,65.60,593.30,2.186667
1,0003-MKNFE,No,Hombre,0,No,No,9,Si,Si,DSL,...,No,No,No,Si,Mensual,No,Cheque por correo,59.90,542.40,1.996667
2,0004-TLHLJ,Si,Hombre,0,No,No,4,Si,No,Fibra optica,...,Si,No,No,No,Mensual,Si,Cheque electronico,73.90,280.85,2.463333
3,0011-IGKFF,Si,Hombre,1,Si,No,13,Si,No,Fibra optica,...,Si,No,Si,Si,Mensual,Si,Cheque electronico,98.00,1237.85,3.266667
4,0013-EXCHZ,Si,Mujer,1,Si,No,3,Si,No,Fibra optica,...,No,Si,Si,No,Mensual,Si,Cheque por correo,83.90,267.40,2.796667
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7038,9987-LUTYD,No,Mujer,0,No,No,13,Si,No,DSL,...,No,Si,No,No,Anual,No,Cheque por correo,55.15,742.90,1.838333
7039,9992-RRAMN,Si,Hombre,0,Si,No,22,Si,Si,Fibra optica,...,No,No,No,Si,Mensual,Si,Cheque electronico,85.10,1873.70,2.836667
7040,9992-UJOEL,No,Hombre,0,No,No,2,Si,No,DSL,...,No,No,No,No,Mensual,Si,Cheque por correo,50.30,92.75,1.676667
7041,9993-LHIEB,No,Hombre,0,Si,Si,67,Si,No,DSL,...,Si,Si,No,Si,Dos años,No,Cheque por correo,67.85,4627.65,2.261667


In [22]:
df_normalizado.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 22 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   clienteid                   7043 non-null   object 
 1   evadio                      7043 non-null   object 
 2   genero                      7043 non-null   object 
 3   adulto mayor                7043 non-null   int64  
 4   tiene pareja                7043 non-null   object 
 5   tiene dependientes          7043 non-null   object 
 6   meses de contrato           7043 non-null   int64  
 7   servicio telefonico         7043 non-null   object 
 8   multilineas                 7043 non-null   object 
 9   servicio internet           7043 non-null   object 
 10  seguridad en linea          7043 non-null   object 
 11  respaldo en linea           7043 non-null   object 
 12  proteccion de dispositivos  7043 non-null   object 
 13  soporte tecnico             7043 

#📊 Carga y análisis

##**Análisis Descriptivo**

In [23]:
df_normalizado.describe()

Unnamed: 0,adulto mayor,meses de contrato,total del mes,total cliente,cuentas_diarias
count,7043.0,7043.0,7043.0,7032.0,7043.0
mean,0.162147,32.371149,64.761692,2283.300441,2.158723
std,0.368612,24.559481,30.090047,2266.771362,1.003002
min,0.0,0.0,18.25,18.8,0.608333
25%,0.0,9.0,35.5,401.45,1.183333
50%,0.0,29.0,70.35,1397.475,2.345
75%,0.0,55.0,89.85,3794.7375,2.995
max,1.0,72.0,118.75,8684.8,3.958333


##**Visualización de datos**

In [24]:
import plotly.express as px

In [25]:
import matplotlib.pyplot as plt

###**Número y porcentaje de clientes que abandonaron la Empresa**

In [26]:
from plotly.subplots import make_subplots
import plotly.graph_objects as go

cantidad_de_evasion = df_normalizado['evadio'].value_counts()
porcentaje_de_evasion = cantidad_de_evasion / len(df_normalizado) * 100

# creando los subplots: 1 celdas, 2 columans
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'bar'}, {'type':'domain'}]],
                    subplot_titles=('Cantidad Clientes Activos v/s Clientes que Abandonaron la Empresa ', 'Porcentaje de Clientes Activos v/s Clientes que Abandonaron la Empresa'))

# Agregando el gráfico de barras con recuentos y etiquetas de texto
fig.add_trace(go.Bar(x=cantidad_de_evasion.index, y=cantidad_de_evasion.values, text=cantidad_de_evasion.values, textposition='auto', marker_color=['#1f77b4', '#ff7f0e']), 1, 1)

# Agregando el gráfico circular con porcentajes
fig.add_trace(go.Pie(values=porcentaje_de_evasion.values, labels=porcentaje_de_evasion.index, hole=0.3), 1, 2)

# actualizando la disposición para una mejor apariencia
fig.update_layout( title={
                         'text': "Comparación de Distribución de Clientes por Estado de Evasión",
                         'x': 0.5,
                         'xanchor': 'center'})


fig.show()

###**Análisis de Evasión por Género:** distribución de evasión entre hombres y mujeres.


In [27]:
from ctypes import alignment
# Calcular cantidad y porcentajes por género y evasión
cantidad_evasion_por_genero = df_normalizado.groupby(['genero', 'evadio']).size().unstack(fill_value=0)
porcentaje_evasion_por_genero = cantidad_evasion_por_genero.apply(lambda x: x / x.sum() * 100, axis=1)

# Crear subplots: 1 filas, 2 columnas
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'bar'}, {'type':'bar'}]],
                    subplot_titles=('Cantidad de Clientes por Género y Estado de Evasión', 'Porcentaje de Clientes por Género y Estado de Evasión'))

# agregar el gráfico de barras con recuentos
for i, evadio_status in enumerate(cantidad_evasion_por_genero.columns):
    fig.add_trace(go.Bar(x=cantidad_evasion_por_genero.index, y=cantidad_evasion_por_genero[evadio_status], name=evadio_status, text=cantidad_evasion_por_genero[evadio_status], textposition='auto'), 1, 1)

# Agregar el gráfico de barras con porcentajes
for i, evadio_status in enumerate(porcentaje_evasion_por_genero.columns):
     fig.add_trace(go.Bar(x=porcentaje_evasion_por_genero.index, y=porcentaje_evasion_por_genero[evadio_status], name=evadio_status, text=porcentaje_evasion_por_genero[evadio_status].round(2), textposition='auto', showlegend=False), 1, 2) # showlegend=False para evitar duplicar la leyenda

# titulo general
fig.update_layout(barmode='group', title_text='Análisis de Evasión por Género: Cantidad y Porcentaje', title_x=0.5)


fig.show()

###**Análisis de Evasión por Edad (Adulto Mayor):** Comparar la tasa de evasión entre adultos mayores y otros clientes.


In [28]:
# Calcular cantidad y porcentaje por adulto mayor y evasión
cantidad_evasion_adulto_mayor = df_normalizado.groupby(['adulto mayor', 'evadio']).size().unstack(fill_value=0)
porcentaje_evasion_adulto_mayor = cantidad_evasion_adulto_mayor.apply(lambda x: x / x.sum() * 100, axis=1)

# Cambiar el nombre del índice para mayor claridad
cantidad_evasion_adulto_mayor.index = cantidad_evasion_adulto_mayor.index.map({0: 'Menor de 65 años', 1: 'Adulto Mayor'})
porcentaje_evasion_adulto_mayor.index = porcentaje_evasion_adulto_mayor.index.map({0: 'Menor de 65 años', 1: 'Adulto Mayor'})


#creacion de  subplots: 1 filas, 2 columnas
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'bar'}, {'type':'bar'}]],
                    subplot_titles=('Cantidad de Clientes por Adulto Mayor y Estado de Evasión', 'Porcentaje de Clientes por Adulto Mayor y Estado de Evasión'))

# Agregando el gráfico de barras con recuentos
for i, evadio_status in enumerate(cantidad_evasion_adulto_mayor.columns):
    fig.add_trace(go.Bar(x=cantidad_evasion_adulto_mayor.index, y=cantidad_evasion_adulto_mayor[evadio_status], name=evadio_status, text=cantidad_evasion_adulto_mayor[evadio_status], textposition='auto'), 1, 1)

# agregando el grafico de barra con porcentajes y cambiando los colores
colors = ['blue', 'red'] # Define color para 'No' y 'Si'
for i, evadio_status in enumerate(porcentaje_evasion_adulto_mayor.columns):
     fig.add_trace(go.Bar(x=porcentaje_evasion_adulto_mayor.index, y=porcentaje_evasion_adulto_mayor[evadio_status], name=evadio_status, text=porcentaje_evasion_adulto_mayor[evadio_status].round(2), textposition='auto', marker_color=colors[i], showlegend=False), 1, 2) # Use index 'i' to select color


# Update layout
fig.update_layout(barmode='group', title_text='Análisis de Evasión en Adultos Mayores de 65 Años: Cantidad y Porcentaje', title_x=0.5)


fig.show()

**NOTA** aca si hay una diferencia considerable , en los adultos mayores de 65 la tasa de evasiom es mas alta en el universo de datos

###**Análisis de Evasión por Relación (Pareja y Dependientes):** si tener pareja o dependientes influye en la evasión.

In [66]:
# Analizar evasión por tener pareja
cantidad_parejas_evasion = df_normalizado.groupby(['tiene pareja', 'evadio']).size().unstack(fill_value=0)
porcentaje_parejas_evasion = cantidad_parejas_evasion.apply(lambda x: x / x.sum() * 100, axis=1)

fig_parejas = make_subplots(rows=1, cols=2, specs=[[{'type':'bar'}, {'type':'bar'}]],
                    subplot_titles=('Cantidad de Clientes por Pareja y Estado de Evasión', 'Porcentaje de Clientes por Pareja y Estado de Evasión'))

for i, evadio_status in enumerate(cantidad_parejas_evasion.columns):
    fig_parejas.add_trace(go.Bar(x=cantidad_parejas_evasion.index, y=cantidad_parejas_evasion[evadio_status], name=evadio_status, text=cantidad_parejas_evasion[evadio_status], textposition='auto'), 1, 1)

for i, evadio_status in enumerate(porcentaje_parejas_evasion.columns):
     fig_parejas.add_trace(go.Bar(x=porcentaje_parejas_evasion.index, y=porcentaje_parejas_evasion[evadio_status], name=evadio_status, text=porcentaje_parejas_evasion[evadio_status].round(2), textposition='auto', showlegend=False), 1, 2)

fig_parejas.update_layout(barmode='group', title_text='Análisis de Evasión por Estado de Pareja: Cantidad y Porcentaje', title_x=0.5)

fig_parejas.show()

# Analizar evasión por tener dependientes
cantidad_dependientes_evasion = df_normalizado.groupby(['tiene dependientes', 'evadio']).size().unstack(fill_value=0)
porcentaje_dependientes_evasion = cantidad_dependientes_evasion.apply(lambda x: x / x.sum() * 100, axis=1)

fig_dependientes = make_subplots(rows=1, cols=2, specs=[[{'type':'bar'}, {'type':'bar'}]],
                    subplot_titles=('Cantidad de Clientes por Dependientes y Estado de Evasion', 'Porcentaje de Clientes por Dependientes y Estado de Evasion'))
colors = ['#009170','#e0b0ff']
for i, evadio_status in enumerate(cantidad_dependientes_evasion.columns):
    fig_dependientes.add_trace(go.Bar(x=cantidad_dependientes_evasion.index, y=cantidad_dependientes_evasion[evadio_status], name=evadio_status, text=cantidad_dependientes_evasion[evadio_status], marker_color=colors[i], textposition='auto'), 1, 1)

colors = ['#a4c9bb', '#e0b0ff']
for i, evadio_status in enumerate(porcentaje_dependientes_evasion.columns):
     fig_dependientes.add_trace(go.Bar(x=porcentaje_dependientes_evasion.index, y=porcentaje_dependientes_evasion[evadio_status], name=evadio_status, text=porcentaje_dependientes_evasion[evadio_status].round(2),  marker_color=colors[i], textposition='auto', showlegend=False), 1, 2)

fig_dependientes.update_layout(barmode='group', title_text='Análisis de Evasión por Dependientes: Cantidad y Porcentaje', title_x=0.5)

fig_dependientes.show()

###**Análisis de Evasión por Antigüedad (Meses de Contrato):** Cómo la duración del contrato se relaciona con la tasa de evasión.


In [30]:
#para ver en que periodo es mayor la tasa de evasión
px.histogram(df_normalizado, x='meses de contrato', text_auto=True, color='evadio', barmode= 'group')

**NOTA**las personas estan evadiendo mas en el primer mes , y va decayendo con el tiempo

In [31]:
#agrupar por meses de contrato y dejo la empresa
df_grouped =df_normalizado.groupby(['meses de contrato','evadio']).size().unstack(fill_value=0)

#calcular el % de 'dejo la empresa' por 'meses de contrato'
df_grouped['tasa_de_evasion'] = (df_grouped.get('Si',0)/df_grouped.sum(axis=1)) * 100

#mostrar el resultado
print(df_grouped[['tasa_de_evasion']])

evadio             tasa_de_evasion
meses de contrato                 
0                         0.000000
1                        61.990212
2                        51.680672
3                        47.000000
4                        47.159091
...                            ...
68                        9.000000
69                        8.421053
70                        9.243697
71                        3.529412
72                        1.657459

[73 rows x 1 columns]


In [32]:
#hacemos el grafico
fig = px.line(df_grouped.reset_index(),
              x='meses de contrato',
              y='tasa_de_evasion',
              markers=True,
              title='Tasa de abandono (%) por Meses de contrato')
fig.update_layout(title_x=0.5)
fig.show()

In [33]:
#vemos si ,meses de contrato por cargos mensuales tiene que ver con el abandono de la empresa
fig = px.scatter(df_normalizado,
           x='meses de contrato',
           y='total del mes',
           color='evadio',
           title='Meses de Contrato v/s cargos mensuales en el abandono de los clientes'
           )
fig.update_layout(title_x=0.5)
fig.show()

el valor de contrato aumento levemente a traves de los meses. se puede observa ruq eapaesar de que con el tiempo va aumentando el valor del servicio , esto no tiene que ver con el abandono de los clientes

###**Análisis de Evasión por Servicios Contratados:** Explorar la tasa de evasión para diferentes servicios (teléfono, internet, seguridad, etc.).

In [58]:
#servicio telefonico
# Calcular cantidad y porcentaje por servicio telefonia y evasión
cantidad_evasion_servicio_telefonia = df_normalizado.groupby(['servicio telefonico', 'evadio']).size().unstack(fill_value=0)
porcentaje_evasion_servicio_telefonia = cantidad_evasion_servicio_telefonia.apply(lambda x: x / x.sum() * 100, axis=1)


#creacion de  subplots: 1 filas, 2 columnas
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'bar'}, {'type':'bar'}]],
                    subplot_titles=('Cantidad de Clientes por servicio telefonico y Estado de Evasión', 'Porcentaje de Clientes por servicio telefonico y Estado de Evasión'))

# Agregando el gráfico de barras con recuentos
colors = ['#48a3a7', '#90EE90'] # Define color para 'No' y 'Si'
for i, evadio_status in enumerate(cantidad_evasion_servicio_telefonia.columns):
    fig.add_trace(go.Bar(x=cantidad_evasion_servicio_telefonia.index, y=cantidad_evasion_servicio_telefonia[evadio_status], name=evadio_status, text=cantidad_evasion_servicio_telefonia[evadio_status], marker_color=colors[i], textposition='auto'), 1, 1)

# agregando el grafico de barra con porcentajes y cambiando los colores
colors = ['#48a3a7', '#90EE90'] # Define color para 'No' y 'Si'
for i, evadio_status in enumerate(porcentaje_evasion_servicio_telefonia.columns):
     fig.add_trace(go.Bar(x=porcentaje_evasion_servicio_telefonia.index, y=porcentaje_evasion_servicio_telefonia[evadio_status], name=evadio_status, text=porcentaje_evasion_servicio_telefonia[evadio_status].round(2), textposition='auto', marker_color=colors[i], showlegend=False), 1, 2) # Use index 'i' to select color


# Update layout
fig.update_layout(barmode='group', title_text='Análisis de Evasión en Clientes v/s Servicio Telefonico: Cantidad y Porcentaje', title_x=0.5)


fig.show()

In [57]:
#multilineas

# Calcular cantidad y porcentaje por servicio multilineas
cantidad_evasion_multilineas = df_normalizado.groupby(['multilineas', 'evadio']).size().unstack(fill_value=0)
porcentaje_evasion_multilineas = cantidad_evasion_multilineas.apply(lambda x: x / x.sum() * 100, axis=1)


#creacion de  subplots: 1 filas, 2 columnas
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'bar'}, {'type':'bar'}]],
                    subplot_titles=('Cantidad de Clientes con Multilineas y Estado de Evasión', 'Porcentaje de Clientes con Multilineas y Estado de Evasión'))

# Agregando el gráfico de barras con recuentos
colors = ['#48a3a7', '#90EE90'] # Define color para 'No' y 'Si'
for i, evadio_status in enumerate(cantidad_evasion_multilineas.columns):
    fig.add_trace(go.Bar(x=cantidad_evasion_multilineas.index, y=cantidad_evasion_multilineas[evadio_status], name=evadio_status, text=cantidad_evasion_multilineas[evadio_status], marker_color=colors[i], textposition='auto'), 1, 1)

# agregando el grafico de barra con porcentajes y cambiando los colores
colors = ['#48a3a7', '#90EE90'] # Define color para 'No' y 'Si'
for i, evadio_status in enumerate(porcentaje_evasion_multilineas.columns):
     fig.add_trace(go.Bar(x=porcentaje_evasion_multilineas.index, y=porcentaje_evasion_multilineas[evadio_status], name=evadio_status, text=porcentaje_evasion_multilineas[evadio_status].round(2), textposition='auto', marker_color=colors[i], showlegend=False), 1, 2) # Use index 'i' to select color


# Update layout
fig.update_layout(barmode='group', title_text='Análisis de Evasión en Clientes v/s Multilineas: Cantidad y Porcentaje', title_x=0.5)


fig.show()

In [56]:
#servicio de internet
# Calcular cantidad y porcentaje por servicio de internet y evasión
cantidad_evasion_servicio_internet = df_normalizado.groupby(['servicio internet', 'evadio']).size().unstack(fill_value=0)
porcentaje_evasion_servicio_internet = cantidad_evasion_servicio_internet.apply(lambda x: x / x.sum() * 100, axis=1)


#creacion de  subplots: 1 filas, 2 columnas
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'bar'}, {'type':'bar'}]],
                    subplot_titles=('Servicio de Internet y Estado de Evasión en Números', 'Servicio de Internet y Estado de Evasión en Porcentaje'))

# Agregando el gráfico de barras con recuentos
colors = ['#48a3a7', '#90EE90'] # Define color para 'No' y 'Si'
for i, evadio_status in enumerate(cantidad_evasion_servicio_internet.columns):
    fig.add_trace(go.Bar(x=cantidad_evasion_servicio_internet.index, y=cantidad_evasion_servicio_internet[evadio_status], name=evadio_status, text=cantidad_evasion_servicio_internet[evadio_status], marker_color=colors[i], textposition='auto'), 1, 1)

# agregando el grafico de barra con porcentajes y cambiando los colores
colors = ['#48a3a7', '#90EE90'] # Define color para 'No' y 'Si'
for i, evadio_status in enumerate(porcentaje_evasion_servicio_internet.columns):
     fig.add_trace(go.Bar(x=porcentaje_evasion_servicio_internet.index, y=porcentaje_evasion_servicio_internet[evadio_status], name=evadio_status, text=porcentaje_evasion_servicio_internet[evadio_status].round(2), textposition='auto', marker_color=colors[i], showlegend=False), 1, 2) # Use index 'i' to select color


# Update layout
fig.update_layout(barmode='group', title_text='Análisis de Evasión en Clientes v/s Servicio de Internet: Cantidad y Porcentaje', title_x=0.5)


fig.show()

**si** bien la fibra es reciente , quizas dsl se mantiena al ser mas estable en algunos lugares. ya que la firba es mas fragil (averiguar esto ) y por tato quiza menos estable, tambine va en los valores al contratar fifra , la regionalidad , etc.
ver si clientes que abandonana fibra sonantiguos o nuevos

In [37]:
#vemos si ,clientes que abandonan fibra son antguos o nuevos
fig = px.histogram(df_normalizado,
                   x='meses de contrato',
                   color='evadio',
                   facet_col='servicio internet',
                   title='Distribución de Meses de Contrato por Servicio de Internet y Abandono',
                   barmode='group')
fig.update_layout(title_x=0.5)
fig.show()

In [55]:
#seguridad en linea

# Calcular cantidad y porcentaje de seguridad en linea y evasión
cantidad_evacion_seguridad_en_linea = df_normalizado.groupby(['seguridad en linea', 'evadio']).size().unstack(fill_value=0)
porcentaje_evasion_seguridad_en_linea = cantidad_evacion_seguridad_en_linea.apply(lambda x: x / x.sum() * 100, axis=1)


#creacion de  subplots: 1 filas, 2 columnas
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'bar'}, {'type':'bar'}]],
                    subplot_titles=('Seguridad en Linea y Estado de Evasión en Números', 'Seguridad en Linea y Estado de Evasión en Porcentaje'))

# Agregando el gráfico de barras con recuentos
colors = ['#48a3a7', '#90EE90'] # Define color para 'No' y 'Si'
for i, evadio_status in enumerate(cantidad_evacion_seguridad_en_linea.columns):
    fig.add_trace(go.Bar(x=cantidad_evacion_seguridad_en_linea.index, y=cantidad_evacion_seguridad_en_linea[evadio_status], name=evadio_status, text=cantidad_evacion_seguridad_en_linea[evadio_status], marker_color=colors[i], textposition='auto'), 1, 1)

# agregando el grafico de barra con porcentajes y cambiando los colores
colors = ['#48a3a7', '#90EE90'] # Define color para 'No' y 'Si'
for i, evadio_status in enumerate(porcentaje_evasion_seguridad_en_linea.columns):
     fig.add_trace(go.Bar(x=porcentaje_evasion_seguridad_en_linea.index, y=porcentaje_evasion_seguridad_en_linea[evadio_status], name=evadio_status, text=porcentaje_evasion_seguridad_en_linea[evadio_status].round(2), textposition='auto', marker_color=colors[i], showlegend=False), 1, 2) # Use index 'i' to select color


# Update layout
fig.update_layout(barmode='group', title_text='Análisis de Evasión en Clientes v/s Seguridad en Linea: Cantidad y Porcentaje', title_x=0.5)


fig.show()

In [54]:
#respaldo en linea

# Calcular cantidad y porcentaje por respaldo en linea
cantidad_evasion_respaldo_en_linea = df_normalizado.groupby(['respaldo en linea', 'evadio']).size().unstack(fill_value=0)
porcentaje_evasion_respaldo_en_linea = cantidad_evasion_respaldo_en_linea.apply(lambda x: x / x.sum() * 100, axis=1)


#creacion de  subplots: 1 filas, 2 columnas
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'bar'}, {'type':'bar'}]],
                    subplot_titles=('Respaldo en Linea y Estado de Evasión en Números', 'Respaldo en Linea y Estado de Evasión en Porcentaje'))

# Agregando el gráfico de barras con recuentos
colors = ['#48a3a7', '#90EE90'] # Define color para 'No' y 'Si'
for i, evadio_status in enumerate(cantidad_evasion_respaldo_en_linea.columns):
    fig.add_trace(go.Bar(x=cantidad_evasion_respaldo_en_linea.index, y=cantidad_evasion_respaldo_en_linea[evadio_status], name=evadio_status, text=cantidad_evasion_respaldo_en_linea[evadio_status], marker_color=colors[i], textposition='auto'), 1, 1)

# agregando el grafico de barra con porcentajes y cambiando los colores
colors = ['#48a3a7', '#90EE90'] # Define color para 'No' y 'Si'
for i, evadio_status in enumerate(porcentaje_evasion_respaldo_en_linea.columns):
     fig.add_trace(go.Bar(x=porcentaje_evasion_respaldo_en_linea.index, y=porcentaje_evasion_respaldo_en_linea[evadio_status], name=evadio_status, text=porcentaje_evasion_respaldo_en_linea[evadio_status].round(2), textposition='auto', marker_color=colors[i], showlegend=False), 1, 2) # Use index 'i' to select color


# Update layout
fig.update_layout(barmode='group', title_text='Análisis de Evasión en Clientes v/s Respaldo en Linea: Cantidad y Porcentaje', title_x=0.5)


fig.show()

In [52]:
#proteccion de dispositivos

# Calcular cantidad y porcentaje por proteccion de dispositivos
cantidad_evasion_respaldo_dispositivos = df_normalizado.groupby(['proteccion de dispositivos', 'evadio']).size().unstack(fill_value=0)
porcentaje_evasion_respaldo_dispositivos = cantidad_evasion_respaldo_dispositivos.apply(lambda x: x / x.sum() * 100, axis=1)


#creacion de  subplots: 1 filas, 2 columnas
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'bar'}, {'type':'bar'}]],
                    subplot_titles=('Respaldo Dispositivos y Estado de Evasión en Números', 'Respaldo Dispositivos y Estado de Evasión en Porcentaje'))

# Agregando el gráfico de barras con recuentos
colors = ['orange', 'purple'] # Define color para 'No' y 'Si'
for i, evadio_status in enumerate(cantidad_evasion_respaldo_dispositivos.columns):
    fig.add_trace(go.Bar(x=cantidad_evasion_respaldo_dispositivos.index, y=cantidad_evasion_respaldo_dispositivos[evadio_status], name=evadio_status, text=cantidad_evasion_respaldo_dispositivos[evadio_status], marker_color=colors[i], textposition='auto'), 1, 1)

# agregando el grafico de barra con porcentajes y cambiando los colores
colors = ['orange', 'purple'] # Define color para 'No' y 'Si'
for i, evadio_status in enumerate(porcentaje_evasion_respaldo_dispositivos.columns):
     fig.add_trace(go.Bar(x=porcentaje_evasion_respaldo_dispositivos.index, y=porcentaje_evasion_respaldo_dispositivos[evadio_status], name=evadio_status, text=porcentaje_evasion_respaldo_dispositivos[evadio_status].round(2), textposition='auto', marker_color=colors[i], showlegend=False), 1, 2) # Use index 'i' to select color


# Update layout
fig.update_layout(barmode='group', title_text='Análisis de Evasión en Clientes v/s Respaldo Dispositivos: Cantidad y Porcentaje', title_x=0.5)


fig.show()

In [51]:
#soporte tecnico

# Calcular cantidad y porcentaje por soporte tecnico
cantidad_evasion_soporte_tecnico = df_normalizado.groupby(['soporte tecnico', 'evadio']).size().unstack(fill_value=0)
porcentaje_evasion_soporte_tecnico = cantidad_evasion_soporte_tecnico.apply(lambda x: x / x.sum() * 100, axis=1)


#creacion de  subplots: 1 filas, 2 columnas
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'bar'}, {'type':'bar'}]],
                    subplot_titles=('Soporte Técnico y Estado de Evasión en Números', 'Soporte Técnico y Estado de Evasión en Porcentaje'))

# Agregando el gráfico de barras con recuentos
colors = ['blue', 'grey'] # Define color para 'No' y 'Si'
for i, evadio_status in enumerate(cantidad_evasion_soporte_tecnico.columns):
    fig.add_trace(go.Bar(x=cantidad_evasion_soporte_tecnico.index, y=cantidad_evasion_soporte_tecnico[evadio_status], name=evadio_status, text=cantidad_evasion_soporte_tecnico[evadio_status], marker_color=colors[i], textposition='auto'), 1, 1)

# agregando el grafico de barra con porcentajes y cambiando los colores
colors = ['blue', 'grey'] # Define color para 'No' y 'Si'
for i, evadio_status in enumerate(porcentaje_evasion_soporte_tecnico.columns):
     fig.add_trace(go.Bar(x=porcentaje_evasion_soporte_tecnico.index, y=porcentaje_evasion_soporte_tecnico[evadio_status], name=evadio_status, text=porcentaje_evasion_soporte_tecnico[evadio_status].round(2), textposition='auto', marker_color=colors[i], showlegend=False), 1, 2) # Use index 'i' to select color


# Update layout
fig.update_layout(barmode='group', title_text='Análisis de Evasión en Clientes v/s Soporte Técnico: Cantidad y Porcentaje', title_x=0.5)


fig.show()

In [42]:
#tv streaming
px.histogram(df_normalizado, x='television por streaming', text_auto=True, color='evadio', barmode='group')

In [43]:
#'suscripcion peliculas
px.histogram(df_normalizado, x='suscripcion peliculas', text_auto=True, color='evadio', barmode='group')

###**Análisis de evasión por tipo de contrato:** La tasa de evasión entre los diferentes tipos de contrato.


In [44]:
#tipo de contrato
px.histogram(df_normalizado, x='tipo de contrato', text_auto=True, color='evadio',barmode='group')

en el contrato mes a mes las personas tienen menos compromiso , menos fidelizacion y esto hace que tengan un menor compromiso con la empresa

###**Análisis de evasión por cargos:** Visualizar la relación entre los cargos mensuales y totales y la evasión.


In [45]:
#total del mes
px.box(df_normalizado, x='evadio', y='total del mes', color='evadio')

esta influyendo que las personas que estan pagando mas estan teniendo mas evacion.
habria que ver que tipo de contrato o servivio es el que esta haciendo que pagien mas y se vayan de la empresa
un aidea e sla dferencia entr etelefonia e internet, que els ervicio puede qu ese amas caro y notan bueno en el caso del internet
tambien se podria ver si las personas que contratan qcuanto dura el tipo de contrato

In [46]:
#gastos diarios
px.box(df_normalizado, x='evadio', y='cuentas_diarias', color='evadio')

In [47]:
#total cliente
px.box(df_normalizado, x='evadio', y='total cliente', color='evadio')

In [48]:
#factura online
px.histogram(df_normalizado, x='factura online', text_auto=True, color='evadio',barmode='group')

###**Análisis de evasión por método de pago:** Si el método de pago está relacionado con la evasión.


In [49]:
#metodo de pago
px.histogram(df_normalizado, x='metodo de pago', text_auto=True, color='evadio',barmode='group')

chaque electronico y el otro es cheque normal , no por correo . quizas cheque electronico tiene mayor detractores porque quizas dejan de ser clinetes si no tiene fondos. puede ser error de comunicacion cn los pagos , los que son automaticos tiene menos detractores

ver tambirn el caso de parejas y no parejas mes a mes
revisar el servicio telefonico
la fibra

varables que influyen en el video , cheque electronico , fibra optica ,servicio telefonico, contrato me spor mes
ver como usar corr()
colocar valores en % para tener un amejor vista uno al lado del otro numerico y porcentaje en los graficos de barra


#📄Informe final

In [50]:
fig = px.scatter(df_normalizado,
                 x='meses de contrato',
                 y='servicio internet',
                 color='evadio',
                 title='Relación entre Meses de Contrato, Servicio de Internet y Abandono de Clientes')
fig.update_layout(title_x=0.5)
fig.show()

## Resumen de Hallazgos Clave

Basado en el análisis exploratorio y las visualizaciones realizadas, se destacan los siguientes puntos clave relacionados con la evasión de clientes:

*   **Tasa General de Evasión:** Aproximadamente el 26.5% de los clientes en el conjunto de datos han evadido la empresa.
*   **Evasión por Género:** No se observa una diferencia significativa en la tasa de evasión entre hombres y mujeres.
*   **Evasión en Adultos Mayores:** Los adultos mayores de 65 años presentan una tasa de evasión notablemente más alta (aproximadamente 41.7%) en comparación con los clientes más jóvenes (aproximadamente 23.6%).
*   **Evasión por Relación (Pareja y Dependientes):** Los clientes sin pareja y sin dependientes tienden a tener una tasa de evasión más alta que aquellos que sí los tienen.
*   **Evasión por Antigüedad (Meses de Contrato):** La tasa de evasión es significativamente más alta en los primeros meses de contrato, disminuyendo drásticamente a medida que aumenta la antigüedad del cliente. Esto sugiere que los clientes nuevos son más propensos a abandonar.
*   **Evasión por Servicios Contratados:**
    *   El **servicio de internet** parece ser un factor influyente. Los clientes con servicio de **Fibra Óptica** tienen una tasa de evasión considerablemente mayor (aproximadamente 41.9%) en comparación con los clientes con servicio DSL (aproximadamente 19%) o sin servicio de internet (aproximadamente 7.4%).
    *   Otros servicios adicionales como seguridad en línea, respaldo en línea, protección de dispositivos, soporte técnico, televisión por streaming y suscripción a películas también muestran diferencias en la tasa de evasión dependiendo de si el cliente tiene o no el servicio. Los clientes que *no* tienen estos servicios adicionales tienden a evadir más.
*   **Evasión por Tipo de Contrato:** Los clientes con contratos **mes a mes** tienen una tasa de evasión mucho mayor que aquellos con contratos de uno o dos años. Esto refuerza la idea de que un menor compromiso a largo plazo se asocia con una mayor probabilidad de evasión.
*   **Evasión por Cargos Mensuales y Totales:** Los clientes con **cargos mensuales y totales más altos** tienden a tener una tasa de evasión mayor. Esto, combinado con el análisis del servicio de internet, sugiere que el costo de la Fibra Óptica podría estar relacionado con una mayor evasión, especialmente entre los clientes nuevos.
*   **Evasión por Factura Online:** Los clientes que reciben factura online tienen una tasa de evasión ligeramente mayor.
*   **Evasión por Método de Pago:** El **Cheque Electrónico** presenta la tasa de evasión más alta en comparación con otros métodos de pago.

Estos hallazgos iniciales proporcionan una base sólida para comprender los factores que contribuyen a la evasión de clientes en Telecom X.