<a href="https://colab.research.google.com/github/Senekales/desafio_telecom/blob/main/Desafio_Telecom.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#INTRUDUCCIÓN

##Contexto del desafio

Objetivo del desafio:

La empresa enfrenta una alta tasa de cancelaciones y necesita comprender los factores que llevan a la pérdida de clientes.

Tu desafío será recopilar, procesar y analizar los datos, utilizando Python y sus principales bibliotecas para extraer información valiosa. A partir de tu análisis, el equipo de Data Science podrá avanzar en modelos predictivos y desarrollar estrategias para reducir la evasión.

El objetivo es: **RETENER CLIENTES**

Para iniciar:

Revisamos la url que contiene el JSON en jsoncrack.com/editor para conocer la estructura que tiene el archivo JSON

De la revisión nos damos cuenta que contiene información anidada en 6 nodos.




#EXTRACCIÓN (E)

##Importamos bibliotecas que usaremos

In [2]:
# importamos bibliotecas
import pandas as pd
import requests
import json

##Importando datos

In [3]:
datos_url = requests.get('https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/main/TelecomX_Data.json')
datos_url.raise_for_status() # antes de procesar los datos, validamos que nuestra solicitud obtuvo una respuesta satisfactoria del servidor

resultado = datos_url.json()

resultado

[{'customerID': '0002-ORFBO',
  'Churn': 'No',
  'customer': {'gender': 'Female',
   'SeniorCitizen': 0,
   'Partner': 'Yes',
   'Dependents': 'Yes',
   'tenure': 9},
  'phone': {'PhoneService': 'Yes', 'MultipleLines': 'No'},
  'internet': {'InternetService': 'DSL',
   'OnlineSecurity': 'No',
   'OnlineBackup': 'Yes',
   'DeviceProtection': 'No',
   'TechSupport': 'Yes',
   'StreamingTV': 'Yes',
   'StreamingMovies': 'No'},
  'account': {'Contract': 'One year',
   'PaperlessBilling': 'Yes',
   'PaymentMethod': 'Mailed check',
   'Charges': {'Monthly': 65.6, 'Total': '593.3'}}},
 {'customerID': '0003-MKNFE',
  'Churn': 'No',
  'customer': {'gender': 'Male',
   'SeniorCitizen': 0,
   'Partner': 'No',
   'Dependents': 'No',
   'tenure': 9},
  'phone': {'PhoneService': 'Yes', 'MultipleLines': 'Yes'},
  'internet': {'InternetService': 'DSL',
   'OnlineSecurity': 'No',
   'OnlineBackup': 'No',
   'DeviceProtection': 'No',
   'TechSupport': 'No',
   'StreamingTV': 'No',
   'StreamingMovies': 

#TRANSFORMACIÓN (T)

##Normalización



In [4]:
#normalizamos los datos
datos_normalizados = pd.json_normalize(resultado)
datos_normalizados.head()

Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


##Importamos diccionario

In [5]:
#Importamos el diccionario de datos para comprender lo que contiene el archivo JSON

diccionario_url = 'https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/refs/heads/main/TelecomX_diccionario.md'
response = requests.get(diccionario_url)
response.raise_for_status()

diccionario_contenido = response.text

print(diccionario_contenido)

#### Diccionario de datos

- `customerID`: número de identificación único de cada cliente
- `Churn`: si el cliente dejó o no la empresa
- `gender`: género (masculino y femenino)
- `SeniorCitizen`: información sobre si un cliente tiene o no una edad igual o mayor a 65 años
- `Partner`: si el cliente tiene o no una pareja
- `Dependents`: si el cliente tiene o no dependientes
- `tenure`: meses de contrato del cliente
- `PhoneService`: suscripción al servicio telefónico
- `MultipleLines`: suscripción a más de una línea telefónica
- `InternetService`: suscripción a un proveedor de internet
- `OnlineSecurity`: suscripción adicional de seguridad en línea
- `OnlineBackup`: suscripción adicional de respaldo en línea
- `DeviceProtection`: suscripción adicional de protección del dispositivo
- `TechSupport`: suscripción adicional de soporte técnico, menor tiempo de espera
- `StreamingTV`: suscripción de televisión por cable
- `StreamingMovies`: suscripción de streaming de películas
- `Contract`: t

##Estandarización uno

### Cambiando el nombre de las columnas

In [6]:
#creo una lista con los nombres de las columnas en español, tomando en consideración lo que me indica el
#diccionario de datos.

nombre_columnas = ['id_cliente', 'renuncio','genero','adulto_mayor', 'tiene_pareja','tiene_dependientes','meses_contrato','servicio_telefonico',
                   'multilineas_telefonicas', 'servicio_internet', 'suscripcion_seguridad', 'suscripcion_respaldo','suscripcion_dispositivo',
                   'suscripcion_soporte', 'suscripcion_streamingtv','suscrpcion_streamingmovie','duracion_contrato','factura_digital','forma_pago',
                   'total_gasto_mensual', 'total_gastado']

In [7]:
#cambio los nombres de las columnas por los nombres almacenados en la variable nombre_columnas
datos_normalizados.columns = nombre_columnas


##Conociendo el DataFrame

### .info()

In [8]:

datos_normalizados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   id_cliente                 7267 non-null   object 
 1   renuncio                   7267 non-null   object 
 2   genero                     7267 non-null   object 
 3   adulto_mayor               7267 non-null   int64  
 4   tiene_pareja               7267 non-null   object 
 5   tiene_dependientes         7267 non-null   object 
 6   meses_contrato             7267 non-null   int64  
 7   servicio_telefonico        7267 non-null   object 
 8   multilineas_telefonicas    7267 non-null   object 
 9   servicio_internet          7267 non-null   object 
 10  suscripcion_seguridad      7267 non-null   object 
 11  suscripcion_respaldo       7267 non-null   object 
 12  suscripcion_dispositivo    7267 non-null   object 
 13  suscripcion_soporte        7267 non-null   objec

###.dtypes

In [9]:
datos_normalizados.dtypes

Unnamed: 0,0
id_cliente,object
renuncio,object
genero,object
adulto_mayor,int64
tiene_pareja,object
tiene_dependientes,object
meses_contrato,int64
servicio_telefonico,object
multilineas_telefonicas,object
servicio_internet,object


##Chequeando valores únicos

In [10]:
# Chequeamos los valores unicos por columna.
for col in datos_normalizados.columns:
    print(f"Unique values for column '{col}':")
    print(datos_normalizados[col].unique())
    print("-" * 80)

Unique values for column 'id_cliente':
['0002-ORFBO' '0003-MKNFE' '0004-TLHLJ' ... '9992-UJOEL' '9993-LHIEB'
 '9995-HOTOH']
--------------------------------------------------------------------------------
Unique values for column 'renuncio':
['No' 'Yes' '']
--------------------------------------------------------------------------------
Unique values for column 'genero':
['Female' 'Male']
--------------------------------------------------------------------------------
Unique values for column 'adulto_mayor':
[0 1]
--------------------------------------------------------------------------------
Unique values for column 'tiene_pareja':
['Yes' 'No']
--------------------------------------------------------------------------------
Unique values for column 'tiene_dependientes':
['Yes' 'No']
--------------------------------------------------------------------------------
Unique values for column 'meses_contrato':
[ 9  4 13  3 71 63  7 65 54 72  5 56 34  1 45 50 23 55 26 69 11 37 49 66
 67 20 

##Manejo de inconsistencias

acciones más comunes con datos

*   Duplicados
*   Valores vacíos
*   Valores nulos
*   Tipos de datos
*   Valores atípicos
*   Consistencia y validez de datos categóricos
*   Normalización de textos




###Buscando datos duplicados.





In [11]:
#revisamos si hay valores duplicados

duplicados = datos_normalizados.duplicated().sum()

print(f"número de lineas duplicadas:  {duplicados}")

número de lineas duplicadas:  0


###Buscando valores vacios.

In [12]:
#mediante una fucnión lambda revisamos si hay datos vacios o blancos
datos_normalizados.apply(lambda x: x.astype(str).str.strip() == '').sum()

#print("Valores en blanco o string vacios por columna:")

#print(valores_en_blanco_o_vacio[valores_en_blanco_o_vacio > 0])


Unnamed: 0,0
id_cliente,0
renuncio,224
genero,0
adulto_mayor,0
tiene_pareja,0
tiene_dependientes,0
meses_contrato,0
servicio_telefonico,0
multilineas_telefonicas,0
servicio_internet,0


####Eliminando datos vacios

In [13]:
#Eliminando las filas vacias de la columna 'renuncio'
datos_normalizados = datos_normalizados[datos_normalizados['renuncio'].str.strip() != '']
print('número de filas despúes de eliminar las vacias en la columna "renuncio": ', len(datos_normalizados))

número de filas despúes de eliminar las vacias en la columna "renuncio":  7043


####Estandarización dos

Convertiremos los 'Yes' y 'No' en booleanos 1 y 0

In [14]:
datos_normalizados['renuncio']

Unnamed: 0,renuncio
0,No
1,No
2,Yes
3,Yes
4,Yes
...,...
7262,No
7263,Yes
7264,No
7265,No


#####Convirtiendo columna de texto en binario

In [15]:
#Convirtiendo la columna renuncio, que contiene 'Yes' y 'No' en '1' y '0'
#1 para 'Yes'
#0 para 'No'

datos_normalizados['renuncio'] = datos_normalizados['renuncio'].apply(lambda x: 1 if x == 'Yes' else 0)
datos_normalizados['renuncio']


Unnamed: 0,renuncio
0,0
1,0
2,1
3,1
4,1
...,...
7262,0
7263,1
7264,0
7265,0


###Buscando valores nulos.

In [16]:
#vemos si hay valores nulos

valores_nulos = datos_normalizados.isnull().values.sum()

print("\nValores nulos por columna:")
print(valores_nulos[valores_nulos > 0])



Valores nulos por columna:
[]


###Modificando el tipo de datos

In [17]:
# Antes modifico el set_option para mostrar todas las columnas
pd.set_option('display.max_columns', None)

#saco una muestra de dos filas aleatorias con el metodo sample y ver el contenido de las filas
datos_normalizados.sample(2)

Unnamed: 0,id_cliente,renuncio,genero,adulto_mayor,tiene_pareja,tiene_dependientes,meses_contrato,servicio_telefonico,multilineas_telefonicas,servicio_internet,suscripcion_seguridad,suscripcion_respaldo,suscripcion_dispositivo,suscripcion_soporte,suscripcion_streamingtv,suscrpcion_streamingmovie,duracion_contrato,factura_digital,forma_pago,total_gasto_mensual,total_gastado
6712,9242-TKFSV,0,Male,0,Yes,Yes,72,No,No phone service,DSL,Yes,Yes,Yes,Yes,Yes,Yes,Two year,Yes,Credit card (automatic),65.1,4754.3
6756,9314-IJWSQ,0,Female,0,Yes,Yes,14,Yes,Yes,Fiber optic,No,No,No,No,Yes,No,Month-to-month,Yes,Electronic check,84.8,1203.9


In [18]:
# habia pensado en ajustar todas las columnas a estos tipos, de una vez pero tengo que realizar
# transformaciones previas.
'''
cadena_texto = ['id_cliente']
category = ['renuncio', 'genero','adulto_mayor', 'tiene_pareja', 'tiene_dependientes','servicio_telefonico','multilineas_telefonicas',
            'servicio_internet','suscripcion_seguridad', 'suscripcion_respaldo','suscripcion_dispositivo', 'suscripcion_soporte','suscripcion_streamingtv',
            'suscrpcion_streamingmovie', 'duracion_contrato','factura_digital','forma_pago',]
int8 = ['adulto_mayor', 'meses_contrato']
flotante = ['total_gasto_mensual', 'total_gastado']
'''

"\ncadena_texto = ['id_cliente']\ncategory = ['renuncio', 'genero','adulto_mayor', 'tiene_pareja', 'tiene_dependientes','servicio_telefonico','multilineas_telefonicas',\n            'servicio_internet','suscripcion_seguridad', 'suscripcion_respaldo','suscripcion_dispositivo', 'suscripcion_soporte','suscripcion_streamingtv',\n            'suscrpcion_streamingmovie', 'duracion_contrato','factura_digital','forma_pago',]\nint8 = ['adulto_mayor', 'meses_contrato']\nflotante = ['total_gasto_mensual', 'total_gastado']\n"

In [19]:
#modifico el tipo de datos de la columna 'total_gastado' a float

datos_normalizados['total_gastado'] = pd.to_numeric(datos_normalizados['total_gastado'], errors = 'coerce')
print(datos_normalizados['total_gastado'].dtype)

float64


###Revisando como quedaron los datos

####Validando si quedaron datos vacios o blancos

In [20]:
#validando si nos quedan datos vacios o en blanco

datos_normalizados.apply(lambda x: x.astype(str).str.strip() == '').sum()


Unnamed: 0,0
id_cliente,0
renuncio,0
genero,0
adulto_mayor,0
tiene_pareja,0
tiene_dependientes,0
meses_contrato,0
servicio_telefonico,0
multilineas_telefonicas,0
servicio_internet,0


####Revisando los datos númericos

In [21]:
#veamos con quedaron mis datos númericos

datos_normalizados.describe()

Unnamed: 0,renuncio,adulto_mayor,meses_contrato,total_gasto_mensual,total_gastado
count,7043.0,7043.0,7043.0,7043.0,7032.0
mean,0.26537,0.162147,32.371149,64.761692,2283.300441
std,0.441561,0.368612,24.559481,30.090047,2266.771362
min,0.0,0.0,0.0,18.25,18.8
25%,0.0,0.0,9.0,35.5,401.45
50%,0.0,0.0,29.0,70.35,1397.475
75%,1.0,0.0,55.0,89.85,3794.7375
max,1.0,1.0,72.0,118.75,8684.8


##Creando una nueva columna.

Ahora que los datos están limpios, es momento de crear la columna "Cuentas_Diarias". Utiliza la facturación mensual para calcular el valor diario, proporcionando una visión más detallada del comportamiento de los clientes a lo largo del tiempo.

In [22]:
# se nos solicito crar una nueva columna que contenga los datos diarios y la que la llamemos 'cuentas_diarias', utilizando
#la columna gastos mensual

datos_normalizados['cuentas_diarias'] = datos_normalizados['total_gasto_mensual'] / 30

# Ahora la columna 'cuentas_diarias' existe y podemos imprimirla junto con 'total_gasto_mensual'
print(datos_normalizados[['total_gasto_mensual', 'cuentas_diarias']])

      total_gasto_mensual  cuentas_diarias
0                   65.60         2.186667
1                   59.90         1.996667
2                   73.90         2.463333
3                   98.00         3.266667
4                   83.90         2.796667
...                   ...              ...
7262                55.15         1.838333
7263                85.10         2.836667
7264                50.30         1.676667
7265                67.85         2.261667
7266                59.00         1.966667

[7043 rows x 2 columns]


#Carga y análisis (L) Load & Analysis

##Análisis descriptivo

In [23]:
datos_normalizados.describe()

Unnamed: 0,renuncio,adulto_mayor,meses_contrato,total_gasto_mensual,total_gastado,cuentas_diarias
count,7043.0,7043.0,7043.0,7043.0,7032.0,7043.0
mean,0.26537,0.162147,32.371149,64.761692,2283.300441,2.158723
std,0.441561,0.368612,24.559481,30.090047,2266.771362,1.003002
min,0.0,0.0,0.0,18.25,18.8,0.608333
25%,0.0,0.0,9.0,35.5,401.45,1.183333
50%,0.0,0.0,29.0,70.35,1397.475,2.345
75%,1.0,0.0,55.0,89.85,3794.7375,2.995
max,1.0,1.0,72.0,118.75,8684.8,3.958333


##Importando biblioteca de gráficos

#importando plotly

In [24]:
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.express as px

In [25]:
datos_normalizados.sample(2)

Unnamed: 0,id_cliente,renuncio,genero,adulto_mayor,tiene_pareja,tiene_dependientes,meses_contrato,servicio_telefonico,multilineas_telefonicas,servicio_internet,suscripcion_seguridad,suscripcion_respaldo,suscripcion_dispositivo,suscripcion_soporte,suscripcion_streamingtv,suscrpcion_streamingmovie,duracion_contrato,factura_digital,forma_pago,total_gasto_mensual,total_gastado,cuentas_diarias
6819,9402-CXWPL,0,Female,0,No,No,70,Yes,Yes,Fiber optic,No,Yes,No,No,Yes,Yes,One year,No,Electronic check,98.9,6838.6,3.296667
1000,1401-FTHFQ,0,Male,0,Yes,Yes,23,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,One year,Yes,Credit card (automatic),20.0,445.3,0.666667


## Construyendo histogramas (gráfico de barras)

###Usando .map() para crear una nueva columna

***OBSERVACIÓN:*** Atendido que pasé los datos de la columna 'renuncia' a valores númericos y con la finalidad de hacer más legible la lectura de los gráficos, procedo a crear una copia del DataFrame 'datos_normalizados' y usando la función .map(), (mapaearemos) los valores de la columna 'renuncio' reemplazando los números 1 por la palabra 'Renunciaron' y 0 por la palabra 'Activos'

In [44]:
# Creamos una copia del DataFrame
datos_para_grafico = datos_normalizados.copy()

# Mapeamos los valores numéricos y le asignamos etiquetas descriptivas que guardamos en una nueva columna que llamaremos 'estado_cliente' y usaremos para los gráficos.
datos_para_grafico['estado_cliente'] = datos_para_grafico['renuncio'].map({1: 'Renunciaron', 0: 'Activos'})
datos_para_grafico['condicion_adulto'] = datos_para_grafico['adulto_mayor'].map({0: 'No_es_adulto_mayor', 1: 'Adulto_mayor'})

datos_para_grafico

Unnamed: 0,id_cliente,renuncio,genero,adulto_mayor,tiene_pareja,tiene_dependientes,meses_contrato,servicio_telefonico,multilineas_telefonicas,servicio_internet,suscripcion_seguridad,suscripcion_respaldo,suscripcion_dispositivo,suscripcion_soporte,suscripcion_streamingtv,suscrpcion_streamingmovie,duracion_contrato,factura_digital,forma_pago,total_gasto_mensual,total_gastado,cuentas_diarias,estado_cliente,condicion_adulto
0,0002-ORFBO,0,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.60,593.30,2.186667,Activos,No_es_adulto_mayor
1,0003-MKNFE,0,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.90,542.40,1.996667,Activos,No_es_adulto_mayor
2,0004-TLHLJ,1,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.90,280.85,2.463333,Renunciaron,No_es_adulto_mayor
3,0011-IGKFF,1,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.00,1237.85,3.266667,Renunciaron,Adulto_mayor
4,0013-EXCHZ,1,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.90,267.40,2.796667,Renunciaron,Adulto_mayor
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,9987-LUTYD,0,Female,0,No,No,13,Yes,No,DSL,Yes,No,No,Yes,No,No,One year,No,Mailed check,55.15,742.90,1.838333,Activos,No_es_adulto_mayor
7263,9992-RRAMN,1,Male,0,Yes,No,22,Yes,Yes,Fiber optic,No,No,No,No,No,Yes,Month-to-month,Yes,Electronic check,85.10,1873.70,2.836667,Renunciaron,No_es_adulto_mayor
7264,9992-UJOEL,0,Male,0,No,No,2,Yes,No,DSL,No,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,50.30,92.75,1.676667,Activos,No_es_adulto_mayor
7265,9993-LHIEB,0,Male,0,Yes,Yes,67,Yes,No,DSL,Yes,No,Yes,Yes,No,Yes,Two year,No,Mailed check,67.85,4627.65,2.261667,Activos,No_es_adulto_mayor


###Clientes v/s renuncia en relación a su estado de cliente

In [41]:
px.histogram(datos_para_grafico, x = 'genero', text_auto=True, color='estado_cliente', barmode ='group')

###Clientes v/s adulto mayor en relación a su estado de cliente

In [46]:
px.histogram(datos_para_grafico, x = 'condicion_adulto', text_auto=True, color='estado_cliente', barmode ='group')

###clientes v/s meses de contrato en relación a su estado cliente

In [48]:
px.histogram(datos_para_grafico, x = 'meses_contrato', text_auto=True, color='estado_cliente', barmode ='group')

###Clientes v/s duración del contrato y su estado como clientes

In [51]:
px.histogram(datos_para_grafico, x='duracion_contrato', text_auto = True, color='estado_cliente', barmode ='group')

###Clientes v/s servicio contratado respecto a su estado cliente

In [54]:
px.histogram(datos_para_grafico, x = 'servicio_internet', text_auto=True, color='estado_cliente', barmode='group')

###Clientes v/s suscripción sreaming tv en relación a su estado cliente

In [55]:
px.histogram(datos_para_grafico, x = 'suscripcion_streamingtv',text_auto=True, color='estado_cliente', barmode='group')

###

In [56]:
px.histogram(datos_para_grafico, x = 'forma_pago',text_auto=True, color='estado_cliente', barmode='group')

##Gráfico de líneas

###Porcentaje de renuncias v/s meses de contrato

In [30]:
#agrupando por meses de contrato y renuncio

agrupado_meses_contrato_y_renuncio = datos_normalizados.groupby(['meses_contrato', 'renuncio']).size().unstack(fill_value=0)

#calculando el % de renuncias por meses de contrato

agrupado_meses_contrato_y_renuncio['porcentaje_renuncia'] = (agrupado_meses_contrato_y_renuncio.get(1,0) / agrupado_meses_contrato_y_renuncio.sum(axis=1))*100

#mostrando el resultado

print(agrupado_meses_contrato_y_renuncio[['porcentaje_renuncia']])

renuncio        porcentaje_renuncia
meses_contrato                     
0                          0.000000
1                         61.990212
2                         51.680672
3                         47.000000
4                         47.159091
...                             ...
68                         9.000000
69                         8.421053
70                         9.243697
71                         3.529412
72                         1.657459

[73 rows x 1 columns]


In [31]:
fig = px.line (agrupado_meses_contrato_y_renuncio.reset_index(),
               x='meses_contrato',
               y='porcentaje_renuncia',
               markers=True,
               title='tasa de renuncia (%) por meses de renucnia')
fig.show()

##Gráfico de dispersión

###Total de gastos v/s meses de contrato y su estado como cliente.

In [50]:
px.scatter (datos_para_grafico,
            x='meses_contrato',
            y='total_gasto_mensual',
            color='estado_cliente',
            title='Meses contrato v/s total de cargos mensuales por renuncia')

##Gráfico de caja y bigotes

###Estado Cliente v/s total de gasto mensual respecto estado cliente

In [52]:
px.box(datos_para_grafico, x = 'estado_cliente', y ='total_gasto_mensual', color='estado_cliente')

In [53]:
px.histogram(datos_para_grafico, x = 'servicio_telefonico', text_auto=True, color='estado_cliente', barmode ='group' )

# CONCLUSIONES

##INSIGHTS y RECOMENDACIONES



1.  **La duración del contrato es un factor clave:**

Los clientes con contratos mes a mes tienen una tasa de renuncia significativamente más alta en comparación con aquellos con contratos de uno o dos años (observado en el histograma de 'duracion_contrato'). Esto sugiere que ofrecer incentivos para contratos más largos podría ser una estrategia de retención efectiva.


2.   **Los servicios de Internet de fibra óptica y el pago electrónico están asociados a mayor renuncia**:

Los gráficos muestran que los clientes con servicio de internet de fibra óptica y que utilizan métodos de pago electrónicos tienden a renunciar más (observado en los histogramas de 'servicio_internet' y 'forma_pago'). Esto podría indicar problemas específicos con el servicio de fibra óptica o la experiencia de pago electrónico que necesitan ser investigados

3.   **La tasa de renuncia disminuye drásticamente con el tiempo:**

El gráfico de línea que muestra el porcentaje de renuncia por meses de contrato revela que la tasa de renuncia es muy alta en los primeros meses y disminuye considerablemente a medida que aumenta la antigüedad del cliente. Esto subraya la importancia de centrar los esfuerzos de retención en los nuevos clientes durante su periodo inicial.

