<a href="https://colab.research.google.com/github/Ivan270/challenge-telecomx/blob/main/Challenge_TelecomX.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Extracción de datos

In [2]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

In [3]:
url = 'https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/refs/heads/main/TelecomX_Data.json'

datos_raw = pd.read_json(url)

datos_raw.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


# Transformación de datos

## Diccionario de datos

- `customerID`: número de identificación único de cada cliente
- `Churn`: si el cliente dejó o no la empresa
- `gender`: género (masculino y femenino)
- `SeniorCitizen`: información sobre si un cliente tiene o no una edad igual o mayor a 65 años
- `Partner`: si el cliente tiene o no una pareja
- `Dependents`: si el cliente tiene o no dependientes
- `tenure`: meses de contrato del cliente
- `PhoneService`: suscripción al servicio telefónico
- `MultipleLines`: suscripción a más de una línea telefónica
- `InternetService`: suscripción a un proveedor de internet
- `OnlineSecurity`: suscripción adicional de seguridad en línea
- `OnlineBackup`: suscripción adicional de respaldo en línea
- `DeviceProtection`: suscripción adicional de protección del dispositivo
- `TechSupport`: suscripción adicional de soporte técnico, menor tiempo de espera
- `StreamingTV`: suscripción de televisión por cable
- `StreamingMovies`: suscripción de streaming de películas
- `Contract`: tipo de contrato
- `PaperlessBilling`: si el cliente prefiere recibir la factura en línea
- `PaymentMethod`: forma de pago
- `Charges.Monthly`: total de todos los servicios del cliente por mes
- `Charges.Total`: total gastado por el cliente

In [4]:
datos_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   object
 1   Churn       7267 non-null   object
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(6)
memory usage: 340.8+ KB


## Normalizar columnas

In [5]:
columnas = list(datos_raw.columns)
columnas
columnas_normalizar = ['customer', 'phone', 'internet', 'account']

In [6]:
def normalize_cols(df, cols):
  """
  Función normaliza múltiples columnas de un DataFrame.

  Args:
    df: DataFrame Pandas
    cols: Listado de nombres de columnas por normalizar.

  Returns:
    DataFrame Pandas normalizado.
  """
  normalized_dfs = []
  for col in cols:
      normalized_col = pd.json_normalize(df[col], errors='ignore')
      normalized_dfs.append(normalized_col)

  df = pd.concat([df.drop(columns=cols)] + normalized_dfs, axis=1)
  return df

In [7]:
datos = normalize_cols(datos_raw, columnas_normalizar)

In [8]:
datos.iloc[1]

Unnamed: 0,1
customerID,0003-MKNFE
Churn,No
gender,Male
SeniorCitizen,0
Partner,No
Dependents,No
tenure,9
PhoneService,Yes
MultipleLines,Yes
InternetService,DSL


## Comprobación de Incoherencias

In [9]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


### Corrigiendo tipo columna `Charges.Total`

In [10]:
datos['Charges.Total'] = datos["Charges.Total"].apply(lambda x: x.replace('$', '').replace(' ', '0').strip())

In [11]:
datos['Charges.Total'] = datos['Charges.Total'].astype(np.float64)

In [12]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


In [13]:
len(pd.unique(datos['customerID']))

7267

*Todos los ID de cliente son únicos*

In [14]:
# pd.unique(datos['Churn'])
datos.query('Churn == ""')

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
30,0047-ZHDTW,,Female,0,No,No,11,Yes,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,Yes,Bank transfer (automatic),79.00,929.30
75,0120-YZLQA,,Male,0,No,No,71,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Credit card (automatic),19.90,1355.10
96,0154-QYHJU,,Male,0,No,No,29,Yes,No,DSL,...,Yes,No,Yes,No,No,One year,Yes,Electronic check,58.75,1696.20
98,0162-RZGMZ,,Female,1,No,No,5,Yes,No,DSL,...,Yes,No,Yes,No,No,Month-to-month,No,Credit card (automatic),59.90,287.85
175,0274-VVQOQ,,Male,1,Yes,No,65,Yes,Yes,Fiber optic,...,Yes,Yes,No,Yes,Yes,One year,Yes,Bank transfer (automatic),103.15,6792.45
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7158,9840-GSRFX,,Female,0,No,No,14,Yes,Yes,DSL,...,Yes,No,No,No,No,One year,Yes,Mailed check,54.25,773.20
7180,9872-RZQQB,,Female,0,Yes,No,49,No,No phone service,DSL,...,No,No,No,Yes,No,Month-to-month,No,Bank transfer (automatic),40.65,2070.75
7211,9920-GNDMB,,Male,0,No,No,9,Yes,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,Yes,Electronic check,76.25,684.85
7239,9955-RVWSC,,Female,0,Yes,Yes,67,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Bank transfer (automatic),19.25,1372.90


Se observa que hay valores vacíos en la columna `Churn`. Se decide eliminar aquellas filas, dado que no suman ni restan valor a los datos.

In [15]:
datos['Churn'] = datos['Churn'].str.replace('(?<!\w)(?!\w)','None', regex=True) # CONSIDERAR ELIMINAR LAS NONE

In [16]:
datos = datos[datos['Churn'] != 'None']
datos['Churn'].unique()

array(['No', 'Yes'], dtype=object)

In [17]:
datos['PaymentMethod'].unique()

array(['Mailed check', 'Electronic check', 'Credit card (automatic)',
       'Bank transfer (automatic)'], dtype=object)

## Creando columna `Cuentas_Diarias`

In [18]:
datos['Cuentas_Diarias'] = round(datos['Charges.Monthly'] / 30, 2)
datos.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  datos['Cuentas_Diarias'] = round(datos['Charges.Monthly'] / 30, 2)


Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total,Cuentas_Diarias
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3,2.19
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4,2.0
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85,2.46
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85,3.27
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4,2.8


# Estandarización y transformación de datos

*buscar columnas binarias (no categóricas):*

In [19]:
print('Churn', datos['Churn'].unique())
print('Partner',datos['Partner'].unique())
print('Dependents',datos['Dependents'].unique())
print('PhoneService',datos['PhoneService'].unique())
print('MultipleLines',datos['MultipleLines'].unique())
print('DeviceProtection',datos['DeviceProtection'].unique())
print('StreamingTV',datos['StreamingTV'].unique())
print('StreamingMovies',datos['StreamingMovies'].unique())
print('PaperlessBilling',datos['PaperlessBilling'].unique())
print('TechSupport',datos['TechSupport'].unique())

Churn ['No' 'Yes']
Partner ['Yes' 'No']
Dependents ['Yes' 'No']
PhoneService ['Yes' 'No']
MultipleLines ['No' 'Yes' 'No phone service']
DeviceProtection ['No' 'Yes' 'No internet service']
StreamingTV ['Yes' 'No' 'No internet service']
StreamingMovies ['No' 'Yes' 'No internet service']
PaperlessBilling ['Yes' 'No']
TechSupport ['Yes' 'No' 'No internet service']


In [20]:
def to_binary_col(df,cols):
  """
  Función que obtiene una lista de columnas que pueden ser transformado a tipo binario.
  Evalúa a través de la comparación de set() si es que la lista contiene los elementos considerados binarios ['Yes' 'No'].

  Args:
    df: DataFrame donde se encuentran las columnas
    cols: Lista de columnas para analizar

  Returns:
    binary_cols: Listado de las columnas que solo tienen como opción ['Yes' 'No'] y pueden ser transformadas a binario.
  """
  unique_list = ['Yes', 'No']
  binary_cols = []
  for col in cols:
    if set(df[col].unique().tolist()) == set(unique_list):
      binary_cols.append(col)
  return binary_cols

In [21]:
columnas_transformar = to_binary_col(datos,['Churn','Partner','Dependents', 'PhoneService', 'MultipleLines', 'DeviceProtection', 'StreamingTV', 'StreamingMovies','PaperlessBilling', 'TechSupport'])

In [22]:
columnas_transformar

['Churn', 'Partner', 'Dependents', 'PhoneService', 'PaperlessBilling']

In [23]:
datos[columnas_transformar] = datos[columnas_transformar].map(lambda x: x.replace('Yes', '1').replace('No', '0')).astype(np.int16)

In [24]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7043 entries, 0 to 7266
Data columns (total 22 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   Churn             7043 non-null   int16  
 2   gender            7043 non-null   object 
 3   SeniorCitizen     7043 non-null   int64  
 4   Partner           7043 non-null   int16  
 5   Dependents        7043 non-null   int16  
 6   tenure            7043 non-null   int64  
 7   PhoneService      7043 non-null   int16  
 8   MultipleLines     7043 non-null   object 
 9   InternetService   7043 non-null   object 
 10  OnlineSecurity    7043 non-null   object 
 11  OnlineBackup      7043 non-null   object 
 12  DeviceProtection  7043 non-null   object 
 13  TechSupport       7043 non-null   object 
 14  StreamingTV       7043 non-null   object 
 15  StreamingMovies   7043 non-null   object 
 16  Contract          7043 non-null   object 
 17  

# Carga y Análisis

## Análisis descriptivo
Métricas como:
- media
- mediana
- desviación estándar

In [25]:
datos.describe()

Unnamed: 0,Churn,SeniorCitizen,Partner,Dependents,tenure,PhoneService,PaperlessBilling,Charges.Monthly,Charges.Total,Cuentas_Diarias
count,7043.0,7043.0,7043.0,7043.0,7043.0,7043.0,7043.0,7043.0,7043.0,7043.0
mean,0.26537,0.162147,0.483033,0.299588,32.371149,0.903166,0.592219,64.761692,2279.734304,2.158675
std,0.441561,0.368612,0.499748,0.45811,24.559481,0.295752,0.491457,30.090047,2266.79447,1.003088
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,18.25,0.0,0.61
25%,0.0,0.0,0.0,0.0,9.0,1.0,0.0,35.5,398.55,1.18
50%,0.0,0.0,0.0,0.0,29.0,1.0,1.0,70.35,1394.55,2.34
75%,1.0,0.0,1.0,1.0,55.0,1.0,1.0,89.85,3786.6,2.99
max,1.0,1.0,1.0,1.0,72.0,1.0,1.0,118.75,8684.8,3.96


## Distribución de evasión
Se comprenderá cómo está distribuida la variable 'Churn' (evasión) entre los clientes.

In [26]:
clientes_churns = datos.groupby(['Churn']).size()
df_churns = pd.DataFrame({"Evasor": clientes_churns.index, "Cantidad": clientes_churns.values})

In [27]:
import plotly.express as px
import matplotlib.pyplot as plt

fig = px.pie(df_churns, values='Cantidad', names='Evasor', color="Evasor", title='Distribución de la Evasión de clientes')
fig.update_layout(width=800, height=400, font_size=14)
fig.show()


## Recuento de evasión por variables categóricas
Se explorará cómo se distribuye la evasión según algunas variables:

- género
- tipo de contrato
- método de pago

In [28]:
df_evasores = datos.query('Churn == 1')

In [29]:
seleccion_genero = df_evasores.groupby('gender').size()
evasores_genero = pd.DataFrame({"Genero": seleccion_genero.index, "Cantidad": seleccion_genero.values})
evasores_genero

Unnamed: 0,Genero,Cantidad
0,Female,939
1,Male,930


Se observa un equilibrio casi perfecto en género.

In [30]:
fig = px.pie(evasores_genero, values='Cantidad', names='Genero', color="Genero", title='Distribución de la Evasión de clientes por género')
fig.update_layout(width=800, height=400, font_size=14)
fig.show()

In [31]:
seleccion_contrato = df_evasores.groupby('Contract').size()
evasores_contrato = pd.DataFrame({"Contrato": seleccion_contrato.index, "Cantidad": seleccion_contrato.values})
evasores_contrato

Unnamed: 0,Contrato,Cantidad
0,Month-to-month,1655
1,One year,166
2,Two year,48


En este caso es notoria la diferencia: El tipo de contrato `month-to-month` tiene la mayor cantidad de evasión.

In [32]:
fig = px.pie(evasores_contrato, values='Cantidad', names='Contrato', color="Contrato", title='Distribución de la Evasión de clientes según Tipo de Contrato')
fig.update_layout(width=800, height=400, font_size=14)
fig.show()

In [33]:
seleccion_metodo_pago = df_evasores.groupby('PaymentMethod').size()
evasores_metodo_pago = pd.DataFrame({"MetodoPago": seleccion_metodo_pago.index, "Cantidad": seleccion_metodo_pago.values})
evasores_metodo_pago

Unnamed: 0,MetodoPago,Cantidad
0,Bank transfer (automatic),258
1,Credit card (automatic),232
2,Electronic check,1071
3,Mailed check,308


In [34]:
fig = px.pie(evasores_metodo_pago, values='Cantidad', names='MetodoPago', color="MetodoPago", title='Distribución de la Evasión de clientes según Método de pago')
fig.update_layout(width=800, height=400, font_size=14)
fig.show()

También hay una clara predominancia: el método de pago `Electronic check` es donde más evasión hay.

In [35]:
seleccion_senior = df_evasores.groupby('SeniorCitizen').size()
evasores_senior = pd.DataFrame({"Senior":seleccion_senior.index,"Cantidad": seleccion_senior.values})
evasores_senior

Unnamed: 0,Senior,Cantidad
0,0,1393
1,1,476


En este caso, los clientes mayores de 65 tienden menos a la evasión.

In [36]:
evasores_senior['Mayor_65'] = ['No', 'Si']
fig = px.pie(evasores_senior, values='Cantidad', names='Mayor_65', color="Mayor_65", title='Distribución de la Evasión de clientes según Edad')
fig.update_layout(width=800, height=400, font_size=14)
fig.show()

## Conteo de evasión por variables numéricas

Se tomarán en cuenta variables como:
- total gastado
- tiempo de contrato

In [37]:
df_evasores['Charges.Total'].describe()

Unnamed: 0,Charges.Total
count,1869.0
mean,1531.796094
std,1890.822994
min,18.85
25%,134.5
50%,703.55
75%,2331.3
max,8684.8


In [38]:
fig = px.histogram(df_evasores, x='Charges.Total')
fig.show()

En el histograma de arriba se puede apreciar la distribución de los clientes evasores según el total de gastos `Charges.Total`. Se observa un peak en los gastos bajos.

In [39]:
df_evasores['tenure'].describe()

Unnamed: 0,tenure
count,1869.0
mean,17.979133
std,19.531123
min,1.0
25%,2.0
50%,10.0
75%,29.0
max,72.0


In [40]:
fig = px.histogram(df_evasores, x='tenure')
fig.show()

En el histograma de arriba se puede apreciar la distribución de los clientes evasores según la duración del contrato (en meses) `tenure`. Se aprecia un peak en los primeros meses.

## Correlación entre variables

In [41]:
datos['Churn'].corr(datos['Cuentas_Diarias'])

np.float64(0.19341174201053052)

In [42]:
fig = px.violin(datos,
                y='Cuentas_Diarias',
                x='Churn', color='Churn',
                box=True, points='all',
                title='Correlación de Evasión y promedio de Cargo Diario',
                labels={'Churn': 'Evasor'})
fig.update_layout(xaxis_title='Evasión', yaxis_title='Cuenta Diaria')

fig.show()

In [43]:
datos['Churn'].corr(datos['Charges.Monthly'])

np.float64(0.19335642223784702)

In [44]:
datos['Churn'].corr(datos['PaperlessBilling'])

np.float64(0.1918253316664686)

In [45]:
datos['Churn'].corr(datos['Partner'])

np.float64(-0.15044754495917653)

Se observa una relación negativa entre `Churn` y `Partner`, aún así la fuerza de la relación es débil. Se puede inferir que quienes tienen pareja tendrán una menor tendencia a la evasión y al revés, los clientes solteros o sin pareja tendrán mayor tendencia a la evasión.

In [46]:
datos['Churn'].corr(datos['SeniorCitizen'])

np.float64(0.15088932817647327)

In [55]:
fig = px.scatter(datos,
                 x='tenure',
                 y='Charges.Monthly',
                 color='Churn', # permite mostrar los casos Churn
                 hover_data=['Partner', 'Contract'], # agrega datos al hover
                 title='Relación entre Meses de Contrato, Cargo Mensual y Churn',
                 labels={'tenure': 'Meses de Contrato', 'Charges.Monthly': 'Cargo Menusal'}
                 )

fig.show()

In [48]:
# representación numérica de género
datos['gender_encoded'] = datos['gender'].map(lambda x: 1 if x == 'Female' else 0)

In [49]:
datos['Churn'].corr(datos['gender_encoded'])

np.float64(0.00861209507899791)

Como ya se había visto anteriormente, la relación que existe entre el género del cliente y la evasión es muy débil.

In [50]:
service_cols = ['PhoneService', 'MultipleLines', 'InternetService', 'OnlineSecurity','OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies']

In [51]:
# Calcular número de servicios contratados por cliente
for col in service_cols:
  datos[col + '_bin'] = datos[col].apply(lambda x: 1 if x == 'Yes' else 0)

bin_service_cols = [col+'_bin' for col in service_cols]

# suma de servicios de cada cliente, se añade una columna
datos['servicios_contratados'] = datos[bin_service_cols].sum(axis = 1)

In [52]:
fig = px.violin(datos,
                x='Churn',
                y='servicios_contratados',
                color='Churn',
                box=True,
                title='Distribución de la Cantidad de Servicios por Estado de Churn',
                labels={'Churn': 'Evasor', 'servicios_contratados': 'Número de Servicios Contratados'},
               )

# Actualizar el layout para mejorar la estética
fig.update_layout(yaxis_zeroline=True) # Asegurarse de que el eje Y comience en 0 para conteos
fig.show()

Si bien se observan diferencias entre ambos gráficos de violín, el número de servicios contratados no pareciera ser un factor para determinar el origen de la evasión de clientes. En ambos casos (Churn y No-Churn) la tendencia está en tener una cantidad relativamente baja de servicios contratados.

Si hay un indicador interesante de destacar, los clientes No-Churn podrían tener una distribución un tanto más dispersa hacia un mayor número de servicios.

Sin embargo, el parecido en las medianas y la gran superposición de las distribuciones nos hacen entender que la cantidad de servicios por si misma no debiera ser el origen del churn.

In [53]:
fig_stacked = px.histogram(datos,
                           x='Contract',
                           color='Churn',
                           barmode='relative', # barras apiladas
                           title='Distribución de Clientes por Tipo de Contrato y Estado de Churn',
                           labels={'Contract': 'Tipo de Contrato', 'count': 'Número de Clientes'},
                           category_orders={'Contract': ['Month-to-month', 'One year', 'Two year']},
                           color_discrete_map={0: 'blue', 1: 'red'}
                          )
fig_stacked.update_layout(yaxis_title='Número de Clientes',
                          legend_title='Estado de Evasión')
fig_stacked.show()

# Informe: Telecom X - Análisis de Evasión de Clientes

## Introducción
### El problema
La empresa Telecom X se ha estado enfrentando a una alta tasa de cancelaciones, por lo que se ha hecho necesario comprender los factores que pudieran llevar a la pérdida de clientes.

### Objetivo
A través de la base de datos provista por la empresa, se procederá a recopilar, procesar y analizar los datos utilizando Python y bibliotecas asociadas.
El objetivo final es que a partir de este análisis el equipo de Data Science sea capaz de avanzar en modelos predictivos y desarrollar estrategias para reducir la evasión.

## Limpieza y tratamiento de datos
importar, limpiar y procesar
Teniendo en nuestro poder la base de datos en formato CSV, los pasos a seguir fueron:
- importación y lectura con biblioteca Pandas
- se apreció que las columnas `customer`, `phone`, `internet`, `account` contenían más información anidada, por lo que fue necesario normalizarlas para poder finalmente contar con todos los datos disponibilizados
- La columna `Chargers.Total` presentaba un tipo de dato que no correspondía, este debía ser de tipo numérico. Por lo que se procedió a modificarla para corregirlo.
- Se verificaron y corrigieron incoherencias como valores ausentes, duplicados y errores de formato
- Se creó la columna `Cuentas_Diarias` utilizando la facturación mensual para calcular el valor diario gastado por cada cliente.
- Se estandarizaron columnas con valores categóricos del tipo `Yes, No` a columnas binarias `0, 1` para poder facilitar el futuro análisis

## Análisis exploratorio de datos

Se logró extraer los datos de 7043 clientes, de los cuales 1861 fueron catalogados evasores o 'churn'.
El siguiente gráfico muestra como se distribuyen entre clientes churn (rojo) y no churn (azul):
![Pie Plot](https://drive.google.com/uc?id=1Vgn496HYpckEW1RSdBi-TeZ0PDSilb4k)

### Variables categóricas
Luego, haciendo un recuento de los clientes churn de acuerdo a variables categóricas:
1. Según género
![](https://drive.google.com/uc?id=1ii-tQekheaZ5xRiAH2wURLNY4UAz1lFW)
2. Según tipo de contrato
![](https://drive.google.com/uc?id=1yIdPZbH91T6aEoABHcuZc6dk-MCJmzVE)
3. Según método de pago
![](https://drive.google.com/uc?id=1sNUsbkufVRVzg73xzuHP4IVIhKxm3JXi)
4. Según edad (mayor de 65 o no):
![](https://drive.google.com/uc?id=1sr7oX1RCPbLGw47nqc6-DgaxwV8ZuhJk)

### Variables numéricas
1. Total de pagos. Ordenados de menor a mayor en cantidad de total pagado.
![](https://drive.google.com/uc?id=1wa_hNtu4Dxu2g73r3KkW656iZy6sqDNW)
2. Cantidad de meses del contrato
![](https://drive.google.com/uc?id=1my7Un4OaCKFPJoWbZlJogokLks3BReM4)

### Correlación entre variables
Para intentar profundizar en los factores que pueden tener mayor relación con la evasión de clientes se cruzaron distintas variables:
1. Evasión y Gasto Diario del cliente
![](https://drive.google.com/uc?id=19PoUCsEa_77iQDoIJ1jL7qG41IZSqpVg)
2. Meses de contrato, Gasto Mensual y Evasión
![](https://drive.google.com/uc?id=1htSADXw2Wq5UYHe4k4odwUM3EDfxQEGP)
3. Cantidad de servicios contratados y Evasión
![](https://drive.google.com/uc?id=1gm2-tCb53l3B1NPDL6owTSfe2oJW0vlI)
4. Tipo de contrato y Evasión
![](https://drive.google.com/uc?id=1U6IECzq3iRtoeTg9hKfT4lq6ZLwTioEV)

## Conclusiones e Insights
Comenzando por las primeras observaciones de los datos, se puede descartar una relación entre la evasión y el género. Es posible apreciar en el primer gráfico de variables categóricas que la distribución de clientes evasores es prácticamente igual (49.8% Masculina y 50.2% Femenina).

El primer análisis que permite profundizar un poco más fue la distribución de clientes evasores según el tipo de contrato. Donde predomina el contrato de tipo `Month-to-month`. La primera teoría a trabajar es que los clientes que consumen a través de este tipo de contrato tienen un menor compromiso o apego hacia el producto contratado y suelen desprenderse con facilidad de este. Avanzando hacia otros análisis de variables numéricas podemos ir confirmando esta teoría:
- Hay una mayor cantidad de clientes evasores agrupados en totales pagados (`Charges.Total`) bajos, y lo mismo con la cantidad de meses contratados (`tenure`), la mayoría se encuentra en la sección inferior del gráfico.
- Correlación de meses de contrato, cargo mensual y churn sigue confirmando. Los clientes churn se acumulan mayoritariamente en porciones del gráfico con menores meses contratados.
- Cantidad de servicios contratados y evasión: el número de servicios contratados no pareciera ser un factor para determinar el origen de la evasión de clientes. En ambos casos (Churn y No-Churn) la tendencia está en tener una cantidad relativamente baja de servicios contratados:
  - Si hay un indicador interesante de destacar, los clientes No-Churn podrían tener una distribución un tanto más dispersa hacia un mayor número de servicios.
  - Sin embargo, el parecido en las medianas y la gran superposición de las distribuciones nos hacen entender que la cantidad de servicios por si misma no debiera ser el origen del churn.
- Correlación de tipo de contrato y evasión reitera la información vista anteriormente:
  - Clientes con contratos `Month-to-month` representan la mayor parte de la base de clientes y, al mismo tiempo, la gran mayoría de la evasión total.
  - Cliente con contrato a plazo fijo de 1 y 2 años muestran una tasa de evasión notoriamente más baja, siendo apenas visible en el caso del contrato de dos años.

## Recomendaciones
Con los datos y conclusiones anteriormente obtenidos se podría elaborar una estrategia de retención, dando la idea a la empresa de enfocarse en:
- identificar y retener a clientes con contrato month to month, los mas riesgosos
- incentivar la migración a contratos de plazo fijo
- campañas de ofertas a clientes antiguos para que contraten un mayor número de servicios