<a href="https://colab.research.google.com/github/mauloredo/Challenge_Telecom_X/blob/main/Challenge_Telecom_X.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# INTRODUCCIÓN

**Desafío Telecom X**

El desafío Telecom X ofrece una oportunidad única para aplicar habilidades esenciales de análisis de datos en un escenario de negocios real.

Aplicación práctica del conocimiento
La limpieza y tratamiento de datos es una habilidad fundamental para cualquier analista de datos. La manipulación de grandes volúmenes de información exige la capacidad de identificar y corregir inconsistencias en los datos, como valores nulos, duplicados y datos fuera de estándar. Garantizar que los datos estén listos para el análisis es un paso esencial para obtener resultados precisos y confiables.

El análisis exploratorio de datos (EDA) es una etapa crucial para comprender en profundidad los datos. La capacidad de aplicar estadísticas descriptivas y generar visualizaciones permite identificar patrones, tendencias y relaciones entre las variables. Esto ayuda a formular hipótesis y generar insights que pueden influir en decisiones estratégicas dentro de la empresa.

Al participar en este desafío, aplicarás conocimientos esenciales para el análisis de grandes volúmenes de datos en un contexto real, donde tus hallazgos podrán impactar directamente en las estrategias de la empresa para mejorar el principal problema que están enfrentando.

**Instrucciones**

Telecom X es una empresa de telecomunicaciones y has sido contratado como analista de datos para trabajar en un proyecto específico de Churn de clientes. La empresa está enfrentando un alto índice de evasión de clientes y aún no han identificado el problema de esta evasión. Para ello, te han proporcionado algunos datos en los que tendrás que buscar, tratar y realizar un análisis exploratorio para, una vez limpiados estos datos, poder proporcionárselos al equipo de ciencia de datos. De esta manera, podrán realizar un análisis predictivo y determinar de dónde proviene esta evasión de clientes.

Una parte muy importante es esta sección de extracción de datos donde estamos proporcionando una API que te entregará un JSON desde donde tendrás que extraer estos datos en tu Google Colab. Una vez que hayas completado todos los pasos del desafío, tendrás que venir a esta sección, esta tarjeta de informe final y tendrás que escribir tus conclusiones, dar las razones por las cuales crees que está ocurriendo esta evasión de clientes.

En este desafío, pondrás en práctica todas las habilidades que has adquirido hasta ahora a través de los cursos de ETL, por ejemplo, y de análisis exploratorio y podrás utilizar herramientas como Python, Pandas y Matplotlib.

# DESARROLLO

**Tareas clave**

✅ Importar y manipular datos desde una API de manera eficiente.

✅ Aplicar los conceptos de ETL (Extracción, Transformación y Carga) en la preparación de los datos.

✅ Crear visualizaciones estratégicas para identificar patrones y tendencias.

✅ Realizar un Análisis Exploratorio de Datos (EDA) y generar un informe con insights relevantes.

## Extracción de datos

Para iniciar tu análisis, necesitarás importar los datos de la API de Telecom X. Estos datos están disponibles en formato JSON y contienen información esencial sobre los clientes, incluyendo datos demográficos, tipo de servicio contratado y estado de evasión.

📌 Enlace de la API:
https://github.com/ingridcristh/challenge2-data-science-LATAM/blob/main/TelecomX_Data.json

https://github.com/ingridcristh/challenge2-data-science-LATAM


###  Cargar los datos directamente desde la API utilizando Python.

In [106]:
import pandas as pd

url = "https://raw.githubusercontent.com/mauloredo/Challenge_Telecom_X/main/TelecomX_Data.json"
df = pd.read_json(url)

df.head()


Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


### Primera examinación de los datos

**Exploración General de los Datos**

✅ Número de filas y columnas: (7267, 6)

✅ Nombres de columnas:

customerID

Churn

customer

phone

internet

account


✅ Tipos de datos de cada columna (df.dtypes)

customerID	object

Churn	object

customer	object

phone	object

internet	object

account	object

**Calidad y Consistencia de los Datos**

✅ NAN's, entradas vacías y valores nulos (df.isnull().sum())

customerID	0 empty

Churn	0 empty / 224 " "

customer	0 empty

phone	0 empty

internet	0 empty

account	0 empty

0 "none" / 0 "N/A" / "unknown"





### Analizando la estructura / Explosión de Dicc´s

Para poder continuar con el análisis, es necesario tratar datos andidos, por lo que he dividido este primer vistazo en dos. El antes y el después de la explosión.

Typos de datos por columna:

- customerID	<class 'str'>
- Churn	<class 'str'>
- customer		<class 'dict'>
- phone	<class 'dict'>
- internet		<class 'dict'>
- account		<class 'dict'>
		<class 'dict'>	<class 'dict'>	<class 'dict'>	<class 'dict'>	7267

Analizando cada colunna, sabemos un poco mas sobre la información qe contienen
- customer: (gender, SeniorCitizen, etc.)
- phone:servicios de telefonía (phoneservices, multipleLines)
- internet (InternetService, OnlineSecurity)
- account (Contract, PaperlessBilling)

El Dataframe final, debiera tener las siguientes colunas
1. customerID
2. Churn
3. gender
4. SeniorCitizen
5. Partner
6. Dependents
7. tenure
8. PhoneService
9. MultipleLines
10. InternetService
11. OnlineSecurity
12. OnlineBackup
13. DeviceProtection
14. TechSupport
15. StreamingTV
16. StreamingMovies
17. Contract
18. PaperlessBilling
19. PaymentMethod
20. Charges.Monthly
21. Charges.Total




In [107]:
df.applymap(type).value_counts()


  df.applymap(type).value_counts()


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,count
customerID,Churn,customer,phone,internet,account,Unnamed: 6_level_1
<class 'str'>,<class 'str'>,<class 'dict'>,<class 'dict'>,<class 'dict'>,<class 'dict'>,7267


In [108]:
df[['customer', 'phone', 'internet', 'account']].iloc[0]


Unnamed: 0,0
customer,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part..."
phone,"{'PhoneService': 'Yes', 'MultipleLines': 'No'}"
internet,"{'InternetService': 'DSL', 'OnlineSecurity': '..."
account,"{'Contract': 'One year', 'PaperlessBilling': '..."


In [109]:
df_customer = pd.json_normalize(df['customer'])
df_phone = pd.json_normalize(df['phone'])
df_internet = pd.json_normalize(df['internet'])
df_account = pd.json_normalize(df['account'])


In [110]:
df_customer.head()


Unnamed: 0,gender,SeniorCitizen,Partner,Dependents,tenure
0,Female,0,Yes,Yes,9
1,Male,0,No,No,9
2,Male,0,No,No,4
3,Male,1,Yes,No,13
4,Female,1,Yes,No,3


In [111]:
df_phone.head()


Unnamed: 0,PhoneService,MultipleLines
0,Yes,No
1,Yes,Yes
2,Yes,No
3,Yes,No
4,Yes,No


In [112]:
df_internet.head()


Unnamed: 0,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
0,DSL,No,Yes,No,Yes,Yes,No
1,DSL,No,No,No,No,No,Yes
2,Fiber optic,No,No,Yes,No,No,No
3,Fiber optic,No,Yes,Yes,No,Yes,Yes
4,Fiber optic,No,No,No,Yes,Yes,No


In [113]:
df_account.head()

Unnamed: 0,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,One year,Yes,Mailed check,65.6,593.3
1,Month-to-month,No,Mailed check,59.9,542.4
2,Month-to-month,Yes,Electronic check,73.9,280.85
3,Month-to-month,Yes,Electronic check,98.0,1237.85
4,Month-to-month,Yes,Mailed check,83.9,267.4


In [114]:
(df == "").sum()


Unnamed: 0,0
customerID,0
Churn,224
customer,0
phone,0
internet,0
account,0


In [115]:
(df == " ").sum()


Unnamed: 0,0
customerID,0
Churn,0
customer,0
phone,0
internet,0
account,0


In [116]:
(df == "N/A").sum()




Unnamed: 0,0
customerID,0
Churn,0
customer,0
phone,0
internet,0
account,0


In [117]:
(df == "none").sum()

Unnamed: 0,0
customerID,0
Churn,0
customer,0
phone,0
internet,0
account,0


### Convertir los datos a un DataFrame de Pandas para facilitar su manipulación.

In [118]:
df_final = pd.concat([df[['customerID', 'Churn']], df_customer, df_phone, df_internet, df_account], axis=1)
df_final.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


### Reestructuración del Análisis exploratorio y Resultados

Con los resultados que obtuvimos en la priera parte, es necesario explotar el dataframe y comenszar nuevamente el análisis de la siguiente manera:

1️⃣ Revisión General del Dataset

- Número de filas y columnas  ***7267 entries, 0 to 7266/ (total 21 columns):***

- Nombres de columnas ***Identificadas anteriormente***

- Tipos de datos después de la explosión ***https://colab.research.google.com/drive/1NYrmyO1IQNW4CePKhMzZP5vJBcHjQE1h#scrollTo=__UK-2TMnBMU&line=1&uniqifier=1***

2️⃣ Calidad y Consistencia de los Datos

- Valores nulos, vacíos ("") ("none") ("N/A") o inconsistentes

- Frecuencia de categorías poco comunes

3️⃣ Estructura de Datos (ya hemos revisado diccionarios)

- Detección de variables categóricas vs. numéricas

- Evaluación de valores únicos

4️⃣ Análisis de Duplicados

- Filas repetidas o valores sospechosamente similares

5️⃣ Formatos Correctos

- Capitalización y espacios extra

- Conversión de valores a tipos apropiados (int, float, bool)

***https://colab.research.google.com/drive/1NYrmyO1IQNW4CePKhMzZP5vJBcHjQE1h#scrollTo=3pQPuU4iokqm&line=2&uniqifier=1***



In [119]:
df_final.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


In [120]:
df_final.describe(include='all')


Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
count,7267,7267,7267,7267.0,7267,7267,7267.0,7267,7267,7267,...,7267,7267,7267,7267,7267,7267,7267,7267,7267.0,7267.0
unique,7267,3,2,,2,2,,2,3,3,...,3,3,3,3,3,3,2,4,,6531.0
top,9995-HOTOH,No,Male,,No,No,,Yes,No,Fiber optic,...,No,No,No,No,No,Month-to-month,Yes,Electronic check,,20.2
freq,1,5174,3675,,3749,5086,,6560,3495,3198,...,3182,3195,3582,2896,2870,4005,4311,2445,,11.0
mean,,,,0.162653,,,32.346498,,,,...,,,,,,,,,64.720098,
std,,,,0.369074,,,24.571773,,,,...,,,,,,,,,30.129572,
min,,,,0.0,,,0.0,,,,...,,,,,,,,,18.25,
25%,,,,0.0,,,9.0,,,,...,,,,,,,,,35.425,
50%,,,,0.0,,,29.0,,,,...,,,,,,,,,70.3,
75%,,,,0.0,,,55.0,,,,...,,,,,,,,,89.875,


COMENTARIOS


count: todas las columnas cuentan con 7267 datos
unique: hay varias columnas que se esperan valores booleanos, sin emgargo hay 3 valores de respuesta.


In [121]:
(df_final == "").sum()


Unnamed: 0,0
customerID,0
Churn,224
gender,0
SeniorCitizen,0
Partner,0
Dependents,0
tenure,0
PhoneService,0
MultipleLines,0
InternetService,0


## Selección, Transformación y Corrección de Datos

1. Definiendo data types para cada columna: Ya sabemos las columnas, y que tipos de datos tiene, ahora vamos a agregar un "target type"

In [122]:
import pandas as pd

# Define the full set of columns with current and target data types
data_types = {
    'customerID': ['object', 'drop'],
    'Churn': ['object', 'bool'],
    'gender': ['object', 'category'],
    'SeniorCitizen': ['int64', 'int64'],
    'Partner': ['object', 'category'],
    'Dependents': ['object', 'category'],
    'tenure': ['int64', 'float64'],
    'PhoneService': ['object', 'category'],
    'MultipleLines': ['object', 'category'],
    'InternetService': ['object', 'category'],
    'OnlineSecurity': ['object', 'category'],
    'OnlineBackup': ['object', 'category'],
    'DeviceProtection': ['object', 'category'],
    'TechSupport': ['object', 'category'],
    'StreamingTV': ['object', 'category'],
    'StreamingMovies': ['object', 'category'],
    'Contract': ['object', 'category'],
    'PaperlessBilling': ['object', 'category'],
    'PaymentMethod': ['object', 'category'],
    'Charges.Monthly': ['float64', 'float64'],
    'Charges.Total': ['object', 'float64']
}

# Create the corrected DataFrame
df_types = pd.DataFrame.from_dict(data_types, orient='index', columns=['current_type', 'target_type'])

# Display the DataFrame
print(df_types)




                 current_type target_type
customerID             object        drop
Churn                  object        bool
gender                 object    category
SeniorCitizen           int64       int64
Partner                object    category
Dependents             object    category
tenure                  int64     float64
PhoneService           object    category
MultipleLines          object    category
InternetService        object    category
OnlineSecurity         object    category
OnlineBackup           object    category
DeviceProtection       object    category
TechSupport            object    category
StreamingTV            object    category
StreamingMovies        object    category
Contract               object    category
PaperlessBilling       object    category
PaymentMethod          object    category
Charges.Monthly       float64     float64
Charges.Total          object     float64


2. Filtrar las columnas relevante para el objetivo del projecto: Columnas escenciales, datos atados a los indicadores churn como customer tenure billing behavior, service usage. Remover columnas redundantes e irrelevantes.

In [123]:
# Crear una copia del dataframe sin la columna customerID
Dataframe = df_final.drop(columns=['customerID'])

# Verificar la estructura después de la eliminación
print(Dataframe.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Churn             7267 non-null   object 
 1   gender            7267 non-null   object 
 2   SeniorCitizen     7267 non-null   int64  
 3   Partner           7267 non-null   object 
 4   Dependents        7267 non-null   object 
 5   tenure            7267 non-null   int64  
 6   PhoneService      7267 non-null   object 
 7   MultipleLines     7267 non-null   object 
 8   InternetService   7267 non-null   object 
 9   OnlineSecurity    7267 non-null   object 
 10  OnlineBackup      7267 non-null   object 
 11  DeviceProtection  7267 non-null   object 
 12  TechSupport       7267 non-null   object 
 13  StreamingTV       7267 non-null   object 
 14  StreamingMovies   7267 non-null   object 
 15  Contract          7267 non-null   object 
 16  PaperlessBilling  7267 non-null   object 


In [124]:
(Dataframe == "").sum()

Unnamed: 0,0
Churn,224
gender,0
SeniorCitizen,0
Partner,0
Dependents,0
tenure,0
PhoneService,0
MultipleLines,0
InternetService,0
OnlineSecurity,0


3. Transformar vs Limpiar:

A pesar de que algunas variables presentan una distribución cercana al equilibrio (como gender) o están altamente sesgadas hacia un extremo, se decide conservarlas, ya que su interacción con otras características podría proporcionar información valiosa sobre patrones de comportamiento. Se excluye únicamente la variable customerID, dado que es un identificador único sin valor predictivo dentro del análisis de churn.

Este enfoque permite preservar variables potencialmente relevantes, asegurando que cualquier sesgo existente sea examinado en relación con otras características antes de la selección final.

Dependiendo del caso de cada colunna, se decidira si se limpia primero o se transforma primero dependiendo si hay mjuchos valores faltantes, o si requiere reestructuración.

#### La columna 'churn' y sus 224 entradas faltantes

Antes que nada, se tiene que enfatisar la importancia de la variable "churn" en el estudio, ya que es la **variable respuesta**, en otras palabras, la variable cuyo comportamiento se encuentra en escrutinio. El tratamiento de sus entradas vacías es crucial. Se proponen 3 alternativas:

**1. La asignación arbitraria de valores**

Asignar 'Yes' o 'No' a las filas con valores faltantes en Churn introduce un sesgo significativo en el análisis, ya que se estarían generando datos sintéticos sin evidencia estadística que los respalde. Esta decisión podría alterar las distribuciones originales de la variable de salida, afectando la interpretación y precisión de cualquier modelo predictivo basado en estos datos.

Desde una perspectiva probabilística, este tipo de imputación se asemeja a un supuesto de "Missing Completely at Random (MCAR)", lo cual difícilmente aplica si la ausencia de datos responde a patrones específicos relacionados con características de los clientes o condiciones del servicio.

Por lo tanto, en lugar de asignar valores artificiales, la mejor estrategia es eliminar estas filas o, en contextos exploratorios, tratarlas como un grupo independiente con el objetivo de analizar si existen relaciones sistemáticas entre la falta de información y otras variables.

**2. La asignación de una tercera categoría**

Si bien mantener todas las filas en el conjunto de datos es un enfoque válido para el análisis exploratorio, modificar la estructura de la variable Churn al incluir una categoría adicional (Desconocido) altera su naturaleza como variable binaria para la predicción (Sí / No). Esto implica que las filas con valores desconocidos no pueden utilizarse directamente en un modelo de predicción estándar de abandono de clientes.

Además, incluir una categoría "Desconocido" requeriría aplicar métodos estadísticos distintos, como pruebas de Chi-cuadrado y análisis de distribución, en lugar de técnicas tradicionales como la correlación de Pearson para variables numéricas o información mutua para categóricas. Esto puede sesgar la interpretación del impacto de las variables en la predicción del abandono.

**3. La eliminación de las filas con entradas vacías**

Dado que el propósito del proyecto es desarrollar un análisis predictivo centrado en la clasificación binaria del churn, eliminar las filas con valores faltantes sigue siendo la estrategia más adecuada para asegurar un conjunto de datos consistente y libre de ruido. No obstante, la propuesta de categorizar los valores faltantes es una opción válida en estudios exploratorios si el objetivo es conservar todos los registros y analizar patrones más amplios en la estructura de los datos.

**Conclusión**

Con solo un 3% de los datos con valores faltantes en la columna Churn, es poco probable que la creación de una tercera categoría aporte beneficios significativos al modelo predictivo y, en cambio, añadiría complejidad innecesaria. Eliminar esas filas es un enfoque común y práctico para preparar los datos en una tarea de clasificación binaria, como la predicción de abandono de clientes.

Además, incluir una categoría "Desconocido" podría distorsionar la interpretación del modelo, ya que el objetivo es identificar patrones de comportamiento claros entre clientes que sí o no han abandonado el servicio. En este contexto, la eliminación de filas con valores faltantes en Churn garantiza que el conjunto de datos esté bien estructurado y alineado con los requerimientos de una clasificación binaria efectiva.

**Gender**

La columna Gender se transforma en dtype categoría. con 7043 entradas y solamente 2 unique´s se concluye que está limpia

**SeniorCitizen**

Actualmente como Int64, la columna contiene 0 y 1. El 0 se transforma a categoria.

**Partner**

Se convierte en categoria, mismo caso que Gender

**Dependents, PhoneService y PaperlessBilling**

Las 3 colunnas se transforman en categorías

**MultipleLines / InternetService / OnlineSecurity / OnlineBackup / DeviceProtection / TechSupport / StreamingTV / StreamingMovies / Contract**

Con 3 tipos de entradas, las columnas se convierten en categorías

In [125]:
# La columna 'churn' y sus 224 entradas faltantes
Dataframe['Churn'].isnull().sum()

np.int64(0)

In [126]:
print(Dataframe['Churn'].unique())


['No' 'Yes' '']


In [127]:
df_churn = Dataframe[Dataframe['Churn'] != '']
df_churn.head()

Unnamed: 0,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,No,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,No,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,Yes,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


In [128]:
df_churn.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7043 entries, 0 to 7266
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Churn             7043 non-null   object 
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null   object 
 16  PaperlessBilling  7043 non-null   object 
 17  

In [129]:
df_churn.reset_index(drop=True, inplace=True)


In [130]:
df_churn.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Churn             7043 non-null   object 
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null   object 
 16  PaperlessBilling  7043 non-null   object 


In [131]:
df_churn['Churn'] = df_churn['Churn'].map({'Yes': True, 'No': False})
df_churn.head()
df_churn.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Churn             7043 non-null   bool   
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null   object 
 16  PaperlessBilling  7043 non-null   object 


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_churn['Churn'] = df_churn['Churn'].map({'Yes': True, 'No': False})


In [132]:
df_churn.describe(include='all')

Unnamed: 0,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
count,7043,7043,7043.0,7043,7043,7043.0,7043,7043,7043,7043,7043,7043,7043,7043,7043,7043,7043,7043,7043.0,7043.0
unique,2,2,,2,2,,2,3,3,3,3,3,3,3,3,3,2,4,,6531.0
top,False,Male,,No,No,,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,,20.2
freq,5174,3555,,3641,4933,,6361,3390,3096,3498,3088,3095,3473,2810,2785,3875,4171,2365,,11.0
mean,,,0.162147,,,32.371149,,,,,,,,,,,,,64.761692,
std,,,0.368612,,,24.559481,,,,,,,,,,,,,30.090047,
min,,,0.0,,,0.0,,,,,,,,,,,,,18.25,
25%,,,0.0,,,9.0,,,,,,,,,,,,,35.5,
50%,,,0.0,,,29.0,,,,,,,,,,,,,70.35,
75%,,,0.0,,,55.0,,,,,,,,,,,,,89.85,


In [133]:
df_churn['gender'] = df_churn['gender'].astype('category')


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_churn['gender'] = df_churn['gender'].astype('category')


In [134]:
df_churn.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   Churn             7043 non-null   bool    
 1   gender            7043 non-null   category
 2   SeniorCitizen     7043 non-null   int64   
 3   Partner           7043 non-null   object  
 4   Dependents        7043 non-null   object  
 5   tenure            7043 non-null   int64   
 6   PhoneService      7043 non-null   object  
 7   MultipleLines     7043 non-null   object  
 8   InternetService   7043 non-null   object  
 9   OnlineSecurity    7043 non-null   object  
 10  OnlineBackup      7043 non-null   object  
 11  DeviceProtection  7043 non-null   object  
 12  TechSupport       7043 non-null   object  
 13  StreamingTV       7043 non-null   object  
 14  StreamingMovies   7043 non-null   object  
 15  Contract          7043 non-null   object  
 16  PaperlessBilling  7043 n

In [135]:
df_churn['SeniorCitizen'].sample(20, random_state=42)


Unnamed: 0,SeniorCitizen
185,0
2715,0
3825,0
1807,0
132,0
1263,1
3732,1
1672,0
811,0
2526,0


In [136]:
df_churn_senior = df_churn.copy()
df_churn_senior["SeniorCitizen"] = df_churn_senior["SeniorCitizen"].astype(bool)
df_churn_senior.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   Churn             7043 non-null   bool    
 1   gender            7043 non-null   category
 2   SeniorCitizen     7043 non-null   bool    
 3   Partner           7043 non-null   object  
 4   Dependents        7043 non-null   object  
 5   tenure            7043 non-null   int64   
 6   PhoneService      7043 non-null   object  
 7   MultipleLines     7043 non-null   object  
 8   InternetService   7043 non-null   object  
 9   OnlineSecurity    7043 non-null   object  
 10  OnlineBackup      7043 non-null   object  
 11  DeviceProtection  7043 non-null   object  
 12  TechSupport       7043 non-null   object  
 13  StreamingTV       7043 non-null   object  
 14  StreamingMovies   7043 non-null   object  
 15  Contract          7043 non-null   object  
 16  PaperlessBilling  7043 n

In [137]:
df_churn_senior.head()

Unnamed: 0,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,False,Female,False,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,False,Male,False,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,True,Male,False,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,True,Male,True,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,True,Female,True,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


In [138]:
df_churn_partner = df_churn_senior.copy()
df_churn_partner["Partner"] = df_churn_partner["Partner"].astype("category")
df_churn_partner.info()
df_churn_partner.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   Churn             7043 non-null   bool    
 1   gender            7043 non-null   category
 2   SeniorCitizen     7043 non-null   bool    
 3   Partner           7043 non-null   category
 4   Dependents        7043 non-null   object  
 5   tenure            7043 non-null   int64   
 6   PhoneService      7043 non-null   object  
 7   MultipleLines     7043 non-null   object  
 8   InternetService   7043 non-null   object  
 9   OnlineSecurity    7043 non-null   object  
 10  OnlineBackup      7043 non-null   object  
 11  DeviceProtection  7043 non-null   object  
 12  TechSupport       7043 non-null   object  
 13  StreamingTV       7043 non-null   object  
 14  StreamingMovies   7043 non-null   object  
 15  Contract          7043 non-null   object  
 16  PaperlessBilling  7043 n

Unnamed: 0,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,False,Female,False,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,False,Male,False,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,True,Male,False,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,True,Male,True,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,True,Female,True,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


In [140]:
df_churn_category = df_churn_partner.copy()
df_churn_category["Dependents"] = df_churn_category["Dependents"].astype("category")
df_churn_category["PhoneService"] = df_churn_category["PhoneService"].astype("category")
df_churn_category["PaperlessBilling"] = df_churn_category["PaperlessBilling"].astype("category")
df_churn_category.info()
df_churn_category.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   Churn             7043 non-null   bool    
 1   gender            7043 non-null   category
 2   SeniorCitizen     7043 non-null   bool    
 3   Partner           7043 non-null   category
 4   Dependents        7043 non-null   category
 5   tenure            7043 non-null   int64   
 6   PhoneService      7043 non-null   category
 7   MultipleLines     7043 non-null   object  
 8   InternetService   7043 non-null   object  
 9   OnlineSecurity    7043 non-null   object  
 10  OnlineBackup      7043 non-null   object  
 11  DeviceProtection  7043 non-null   object  
 12  TechSupport       7043 non-null   object  
 13  StreamingTV       7043 non-null   object  
 14  StreamingMovies   7043 non-null   object  
 15  Contract          7043 non-null   object  
 16  PaperlessBilling  7043 n

Unnamed: 0,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,False,Female,False,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,False,Male,False,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,True,Male,False,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,True,Male,True,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,True,Female,True,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


In [141]:
df_churn_category.describe(include='all')

Unnamed: 0,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
count,7043,7043,7043,7043,7043,7043.0,7043,7043,7043,7043,7043,7043,7043,7043,7043,7043,7043,7043,7043.0,7043.0
unique,2,2,2,2,2,,2,3,3,3,3,3,3,3,3,3,2,4,,6531.0
top,False,Male,False,No,No,,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,,20.2
freq,5174,3555,5901,3641,4933,,6361,3390,3096,3498,3088,3095,3473,2810,2785,3875,4171,2365,,11.0
mean,,,,,,32.371149,,,,,,,,,,,,,64.761692,
std,,,,,,24.559481,,,,,,,,,,,,,30.090047,
min,,,,,,0.0,,,,,,,,,,,,,18.25,
25%,,,,,,9.0,,,,,,,,,,,,,35.5,
50%,,,,,,29.0,,,,,,,,,,,,,70.35,
75%,,,,,,55.0,,,,,,,,,,,,,89.85,


In [142]:
columns_to_check = ["MultipleLines", "InternetService", "OnlineSecurity", "OnlineBackup", "DeviceProtection",
                    "TechSupport", "StreamingTV", "StreamingMovies", "Contract"]

for col in columns_to_check:
    print(f"{col}: {df_churn_category[col].unique()}")


MultipleLines: ['No' 'Yes' 'No phone service']
InternetService: ['DSL' 'Fiber optic' 'No']
OnlineSecurity: ['No' 'Yes' 'No internet service']
OnlineBackup: ['Yes' 'No' 'No internet service']
DeviceProtection: ['No' 'Yes' 'No internet service']
TechSupport: ['Yes' 'No' 'No internet service']
StreamingTV: ['Yes' 'No' 'No internet service']
StreamingMovies: ['No' 'Yes' 'No internet service']
Contract: ['One year' 'Month-to-month' 'Two year']


In [143]:
df_churn_services = df_churn_category.copy()

columns_to_convert = ["MultipleLines", "InternetService", "OnlineSecurity", "OnlineBackup",
                      "DeviceProtection", "TechSupport", "StreamingTV", "StreamingMovies", "Contract"]

for col in columns_to_convert:
    df_churn_services[col] = df_churn_services[col].astype("category")


In [144]:
df_churn_services.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   Churn             7043 non-null   bool    
 1   gender            7043 non-null   category
 2   SeniorCitizen     7043 non-null   bool    
 3   Partner           7043 non-null   category
 4   Dependents        7043 non-null   category
 5   tenure            7043 non-null   int64   
 6   PhoneService      7043 non-null   category
 7   MultipleLines     7043 non-null   category
 8   InternetService   7043 non-null   category
 9   OnlineSecurity    7043 non-null   category
 10  OnlineBackup      7043 non-null   category
 11  DeviceProtection  7043 non-null   category
 12  TechSupport       7043 non-null   category
 13  StreamingTV       7043 non-null   category
 14  StreamingMovies   7043 non-null   category
 15  Contract          7043 non-null   category
 16  PaperlessBilling  7043 n

In [145]:
df_churn_services['PaymentMethod'].unique()

array(['Mailed check', 'Electronic check', 'Credit card (automatic)',
       'Bank transfer (automatic)'], dtype=object)

In [146]:
df_churn_payment = df_churn_services.copy()
df_churn_payment["PaymentMethod"] = df_churn_payment["PaymentMethod"].astype("category")
df_churn_payment.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   Churn             7043 non-null   bool    
 1   gender            7043 non-null   category
 2   SeniorCitizen     7043 non-null   bool    
 3   Partner           7043 non-null   category
 4   Dependents        7043 non-null   category
 5   tenure            7043 non-null   int64   
 6   PhoneService      7043 non-null   category
 7   MultipleLines     7043 non-null   category
 8   InternetService   7043 non-null   category
 9   OnlineSecurity    7043 non-null   category
 10  OnlineBackup      7043 non-null   category
 11  DeviceProtection  7043 non-null   category
 12  TechSupport       7043 non-null   category
 13  StreamingTV       7043 non-null   category
 14  StreamingMovies   7043 non-null   category
 15  Contract          7043 non-null   category
 16  PaperlessBilling  7043 n

4. Se correrán tests para verificar que los datos estén listos para ser analisados

# RESULTADOS

#

# CONTROL DE VERSIONES DE LA BASES DE DATOS


- df	        Raw DataFrame con los datos originales extraídos

- df_customer	Normalización de la columna

- df_phone	  Normalización de la columna phone	PhoneService

- df_internet	Normalización de la columna internet

- df_account	Normalización de la columna account	Contract

- df_final	  DataFrame consolidado

- Dataframe	  Versión refinada, con customerID eliminado

- df_churn    la columna churn es bool

- df_churn_senior la columna gender es category y SeniorCitizen es bool

- df_churn_partner  se convierte partner en category

- df_churn_category adicionalmente las columnas Dependents, PhoneService y PaperlessBilling se convierten en categorías

- df_churn_services las columnas MultipleLines / InternetService / OnlineSecurity / OnlineBackup / DeviceProtection / TechSupport / StreamingTV / StreamingMovies / Contract se transforman a categorias