# <font color=green size=10>🗒️​Introducción(Problema)<font/>
---

Eres asistente de análisis de datos en Telecom X y formas parte del proyecto "Churn de Clientes". La empresa enfrenta una alta tasa de cancelaciones y necesita comprender los factores que llevan a la pérdida de clientes.

Tu desafío será recopilar, procesar y analizar los datos, utilizando Python y sus principales bibliotecas para extraer información valiosa. A partir de tu análisis, el equipo de Data Science podrá avanzar en modelos predictivos y desarrollar estrategias para reducir la evasión.

En este ejercicio se aplicarán las siguientes tecnicas:

✅ Importar y manipular datos desde una API de manera eficiente.<br/>
✅ Aplicar los conceptos de ETL (Extracción, Transformación y Carga) en la preparación de los datos.<br/>
✅ Crear visualizaciones estratégicas para identificar patrones y tendencias.<br/>
✅ Realizar un Análisis Exploratorio de Datos (EDA) y generar un informe con insights relevantes.

#<font color=green size=10>📌Extracción<font/>
***

✅ Cargar los datos directamente desde la API utilizando Python.

Libraría utilizada para la extracción de datos:
https://pandas.pydata.org

In [1]:
import pandas as pd
import json
import numpy as np

In [2]:
url = ('https://raw.githubusercontent.com/Garceo79/challenge2-data-science-Alura/refs/heads/main/TelecomX_Data.json')

In [3]:
df = pd.read_json(url)
df

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
...,...,...,...,...,...,...
7262,9987-LUTYD,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
7263,9992-RRAMN,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
7264,9992-UJOEL,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
7265,9993-LHIEB,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Two year', 'PaperlessBilling': '..."


✅ Convertir los datos a un DataFrame de Pandas para facilitar su manipulación.

Libraría utilizada para la normalización de datos Json:<br/>
https://pandas.pydata.org/docs/reference/api/pandas.json_normalize.html

In [12]:
#Normalización de datos Json para facilitar su manipulación
df_concat = []

for col in df:
    if df[col].apply(lambda x: isinstance(x, dict)).any():
      normalized_col = pd.json_normalize(df[col])
      df_concat.append(normalized_col)
    else:
      df_concat.append(df[col])

new_df = pd.concat(df_concat, axis=1,join='inner')

new_df.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


#<font color=green size=10>🔧Transformación<font/>
---

##**Cambios realizados**
> - Se elimina espacios vacíos y se castea datos a intenger de la columna 'Charges.Total'

✅ Explorar las columnas del dataset y verificar sus tipos de datos.<br/>
Librerías utilizada para verificar tipos de datos y sí hay datos nuelos: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dtypes.html

In [6]:
new_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


✅ Consultar el diccionario para comprender mejor el significado de las variables.

Diccionario de datos
---
|Variable|Descripción|
|---|---|
|customerID| número de identificación único de cada cliente|
|Churn |si el cliente dejó o no la empresa|
|gender |género (masculino y femenino)|
|SeniorCitizen| información sobre si un cliente tiene o no una edad igual o mayor a 65 años|
|Partner| si el cliente tiene o no una pareja|
|Dependents| si el cliente tiene o no dependientes|
|tenure| meses de contrato del cliente|
|PhoneService| suscripción al servicio telefónico|
|MultipleLines| suscripción a más de una línea telefónica|
|InternetService| suscripción a un proveedor de internet|
|OnlineSecurity| suscripción adicional de seguridad en línea|
|OnlineBackup| suscripción adicional de respaldo en línea|
|DeviceProtection| suscripción adicional de protección del dispositivo|
|TechSupport| suscripción adicional de soporte técnico, menor tiempo de espera|
|StreamingTV| suscripción de televisión por cable|
|StreamingMovies| suscripción de streaming de películas|
|Contract| tipo de contrato|
|PaperlessBilling| si el cliente prefiere recibir la factura en línea|
|PaymentMethod| forma de pago|
|Charges.Monthly| total de todos los servicios del cliente por mes|
|Charges.Total| total gastado por el cliente|

✅ Identificar las columnas más relevantes para el análisis de evasión.

<font color = green>**Columnas importantes**<fonr/>

- customerID: Verificar que los datos no se repitan
- Churn: La más importante ya que nos dice si esta o no activo
- gender: Buscar si existe correlación con las cancelaciones
- SeniorCitizen: Buscar si existe correlación con las cancelaciones
- Partner: Buscar si existe correlación con las cancelaciones
- Dependents: Buscar si existe correlación con las cancelaciones
- ternure: Buscar si existe correlación con las cancelaciones
- Contract: Buscar si existe correlación con las cancelaciones
- PaymentMethod: Buscar si existe correlación con las cancelaciones
- Charges.Monthly: Buscar si existe correlación con las cancelaciones
- Charges.Total: Buscar si existe correlación con las cancelaciones


In [7]:
new_df.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


In [8]:
new_df['Charges.Total'] = new_df['Charges.Total'].replace(' ', np.nan).astype(np.float64)

In [9]:
new_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


https://pandas.pydata.org/docs/reference/api/pandas.unique.html

In [19]:
for col in new_df:
  values = pd.unique(new_df[col])
  print(f'{col}: {values}')

customerID: ['0002-ORFBO' '0003-MKNFE' '0004-TLHLJ' ... '9992-UJOEL' '9993-LHIEB'
 '9995-HOTOH']
Churn: ['No' 'Yes' '']
gender: ['Female' 'Male']
SeniorCitizen: [0 1]
Partner: ['Yes' 'No']
Dependents: ['Yes' 'No']
tenure: [ 9  4 13  3 71 63  7 65 54 72  5 56 34  1 45 50 23 55 26 69 11 37 49 66
 67 20 43 59 12 27  2 25 29 14 35 64 39 40  6 30 70 57 58 16 32 33 10 21
 61 15 44 22 24 19 47 62 46 52  8 60 48 28 41 53 68 51 31 36 17 18 38 42
  0]
PhoneService: ['Yes' 'No']
MultipleLines: ['No' 'Yes' 'No phone service']
InternetService: ['DSL' 'Fiber optic' 'No']
OnlineSecurity: ['No' 'Yes' 'No internet service']
OnlineBackup: ['Yes' 'No' 'No internet service']
DeviceProtection: ['No' 'Yes' 'No internet service']
TechSupport: ['Yes' 'No' 'No internet service']
StreamingTV: ['Yes' 'No' 'No internet service']
StreamingMovies: ['No' 'Yes' 'No internet service']
Contract: ['One year' 'Month-to-month' 'Two year']
PaperlessBilling: ['Yes' 'No']
PaymentMethod: ['Mailed check' 'Electronic check' 'Cr

In [32]:
#Se eliminan los datos que no cuentan con clasificación en Churn ya que es nuestra variable dependiente y tener sesgo en nuestros datos
new_df = new_df[new_df.Churn != '']

https://www.aluracursos.com/blog/manipulacion-de-strings-en-pandas-lower-replace-startswith-y-contains

In [34]:
new_df['MultipleLines'] = new_df['MultipleLines'].replace('No phone service', 'No')

In [36]:
new_df['OnlineSecurity'] = new_df['OnlineSecurity'].replace('No internet service', 'No')

In [38]:
new_df['OnlineBackup'] = new_df['OnlineBackup'].replace('No internet service', 'No')

In [40]:
new_df['DeviceProtection'] = new_df['DeviceProtection'].replace('No internet service', 'No')

In [42]:
new_df['TechSupport'] = new_df['TechSupport'].replace('No internet service', 'No')

In [44]:
new_df['StreamingTV'] = new_df['StreamingTV'].replace('No internet service', 'No')

In [46]:
new_df['StreamingMovies'] = new_df['StreamingMovies'].replace('No internet service', 'No')

In [47]:
for col in new_df:
  values = pd.unique(new_df[col])
  print(f'{col}: {values}')

customerID: ['0002-ORFBO' '0003-MKNFE' '0004-TLHLJ' ... '9992-UJOEL' '9993-LHIEB'
 '9995-HOTOH']
Churn: ['No' 'Yes']
gender: ['Female' 'Male']
SeniorCitizen: [0 1]
Partner: ['Yes' 'No']
Dependents: ['Yes' 'No']
tenure: [ 9  4 13  3 71 63  7 65 54 72  5 56 34  1 45 50 23 55 26 69 37 49 66 67
 20 43 59 12 27  2 25 29 14 35 64 39 40 11  6 30 70 57 58 16 32 33 10 21
 61 15 44 22 24 19 47 62 46 52  8 60 48 28 41 53 68 31 36 17 18 51 38 42
  0]
PhoneService: ['Yes' 'No']
MultipleLines: ['No' 'Yes']
InternetService: ['DSL' 'Fiber optic' 'No']
OnlineSecurity: ['No' 'Yes']
OnlineBackup: ['Yes' 'No']
DeviceProtection: ['No' 'Yes']
TechSupport: ['Yes' 'No']
StreamingTV: ['Yes' 'No']
StreamingMovies: ['No' 'Yes']
Contract: ['One year' 'Month-to-month' 'Two year']
PaperlessBilling: ['Yes' 'No']
PaymentMethod: ['Mailed check' 'Electronic check' 'Credit card (automatic)'
 'Bank transfer (automatic)']
Charges.Monthly: [65.6  59.9  73.9  ... 91.75 68.8  67.85]
Charges.Total: ['593.3' '542.4' '280.85' .

In [48]:
new_df['Charges.Daily'] = new_df['Charges.Monthly'] / 30

Ahora que los datos están limpios, se crear la columna "Cuentas_Diarias". Se utiliza la facturación mensual para calcular el valor diario, proporcionando una visión más detallada del comportamiento de los clientes a lo largo del tiempo.

In [51]:
new_df['Charges.Daily'] = new_df['Charges.Daily'].round(2)
new_df

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total,Charges.Daily
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,No,Yes,Yes,No,One year,Yes,Mailed check,65.60,593.3,2.19
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,Yes,Month-to-month,No,Mailed check,59.90,542.4,2.00
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.90,280.85,2.46
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.00,1237.85,3.27
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.90,267.4,2.80
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,9987-LUTYD,No,Female,0,No,No,13,Yes,No,DSL,...,No,Yes,No,No,One year,No,Mailed check,55.15,742.9,1.84
7263,9992-RRAMN,Yes,Male,0,Yes,No,22,Yes,Yes,Fiber optic,...,No,No,No,Yes,Month-to-month,Yes,Electronic check,85.10,1873.7,2.84
7264,9992-UJOEL,No,Male,0,No,No,2,Yes,No,DSL,...,No,No,No,No,Month-to-month,Yes,Mailed check,50.30,92.75,1.68
7265,9993-LHIEB,No,Male,0,Yes,Yes,67,Yes,No,DSL,...,Yes,Yes,No,Yes,Two year,No,Mailed check,67.85,4627.65,2.26


#<font color=green size=10>📊Carga y análisis<font/>
---

#<font color=green size=10>📄Informe final<font/>
---