# INTRODUCCIÓN

**Desafío Telecom X**

El desafío Telecom X ofrece una oportunidad única para aplicar habilidades esenciales de análisis de datos en un escenario de negocios real.

Aplicación práctica del conocimiento
La limpieza y tratamiento de datos es una habilidad fundamental para cualquier analista de datos. La manipulación de grandes volúmenes de información exige la capacidad de identificar y corregir inconsistencias en los datos, como valores nulos, duplicados y datos fuera de estándar. Garantizar que los datos estén listos para el análisis es un paso esencial para obtener resultados precisos y confiables.

El análisis exploratorio de datos (EDA) es una etapa crucial para comprender en profundidad los datos. La capacidad de aplicar estadísticas descriptivas y generar visualizaciones permite identificar patrones, tendencias y relaciones entre las variables. Esto ayuda a formular hipótesis y generar insights que pueden influir en decisiones estratégicas dentro de la empresa.

Al participar en este desafío, aplicarás conocimientos esenciales para el análisis de grandes volúmenes de datos en un contexto real, donde tus hallazgos podrán impactar directamente en las estrategias de la empresa para mejorar el principal problema que están enfrentando.

**Instrucciones**

Telecom X es una empresa de telecomunicaciones y has sido contratado como analista de datos para trabajar en un proyecto específico de Churn de clientes. La empresa está enfrentando un alto índice de evasión de clientes y aún no han identificado el problema de esta evasión. Para ello, te han proporcionado algunos datos en los que tendrás que buscar, tratar y realizar un análisis exploratorio para, una vez limpiados estos datos, poder proporcionárselos al equipo de ciencia de datos. De esta manera, podrán realizar un análisis predictivo y determinar de dónde proviene esta evasión de clientes.

Una parte muy importante es esta sección de extracción de datos donde estamos proporcionando una API que te entregará un JSON desde donde tendrás que extraer estos datos en tu Google Colab. Una vez que hayas completado todos los pasos del desafío, tendrás que venir a esta sección, esta tarjeta de informe final y tendrás que escribir tus conclusiones, dar las razones por las cuales crees que está ocurriendo esta evasión de clientes.

En este desafío, pondrás en práctica todas las habilidades que has adquirido hasta ahora a través de los cursos de ETL, por ejemplo, y de análisis exploratorio y podrás utilizar herramientas como Python, Pandas y Matplotlib.

# DESARROLLO

**Tareas clave**

✅ Importar y manipular datos desde una API de manera eficiente.

✅ Aplicar los conceptos de ETL (Extracción, Transformación y Carga) en la preparación de los datos.

✅ Crear visualizaciones estratégicas para identificar patrones y tendencias.

✅ Realizar un Análisis Exploratorio de Datos (EDA) y generar un informe con insights relevantes.

## Extracción de datos

Para iniciar tu análisis, necesitarás importar los datos de la API de Telecom X. Estos datos están disponibles en formato JSON y contienen información esencial sobre los clientes, incluyendo datos demográficos, tipo de servicio contratado y estado de evasión.

📌 Enlace de la API:
https://github.com/ingridcristh/challenge2-data-science-LATAM/blob/main/TelecomX_Data.json

https://github.com/ingridcristh/challenge2-data-science-LATAM


###  Cargar los datos directamente desde la API utilizando Python.

In [1]:
import pandas as pd

url = "https://raw.githubusercontent.com/mauloredo/Challenge_Telecom_X/main/TelecomX_Data.json"
df = pd.read_json(url)

df.head()


Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


### Primera examinación de los datos

**Exploración General de los Datos**

✅ Número de filas y columnas: (7267, 6)

✅ Nombres de columnas:

customerID

Churn

customer

phone

internet

account


✅ Tipos de datos de cada columna (df.dtypes)

customerID	object

Churn	object

customer	object

phone	object

internet	object

account	object

**Calidad y Consistencia de los Datos**

✅ NAN's, entradas vacías y valores nulos (df.isnull().sum())

customerID	0 empty

Churn	0 empty / 224 " "

customer	0 empty

phone	0 empty

internet	0 empty

account	0 empty

0 "none" / 0 "N/A" / "unknown"





### Analizando la estructura / Explosión de Dicc´s

Para poder continuar con el análisis, es necesario tratar datos andidos, por lo que he dividido este primer vistazo en dos. El antes y el después de la explosión.

Typos de datos por columna:

- customerID	<class 'str'>
- Churn	<class 'str'>
- customer		<class 'dict'>
- phone	<class 'dict'>
- internet		<class 'dict'>
- account		<class 'dict'>
		<class 'dict'>	<class 'dict'>	<class 'dict'>	<class 'dict'>	7267

Analizando cada colunna, sabemos un poco mas sobre la información qe contienen
- customer: (gender, SeniorCitizen, etc.)
- phone:servicios de telefonía (phoneservices, multipleLines)
- internet (InternetService, OnlineSecurity)
- account (Contract, PaperlessBilling)

El Dataframe final, debiera tener las siguientes colunas
1. customerID
2. Churn
3. gender
4. SeniorCitizen
5. Partner
6. Dependents
7. tenure
8. PhoneService
9. MultipleLines
10. InternetService
11. OnlineSecurity
12. OnlineBackup
13. DeviceProtection
14. TechSupport
15. StreamingTV
16. StreamingMovies
17. Contract
18. PaperlessBilling
19. PaymentMethod
20. Charges.Monthly
21. Charges.Total




In [15]:
df.applymap(type).value_counts()


  df.applymap(type).value_counts()


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,count
customerID,Churn,customer,phone,internet,account,Unnamed: 6_level_1
<class 'str'>,<class 'str'>,<class 'dict'>,<class 'dict'>,<class 'dict'>,<class 'dict'>,7267


In [16]:
df[['customer', 'phone', 'internet', 'account']].iloc[0]


Unnamed: 0,0
customer,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part..."
phone,"{'PhoneService': 'Yes', 'MultipleLines': 'No'}"
internet,"{'InternetService': 'DSL', 'OnlineSecurity': '..."
account,"{'Contract': 'One year', 'PaperlessBilling': '..."


In [17]:
df_customer = pd.json_normalize(df['customer'])
df_phone = pd.json_normalize(df['phone'])
df_internet = pd.json_normalize(df['internet'])
df_account = pd.json_normalize(df['account'])


In [19]:
df_customer.head()


Unnamed: 0,gender,SeniorCitizen,Partner,Dependents,tenure
0,Female,0,Yes,Yes,9
1,Male,0,No,No,9
2,Male,0,No,No,4
3,Male,1,Yes,No,13
4,Female,1,Yes,No,3


In [20]:
df_phone.head()


Unnamed: 0,PhoneService,MultipleLines
0,Yes,No
1,Yes,Yes
2,Yes,No
3,Yes,No
4,Yes,No


In [21]:
df_internet.head()


Unnamed: 0,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
0,DSL,No,Yes,No,Yes,Yes,No
1,DSL,No,No,No,No,No,Yes
2,Fiber optic,No,No,Yes,No,No,No
3,Fiber optic,No,Yes,Yes,No,Yes,Yes
4,Fiber optic,No,No,No,Yes,Yes,No


In [22]:
df_account.head()

Unnamed: 0,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,One year,Yes,Mailed check,65.6,593.3
1,Month-to-month,No,Mailed check,59.9,542.4
2,Month-to-month,Yes,Electronic check,73.9,280.85
3,Month-to-month,Yes,Electronic check,98.0,1237.85
4,Month-to-month,Yes,Mailed check,83.9,267.4


In [6]:
(df == "").sum()


Unnamed: 0,0
customerID,0
Churn,224
customer,0
phone,0
internet,0
account,0


In [7]:
(df == " ").sum()


Unnamed: 0,0
customerID,0
Churn,0
customer,0
phone,0
internet,0
account,0


In [12]:
(df == "N/A").sum()




Unnamed: 0,0
customerID,0
Churn,0
customer,0
phone,0
internet,0
account,0


In [13]:
(df == "none").sum()

Unnamed: 0,0
customerID,0
Churn,0
customer,0
phone,0
internet,0
account,0


### Convertir los datos a un DataFrame de Pandas para facilitar su manipulación.

In [23]:
df_final = pd.concat([df[['customerID', 'Churn']], df_customer, df_phone, df_internet, df_account], axis=1)
df_final.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


### Reestructuración del Análisis exploratorio y Resultados

Con los resultados que obtuvimos en la priera parte, es necesario explotar el dataframe y comenszar nuevamente el análisis de la siguiente manera:

1️⃣ Revisión General del Dataset

- Número de filas y columnas  ***7267 entries, 0 to 7266/ (total 21 columns):***

- Nombres de columnas ***Identificadas anteriormente***

- Tipos de datos después de la explosión ***https://colab.research.google.com/drive/1NYrmyO1IQNW4CePKhMzZP5vJBcHjQE1h#scrollTo=__UK-2TMnBMU&line=1&uniqifier=1***

2️⃣ Calidad y Consistencia de los Datos

- Valores nulos, vacíos ("") ("none") ("N/A") o inconsistentes

- Frecuencia de categorías poco comunes

3️⃣ Estructura de Datos (ya hemos revisado diccionarios)

- Detección de variables categóricas vs. numéricas

- Evaluación de valores únicos

4️⃣ Análisis de Duplicados

- Filas repetidas o valores sospechosamente similares

5️⃣ Formatos Correctos

- Capitalización y espacios extra

- Conversión de valores a tipos apropiados (int, float, bool)

In [24]:
df_final.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


In [25]:
df_final.describe(include='all')


Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
count,7267,7267,7267,7267.0,7267,7267,7267.0,7267,7267,7267,...,7267,7267,7267,7267,7267,7267,7267,7267,7267.0,7267.0
unique,7267,3,2,,2,2,,2,3,3,...,3,3,3,3,3,3,2,4,,6531.0
top,9995-HOTOH,No,Male,,No,No,,Yes,No,Fiber optic,...,No,No,No,No,No,Month-to-month,Yes,Electronic check,,20.2
freq,1,5174,3675,,3749,5086,,6560,3495,3198,...,3182,3195,3582,2896,2870,4005,4311,2445,,11.0
mean,,,,0.162653,,,32.346498,,,,...,,,,,,,,,64.720098,
std,,,,0.369074,,,24.571773,,,,...,,,,,,,,,30.129572,
min,,,,0.0,,,0.0,,,,...,,,,,,,,,18.25,
25%,,,,0.0,,,9.0,,,,...,,,,,,,,,35.425,
50%,,,,0.0,,,29.0,,,,...,,,,,,,,,70.3,
75%,,,,0.0,,,55.0,,,,...,,,,,,,,,89.875,




COMENTARIOS


count: todas las columnas cuentan con 7267 datos
unique: hay varias columnas que se esperan valores booleanos, sin emgargo hay 3 valores de respuesta.


In [26]:
(df_final == "").sum()


Unnamed: 0,0
customerID,0
Churn,224
gender,0
SeniorCitizen,0
Partner,0
Dependents,0
tenure,0
PhoneService,0
MultipleLines,0
InternetService,0


# RESULTADOS

#