# INTRODUCCIÓN

**Desafío Telecom X**

El desafío Telecom X ofrece una oportunidad única para aplicar habilidades esenciales de análisis de datos en un escenario de negocios real.

Aplicación práctica del conocimiento
La limpieza y tratamiento de datos es una habilidad fundamental para cualquier analista de datos. La manipulación de grandes volúmenes de información exige la capacidad de identificar y corregir inconsistencias en los datos, como valores nulos, duplicados y datos fuera de estándar. Garantizar que los datos estén listos para el análisis es un paso esencial para obtener resultados precisos y confiables.

El análisis exploratorio de datos (EDA) es una etapa crucial para comprender en profundidad los datos. La capacidad de aplicar estadísticas descriptivas y generar visualizaciones permite identificar patrones, tendencias y relaciones entre las variables. Esto ayuda a formular hipótesis y generar insights que pueden influir en decisiones estratégicas dentro de la empresa.

Al participar en este desafío, aplicarás conocimientos esenciales para el análisis de grandes volúmenes de datos en un contexto real, donde tus hallazgos podrán impactar directamente en las estrategias de la empresa para mejorar el principal problema que están enfrentando.

**Instrucciones**

Telecom X es una empresa de telecomunicaciones y has sido contratado como analista de datos para trabajar en un proyecto específico de Churn de clientes. La empresa está enfrentando un alto índice de evasión de clientes y aún no han identificado el problema de esta evasión. Para ello, te han proporcionado algunos datos en los que tendrás que buscar, tratar y realizar un análisis exploratorio para, una vez limpiados estos datos, poder proporcionárselos al equipo de ciencia de datos. De esta manera, podrán realizar un análisis predictivo y determinar de dónde proviene esta evasión de clientes.

Una parte muy importante es esta sección de extracción de datos donde estamos proporcionando una API que te entregará un JSON desde donde tendrás que extraer estos datos en tu Google Colab. Una vez que hayas completado todos los pasos del desafío, tendrás que venir a esta sección, esta tarjeta de informe final y tendrás que escribir tus conclusiones, dar las razones por las cuales crees que está ocurriendo esta evasión de clientes.

En este desafío, pondrás en práctica todas las habilidades que has adquirido hasta ahora a través de los cursos de ETL, por ejemplo, y de análisis exploratorio y podrás utilizar herramientas como Python, Pandas y Matplotlib.

# DESARROLLO

**Tareas clave**

✅ Importar y manipular datos desde una API de manera eficiente.

✅ Aplicar los conceptos de ETL (Extracción, Transformación y Carga) en la preparación de los datos.

✅ Crear visualizaciones estratégicas para identificar patrones y tendencias.

✅ Realizar un Análisis Exploratorio de Datos (EDA) y generar un informe con insights relevantes.

## Extracción de datos

Para iniciar tu análisis, necesitarás importar los datos de la API de Telecom X. Estos datos están disponibles en formato JSON y contienen información esencial sobre los clientes, incluyendo datos demográficos, tipo de servicio contratado y estado de evasión.

📌 Enlace de la API:
https://github.com/ingridcristh/challenge2-data-science-LATAM/blob/main/TelecomX_Data.json

https://github.com/ingridcristh/challenge2-data-science-LATAM


###  Cargar los datos directamente desde la API utilizando Python.

In [1]:
import pandas as pd

url = "https://raw.githubusercontent.com/mauloredo/Challenge_Telecom_X/main/TelecomX_Data.json"
df = pd.read_json(url)

df.head()


Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


### Primera examinación de los datos

**Exploración General de los Datos**

✅ Número de filas y columnas: (7267, 6)

✅ Nombres de columnas:

customerID

Churn

customer

phone

internet

account


✅ Tipos de datos de cada columna (df.dtypes)

customerID	object

Churn	object

customer	object

phone	object

internet	object

account	object

**Calidad y Consistencia de los Datos**

✅ NAN's, entradas vacías y valores nulos (df.isnull().sum())

customerID	0

Churn	0

customer	0

phone	0

internet	0

account	0


✅ Valores únicos en cada columna (df.nunique())

✅ Duplicados en los datos (df.duplicated().sum())

✅ Formato correcto (capitalización, espacios extra, tipos de datos incorrectos)

**Estructura de los Datos**

✅ Diccionarios anidados o listas en columnas (df.applymap(type).value_counts())

✅ Detección de columnas con datos categóricos y numéricos

**Distribución de Datos y Outliers**

✅ Valores extremos con el rango intercuartílico (IQR)

python
Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1
outliers = ((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).sum()
print(outliers)

✅ Correlaciones entre variables numéricas (df.corr())

✅ Análisis de valores poco comunes o inesperados

**Transformaciones Potenciales**

✅ Conversión de columnas en formato fecha (pd.to_datetime(df['columna']))

✅ Agrupación de datos si es necesario (df.groupby('columna'))

In [2]:
df.shape

(7267, 6)

In [3]:
df.columns


Index(['customerID', 'Churn', 'customer', 'phone', 'internet', 'account'], dtype='object')

In [4]:
df.dtypes


Unnamed: 0,0
customerID,object
Churn,object
customer,object
phone,object
internet,object
account,object


In [5]:
df.isnull().sum()


Unnamed: 0,0
customerID,0
Churn,0
customer,0
phone,0
internet,0
account,0


###  Convertir los datos a un DataFrame de Pandas para facilitar su manipulación.

# RESULTADOS

#