# Exploración de Datos - Telecom X

## Propósito
En este cuaderno, se explora la estructura del dataset de Telecom X para comprender las columnas, sus tipos de datos y su relevancia para el análisis de evasión de clientes (churn). Se identifican las variables clave que podrían influir en la predicción del churn.

## Tarea
1. Cargar el dataset desde la carpeta `data/`.
2. Explorar las columnas y sus tipos de datos.
3. Consultar el diccionario de datos para entender el significado de las variables.
4. Identificar las columnas más relevantes para el análisis de evasión.

In [2]:
# Importación de bibliotecas
import pandas as pd
import requests
import json

# Carga de datos desde la API
url = "https://raw.githubusercontent.com/ingridcristh/challenge2-data-science-LATAM/main/TelecomX_Data.json"
response = requests.get(url)
data = response.json()

# Conversión a DataFrame
df = pd.DataFrame(data)

# Inspección de columnas y tipos de datos
print("Columnas del DataFrame y tipos de datos:")
print(df.dtypes)
print("\nNúmero de filas y columnas:", df.shape)

# Estadísticas descriptivas
print("\nEstadísticas descriptivas de variables numéricas:")
print(df.describe())
print("\nEstadísticas descriptivas de variables categóricas:")
print(df.describe(include='object'))

# Verificación de valores nulos
print("\nValores nulos por columna:")
print(df.isnull().sum())

# Exploración de las primeras filas
print("\nPrimeras 5 filas del DataFrame:")
print(df.head())

Columnas del DataFrame y tipos de datos:
customerID    object
Churn         object
customer      object
phone         object
internet      object
account       object
dtype: object

Número de filas y columnas: (7267, 6)

Estadísticas descriptivas de variables numéricas:
        customerID Churn                                           customer  \
count         7267  7267                                               7267   
unique        7267     3                                                891   
top     9995-HOTOH    No  {'gender': 'Male', 'SeniorCitizen': 0, 'Partne...   
freq             1  5174                                                223   

                                                 phone  \
count                                             7267   
unique                                               3   
top     {'PhoneService': 'Yes', 'MultipleLines': 'No'}   
freq                                              3495   

                                          

## Descripción de la tarea
En esta sección, se cargaron los datos desde la URL y se convirtieron en un DataFrame de Pandas. Se inspeccionaron las columnas, sus tipos de datos y estadísticas descriptivas para variables numéricas y categóricas. También se verificaron valores nulos y se mostraron las primeras filas del dataset para entender su estructura. Los resultados permiten identificar las variables más relevantes para el análisis de evasión de clientes.