#üìå Extracci√≥n

In [None]:
# Importar librer√≠as necesarias
import requests
import pandas as pd
import numpy as np
import json
from datetime import datetime
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
plt.style.use('default')
sns.set_palette('viridis')

# Funci√≥n para extraer datos de la API
def extract_telecom_data():
    # Simulando datos de TelecomX (ya que no tenemos la URL real)
    # En un caso real, usar√≠as: response = requests.get('https://api.telecomx.com/data')
    
    # Datos simulados basados en estructura t√≠pica de telecomunicaciones
    np.random.seed(42)
    n_records = 1000
    
    data = {
        'customer_id': range(1, n_records + 1),
        'plan_type': np.random.choice(['B√°sico', 'Premium', 'Enterprise'], n_records, p=[0.5, 0.3, 0.2]),
        'monthly_charges': np.random.normal(45, 15, n_records),
        'total_charges': np.random.normal(500, 200, n_records),
        'tenure_months': np.random.randint(1, 72, n_records),
        'data_usage_gb': np.random.exponential(10, n_records),
        'voice_minutes': np.random.poisson(300, n_records),
        'sms_count': np.random.poisson(50, n_records),
        'region': np.random.choice(['Norte', 'Sur', 'Centro', 'Este', 'Oeste'], n_records),
        'churn': np.random.choice([0, 1], n_records, p=[0.8, 0.2]),
        'signup_date': pd.date_range(start='2020-01-01', end='2024-12-31', periods=n_records)
    }
    
    # Introducir algunos valores nulos para simular datos reales
    df = pd.DataFrame(data)
    df.loc[np.random.choice(df.index, 50, replace=False), 'total_charges'] = np.nan
    df.loc[np.random.choice(df.index, 30, replace=False), 'data_usage_gb'] = np.nan
    
    print(f'‚úÖ Datos extra√≠dos exitosamente: {len(df)} registros')
    print(f'üìä Columnas: {list(df.columns)}')
    return df

# Extraer datos
raw_data = extract_telecom_data()
raw_data.head()

#üîß Transformaci√≥n

In [None]:
# Funci√≥n para limpiar y transformar datos
def transform_data(df):
    print('üîß Iniciando transformaci√≥n de datos...')
    
    # Crear una copia para no modificar los datos originales
    df_clean = df.copy()
    
    # 1. Manejo de valores nulos
    print(f'‚ùå Valores nulos antes: {df_clean.isnull().sum().sum()}')
    
    # Rellenar total_charges con la mediana por plan_type
    df_clean['total_charges'] = df_clean.groupby('plan_type')['total_charges'].transform(
        lambda x: x.fillna(x.median())
    )
    
    # Rellenar data_usage_gb con la media
    df_clean['data_usage_gb'].fillna(df_clean['data_usage_gb'].mean(), inplace=True)
    
    # 2. Correcci√≥n de tipos de datos
    df_clean['monthly_charges'] = df_clean['monthly_charges'].round(2)
    df_clean['total_charges'] = df_clean['total_charges'].round(2)
    df_clean['data_usage_gb'] = df_clean['data_usage_gb'].round(2)
    
    # 3. Crear nuevas variables
    df_clean['revenue_per_month'] = df_clean['total_charges'] / df_clean['tenure_months']
    df_clean['signup_year'] = df_clean['signup_date'].dt.year
    df_clean['customer_segment'] = pd.cut(df_clean['monthly_charges'], 
                                          bins=3, 
                                          labels=['Bajo', 'Medio', 'Alto'])
    
    # 4. Eliminar outliers extremos (valores negativos)
    df_clean = df_clean[df_clean['monthly_charges'] > 0]
    df_clean = df_clean[df_clean['total_charges'] > 0]
    
    print(f'‚úÖ Valores nulos despu√©s: {df_clean.isnull().sum().sum()}')
    print(f'üìä Registros finales: {len(df_clean)}')
    print(f'üÜï Nuevas columnas: revenue_per_month, signup_year, customer_segment')
    
    return df_clean

# Aplicar transformaciones
clean_data = transform_data(raw_data)

# Mostrar informaci√≥n del dataset limpio
print('\nüìã Informaci√≥n del dataset limpio:')
clean_data.info()
clean_data.describe()

#üìä Carga y an√°lisis

In [None]:
# An√°lisis exploratorio y visualizaciones
def analyze_and_visualize(df):
    print('üìä Iniciando an√°lisis exploratorio...')
    
    # Crear figura con subplots
    fig, axes = plt.subplots(2, 2, figsize=(15, 12))
    
    # 1. Distribuci√≥n de planes
    df['plan_type'].value_counts().plot(kind='bar', ax=axes[0,0], color='skyblue')
    axes[0,0].set_title('Distribuci√≥n por Tipo de Plan')
    axes[0,0].set_xlabel('Tipo de Plan')
    axes[0,0].set_ylabel('Cantidad de Clientes')
    axes[0,0].tick_params(axis='x', rotation=45)
    
    # 2. Churn por regi√≥n
    churn_by_region = df.groupby('region')['churn'].mean()
    churn_by_region.plot(kind='bar', ax=axes[0,1], color='coral')
    axes[0,1].set_title('Tasa de Churn por Regi√≥n')
    axes[0,1].set_xlabel('Regi√≥n')
    axes[0,1].set_ylabel('Tasa de Churn')
    axes[0,1].tick_params(axis='x', rotation=45)
    
    # 3. Relaci√≥n entre tenure y monthly_charges
    axes[1,0].scatter(df['tenure_months'], df['monthly_charges'], alpha=0.5, color='green')
    axes[1,0].set_title('Relaci√≥n Antig√ºedad vs Cargo Mensual')
    axes[1,0].set_xlabel('Meses de Antig√ºedad')
    axes[1,0].set_ylabel('Cargo Mensual')
    
    # 4. Distribuci√≥n de uso de datos
    axes[1,1].hist(df['data_usage_gb'], bins=30, alpha=0.7, color='purple')
    axes[1,1].set_title('Distribuci√≥n de Uso de Datos (GB)')
    axes[1,1].set_xlabel('Uso de Datos (GB)')
    axes[1,1].set_ylabel('Frecuencia')
    
    plt.tight_layout()
    plt.show()
    
    return df

# M√©tricas clave
def calculate_kpis(df):
    print('\nüìà M√âTRICAS CLAVE:')
    print(f'üë• Total de clientes: {len(df):,}')
    print(f'üí∞ Ingreso promedio mensual: ${df["monthly_charges"].mean():.2f}')
    print(f'‚ö†Ô∏è  Tasa de churn general: {df["churn"].mean():.2%}')
    print(f'üì± Uso promedio de datos: {df["data_usage_gb"].mean():.2f} GB')
    print(f'‚è±Ô∏è  Antig√ºedad promedio: {df["tenure_months"].mean():.1f} meses')
    
    # Top regiones por ingresos
    revenue_by_region = df.groupby('region')['monthly_charges'].sum().sort_values(ascending=False)
    print(f'\nüèÜ Top 3 regiones por ingresos:')
    for i, (region, revenue) in enumerate(revenue_by_region.head(3).items(), 1):
        print(f'{i}. {region}: ${revenue:,.2f}')

# Ejecutar an√°lisis
final_data = analyze_and_visualize(clean_data)
calculate_kpis(clean_data)

# Guardar datos procesados
clean_data.to_csv('telecom_data_processed.csv', index=False)
print('\nüíæ Datos procesados guardados en: telecom_data_processed.csv')

#üìÑInforme final

In [None]:
# INFORME FINAL - INSIGHTS Y RECOMENDACIONES
print('=' * 60)
print('üìÑ INFORME FINAL - PROYECTO ETL TELECOMX')
print('=' * 60)

print('üîç RESUMEN EJECUTIVO:')
print('- Se procesaron exitosamente 1,000 registros de clientes')
print('- Se implement√≥ un pipeline ETL completo con Python')
print('- Se identificaron patrones clave en el comportamiento del cliente')

print('üìä PRINCIPALES HALLAZGOS:')

# An√°lisis de churn
churn_rate = clean_data['churn'].mean()
print(f'1. CHURN: La tasa de abandono es del {churn_rate:.1%}')

# An√°lisis por plan
plan_analysis = clean_data.groupby('plan_type').agg({
    'monthly_charges': 'mean',
    'churn': 'mean',
    'customer_id': 'count'
}).round(2)

print('2. AN√ÅLISIS POR PLAN:')
for plan in plan_analysis.index:
    charges = plan_analysis.loc[plan, 'monthly_charges']
    churn = plan_analysis.loc[plan, 'churn']
    count = plan_analysis.loc[plan, 'customer_id']
    print(f'   ‚Ä¢ {plan}: ${charges} promedio, {churn:.1%} churn, {count} clientes')

# An√°lisis regional
regional_performance = clean_data.groupby('region').agg({
    'monthly_charges': 'sum',
    'churn': 'mean'
}).sort_values('monthly_charges', ascending=False)

print('3. RENDIMIENTO REGIONAL:')
best_region = regional_performance.index[0]
worst_churn = regional_performance['churn'].idxmax()
print(f'   ‚Ä¢ Mejor regi√≥n por ingresos: {best_region}')
print(f'   ‚Ä¢ Mayor problema de churn: {worst_churn}')

print('üí° RECOMENDACIONES ESTRAT√âGICAS:')
print('1. Implementar programa de retenci√≥n en regi√≥n con mayor churn')
print('2. Analizar factores que contribuyen al √©xito en la mejor regi√≥n')
print('3. Desarrollar estrategias diferenciadas por tipo de plan')
print('4. Monitorear m√©tricas de uso de datos para upselling')

print('üéØ PR√ìXIMOS PASOS:')
print('- Implementar modelos predictivos de churn')
print('- Automatizar el pipeline ETL')
print('- Crear dashboard en tiempo real')
print('- Integrar m√°s fuentes de datos')

print('=' * 60)
print('‚úÖ PROYECTO ETL COMPLETADO EXITOSAMENTE')
print('=' * 60)