# AN√ÅLISIS EXPLORATORIO COMPLETO - CONSUMO DE COMBUSTIBLE
## Proyecto Final | Ciencia de Datos - ITSE

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

print("üöÄ AN√ÅLISIS EXPLORATORIO Y VISUALIZACIONES")
print("=" * 60)

## 1. CARGA DE DATOS ANONIMIZADOS

In [None]:
# Cargar datos anonimizados
df = pd.read_csv('../data/datasets_anonimizados.csv')

print(f"‚úÖ DATOS CARGADOS DESDE ARCHIVO ANONIMIZADO")
print(f"üìä Dataset: {len(df)} meses, {len(df.columns)} variables")
print("\nPrimeras filas:")
df.head()

## 2. AN√ÅLISIS ESTAD√çSTICO DESCRIPTIVO

In [None]:
print("\n" + "=" * 60)
print("üìä AN√ÅLISIS ESTAD√çSTICO DESCRIPTIVO")
print("=" * 60)

# Estad√≠sticas b√°sicas de consumo
print("\nüîç ESTAD√çSTICAS B√ÅSICAS:")
consumo_stats = df[['combustible_principal_litros', 'combustible_secundario_litros', 'kilometros_recorridos']].describe()
print(consumo_stats.round(2))

# Totales anuales
total_principal = df['combustible_principal_litros'].sum()
total_secundario = df['combustible_secundario_litros'].sum()

print(f"\nüí∞ TOTALES ANUALES:")
print(f"   ‚Ä¢ Combustible Principal: {total_principal:,.0f} L")
print(f"   ‚Ä¢ Combustible Secundario: {total_secundario:,.0f} L")

## 3. AN√ÅLISIS DE CORRELACIONES

In [None]:
print("\n" + "=" * 60)
print("üîó AN√ÅLISIS DE CORRELACIONES")
print("=" * 60)

# Seleccionar variables para correlaci√≥n
variables_correlacion = ['combustible_principal_litros', 'combustible_secundario_litros', 'kilometros_recorridos',
                        'vehiculos_grupo_a', 'viajes_largos']

matriz_correlacion = df[variables_correlacion].corr()

print("MATRIZ DE CORRELACIONES:")
print(matriz_correlacion.round(3))

## 4. VISUALIZACIONES

In [None]:
print("\n" + "=" * 60)
print("üé® GENERANDO VISUALIZACIONES...")
print("=" * 60)

# Configurar estilo y colores
plt.style.use('default')
sns.set_palette("husl")

COLORES = {
    'principal': '#ff7f0e',   # Naranja
    'secundario': '#1f77b4',  # Azul
}

meses = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun',
         'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']

# Gr√°fico 1: Evoluci√≥n mensual
plt.figure(figsize=(14, 6))

plt.subplot(1, 2, 1)
plt.plot(meses, df['combustible_principal_litros'], marker='o', linewidth=2.5,
         label='Principal', color=COLORES['principal'], markersize=6)
plt.title('EVOLUCI√ìN MENSUAL - COMBUSTIBLE PRINCIPAL', fontweight='bold', fontsize=12)
plt.xlabel('Mes')
plt.ylabel('Litros')
plt.legend()
plt.grid(True, alpha=0.3)
plt.xticks(rotation=45)

plt.subplot(1, 2, 2)
plt.plot(meses, df['combustible_secundario_litros'], marker='o', linewidth=2.5,
         label='Secundario', color=COLORES['secundario'], markersize=6)
plt.title('EVOLUCI√ìN MENSUAL - COMBUSTIBLE SECUNDARIO', fontweight='bold', fontsize=12)
plt.xlabel('Mes')
plt.ylabel('Litros')
plt.legend()
plt.grid(True, alpha=0.3)
plt.xticks(rotation=45)

plt.tight_layout()
plt.show()

# Gr√°fico 2: Heatmap de correlaciones
plt.figure(figsize=(10, 8))
sns.heatmap(matriz_correlacion, annot=True, cmap='YlOrBr', center=0,
            square=True, fmt='.2f', cbar_kws={'shrink': 0.8})
plt.title('MAPA DE CALOR - CORRELACIONES ENTRE VARIABLES', fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

# Gr√°fico 3: Kil√≥metros vs Consumo
plt.figure(figsize=(10, 6))

plt.scatter(df['kilometros_recorridos'], df['combustible_principal_litros'],
            alpha=0.7, s=100, color=COLORES['principal'], label='Principal')
plt.scatter(df['kilometros_recorridos'], df['combustible_secundario_litros'],
            alpha=0.7, s=100, color=COLORES['secundario'], label='Secundario')

plt.xlabel('Kil√≥metros Recorridos')
plt.ylabel('Litros Consumidos')
plt.title('RELACI√ìN: KIL√ìMETROS vs CONSUMO DE COMBUSTIBLE', fontweight='bold')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 5. HALLAZGOS PRINCIPALES

In [None]:
print("\n" + "=" * 60)
print("üéØ HALLAZGOS PRINCIPALES DEL AN√ÅLISIS EXPLORATORIO")
print("=" * 60)

# Hallazgos autom√°ticos
mes_max_principal = df['combustible_principal_litros'].idxmax()
mes_min_principal = df['combustible_principal_litros'].idxmin()
mes_max_secundario = df['combustible_secundario_litros'].idxmax()
mes_min_secundario = df['combustible_secundario_litros'].idxmin()

print(f"\nüìà CONSUMO M√ÅXIMO Y M√çNIMO:")
print(f"   ‚Ä¢ Principal: M√°ximo en {meses[mes_max_principal]} ({df['combustible_principal_litros'].max():,.0f} L)")
print(f"   ‚Ä¢ Principal: M√≠nimo en {meses[mes_min_principal]} ({df['combustible_principal_litros'].min():,.0f} L)")
print(f"   ‚Ä¢ Secundario: M√°ximo en {meses[mes_max_secundario]} ({df['combustible_secundario_litros'].max():,.0f} L)")
print(f"   ‚Ä¢ Secundario: M√≠nimo en {meses[mes_min_secundario]} ({df['combustible_secundario_litros'].min():,.0f} L)")

# Correlaciones m√°s fuertes
correlaciones_fuertes = matriz_correlacion.unstack().sort_values(ascending=False)
correlaciones_fuertes = correlaciones_fuertes[correlaciones_fuertes < 0.99]

print(f"\nüîó CORRELACIONES M√ÅS SIGNIFICATIVAS:")
for i in range(3):
    par = correlaciones_fuertes.index[i]
    valor = correlaciones_fuertes.iloc[i]
    print(f"   ‚Ä¢ {par[0]} vs {par[1]}: {valor:.3f}")

print(f"\n‚úÖ AN√ÅLISIS EXPLORATORIO COMPLETADO")
print(f"üìç Dataset analizado: {len(df)} meses de datos anonimizados")
print(f"üìç Visualizaciones generadas: 3 gr√°ficos principales")