# Análisis Exploratorio de Datos (EDA) - Coffee Quality Database

Este notebook contiene el análisis exploratorio inicial del dataset de calidad del café del Coffee Quality Institute (CQI).

## Objetivos:
1. Cargar y entender la estructura de los datos
2. Analizar variables y sus distribuciones
3. Identificar valores faltantes y outliers
4. Explorar correlaciones entre variables
5. Visualizar patrones y tendencias

**Autor:** Ricardo Contreras, Daniel Leon, Santiago Graciano  
**Fecha:** Octubre 2025

## 1. Configuración e Importación de Librerías

In [None]:
# Importaciones estándar
import sys
from pathlib import Path
import warnings

# Análisis de datos
import pandas as pd
import numpy as np

# Visualización
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

# Configuración
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

# Agregar src al path para imports
project_root = Path.cwd().parent
sys.path.append(str(project_root / 'src'))

print("✓ Librerías importadas correctamente")
print(f"✓ Pandas version: {pd.__version__}")
print(f"✓ NumPy version: {np.__version__}")

## 2. Carga de Datos

In [None]:
# Rutas a los datos
data_path = project_root / 'data' / 'raw'

# Cargar datasets
arabica_df = pd.read_csv(data_path / 'arabica_data_cleaned.csv')
robusta_df = pd.read_csv(data_path / 'robusta_data_cleaned.csv')

print(f"✓ Dataset Arábica cargado: {arabica_df.shape}")
print(f"✓ Dataset Robusta cargado: {robusta_df.shape}")

## 3. Exploración Inicial

In [None]:
# Primeras filas del dataset de Arábica
print("=== CAFÉ ARÁBICA - Primeras 5 filas ===")
display(arabica_df.head())

In [None]:
# Información general
print("=== INFORMACIÓN GENERAL - ARÁBICA ===")
arabica_df.info()

In [None]:
# Estadísticas descriptivas
print("=== ESTADÍSTICAS DESCRIPTIVAS - ARÁBICA ===")
display(arabica_df.describe())

## 4. Análisis de Variables

In [None]:
# Análisis de la variable objetivo: Total Cup Points
print("=== ANÁLISIS DE LA VARIABLE OBJETIVO ===")
print(f"Media: {arabica_df['Total.Cup.Points'].mean():.2f}")
print(f"Mediana: {arabica_df['Total.Cup.Points'].median():.2f}")
print(f"Desviación estándar: {arabica_df['Total.Cup.Points'].std():.2f}")
print(f"Mínimo: {arabica_df['Total.Cup.Points'].min():.2f}")
print(f"Máximo: {arabica_df['Total.Cup.Points'].max():.2f}")

## 5. Valores Faltantes

In [None]:
# Análisis de valores faltantes
missing_data = arabica_df.isnull().sum()
missing_percent = (missing_data / len(arabica_df)) * 100
missing_df = pd.DataFrame({
    'Valores Faltantes': missing_data,
    'Porcentaje': missing_percent
}).sort_values(by='Porcentaje', ascending=False)

print("=== VALORES FALTANTES ===")
display(missing_df[missing_df['Valores Faltantes'] > 0])

In [None]:
# Visualización de valores faltantes
fig, ax = plt.subplots(figsize=(12, 6))
missing_plot = missing_df[missing_df['Valores Faltantes'] > 0].head(20)
sns.barplot(x=missing_plot.index, y='Porcentaje', data=missing_plot, ax=ax)
ax.set_title('Top 20 Variables con Valores Faltantes', fontsize=14, fontweight='bold')
ax.set_xlabel('Variables')
ax.set_ylabel('Porcentaje de Valores Faltantes (%)')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

## 6. Distribuciones de Variables Numéricas

In [None]:
# Seleccionar variables numéricas relevantes
numeric_cols = arabica_df.select_dtypes(include=[np.number]).columns.tolist()

# Variables sensoriales importantes
sensory_vars = [
    'Total.Cup.Points', 'Aroma', 'Flavor', 'Aftertaste', 
    'Acidity', 'Body', 'Balance', 'Uniformity', 
    'Clean.Cup', 'Sweetness'
]

# Filtrar variables que existan en el dataset
sensory_vars = [col for col in sensory_vars if col in numeric_cols]

print(f"Variables sensoriales disponibles: {len(sensory_vars)}")

In [None]:
# Histogramas de variables sensoriales
fig, axes = plt.subplots(3, 4, figsize=(16, 10))
axes = axes.ravel()

for idx, col in enumerate(sensory_vars[:12]):
    axes[idx].hist(arabica_df[col].dropna(), bins=30, edgecolor='black', alpha=0.7)
    axes[idx].set_title(col, fontweight='bold')
    axes[idx].set_xlabel('Puntaje')
    axes[idx].set_ylabel('Frecuencia')
    axes[idx].grid(alpha=0.3)

plt.tight_layout()
plt.suptitle('Distribución de Variables Sensoriales - Café Arábica', 
             y=1.02, fontsize=16, fontweight='bold')
plt.show()

## 7. Matriz de Correlación

In [None]:
# Calcular matriz de correlación
correlation_matrix = arabica_df[sensory_vars].corr()

# Visualizar matriz de correlación
fig, ax = plt.subplots(figsize=(12, 10))
sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
            center=0, square=True, linewidths=1, cbar_kws={"shrink": 0.8})
ax.set_title('Matriz de Correlación - Variables Sensoriales', 
             fontsize=14, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

## 8. Análisis por País de Origen

In [None]:
# Top países productores
if 'Country.of.Origin' in arabica_df.columns:
    top_countries = arabica_df['Country.of.Origin'].value_counts().head(15)
    
    fig, ax = plt.subplots(figsize=(12, 6))
    top_countries.plot(kind='barh', ax=ax)
    ax.set_title('Top 15 Países Productores de Café Arábica', 
                 fontsize=14, fontweight='bold')
    ax.set_xlabel('Número de Muestras')
    ax.set_ylabel('País')
    plt.tight_layout()
    plt.show()
    
    print("\n=== TOP 10 PAÍSES PRODUCTORES ===")
    display(top_countries.head(10))

## 9. Conclusiones Preliminares

**A completar después del análisis:**

1. Descripción general de los datos
2. Principales hallazgos sobre la calidad del café
3. Variables con mayor correlación
4. Problemas identificados (valores faltantes, outliers)
5. Próximos pasos para el preprocesamiento

## 10. Guardar Observaciones Clave

In [None]:
# Crear diccionario con hallazgos clave
eda_findings = {
    'total_samples_arabica': len(arabica_df),
    'total_samples_robusta': len(robusta_df),
    'features_count': len(arabica_df.columns),
    'missing_values_summary': missing_df.to_dict(),
    'target_mean': arabica_df['Total.Cup.Points'].mean(),
    'target_std': arabica_df['Total.Cup.Points'].std(),
}

print("✓ Hallazgos clave guardados para referencia")