In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

# Configuración de visualización
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline


In [None]:
# 1. CARGA Y VISTA INICIAL DE DATOS
print("=" * 80)
print("1. CARGA DE DATOS")
print("=" * 80)

# Cargar el dataset (ajusta la ruta si tu CSV está en otra carpeta)
df = pd.read_csv('data/Food_Delivery_Times.csv')

print(f"\nDimensiones del dataset: {df.shape[0]} filas x {df.shape[1]} columnas")
print("\nPrimeras 5 filas:")
print(df.head())

In [None]:
print("\n" + "=" * 80)
print("2. INFORMACIÓN GENERAL")
print("=" * 80)
print("\nInformación del dataset:")
df.info()

In [None]:
print("\n" + "=" * 80)
print("3. ESTADÍSTICAS DESCRIPTIVAS")
print("=" * 80)
print("\nEstadísticas para variables numéricas:")
print(df.describe())

print("\nEstadísticas para variables categóricas:")
print(df.describe(include='object'))

In [None]:
# 4. VALORES FALTANTES
print("\n" + "=" * 80)
print("4. ANÁLISIS DE VALORES FALTANTES")
print("=" * 80)

missing = df.isnull().sum()
missing_pct = 100 * df.isnull().sum() / len(df)
missing_table = pd.DataFrame({
    'Valores Faltantes': missing,
    'Porcentaje (%)': missing_pct
})
missing_table = missing_table[missing_table['Valores Faltantes'] > 0].sort_values(
    'Porcentaje (%)', ascending=False
)

if len(missing_table) > 0:
    print("\nVariables con valores faltantes:")
    print(missing_table)
    
    # Visualización de valores faltantes
    plt.figure(figsize=(10, 6))
    missing_table['Porcentaje (%)'].plot(kind='barh', color='coral')
    plt.xlabel('Porcentaje de Valores Faltantes (%)')
    plt.title('Valores Faltantes por Variable')
    plt.tight_layout()
    plt.show()
else:
    print("\n✓ No hay valores faltantes en el dataset")

In [None]:
# 5. ANÁLISIS UNIVARIADO
print("\n" + "=" * 80)
print("5. ANÁLISIS UNIVARIADO")
print("=" * 80)

# Variable objetivo: Delivery_Time_min
print("\n--- Variable Objetivo: Delivery_Time_min ---")
print(f"Media: {df['Delivery_Time_min'].mean():.2f} minutos")
print(f"Mediana: {df['Delivery_Time_min'].median():.2f} minutos")
print(f"Desviación estándar: {df['Delivery_Time_min'].std():.2f} minutos")
print(f"Mínimo: {df['Delivery_Time_min'].min():.2f} minutos")
print(f"Máximo: {df['Delivery_Time_min'].max():.2f} minutos")

# Visualización de la variable objetivo
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Histograma
axes[0, 0].hist(df['Delivery_Time_min'], bins=30, color='skyblue', edgecolor='black')
axes[0, 0].set_xlabel('Tiempo de Entrega (min)')
axes[0, 0].set_ylabel('Frecuencia')
axes[0, 0].set_title('Distribución de Tiempos de Entrega')

# Boxplot
axes[0, 1].boxplot(df['Delivery_Time_min'], vert=True)
axes[0, 1].set_ylabel('Tiempo de Entrega (min)')
axes[0, 1].set_title('Boxplot de Tiempos de Entrega')
axes[0, 1].grid(True, alpha=0.3)

# QQ-plot
stats.probplot(df['Delivery_Time_min'], dist="norm", plot=axes[1, 0])
axes[1, 0].set_title('Q-Q Plot')

# KDE
df['Delivery_Time_min'].plot(kind='kde', ax=axes[1, 1], color='green')
axes[1, 1].set_xlabel('Tiempo de Entrega (min)')
axes[1, 1].set_title('Densidad de Tiempos de Entrega')

plt.tight_layout()
plt.show()

# Análisis de variables numéricas
print("\n--- Variables Numéricas ---")
numeric_cols = ['Distance_km', 'Preparation_Time_min', 'Courier_Experience_yrs']

fig, axes = plt.subplots(2, 3, figsize=(18, 10))
axes = axes.flatten()

for i, col in enumerate(numeric_cols):
    # Histograma
    axes[i].hist(df[col].dropna(), bins=25, color='lightblue', edgecolor='black')
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('Frecuencia')
    axes[i].set_title(f'Distribución de {col}')
    
    # Boxplot
    axes[i+3].boxplot(df[col].dropna(), vert=True)
    axes[i+3].set_ylabel(col)
    axes[i+3].set_title(f'Boxplot de {col}')
    axes[i+3].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# Análisis de variables categóricas
print("\n--- Variables Categóricas ---")
categorical_cols = ['Weather', 'Traffic_Level', 'Time_of_Day', 'Vehicle_Type']

fig, axes = plt.subplots(2, 2, figsize=(16, 10))
axes = axes.flatten()

for i, col in enumerate(categorical_cols):
    counts = df[col].value_counts()
    print(f"\n{col}:")
    print(counts)
    
    axes[i].bar(counts.index, counts.values, color='steelblue', edgecolor='black')
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('Frecuencia')
    axes[i].set_title(f'Distribución de {col}')
    axes[i].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

In [None]:
# 6. ANÁLISIS BIVARIADO
print("\n" + "=" * 80)
print("6. ANÁLISIS BIVARIADO")
print("=" * 80)

# Correlación entre variables numéricas
print("\n--- Matriz de Correlación ---")
numeric_data = df[['Distance_km', 'Preparation_Time_min', 'Courier_Experience_yrs', 
                    'Delivery_Time_min']].dropna()
correlation_matrix = numeric_data.corr()
print(correlation_matrix)

plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, 
            square=True, linewidths=1, cbar_kws={"shrink": 0.8})
plt.title('Matriz de Correlación', fontsize=16, pad=20)
plt.tight_layout()
plt.show()

# Scatter plots
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

axes[0].scatter(df['Distance_km'], df['Delivery_Time_min'], alpha=0.5, color='blue')
axes[0].set_xlabel('Distancia (km)')
axes[0].set_ylabel('Tiempo de Entrega (min)')
axes[0].set_title('Distancia vs Tiempo de Entrega')
axes[0].grid(True, alpha=0.3)

axes[1].scatter(df['Preparation_Time_min'], df['Delivery_Time_min'], alpha=0.5, color='green')
axes[1].set_xlabel('Tiempo de Preparación (min)')
axes[1].set_ylabel('Tiempo de Entrega (min)')
axes[1].set_title('Tiempo de Preparación vs Tiempo de Entrega')
axes[1].grid(True, alpha=0.3)

axes[2].scatter(df['Courier_Experience_yrs'], df['Delivery_Time_min'], alpha=0.5, color='red')
axes[2].set_xlabel('Experiencia del Courier (años)')
axes[2].set_ylabel('Tiempo de Entrega (min)')
axes[2].set_title('Experiencia vs Tiempo de Entrega')
axes[2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# Análisis por variables categóricas
print("\n--- Tiempo de Entrega por Variables Categóricas ---")

fig, axes = plt.subplots(2, 2, figsize=(16, 12))
axes = axes.flatten()

for i, col in enumerate(categorical_cols):
    df_clean = df[[col, 'Delivery_Time_min']].dropna()
    df_clean.boxplot(column='Delivery_Time_min', by=col, ax=axes[i])
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('Tiempo de Entrega (min)')
    axes[i].set_title(f'Tiempo de Entrega por {col}')
    axes[i].get_figure().suptitle('')
    
    # Estadísticas
    print(f"\n{col}:")
    print(df_clean.groupby(col)['Delivery_Time_min'].describe())

plt.tight_layout()
plt.show()

In [None]:
# 7. DETECCIÓN DE OUTLIERS
print("\n" + "=" * 80)
print("7. DETECCIÓN DE OUTLIERS")
print("=" * 80)

def detect_outliers_iqr(data, column):
    Q1 = data[column].quantile(0.25)
    Q3 = data[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = data[(data[column] < lower_bound) | (data[column] > upper_bound)]
    return outliers, lower_bound, upper_bound

numeric_cols_with_target = numeric_cols + ['Delivery_Time_min']

for col in numeric_cols_with_target:
    outliers, lower, upper = detect_outliers_iqr(df, col)
    pct_outliers = (len(outliers) / len(df)) * 100
    print(f"\n{col}:")
    print(f"  Límite inferior: {lower:.2f}")
    print(f"  Límite superior: {upper:.2f}")
    print(f"  Cantidad de outliers: {len(outliers)} ({pct_outliers:.2f}%)")

In [None]:
# 8. RESUMEN Y CONCLUSIONES
print("\n" + "=" * 80)
print("8. RESUMEN Y CONCLUSIONES")
print("=" * 80)

print(f"""
RESUMEN DEL ANÁLISIS EXPLORATORIO:

1. Dataset:
   - Total de registros: {len(df)}
   - Total de variables: {len(df.columns)}
   - Variables numéricas: {len(df.select_dtypes(include=[np.number]).columns)}
   - Variables categóricas: {len(df.select_dtypes(include=['object']).columns)}

2. Variable Objetivo (Delivery_Time_min):
   - Promedio: {df['Delivery_Time_min'].mean():.2f} minutos
   - Rango: {df['Delivery_Time_min'].min():.0f} - {df['Delivery_Time_min'].max():.0f} minutos
   
3. Correlaciones más fuertes con Delivery_Time_min:
{correlation_matrix['Delivery_Time_min'].sort_values(ascending=False).to_string()}

4. Valores Faltantes:
   - Total de valores faltantes: {df.isnull().sum().sum()}
   - Variables afectadas: {len(missing_table) if len(missing_table) > 0 else 0}

5. Características del Delivery:
   - Distancia promedio: {df['Distance_km'].mean():.2f} km
   - Tiempo de preparación promedio: {df['Preparation_Time_min'].mean():.2f} min
   - Experiencia promedio de couriers: {df['Courier_Experience_yrs'].mean():.2f} años
   - Tipo de vehículo más común: {df['Vehicle_Type'].mode()[0]}
   - Condición climática más frecuente: {df['Weather'].mode()[0]}
""")

print("\n" + "=" * 80)
print("EDA COMPLETADO")
print("=" * 80)