# üìä An√°lisis Exploratorio de Datos (EDA) y Transformaci√≥n (ETL)
## Proyecto: An√°lisis de Exportaciones Colombianas

---

**Objetivo:** Realizar un an√°lisis exploratorio completo del dataset de exportaciones y preparar los datos para modelos de Machine Learning.

**Dataset:** DATAPROYECTO.xlsx - Contiene informaci√≥n detallada sobre exportaciones colombianas

**Contenido:**
1. Carga y exploraci√≥n inicial
2. An√°lisis de valores faltantes
3. An√°lisis estad√≠stico descriptivo
4. Visualizaciones exploratorias
5. Detecci√≥n de outliers
6. Transformaci√≥n y limpieza (ETL)
7. Feature Engineering
8. Exportaci√≥n de datos limpios

## 1. Importaci√≥n de Librer√≠as

In [None]:
# Librer√≠as para manipulaci√≥n de datos
import pandas as pd
import numpy as np

# Librer√≠as para visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n de estilo
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

# Configuraci√≥n de pandas para mejor visualizaci√≥n
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

# Librer√≠as para an√°lisis estad√≠stico
from scipy import stats
from scipy.stats import skew, kurtosis

# Ignorar warnings
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Librer√≠as importadas exitosamente")

## 2. Carga de Datos

In [None]:
# Cargar el dataset desde Excel
df = pd.read_excel('DATAPROYECTO.xlsx', sheet_name='Detalle')

# Crear una copia para trabajo
df_original = df.copy()

print(f"üì¶ Dataset cargado exitosamente")
print(f"   Dimensiones: {df.shape[0]:,} filas √ó {df.shape[1]} columnas")
print(f"   Tama√±o en memoria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

## 3. Exploraci√≥n Inicial del Dataset

In [None]:
# Vista general de las primeras filas
print("üìã PRIMERAS 10 FILAS DEL DATASET")
print("="*100)
display(df.head(10))

In [None]:
# Informaci√≥n general del dataset
print("‚ÑπÔ∏è INFORMACI√ìN GENERAL DEL DATASET")
print("="*100)
df.info()

In [None]:
# Nombres de las columnas
print("üìù COLUMNAS DEL DATASET:")
print("="*100)
for i, col in enumerate(df.columns, 1):
    print(f"{i:2d}. {col}")

In [None]:
# Tipos de datos por columna
print("üî¢ TIPOS DE DATOS:")
print("="*100)
tipos = df.dtypes.value_counts()
print(tipos)
print(f"\nüìä Resumen:")
print(f"   ‚Ä¢ Num√©ricas (int64): {(df.dtypes == 'int64').sum()}")
print(f"   ‚Ä¢ Num√©ricas (float64): {(df.dtypes == 'float64').sum()}")
print(f"   ‚Ä¢ Categ√≥ricas (object): {(df.dtypes == 'object').sum()}")

## 4. An√°lisis de Valores Faltantes

In [None]:
# Calcular valores nulos
missing_data = pd.DataFrame({
    'Columna': df.columns,
    'Valores_Nulos': df.isnull().sum(),
    'Porcentaje_%': (df.isnull().sum() / len(df)) * 100
}).sort_values('Valores_Nulos', ascending=False)

missing_data = missing_data[missing_data['Valores_Nulos'] > 0]

print("‚ùå AN√ÅLISIS DE VALORES FALTANTES:")
print("="*100)
if len(missing_data) > 0:
    display(missing_data)
    print(f"\n‚ö†Ô∏è Total de columnas con valores faltantes: {len(missing_data)}")
else:
    print("‚úÖ No hay valores faltantes en el dataset")

In [None]:
# Visualizaci√≥n de valores faltantes
if len(missing_data) > 0:
    plt.figure(figsize=(12, 6))
    plt.barh(missing_data['Columna'], missing_data['Porcentaje_%'], color='coral')
    plt.xlabel('Porcentaje de Valores Faltantes (%)', fontsize=12)
    plt.ylabel('Columnas', fontsize=12)
    plt.title('Valores Faltantes por Columna', fontsize=14, fontweight='bold')
    plt.grid(axis='x', alpha=0.3)
    for i, v in enumerate(missing_data['Porcentaje_%']):
        plt.text(v + 0.5, i, f'{v:.2f}%', va='center')
    plt.tight_layout()
    plt.show()

## 5. Estad√≠sticas Descriptivas

In [None]:
# Estad√≠sticas para variables num√©ricas
print("üìà ESTAD√çSTICAS DESCRIPTIVAS - VARIABLES NUM√âRICAS:")
print("="*100)
display(df.describe().T)

In [None]:
# Estad√≠sticas para variables categ√≥ricas
print("üìä ESTAD√çSTICAS DESCRIPTIVAS - VARIABLES CATEG√ìRICAS:")
print("="*100)
categorical_cols = df.select_dtypes(include=['object']).columns

cat_stats = pd.DataFrame({
    'Columna': categorical_cols,
    'Valores_√önicos': [df[col].nunique() for col in categorical_cols],
    'Valor_M√°s_Frecuente': [df[col].mode()[0] if len(df[col].mode()) > 0 else None for col in categorical_cols],
    'Frecuencia_Max': [df[col].value_counts().iloc[0] for col in categorical_cols]
})
display(cat_stats)

## 6. An√°lisis de Distribuciones - Variables Num√©ricas Clave

In [None]:
# Seleccionar las variables num√©ricas m√°s importantes para visualizaci√≥n
numerical_cols_key = ['Valor FOB (USD)', 'Peso en kilos netos', 'Peso en kilos brutos', 
                      'Cantidad(es)', 'Precio Unitario FOB (USD) Peso Neto']

# Crear visualizaciones de distribuci√≥n
fig, axes = plt.subplots(3, 2, figsize=(15, 12))
axes = axes.ravel()

for idx, col in enumerate(numerical_cols_key):
    # Histograma con KDE
    sns.histplot(df[col].dropna(), kde=True, ax=axes[idx], color='steelblue')
    axes[idx].set_title(f'Distribuci√≥n: {col}', fontweight='bold')
    axes[idx].set_xlabel(col)
    axes[idx].set_ylabel('Frecuencia')
    
    # A√±adir estad√≠sticas en el gr√°fico
    mean_val = df[col].mean()
    median_val = df[col].median()
    axes[idx].axvline(mean_val, color='red', linestyle='--', label=f'Media: {mean_val:.2f}')
    axes[idx].axvline(median_val, color='green', linestyle='--', label=f'Mediana: {median_val:.2f}')
    axes[idx].legend()

plt.tight_layout()
plt.show()

print("üìä Las distribuciones muestran el comportamiento de las variables num√©ricas principales")

In [None]:
# Box plots para detectar outliers
fig, axes = plt.subplots(2, 3, figsize=(18, 10))
axes = axes.ravel()

for idx, col in enumerate(numerical_cols_key):
    sns.boxplot(y=df[col].dropna(), ax=axes[idx], color='lightcoral')
    axes[idx].set_title(f'Box Plot: {col}', fontweight='bold')
    axes[idx].set_ylabel(col)

plt.tight_layout()
plt.show()

print("üì¶ Los box plots permiten identificar valores at√≠picos en cada variable")

## 7. An√°lisis de Variables Categ√≥ricas

In [None]:
# Top 10 pa√≠ses de destino
print("üåç TOP 10 PA√çSES DE DESTINO:")
print("="*100)
top_paises = df['Pa√≠s de Destino'].value_counts().head(10)
print(top_paises)

plt.figure(figsize=(12, 6))
top_paises.plot(kind='barh', color='skyblue')
plt.title('Top 10 Pa√≠ses de Destino', fontsize=14, fontweight='bold')
plt.xlabel('N√∫mero de Exportaciones')
plt.ylabel('Pa√≠s')
plt.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# Distribuci√≥n por continente
print("üåé DISTRIBUCI√ìN POR CONTINENTE:")
print("="*100)
continente_dist = df['Continente Destino'].value_counts()
print(continente_dist)

plt.figure(figsize=(10, 6))
plt.pie(continente_dist.values, labels=continente_dist.index, autopct='%1.1f%%', 
        startangle=90, colors=sns.color_palette('pastel'))
plt.title('Distribuci√≥n de Exportaciones por Continente', fontsize=14, fontweight='bold')
plt.axis('equal')
plt.tight_layout()
plt.show()

In [None]:
# Top 10 departamentos de origen
print("üìç TOP 10 DEPARTAMENTOS DE ORIGEN:")
print("="*100)
top_deptos = df['Departamento Origen'].value_counts().head(10)
print(top_deptos)

plt.figure(figsize=(12, 6))
top_deptos.plot(kind='bar', color='lightgreen')
plt.title('Top 10 Departamentos de Origen', fontsize=14, fontweight='bold')
plt.xlabel('Departamento')
plt.ylabel('N√∫mero de Exportaciones')
plt.xticks(rotation=45, ha='right')
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# An√°lisis de v√≠as de transporte
print("üö¢ V√çAS DE TRANSPORTE:")
print("="*100)
transporte_dist = df['V√≠a de transporte'].value_counts()
print(transporte_dist)

plt.figure(figsize=(10, 6))
transporte_dist.plot(kind='bar', color='coral')
plt.title('Distribuci√≥n por V√≠a de Transporte', fontsize=14, fontweight='bold')
plt.xlabel('V√≠a de Transporte')
plt.ylabel('Frecuencia')
plt.xticks(rotation=45, ha='right')
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

## 8. An√°lisis de Correlaciones

In [None]:
# Matriz de correlaci√≥n para variables num√©ricas
numerical_cols = df.select_dtypes(include=[np.number]).columns.tolist()

# Calcular matriz de correlaci√≥n
correlation_matrix = df[numerical_cols].corr()

# Visualizar matriz de correlaci√≥n
plt.figure(figsize=(14, 10))
sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
            center=0, square=True, linewidths=1, cbar_kws={"shrink": 0.8})
plt.title('Matriz de Correlaci√≥n - Variables Num√©ricas', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

print("\nüîó CORRELACIONES M√ÅS FUERTES (|r| > 0.7):")
print("="*100)
# Encontrar correlaciones fuertes
high_corr = []
for i in range(len(correlation_matrix.columns)):
    for j in range(i):
        if abs(correlation_matrix.iloc[i, j]) > 0.7:
            high_corr.append((
                correlation_matrix.columns[i],
                correlation_matrix.columns[j],
                correlation_matrix.iloc[i, j]
            ))

if high_corr:
    for var1, var2, corr in high_corr:
        print(f"   ‚Ä¢ {var1} ‚Üî {var2}: r = {corr:.3f}")
else:
    print("   No se encontraron correlaciones muy fuertes (|r| > 0.7)")

## 9. Detecci√≥n de Outliers

In [None]:
# Funci√≥n para detectar outliers usando IQR
def detect_outliers_iqr(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
    return outliers, lower_bound, upper_bound

# Analizar outliers en variables clave
print("üéØ AN√ÅLISIS DE OUTLIERS (M√©todo IQR):")
print("="*100)

outlier_summary = []
for col in numerical_cols_key:
    outliers, lower, upper = detect_outliers_iqr(df, col)
    pct_outliers = (len(outliers) / len(df)) * 100
    outlier_summary.append({
        'Variable': col,
        'Outliers': len(outliers),
        'Porcentaje_%': pct_outliers,
        'L√≠mite_Inferior': lower,
        'L√≠mite_Superior': upper
    })

outlier_df = pd.DataFrame(outlier_summary)
display(outlier_df)

## 10. ETL - Transformaci√≥n y Limpieza de Datos

In [None]:
# Crear copia para transformaci√≥n
df_clean = df.copy()

print("üîß INICIANDO PROCESO ETL...")
print("="*100)

# 1. Manejo de valores faltantes
print("\n1Ô∏è‚É£ Tratamiento de valores faltantes:")

# Para columnas num√©ricas: imputar con la mediana
numeric_cols_with_nulls = df_clean.select_dtypes(include=[np.number]).columns[df_clean.select_dtypes(include=[np.number]).isnull().any()].tolist()
for col in numeric_cols_with_nulls:
    median_val = df_clean[col].median()
    df_clean[col].fillna(median_val, inplace=True)
    print(f"   ‚úì {col}: Imputado con mediana = {median_val:.2f}")

# Para columnas categ√≥ricas: imputar con 'Desconocido'
categorical_cols_with_nulls = df_clean.select_dtypes(include=['object']).columns[df_clean.select_dtypes(include=['object']).isnull().any()].tolist()
for col in categorical_cols_with_nulls:
    df_clean[col].fillna('Desconocido', inplace=True)
    print(f"   ‚úì {col}: Imputado con 'Desconocido'")

print(f"\n   Total valores nulos restantes: {df_clean.isnull().sum().sum()}")

In [None]:
# 2. Eliminaci√≥n de duplicados
print("\n2Ô∏è‚É£ Eliminaci√≥n de duplicados:")
duplicates_before = df_clean.duplicated().sum()
df_clean.drop_duplicates(inplace=True)
duplicates_after = df_clean.duplicated().sum()
print(f"   ‚úì Duplicados eliminados: {duplicates_before}")
print(f"   ‚úì Filas restantes: {len(df_clean):,}")

In [None]:
# 3. Normalizaci√≥n de texto en columnas categ√≥ricas
print("\n3Ô∏è‚É£ Normalizaci√≥n de texto:")
text_columns = ['Pa√≠s de Destino', 'Departamento Origen', 'Continente Destino', 
                'V√≠a de transporte', 'Raz√≥n social actual Exportador']

for col in text_columns:
    if col in df_clean.columns:
        # Convertir a may√∫sculas y eliminar espacios extras
        df_clean[col] = df_clean[col].str.upper().str.strip()
        print(f"   ‚úì {col}: Normalizado")

In [None]:
# 4. Creaci√≥n de variables derivadas
print("\n4Ô∏è‚É£ Feature Engineering - Creaci√≥n de nuevas variables:")

# Ratio Peso Bruto/Neto
df_clean['Ratio_Peso_Bruto_Neto'] = df_clean['Peso en kilos brutos'] / (df_clean['Peso en kilos netos'] + 1e-10)
print("   ‚úì Ratio_Peso_Bruto_Neto: Creada")

# Valor por kilogramo
df_clean['Valor_Por_Kg'] = df_clean['Valor FOB (USD)'] / (df_clean['Peso en kilos netos'] + 1e-10)
print("   ‚úì Valor_Por_Kg: Creada")

# Clasificaci√≥n de valor de exportaci√≥n
def clasificar_valor(valor):
    if valor < 1000:
        return 'Bajo'
    elif valor < 10000:
        return 'Medio'
    elif valor < 100000:
        return 'Alto'
    else:
        return 'Muy Alto'

df_clean['Categoria_Valor'] = df_clean['Valor FOB (USD)'].apply(clasificar_valor)
print("   ‚úì Categoria_Valor: Creada (Bajo/Medio/Alto/Muy Alto)")

# Eficiencia de transporte (Valor por art√≠culo)
df_clean['Valor_Por_Articulo'] = df_clean['Valor FOB (USD)'] / (df_clean['N√∫mero de art√≠culos'] + 1e-10)
print("   ‚úì Valor_Por_Articulo: Creada")

# Peso promedio por art√≠culo
df_clean['Peso_Promedio_Articulo'] = df_clean['Peso en kilos netos'] / (df_clean['N√∫mero de art√≠culos'] + 1e-10)
print("   ‚úì Peso_Promedio_Articulo: Creada")

print(f"\n   üìä Total de columnas despu√©s de Feature Engineering: {len(df_clean.columns)}")

In [None]:
# 5. Manejo de outliers extremos (opcional - usar con cuidado)
print("\n5Ô∏è‚É£ Manejo de outliers extremos:")
print("   ‚ÑπÔ∏è Se aplicar√° winsorizaci√≥n para valores extremos (percentil 1% y 99%)")

# Aplicar winsorizaci√≥n a las variables num√©ricas clave
from scipy.stats.mstats import winsorize

cols_to_winsorize = ['Valor FOB (USD)', 'Peso en kilos netos', 'Cantidad(es)', 'Valor_Por_Kg']

for col in cols_to_winsorize:
    if col in df_clean.columns:
        # Winsorizar entre el 1% y 99%
        df_clean[col + '_winsorized'] = winsorize(df_clean[col], limits=[0.01, 0.01])
        print(f"   ‚úì {col}: Winsorizado (1%-99%)")

## 11. Codificaci√≥n de Variables Categ√≥ricas

In [None]:
print("üî¢ CODIFICACI√ìN DE VARIABLES CATEG√ìRICAS:")
print("="*100)

from sklearn.preprocessing import LabelEncoder

# Crear copia para codificaci√≥n
df_encoded = df_clean.copy()

# Seleccionar columnas categ√≥ricas principales para codificar
categorical_to_encode = ['Pa√≠s de Destino', 'Continente Destino', 'Departamento Origen',
                         'V√≠a de transporte', 'Moneda de negociaci√≥n', 'Forma de pago',
                         'Aduana De Embarque', 'Categoria_Valor']

label_encoders = {}

for col in categorical_to_encode:
    if col in df_encoded.columns:
        le = LabelEncoder()
        df_encoded[col + '_encoded'] = le.fit_transform(df_encoded[col].astype(str))
        label_encoders[col] = le
        print(f"   ‚úì {col}: Codificado ({df_encoded[col].nunique()} categor√≠as)")

print(f"\n   Total de variables codificadas: {len(label_encoders)}")

## 12. Escalamiento de Variables Num√©ricas

In [None]:
print("üìè ESCALAMIENTO DE VARIABLES NUM√âRICAS:")
print("="*100)

from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Variables num√©ricas a escalar
numeric_cols_to_scale = ['Valor FOB (USD)', 'Peso en kilos netos', 'Peso en kilos brutos',
                         'Cantidad(es)', 'Precio Unitario FOB (USD) Peso Neto',
                         'Ratio_Peso_Bruto_Neto', 'Valor_Por_Kg', 'Valor_Por_Articulo']

# StandardScaler (Z-score normalization)
scaler_standard = StandardScaler()
for col in numeric_cols_to_scale:
    if col in df_encoded.columns:
        df_encoded[col + '_scaled'] = scaler_standard.fit_transform(df_encoded[[col]])

print("   ‚úì StandardScaler aplicado (media=0, std=1)")

# MinMaxScaler (normalizaci√≥n 0-1)
scaler_minmax = MinMaxScaler()
for col in numeric_cols_to_scale:
    if col in df_encoded.columns:
        df_encoded[col + '_normalized'] = scaler_minmax.fit_transform(df_encoded[[col]])

print("   ‚úì MinMaxScaler aplicado (rango 0-1)")
print(f"\n   Total de columnas despu√©s del escalamiento: {len(df_encoded.columns)}")

## 13. Validaci√≥n de Datos Limpios

In [None]:
print("‚úÖ VALIDACI√ìN DE DATOS LIMPIOS:")
print("="*100)

print(f"\nüìä Dimensiones finales:")
print(f"   ‚Ä¢ Filas: {df_encoded.shape[0]:,}")
print(f"   ‚Ä¢ Columnas: {df_encoded.shape[1]}")

print(f"\n‚ùå Valores nulos:")
nulls = df_encoded.isnull().sum().sum()
print(f"   ‚Ä¢ Total: {nulls}")

print(f"\nüî¢ Tipos de datos:")
print(f"   ‚Ä¢ Num√©ricas: {len(df_encoded.select_dtypes(include=[np.number]).columns)}")
print(f"   ‚Ä¢ Categ√≥ricas: {len(df_encoded.select_dtypes(include=['object']).columns)}")

print(f"\nüíæ Tama√±o en memoria: {df_encoded.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

print("\n" + "="*100)
print("‚úÖ PROCESO ETL COMPLETADO EXITOSAMENTE")
print("="*100)

## 14. Exportaci√≥n de Datos Procesados

In [None]:
print("üíæ EXPORTANDO DATASETS PROCESADOS...")
print("="*100)

# Guardar diferentes versiones del dataset

# 1. Dataset limpio sin codificar (para an√°lisis)
df_clean.to_csv('data_clean.csv', index=False)
print("   ‚úì data_clean.csv guardado")

# 2. Dataset codificado y escalado (para ML)
df_encoded.to_csv('data_processed.csv', index=False)
print("   ‚úì data_processed.csv guardado")

# 3. Dataset solo con variables num√©ricas (para clustering)
df_numeric = df_encoded.select_dtypes(include=[np.number])
df_numeric.to_csv('data_numeric.csv', index=False)
print("   ‚úì data_numeric.csv guardado")

# 4. Guardar tambi√©n en formato pickle para preservar tipos de datos
import pickle

with open('data_processed.pkl', 'wb') as f:
    pickle.dump(df_encoded, f)
print("   ‚úì data_processed.pkl guardado")

# 5. Guardar los encoders y scalers
with open('label_encoders.pkl', 'wb') as f:
    pickle.dump(label_encoders, f)
print("   ‚úì label_encoders.pkl guardado")

print("\n" + "="*100)
print("‚úÖ TODOS LOS ARCHIVOS GUARDADOS EXITOSAMENTE")
print("="*100)

## 15. Resumen Final del EDA y ETL

In [None]:
print("\n" + "="*100)
print("üìã RESUMEN EJECUTIVO - EDA Y ETL")
print("="*100)

print("\nüîç DATOS ORIGINALES:")
print(f"   ‚Ä¢ Registros: {df_original.shape[0]:,}")
print(f"   ‚Ä¢ Variables: {df_original.shape[1]}")
print(f"   ‚Ä¢ Valores nulos: {df_original.isnull().sum().sum():,}")

print("\nüõ†Ô∏è TRANSFORMACIONES APLICADAS:")
print("   1. ‚úì Imputaci√≥n de valores faltantes")
print("   2. ‚úì Eliminaci√≥n de duplicados")
print("   3. ‚úì Normalizaci√≥n de texto")
print("   4. ‚úì Feature Engineering (5 nuevas variables)")
print("   5. ‚úì Tratamiento de outliers (winsorizaci√≥n)")
print("   6. ‚úì Codificaci√≥n de variables categ√≥ricas")
print("   7. ‚úì Escalamiento de variables num√©ricas")

print("\nüìä DATOS PROCESADOS:")
print(f"   ‚Ä¢ Registros finales: {df_encoded.shape[0]:,}")
print(f"   ‚Ä¢ Variables finales: {df_encoded.shape[1]}")
print(f"   ‚Ä¢ Nuevas variables creadas: {df_encoded.shape[1] - df_original.shape[1]}")
print(f"   ‚Ä¢ Valores nulos: {df_encoded.isnull().sum().sum()}")

print("\nüíæ ARCHIVOS GENERADOS:")
print("   ‚Ä¢ data_clean.csv - Dataset limpio sin codificar")
print("   ‚Ä¢ data_processed.csv - Dataset completo procesado")
print("   ‚Ä¢ data_numeric.csv - Solo variables num√©ricas")
print("   ‚Ä¢ data_processed.pkl - Dataset en formato pickle")
print("   ‚Ä¢ label_encoders.pkl - Encoders guardados")

print("\nüéØ INSIGHTS PRINCIPALES:")
print(f"   ‚Ä¢ Principal pa√≠s destino: {df_clean['Pa√≠s de Destino'].mode()[0]}")
print(f"   ‚Ä¢ Principal continente: {df_clean['Continente Destino'].mode()[0]}")
print(f"   ‚Ä¢ Departamento con m√°s exportaciones: {df_clean['Departamento Origen'].mode()[0]}")
print(f"   ‚Ä¢ V√≠a de transporte m√°s usada: {df_clean['V√≠a de transporte'].mode()[0]}")
print(f"   ‚Ä¢ Valor FOB promedio: ${df_clean['Valor FOB (USD)'].mean():,.2f} USD")
print(f"   ‚Ä¢ Valor FOB mediano: ${df_clean['Valor FOB (USD)'].median():,.2f} USD")

print("\n" + "="*100)
print("üéâ AN√ÅLISIS EXPLORATORIO Y ETL FINALIZADOS")
print("üìå Los datos est√°n listos para ser utilizados en modelos de Machine Learning")
print("="*100)

---

## üéì Conclusiones y Pr√≥ximos Pasos

### Hallazgos Principales del EDA:

1. **Calidad de Datos**: El dataset presentaba valores faltantes moderados que fueron tratados adecuadamente
2. **Distribuciones**: Las variables num√©ricas muestran distribuciones asim√©tricas con presencia de outliers
3. **Correlaciones**: Se identificaron correlaciones esperadas entre peso bruto/neto y valores FOB
4. **Categor√≠as Dominantes**: Concentraci√≥n en ciertos pa√≠ses, departamentos y v√≠as de transporte

### Transformaciones ETL Realizadas:

- ‚úÖ Limpieza y normalizaci√≥n de datos
- ‚úÖ Creaci√≥n de variables derivadas relevantes
- ‚úÖ Codificaci√≥n de variables categ√≥ricas
- ‚úÖ Escalamiento de variables num√©ricas
- ‚úÖ Preparaci√≥n de m√∫ltiples versiones del dataset

### Datasets Disponibles:

1. **data_clean.csv**: Para an√°lisis exploratorios adicionales
2. **data_processed.csv**: Para modelos supervisados de ML
3. **data_numeric.csv**: Para modelos de clustering
4. **data_processed.pkl**: Para mantener tipos de datos Python

### Pr√≥ximos Pasos:

1. **Regresi√≥n Lineal**: Predecir Valor FOB en funci√≥n de variables continuas
2. **Regresi√≥n Log√≠stica**: Clasificar categor√≠as de valor de exportaci√≥n
3. **KNN**: Clasificaci√≥n basada en similitud
4. **SVM**: Clasificaci√≥n con m√°rgenes √≥ptimos
5. **√Årboles de Decisi√≥n**: Modelo interpretable de clasificaci√≥n
6. **Naive Bayes**: Clasificaci√≥n probabil√≠stica
7. **K-Means**: Segmentaci√≥n de exportaciones similares

---

**Autor**: Proyecto Machine Learning - An√°lisis de Exportaciones

**Fecha**: 2025

**Versi√≥n**: 1.0