# Pipeline de Preprocesamiento de Datos de Rasgos Cuantitativos de Arroz

**Objetivo:** Realizar un an√°lisis exploratorio de datos (EDA) robusto y preparar los datos de rasgos fenot√≠picos de arroz para an√°lisis posteriores.

**Autor:** [Tu nombre]  
**Fecha:** Octubre 2025  
**Dataset:** Rasgos cuantitativos de arroz (2,266 accesiones √ó 12 rasgos)

---

## √çndice
1. [Configuraci√≥n e Importaci√≥n de Librer√≠as](#1-configuraci√≥n)
2. [Carga de Datos](#2-carga-de-datos)
3. [Exploraci√≥n Inicial](#3-exploraci√≥n-inicial)
4. [Limpieza de Datos](#4-limpieza)
5. [Tratamiento de Valores Faltantes](#5-valores-faltantes)
6. [Detecci√≥n de Outliers](#6-outliers)
7. [Estandarizaci√≥n](#7-estandarizaci√≥n)
8. [Enriquecimiento con Metadatos](#8-metadatos)
9. [Alineaci√≥n con Datos Gen√≥micos](#9-alineaci√≥n)
10. [Exportaci√≥n de Resultados](#10-exportaci√≥n)

## 1. Configuraci√≥n e Importaci√≥n de Librer√≠as

Configuraci√≥n del entorno de trabajo e importaci√≥n de las librer√≠as necesarias para el an√°lisis.

In [None]:
# ============================================================================
# IMPORTACI√ìN DE LIBRER√çAS
# ============================================================================

# Manipulaci√≥n de datos
import pandas as pd
import numpy as np
from pathlib import Path

# Visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns

# Geolocalizaci√≥n
from geopy.geocoders import Nominatim
from geopy.exc import GeocoderTimedOut
import pycountry

# Utilidades
import json
import time
import warnings
warnings.filterwarnings('ignore')

# ============================================================================
# CONFIGURACI√ìN DE VISUALIZACI√ìN
# ============================================================================

# Configuraci√≥n de pandas
pd.set_option("display.max_columns", 50)
pd.set_option("display.width", 120)
pd.set_option("display.precision", 2)

# Configuraci√≥n de seaborn
sns.set_style("whitegrid")
sns.set_context("notebook")

# Configuraci√≥n de matplotlib
plt.rcParams.update({
    "figure.figsize": (12, 6),
    "figure.dpi": 100,
    "axes.titlesize": 14,
    "axes.labelsize": 12,
    "xtick.labelsize": 10,
    "ytick.labelsize": 10,
    "legend.fontsize": 10,
    "figure.titlesize": 16
})

print("‚úì Librer√≠as importadas correctamente")
print(f"‚úì Pandas versi√≥n: {pd.__version__}")
print(f"‚úì NumPy versi√≥n: {np.__version__}")

## 2. Carga de Datos

Carga del dataset de rasgos cuantitativos y configuraci√≥n de rutas de trabajo.

In [None]:
# ============================================================================
# DEFINICI√ìN DE RUTAS
# ============================================================================

ROOT = Path("..")
DATA_DIR = ROOT / "data"
TRAITS_PATH = DATA_DIR / "trait_data" / "quantitative_traits.csv"
REPORTS_DIR = ROOT / "reports"

# Crear directorios si no existen
REPORTS_DIR.mkdir(parents=True, exist_ok=True)

# ============================================================================
# CARGA DE DATOS
# ============================================================================

df = pd.read_csv(TRAITS_PATH, index_col=0)

# Limpieza inicial de nombres de columnas y tipos de datos
df.columns = df.columns.str.strip()
df = df.apply(pd.to_numeric, errors="coerce")
df.index = df.index.astype(str).str.strip()

print(f"‚úì Dataset cargado exitosamente")
print(f"  Dimensiones: {df.shape[0]:,} muestras √ó {df.shape[1]} rasgos")
print(f"  Memoria utilizada: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

## 3. Exploraci√≥n Inicial

### 3.1 Descripci√≥n de Rasgos

El dataset contiene 12 rasgos cuantitativos de arroz:

| C√≥digo | Descripci√≥n en Ingl√©s | Descripci√≥n en Espa√±ol | Unidad |
|--------|----------------------|------------------------|--------|
| **CUDI_REPRO** | Culm diameter | Di√°metro del tallo | mm |
| **CULT_REPRO** | Culm length | Longitud del tallo | cm |
| **CUNO_REPRO** | Culm number | N√∫mero de tallos | unidades |
| **GRLT** | Grain length | Longitud del grano | mm |
| **GRWD** | Grain width | Ancho del grano | mm |
| **GRWT100** | 100-grain weight | Peso de 100 granos | g |
| **HDG_80HEAD** | Heading date (80% flowering) | Fecha de floraci√≥n (80%) | d√≠as |
| **LIGLT** | Ligule length | Longitud de la l√≠gula | mm |
| **LLT** | Leaf length | Longitud de la hoja | cm |
| **LWD** | Leaf width | Ancho de la hoja | cm |
| **PLT_POST** | Panicle length | Longitud de la pan√≠cula | cm |
| **SDHT** | Seedling height | Altura de pl√°ntula | cm |

In [None]:
# ============================================================================
# RESUMEN ESTAD√çSTICO
# ============================================================================

print("=" * 80)
print("RESUMEN DEL DATASET")
print("=" * 80)

print(f"\nüìä Dimensiones: {df.shape[0]:,} filas √ó {df.shape[1]} columnas\n")

print("Columnas del dataset:")
for i, col in enumerate(df.columns, 1):
    print(f"  {i:2d}. {col}")

print("\n" + "=" * 80)
print("PRIMERAS 5 MUESTRAS")
print("=" * 80)
display(df.head())

print("\n" + "=" * 80)
print("ESTAD√çSTICAS DESCRIPTIVAS")
print("=" * 80)
display(df.describe().T)

### 3.2 An√°lisis de Valores Faltantes

In [None]:
# ============================================================================
# AN√ÅLISIS DE VALORES FALTANTES
# ============================================================================

# Calcular porcentaje de valores faltantes por rasgo
missing_traits = (df.isna().sum() / len(df) * 100).sort_values(ascending=False)

print("=" * 80)
print("AN√ÅLISIS DE VALORES FALTANTES POR RASGO")
print("=" * 80)

print(f"\n{'Rasgo':<15} {'Faltantes':<12} {'Porcentaje'}")
print("-" * 45)
for trait, pct in missing_traits.items():
    print(f"{trait:<15} {df[trait].isna().sum():<12} {pct:>6.2f}%")

# Calcular porcentaje de valores faltantes por muestra
missing_samples = df.isna().sum(axis=1)

print("\n" + "=" * 80)
print("DISTRIBUCI√ìN DE VALORES FALTANTES POR MUESTRA")
print("=" * 80)
print(f"\nMuestras sin valores faltantes: {(missing_samples == 0).sum():,} ({(missing_samples == 0).sum()/len(df)*100:.1f}%)")
print(f"Muestras con 1-3 faltantes: {((missing_samples > 0) & (missing_samples <= 3)).sum():,}")
print(f"Muestras con 4-6 faltantes: {((missing_samples > 3) & (missing_samples <= 6)).sum():,}")
print(f"Muestras con >6 faltantes: {(missing_samples > 6).sum():,}")

# Visualizaci√≥n
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico de barras por rasgo
missing_traits.plot(kind='barh', ax=axes[0], color='coral')
axes[0].set_xlabel('Porcentaje de valores faltantes (%)')
axes[0].set_title('Valores Faltantes por Rasgo')
axes[0].grid(axis='x', alpha=0.3)

# Histograma por muestra
axes[1].hist(missing_samples, bins=13, color='skyblue', edgecolor='black')
axes[1].set_xlabel('N√∫mero de rasgos faltantes')
axes[1].set_ylabel('Frecuencia')
axes[1].set_title('Distribuci√≥n de Faltantes por Muestra')
axes[1].grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.savefig(REPORTS_DIR / 'missing_values_analysis.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"\n‚úì Gr√°fico guardado en: {REPORTS_DIR / 'missing_values_analysis.png'}")

## 4. Limpieza de Datos

### 4.1 Eliminaci√≥n de Duplicados y Columnas Constantes

In [None]:
# ============================================================================
# LIMPIEZA: DUPLICADOS Y COLUMNAS CONSTANTES
# ============================================================================

print("=" * 80)
print("LIMPIEZA DE DATOS")
print("=" * 80)

# Verificar duplicados
duplicates = df.duplicated()
print(f"\nüìå Filas duplicadas encontradas: {duplicates.sum()}")

if duplicates.sum() > 0:
    print("   Eliminando duplicados...")
    df = df[~duplicates]

# Verificar columnas constantes
constant_cols = [col for col in df.columns if df[col].nunique(dropna=True) <= 1]
print(f"\nüìå Columnas constantes encontradas: {len(constant_cols)}")

if constant_cols:
    print(f"   Columnas: {constant_cols}")
    print("   Eliminando columnas constantes...")
    df = df.drop(columns=constant_cols)

print(f"\n‚úì Dimensiones despu√©s de limpieza: {df.shape[0]:,} √ó {df.shape[1]}")

## 5. Tratamiento de Valores Faltantes

### 5.1 Filtrado por Umbrales

Aplicamos umbrales de calidad para eliminar rasgos y muestras con exceso de valores faltantes:
- **Rasgos:** Eliminar si >20% de valores faltantes
- **Muestras:** Eliminar si >50% de valores faltantes

In [None]:
# ============================================================================
# FILTRADO POR UMBRALES DE VALORES FALTANTES
# ============================================================================

print("=" * 80)
print("FILTRADO POR UMBRALES")
print("=" * 80)

# Umbrales
TRAIT_THRESHOLD = 0.20  # 20% m√°ximo de faltantes por rasgo
SAMPLE_THRESHOLD = 0.50  # 50% m√°ximo de faltantes por muestra

original_shape = df.shape

# 1. Filtrar rasgos
trait_missing_pct = df.isna().mean()
traits_to_keep = trait_missing_pct[trait_missing_pct <= TRAIT_THRESHOLD].index
traits_removed = df.columns.difference(traits_to_keep)

print(f"\n1Ô∏è‚É£ FILTRADO DE RASGOS (umbral: {TRAIT_THRESHOLD*100:.0f}%)")
print(f"   Rasgos originales: {df.shape[1]}")
print(f"   Rasgos eliminados: {len(traits_removed)}")
if len(traits_removed) > 0:
    for trait in traits_removed:
        pct = trait_missing_pct[trait] * 100
        print(f"     - {trait}: {pct:.1f}% faltantes")

df = df[traits_to_keep]

# 2. Filtrar muestras
sample_missing_pct = df.isna().mean(axis=1)
samples_to_keep = sample_missing_pct[sample_missing_pct <= SAMPLE_THRESHOLD].index
samples_removed = len(df) - len(samples_to_keep)

print(f"\n2Ô∏è‚É£ FILTRADO DE MUESTRAS (umbral: {SAMPLE_THRESHOLD*100:.0f}%)")
print(f"   Muestras originales: {original_shape[0]:,}")
print(f"   Muestras eliminadas: {samples_removed:,}")

df = df.loc[samples_to_keep]

print(f"\n‚úì Dimensiones despu√©s del filtrado: {df.shape[0]:,} √ó {df.shape[1]}")
print(f"  Reducci√≥n: {(1 - df.shape[0]/original_shape[0])*100:.1f}% en muestras")

### 5.2 Imputaci√≥n de Valores Faltantes

Imputamos los valores faltantes restantes usando la **mediana** de cada rasgo (m√©todo robusto ante outliers).

In [None]:
# ============================================================================
# IMPUTACI√ìN POR MEDIANA
# ============================================================================

print("=" * 80)
print("IMPUTACI√ìN DE VALORES FALTANTES")
print("=" * 80)

# Contar faltantes antes de imputaci√≥n
missing_before = df.isna().sum().sum()
print(f"\nValores faltantes antes de imputaci√≥n: {missing_before:,}")

# Imputaci√≥n por mediana
df_imputed = df.fillna(df.median())

# Verificar imputaci√≥n
missing_after = df_imputed.isna().sum().sum()
print(f"Valores faltantes despu√©s de imputaci√≥n: {missing_after:,}")

if missing_after == 0:
    print("\n‚úì Todos los valores faltantes han sido imputados exitosamente")
    df = df_imputed
else:
    print(f"\n‚ö† A√∫n quedan {missing_after} valores faltantes (posibles columnas vac√≠as)")

# Mostrar medianas utilizadas
print("\nMedianas utilizadas para imputaci√≥n:")
print(df.median().to_string())

## 6. Detecci√≥n de Outliers

Identificaci√≥n de valores at√≠picos usando el m√©todo del **rango intercuart√≠lico (IQR)**.

In [None]:
# ============================================================================
# DETECCI√ìN DE OUTLIERS (M√âTODO IQR)
# ============================================================================

print("=" * 80)
print("DETECCI√ìN DE OUTLIERS")
print("=" * 80)

def detect_outliers_iqr(series, multiplier=1.5):
    """
    Detecta outliers usando el m√©todo IQR.
    
    Par√°metros:
    -----------
    series : pd.Series
        Serie de datos num√©ricos
    multiplier : float
        Multiplicador del IQR (1.5 para outliers moderados, 3 para extremos)
    
    Retorna:
    --------
    pd.Series : M√°scara booleana de outliers
    """
    Q1 = series.quantile(0.25)
    Q3 = series.quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - multiplier * IQR
    upper_bound = Q3 + multiplier * IQR
    return (series < lower_bound) | (series > upper_bound)

# Detectar outliers por rasgo
outlier_summary = {}
for col in df.columns:
    outliers = detect_outliers_iqr(df[col])
    outlier_summary[col] = {
        'count': outliers.sum(),
        'percentage': outliers.sum() / len(df) * 100
    }

# Mostrar resumen
print(f"\n{'Rasgo':<15} {'Outliers':<10} {'Porcentaje'}")
print("-" * 40)
for trait, stats in outlier_summary.items():
    print(f"{trait:<15} {stats['count']:<10} {stats['percentage']:>6.2f}%")

total_outliers = sum(s['count'] for s in outlier_summary.values())
print(f"\nTotal de outliers detectados: {total_outliers:,}")
print(f"Porcentaje del dataset: {total_outliers/(df.shape[0]*df.shape[1])*100:.2f}%")

# Visualizaci√≥n
fig, axes = plt.subplots(3, 4, figsize=(16, 12))
axes = axes.flatten()

for i, col in enumerate(df.columns):
    axes[i].boxplot(df[col], vert=True)
    axes[i].set_title(col, fontsize=10, fontweight='bold')
    axes[i].set_ylabel('Valor')
    axes[i].grid(axis='y', alpha=0.3)
    
    # A√±adir conteo de outliers
    n_outliers = outlier_summary[col]['count']
    axes[i].text(0.5, 0.95, f'Outliers: {n_outliers}',
                transform=axes[i].transAxes,
                ha='center', va='top',
                bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5),
                fontsize=8)

plt.suptitle('Distribuci√≥n de Rasgos y Detecci√≥n de Outliers', 
             fontsize=16, fontweight='bold', y=0.995)
plt.tight_layout()
plt.savefig(REPORTS_DIR / 'outliers_boxplots.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"\n‚úì Gr√°fico guardado en: {REPORTS_DIR / 'outliers_boxplots.png'}")
print("\n‚ö† Nota: Los outliers se mantienen en el dataset (pueden ser variaci√≥n biol√≥gica real)")

## 7. Estandarizaci√≥n de Datos

Estandarizaci√≥n Z-score (media=0, desviaci√≥n est√°ndar=1) para an√°lisis posteriores.

In [None]:
# ============================================================================
# ESTANDARIZACI√ìN (Z-SCORE)
# ============================================================================

print("=" * 80)
print("ESTANDARIZACI√ìN DE DATOS")
print("=" * 80)

# Guardar copia de datos sin estandarizar
df_raw = df.copy()

# Estandarizaci√≥n
df_scaled = (df - df.mean()) / df.std()

# Verificar estandarizaci√≥n
print("\nVerificaci√≥n de estandarizaci√≥n:")
print(f"\n{'Rasgo':<15} {'Media':<10} {'Desv. Std'}")
print("-" * 40)
for col in df_scaled.columns:
    print(f"{col:<15} {df_scaled[col].mean():>9.6f} {df_scaled[col].std():>10.6f}")

print("\n‚úì Datos estandarizados correctamente (media ‚âà 0, std ‚âà 1)")

# Visualizaci√≥n comparativa
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Antes de estandarizaci√≥n
df_raw.boxplot(ax=axes[0], rot=45)
axes[0].set_title('Datos Originales', fontweight='bold')
axes[0].set_ylabel('Valor')
axes[0].grid(axis='y', alpha=0.3)

# Despu√©s de estandarizaci√≥n
df_scaled.boxplot(ax=axes[1], rot=45)
axes[1].set_title('Datos Estandarizados (Z-score)', fontweight='bold')
axes[1].set_ylabel('Z-score')
axes[1].grid(axis='y', alpha=0.3)
axes[1].axhline(y=0, color='r', linestyle='--', linewidth=0.8, label='Media=0')
axes[1].legend()

plt.tight_layout()
plt.savefig(REPORTS_DIR / 'standardization_comparison.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"\n‚úì Gr√°fico guardado en: {REPORTS_DIR / 'standardization_comparison.png'}")

## 8. Enriquecimiento con Metadatos

### 8.1 Carga de Metadatos de Pasaporte

In [None]:
# ============================================================================
# CARGA DE METADATOS DE PASAPORTE
# ============================================================================

print("=" * 80)
print("ENRIQUECIMIENTO CON METADATOS")
print("=" * 80)

# Cargar datos de pasaporte
PASSPORT_PATH = DATA_DIR / "passport_data" / "passport.csv"

try:
    passport = pd.read_csv(PASSPORT_PATH, index_col=0)
    passport.index = passport.index.astype(str).str.strip()
    
    print(f"\n‚úì Metadatos cargados: {passport.shape[0]:,} accesiones")
    print(f"  Columnas disponibles: {', '.join(passport.columns[:5])}...")
    
    # Fusionar con datos de rasgos
    df_enriched = df.join(passport, how='left')
    
    print(f"\n‚úì Datos enriquecidos: {df_enriched.shape[0]:,} √ó {df_enriched.shape[1]} columnas")
    
    # Resumen de informaci√≥n geogr√°fica
    if 'country' in df_enriched.columns:
        print(f"\nDistribuci√≥n geogr√°fica:")
        country_counts = df_enriched['country'].value_counts().head(10)
        for country, count in country_counts.items():
            print(f"  {country}: {count:,} accesiones")
    
    df_clean = df_enriched.copy()
    
except FileNotFoundError:
    print(f"\n‚ö† Archivo de metadatos no encontrado: {PASSPORT_PATH}")
    print("  Continuando sin enriquecimiento...")
    df_clean = df.copy()

### 8.2 Geocodificaci√≥n de Pa√≠ses

**Nota:** Esta secci√≥n requiere conexi√≥n a internet y puede tardar varios minutos.

In [None]:
# ============================================================================
# GEOCODIFICACI√ìN (OPCIONAL)
# ============================================================================

print("=" * 80)
print("GEOCODIFICACI√ìN DE PA√çSES")
print("=" * 80)

ENABLE_GEOCODING = False  # Cambiar a True para ejecutar

if ENABLE_GEOCODING and 'country' in df_clean.columns:
    
    def normalize_country(name):
        """Normaliza nombres de pa√≠ses usando pycountry"""
        try:
            return pycountry.countries.lookup(name).name
        except LookupError:
            return name
    
    def get_coordinates(country_name, geolocator):
        """Obtiene coordenadas del centroide de un pa√≠s"""
        try:
            location = geolocator.geocode(country_name, timeout=10)
            if location is None:
                location = geolocator.geocode(country_name.replace('_', ' '), timeout=10)
            
            if location:
                return location.latitude, location.longitude
            return None, None
        except Exception as e:
            print(f"  Error: {country_name} - {str(e)}")
            return None, None
    
    # Inicializar geocodificador
    geolocator = Nominatim(user_agent="rice_analysis_2025")
    
    # Obtener pa√≠ses √∫nicos
    countries = df_clean['country'].dropna().unique()
    coordinates_map = {}
    
    print(f"\nObteniendo coordenadas para {len(countries)} pa√≠ses...\n")
    
    for i, country in enumerate(countries, 1):
        lat, lon = get_coordinates(country, geolocator)
        if lat and lon:
            coordinates_map[country] = [lat, lon]
            print(f"  {i:2d}. ‚úì {country:<30} {lat:>7.2f}¬∞, {lon:>7.2f}¬∞")
        else:
            print(f"  {i:2d}. ‚úó {country:<30} (no encontrado)")
        time.sleep(1)  # Respetar l√≠mites de API
    
    # Guardar coordenadas
    coords_path = DATA_DIR / "country_coordinates.json"
    with open(coords_path, 'w', encoding='utf-8') as f:
        json.dump(coordinates_map, f, indent=4, ensure_ascii=False)
    
    print(f"\n‚úì Coordenadas guardadas en: {coords_path}")
    
    # A√±adir coordenadas al DataFrame
    df_clean['latitude'] = df_clean['country'].map(
        lambda x: coordinates_map[x][0] if x in coordinates_map else None
    )
    df_clean['longitude'] = df_clean['country'].map(
        lambda x: coordinates_map[x][1] if x in coordinates_map else None
    )
    
    print(f"\n‚úì Accesiones geocodificadas: {df_clean['latitude'].notna().sum():,} de {len(df_clean):,}")

else:
    print("\n‚äò Geocodificaci√≥n deshabilitada")
    print("  Para habilitar: establece ENABLE_GEOCODING = True")

## 9. Alineaci√≥n con Datos Gen√≥micos

Alineaci√≥n de muestras entre datos fenot√≠picos y gen√≥micos para an√°lisis integrados.

In [None]:
# ============================================================================
# ALINEACI√ìN CON DATOS GEN√ìMICOS
# ============================================================================

print("=" * 80)
print("ALINEACI√ìN CON DATOS GEN√ìMICOS")
print("=" * 80)

GENO_PATH = DATA_DIR / "genotype_data" / "genotype.csv"

try:
    # Cargar datos gen√≥micos
    geno = pd.read_csv(GENO_PATH, index_col=0)
    geno.index = geno.index.astype(str).str.strip()
    
    print(f"\n‚úì Datos gen√≥micos cargados: {geno.shape[0]:,} √ó {geno.shape[1]:,} SNPs")
    
    # Identificar muestras comunes
    traits_ids = set(df_clean.index)
    geno_ids = set(geno.index)
    common_ids = traits_ids.intersection(geno_ids)
    
    print(f"\nAn√°lisis de superposici√≥n:")
    print(f"  Muestras en rasgos: {len(traits_ids):,}")
    print(f"  Muestras en genotipos: {len(geno_ids):,}")
    print(f"  Muestras en com√∫n: {len(common_ids):,}")
    print(f"  Solo en rasgos: {len(traits_ids - geno_ids):,}")
    print(f"  Solo en genotipos: {len(geno_ids - traits_ids):,}")
    
    if len(common_ids) == 0:
        print("\n‚ö† ERROR: No hay muestras en com√∫n")
        print("  Verificar formato de IDs de muestra")
    else:
        # Crear subconjuntos alineados
        common_ids_sorted = sorted(common_ids)
        traits_aligned = df_clean.loc[common_ids_sorted].copy()
        geno_aligned = geno.loc[common_ids_sorted].copy()
        
        print(f"\n‚úì Alineaci√≥n exitosa:")
        print(f"  Rasgos alineados: {traits_aligned.shape}")
        print(f"  Genotipos alineados: {geno_aligned.shape}")
        
        # Guardar datasets alineados
        traits_aligned.to_csv(REPORTS_DIR / "traits_aligned.csv")
        geno_aligned.to_csv(REPORTS_DIR / "genotypes_aligned.csv")
        
        print(f"\n‚úì Datasets alineados guardados en {REPORTS_DIR}")

except FileNotFoundError:
    print(f"\n‚ö† Archivo de genotipos no encontrado: {GENO_PATH}")
    print("  Omitiendo alineaci√≥n gen√≥mica...")
except Exception as e:
    print(f"\n‚ö† Error durante alineaci√≥n: {str(e)}")

## 10. Exportaci√≥n de Resultados

Guardado de todos los datasets procesados y reporte de resumen.

In [None]:
# ============================================================================
# EXPORTACI√ìN DE RESULTADOS
# ============================================================================

print("=" * 80)
print("EXPORTACI√ìN DE RESULTADOS")
print("=" * 80)

# Crear diccionario de datasets
datasets = {
    'traits_raw': df_raw,
    'traits_clean': df_clean,
    'traits_scaled': df_scaled
}

# Guardar datasets
print("\nGuardando datasets procesados...")
for name, dataset in datasets.items():
    output_path = REPORTS_DIR / f"{name}.csv"
    dataset.to_csv(output_path)
    print(f"  ‚úì {name}.csv - {dataset.shape[0]:,} √ó {dataset.shape[1]} columnas")

# Crear reporte de resumen
summary_report = {
    'Informaci√≥n General': {
        'Fecha de procesamiento': pd.Timestamp.now().strftime('%Y-%m-%d %H:%M:%S'),
        'Dataset original': str(TRAITS_PATH),
        'Dimensiones originales': f"{original_shape[0]:,} √ó {original_shape[1]}",
        'Dimensiones finales': f"{df_clean.shape[0]:,} √ó {df_clean.shape[1]}"
    },
    'Limpieza': {
        'Duplicados eliminados': duplicates.sum(),
        'Columnas constantes eliminadas': len(constant_cols) if constant_cols else 0,
        'Muestras filtradas por umbral': samples_removed,
        'Rasgos filtrados por umbral': len(traits_removed) if len(traits_removed) > 0 else 0
    },
    'Valores Faltantes': {
        'Total antes de imputaci√≥n': missing_before,
        'Total despu√©s de imputaci√≥n': missing_after,
        'M√©todo de imputaci√≥n': 'Mediana'
    },
    'Calidad de Datos': {
        'Outliers detectados': total_outliers,
        'Porcentaje de outliers': f"{total_outliers/(df.shape[0]*df.shape[1])*100:.2f}%",
        'Datos estandarizados': 'S√≠ (Z-score)'
    }
}

# Guardar reporte en JSON
report_path = REPORTS_DIR / "preprocessing_summary.json"
with open(report_path, 'w', encoding='utf-8') as f:
    json.dump(summary_report, f, indent=4, ensure_ascii=False)

print(f"\n‚úì Reporte de resumen guardado: {report_path}")

# Mostrar resumen en pantalla
print("\n" + "=" * 80)
print("RESUMEN DEL PREPROCESAMIENTO")
print("=" * 80)

for section, items in summary_report.items():
    print(f"\n{section}:")
    for key, value in items.items():
        print(f"  ‚Ä¢ {key}: {value}")

print("\n" + "=" * 80)
print("‚úì PREPROCESAMIENTO COMPLETADO EXITOSAMENTE")
print("=" * 80)
print(f"\nTodos los archivos guardados en: {REPORTS_DIR.absolute()}")

---

## Conclusiones del Preprocesamiento

### Resultados Clave:

1. **Calidad de datos mejorada:** Se eliminaron duplicados, valores constantes y muestras/rasgos con exceso de faltantes
2. **Imputaci√≥n robusta:** Uso de mediana para resistencia ante outliers
3. **Estandarizaci√≥n:** Datos preparados para an√°lisis multivariado
4. **Enriquecimiento:** Metadatos de pasaporte integrados
5. **Alineaci√≥n gen√≥mica:** Muestras sincronizadas con datos moleculares

### Archivos Generados:

- `traits_raw.csv` - Datos originales limpios
- `traits_clean.csv` - Datos imputados con metadatos
- `traits_scaled.csv` - Datos estandarizados (Z-score)
- `traits_aligned.csv` - Rasgos alineados con genotipos
- `genotypes_aligned.csv` - Genotipos alineados
- `preprocessing_summary.json` - Reporte detallado
- Gr√°ficos: `missing_values_analysis.png`, `outliers_boxplots.png`, `standardization_comparison.png`

### Pr√≥ximos Pasos:

1. An√°lisis de componentes principales (PCA)
2. An√°lisis de correlaciones entre rasgos
3. Estudios de asociaci√≥n gen√≥mica (GWAS)
4. Modelado predictivo de rasgos

---

**Fecha:** Octubre 2025  
**Notebook preparado para presentaci√≥n profesional** ‚ú®