In [None]:
# Importar bibliotecas necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')

print('‚úì Bibliotecas importadas correctamente')

## 1. Carga y Exploraci√≥n de Datos

In [None]:
# Cargar datos
df = pd.read_csv('../datasets/desarrollo_larval_crustaceos.csv')

print('Dimensiones del dataset:', df.shape)
print('\nPrimeras filas:')
df.head(10)

In [None]:
# Informaci√≥n del dataset
print('Informaci√≥n del dataset:')
df.info()

print('\nEstad√≠sticas descriptivas:')
df.describe()

In [None]:
# Distribuci√≥n de estadios larvales
print('Distribuci√≥n de estadios larvales:')
print(df['estadio_larval'].value_counts().sort_index())

plt.figure(figsize=(10, 5))
df['estadio_larval'].value_counts().sort_index().plot(kind='bar', color='steelblue', alpha=0.8)
plt.title('Distribuci√≥n de Estadios Larvales', fontsize=14, fontweight='bold')
plt.xlabel('Estadio Larval', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.xticks(rotation=0)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

## 2. An√°lisis Exploratorio de Datos (EDA)

In [None]:
# Matriz de correlaci√≥n
correlation_matrix = df.corr()

plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
            square=True, linewidths=1, cbar_kws={'shrink': 0.8})
plt.title('Matriz de Correlaci√≥n', fontsize=16, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

In [None]:
# Relaci√≥n entre d√≠as de cultivo y estadio larval
fig, axes = plt.subplots(2, 3, figsize=(15, 10))
axes = axes.ravel()

features_to_plot = ['temperatura_C', 'salinidad_ppt', 'pH', 'oxigeno_mg_L', 'densidad_larvas_m3', 'alimento_mg_dia']

for idx, feature in enumerate(features_to_plot):
    axes[idx].scatter(df[feature], df['estadio_larval'], alpha=0.6, s=50, c=df['dias_cultivo'], cmap='viridis')
    axes[idx].set_xlabel(feature, fontsize=11)
    axes[idx].set_ylabel('Estadio Larval', fontsize=11)
    axes[idx].set_title(f'{feature} vs Estadio Larval', fontsize=12, fontweight='bold')
    axes[idx].grid(alpha=0.3)
    
plt.colorbar(axes[0].collections[0], ax=axes, label='D√≠as de Cultivo', orientation='horizontal', 
             pad=0.05, aspect=40)
plt.tight_layout()
plt.show()

In [None]:
# Distribuci√≥n de variables por estadio larval
fig, axes = plt.subplots(2, 2, figsize=(14, 10))
axes = axes.ravel()

df.boxplot(column='temperatura_C', by='estadio_larval', ax=axes[0], patch_artist=True)
axes[0].set_title('Temperatura por Estadio', fontsize=12, fontweight='bold')
axes[0].set_xlabel('Estadio Larval')
axes[0].set_ylabel('Temperatura (¬∞C)')

df.boxplot(column='oxigeno_mg_L', by='estadio_larval', ax=axes[1], patch_artist=True)
axes[1].set_title('Ox√≠geno Disuelto por Estadio', fontsize=12, fontweight='bold')
axes[1].set_xlabel('Estadio Larval')
axes[1].set_ylabel('Ox√≠geno (mg/L)')

df.boxplot(column='alimento_mg_dia', by='estadio_larval', ax=axes[2], patch_artist=True)
axes[2].set_title('Alimentaci√≥n por Estadio', fontsize=12, fontweight='bold')
axes[2].set_xlabel('Estadio Larval')
axes[2].set_ylabel('Alimento (mg/d√≠a)')

df.boxplot(column='dias_cultivo', by='estadio_larval', ax=axes[3], patch_artist=True)
axes[3].set_title('D√≠as de Cultivo por Estadio', fontsize=12, fontweight='bold')
axes[3].set_xlabel('Estadio Larval')
axes[3].set_ylabel('D√≠as de Cultivo')

plt.suptitle('')
plt.tight_layout()
plt.show()

## 3. Preprocesamiento de Datos

In [None]:
# Seleccionar caracter√≠sticas
features = ['temperatura_C', 'salinidad_ppt', 'pH', 'oxigeno_mg_L', 
            'densidad_larvas_m3', 'alimento_mg_dia', 'dias_cultivo']

X = df[features]
y = df['estadio_larval']

print('Forma de X:', X.shape)
print('Forma de y:', y.shape)
print('\nRango de estadios larvales:', y.min(), '-', y.max())

In [None]:
# Dividir datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print('Datos de entrenamiento:', X_train.shape)
print('Datos de prueba:', X_test.shape)

In [None]:
# Estandarizar caracter√≠sticas (opcional para Random Forest, pero puede mejorar interpretabilidad)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print('‚úì Datos estandarizados')

## 4. Entrenamiento del Modelo Random Forest

In [None]:
# Crear modelo base
rf_base = RandomForestRegressor(random_state=42, n_estimators=100)
rf_base.fit(X_train, y_train)

# Predicciones iniciales
y_pred_train_base = rf_base.predict(X_train)
y_pred_test_base = rf_base.predict(X_test)

print('‚úì Modelo base entrenado')
print('\nRendimiento del Modelo Base:')
print(f'R¬≤ Entrenamiento: {r2_score(y_train, y_pred_train_base):.4f}')
print(f'R¬≤ Prueba: {r2_score(y_test, y_pred_test_base):.4f}')
print(f'RMSE Prueba: {np.sqrt(mean_squared_error(y_test, y_pred_test_base)):.4f}')
print(f'MAE Prueba: {mean_absolute_error(y_test, y_pred_test_base):.4f}')

In [None]:
# Optimizaci√≥n de hiperpar√°metros con GridSearchCV
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2]
}

print('Buscando mejores hiperpar√°metros...')
grid_search = GridSearchCV(RandomForestRegressor(random_state=42), 
                           param_grid, cv=5, scoring='r2', n_jobs=-1, verbose=1)
grid_search.fit(X_train, y_train)

print('\n‚úì B√∫squeda completada')
print(f'Mejores par√°metros: {grid_search.best_params_}')
print(f'Mejor puntuaci√≥n CV: {grid_search.best_score_:.4f}')

In [None]:
# Entrenar modelo optimizado
rf_optimized = grid_search.best_estimator_

# Predicciones con modelo optimizado
y_pred_train = rf_optimized.predict(X_train)
y_pred_test = rf_optimized.predict(X_test)

print('Rendimiento del Modelo Optimizado:')
print(f'R¬≤ Entrenamiento: {r2_score(y_train, y_pred_train):.4f}')
print(f'R¬≤ Prueba: {r2_score(y_test, y_pred_test):.4f}')
print(f'RMSE Prueba: {np.sqrt(mean_squared_error(y_test, y_pred_test)):.4f}')
print(f'MAE Prueba: {mean_absolute_error(y_test, y_pred_test):.4f}')

## 5. An√°lisis de Importancia de Caracter√≠sticas

In [None]:
# Importancia de caracter√≠sticas
feature_importance = pd.DataFrame({
    'Caracter√≠stica': features,
    'Importancia': rf_optimized.feature_importances_
}).sort_values('Importancia', ascending=False)

print('Importancia de Caracter√≠sticas:')
print(feature_importance)

# Visualizaci√≥n
plt.figure(figsize=(10, 6))
plt.barh(feature_importance['Caracter√≠stica'], feature_importance['Importancia'], color='teal', alpha=0.7)
plt.xlabel('Importancia', fontsize=12)
plt.title('Importancia de Caracter√≠sticas en Random Forest', fontsize=14, fontweight='bold')
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

## 6. Evaluaci√≥n del Modelo

In [None]:
# Gr√°fico de predicciones vs valores reales
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Entrenamiento
axes[0].scatter(y_train, y_pred_train, alpha=0.6, s=50, color='blue', edgecolor='black', linewidth=0.5)
axes[0].plot([y_train.min(), y_train.max()], [y_train.min(), y_train.max()], 'r--', lw=2, label='Predicci√≥n Perfecta')
axes[0].set_xlabel('Estadio Real', fontsize=12)
axes[0].set_ylabel('Estadio Predicho', fontsize=12)
axes[0].set_title('Predicciones en Entrenamiento', fontsize=13, fontweight='bold')
axes[0].legend()
axes[0].grid(alpha=0.3)

# Prueba
axes[1].scatter(y_test, y_pred_test, alpha=0.6, s=50, color='green', edgecolor='black', linewidth=0.5)
axes[1].plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2, label='Predicci√≥n Perfecta')
axes[1].set_xlabel('Estadio Real', fontsize=12)
axes[1].set_ylabel('Estadio Predicho', fontsize=12)
axes[1].set_title('Predicciones en Prueba', fontsize=13, fontweight='bold')
axes[1].legend()
axes[1].grid(alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# An√°lisis de residuos
residuals_test = y_test - y_pred_test

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico de residuos
axes[0].scatter(y_pred_test, residuals_test, alpha=0.6, s=50, color='purple', edgecolor='black', linewidth=0.5)
axes[0].axhline(y=0, color='r', linestyle='--', linewidth=2)
axes[0].set_xlabel('Predicci√≥n', fontsize=12)
axes[0].set_ylabel('Residuo (Real - Predicho)', fontsize=12)
axes[0].set_title('Gr√°fico de Residuos', fontsize=13, fontweight='bold')
axes[0].grid(alpha=0.3)

# Distribuci√≥n de residuos
axes[1].hist(residuals_test, bins=15, color='orange', alpha=0.7, edgecolor='black')
axes[1].axvline(x=0, color='r', linestyle='--', linewidth=2)
axes[1].set_xlabel('Residuo', fontsize=12)
axes[1].set_ylabel('Frecuencia', fontsize=12)
axes[1].set_title('Distribuci√≥n de Residuos', fontsize=13, fontweight='bold')
axes[1].grid(alpha=0.3, axis='y')

plt.tight_layout()
plt.show()

print(f'Media de residuos: {residuals_test.mean():.4f}')
print(f'Desviaci√≥n est√°ndar de residuos: {residuals_test.std():.4f}')

In [None]:
# Validaci√≥n cruzada
cv_scores = cross_val_score(rf_optimized, X, y, cv=5, scoring='r2')

print('Validaci√≥n Cruzada (5-fold):')
print(f'R¬≤ scores: {cv_scores}')
print(f'R¬≤ medio: {cv_scores.mean():.4f} (+/- {cv_scores.std():.4f})')

## 7. Predicci√≥n en Nuevos Datos

In [None]:
# Ejemplo de predicci√≥n para nuevas larvas
nuevas_larvas = pd.DataFrame({
    'temperatura_C': [16.5, 18.0, 19.5],
    'salinidad_ppt': [34.0, 34.5, 35.0],
    'pH': [8.1, 8.2, 8.3],
    'oxigeno_mg_L': [8.0, 8.2, 8.4],
    'densidad_larvas_m3': [45, 38, 32],
    'alimento_mg_dia': [140, 170, 200],
    'dias_cultivo': [8, 12, 16]
})

predicciones = rf_optimized.predict(nuevas_larvas)

print('üéØ Predicciones de Estadio Larval para Nuevas Muestras:')
print('=' * 70)
for i, pred in enumerate(predicciones):
    print(f'\nMuestra {i+1}:')
    print(f'  D√≠as de cultivo: {nuevas_larvas.iloc[i]["dias_cultivo"]}')
    print(f'  Temperatura: {nuevas_larvas.iloc[i]["temperatura_C"]}¬∞C')
    print(f'  Alimento: {nuevas_larvas.iloc[i]["alimento_mg_dia"]} mg/d√≠a')
    print(f'  ‚Üí Estadio predicho: {pred:.2f} (‚âà Estadio {round(pred)})')
print('=' * 70)

## 8. An√°lisis de Dependencia Parcial

In [None]:
# An√°lisis de dependencia parcial para variables clave
from sklearn.inspection import PartialDependenceDisplay

fig, ax = plt.subplots(figsize=(14, 4))
features_to_plot = [6, 0, 5]  # dias_cultivo, temperatura_C, alimento_mg_dia

PartialDependenceDisplay.from_estimator(
    rf_optimized, X_train, features_to_plot,
    feature_names=features, ax=ax, n_cols=3
)
plt.suptitle('Gr√°ficos de Dependencia Parcial', fontsize=14, fontweight='bold', y=1.05)
plt.tight_layout()
plt.show()

## 9. Conclusiones

### Resultados del Modelo
- El modelo Random Forest logra predecir el estadio larval con alta precisi√≥n
- Las variables m√°s importantes son: d√≠as de cultivo, temperatura y cantidad de alimento
- El R¬≤ indica que el modelo explica la mayor parte de la variabilidad en los datos

### Aplicaciones Pr√°cticas
- **Gesti√≥n de cultivo**: Predecir cu√°ndo las larvas alcanzar√°n estadios espec√≠ficos
- **Optimizaci√≥n de alimentaci√≥n**: Ajustar la cantidad de alimento seg√∫n el estadio predicho
- **Control de calidad**: Identificar desviaciones del desarrollo esperado
- **Planificaci√≥n**: Estimar tiempos de cosecha y necesidades de infraestructura

### Insights Biol√≥gicos
- La temperatura muestra una relaci√≥n positiva con el desarrollo larval
- El ox√≠geno disuelto es cr√≠tico para el metabolismo y crecimiento
- La alimentaci√≥n adecuada acelera el paso entre estadios

### Limitaciones
- Los datos sint√©ticos son ilustrativos; se requieren datos reales de cultivos comerciales
- El modelo no considera mortalidad ni calidad de las larvas
- Variables como luz, fotoper√≠odo y calidad del alimento no est√°n incluidas

### Pr√≥ximos Pasos
1. Incorporar datos reales de criaderos de crust√°ceos
2. Incluir variables adicionales (fotoper√≠odo, corrientes, composici√≥n del alimento)
3. Desarrollar modelos separados para diferentes especies
4. Implementar sistema de monitoreo en tiempo real
5. Integrar con sistemas de control autom√°tico de cultivo