# **Reporte Final: Predicción de Desembarques Pesqueros en Tierra del Fuego**

---

## **Índice**

1. [Introducción](#introducción)
2. [Objetivos del Proyecto](#objetivos-del-proyecto)
3. [Metodología](#metodología)
   - 3.1 [Importación y Limpieza de Datos](#31-importación-y-limpieza-de-datos)
   - 3.2 [Exploración y Análisis de Datos (EDA)](#32-exploración-y-análisis-de-datos-eda)
   - 3.3 [Ingeniería de Características](#33-ingeniería-de-características)
   - 3.4 [Selección y Entrenamiento del Modelo](#34-selección-y-entrenamiento-del-modelo)
   - 3.5 [Evaluación del Modelo](#35-evaluación-del-modelo)
4. [Resultados](#resultados)
   - 4.1 [Métricas de Evaluación](#41-métricas-de-evaluación)
   - 4.2 [Validación Cruzada](#42-validación-cruzada)
   - 4.3 [Visualización de Resultados](#43-visualización-de-resultados)
5. [Análisis y Discusión](#análisis-y-discusión)
6. [Conclusiones](#conclusiones)
7. [Recomendaciones y Trabajo Futuro](#recomendaciones-y-trabajo-futuro)
8. [Referencias](#referencias)

---

## **Introducción**

La industria pesquera es una actividad económica crucial en la provincia de Tierra del Fuego, Argentina. La capacidad de predecir con precisión los desembarques pesqueros mensuales es fundamental para la planificación, gestión de recursos y toma de decisiones estratégicas en la región.

Este proyecto tiene como objetivo desarrollar un modelo predictivo capaz de estimar el volumen total de desembarques pesqueros en el próximo mes, utilizando datos históricos y técnicas de aprendizaje automático.

---

## **Objetivos del Proyecto**

- **Objetivo General:**

  Desarrollar un modelo de aprendizaje automático que prediga el total de toneladas desembarcadas mensualmente en Tierra del Fuego.

- **Objetivos Específicos:**

  - Realizar una limpieza y preprocesamiento exhaustivo de los datos.
  - Explorar y analizar los datos para identificar patrones y tendencias.
  - Crear nuevas características que puedan mejorar el rendimiento del modelo.
  - Seleccionar y entrenar un modelo adecuado para el problema.
  - Evaluar el rendimiento del modelo utilizando métricas apropiadas.
  - Interpretar los resultados y proponer mejoras futuras.

---

## **Metodología**

### **3.1 Importación y Limpieza de Datos**

- **Fuente de Datos:** Archivo CSV proporcionado con información de desembarques pesqueros desde 1990 hasta 2024.

- **Pasos Realizados:**

  - **Importación de Librerías:** Se importaron las librerías esenciales como `pandas`, `numpy`, `matplotlib` y `seaborn`.

  - **Carga del Dataset:**
    - Se leyó el archivo CSV manejando correctamente la codificación de caracteres (`latin-1`).

  - **Conversión de Tipos de Datos:**
    - Las columnas numéricas (`total`, `ushuaia`, `almanza`) se convirtieron al tipo `float`, manejando valores no numéricos como `NaN`.

  - **Manejo de Valores Nulos:**
    - Se imputaron valores nulos en `ushuaia` y `almanza` con cero, asumiendo que la ausencia de datos indica cero desembarques.
    - Se recalculó la columna `total` sumando `ushuaia` y `almanza` cuando `total` estaba nulo.
    - Los valores nulos restantes en `total` se llenaron con la mediana de la columna.

  - **Creación y Limpieza de la Columna 'mes':**
    - Se estandarizaron los nombres de los meses a minúsculas y se corrigieron errores tipográficos.
    - Se creó una columna numérica `mes_num` mapeando los nombres de los meses a números.

  - **Creación de la Columna 'fecha':**
    - Se combinó `año` y `mes_num` para crear una columna de tipo fecha `fecha`.
    - Se eliminaron filas con valores nulos en `fecha`.
    - Se ordenó el DataFrame por `fecha`.

### **3.2 Exploración y Análisis de Datos (EDA)**

- **Estadísticas Descriptivas:**
  - Se calcularon medidas como media, mediana, desviación estándar, mínimos y máximos para entender la distribución de los datos.

- **Visualizaciones Clave:**
  - **Serie Temporal de Desembarques Totales:**
    - Gráfico de líneas mostrando la tendencia de los desembarques a lo largo del tiempo.
  - **Análisis de Estacionalidad:**
    - Gráfico de barras del promedio de desembarques por mes para identificar patrones estacionales.
  - **Matriz de Correlación:**
    - Se analizó la correlación entre `total`, `ushuaia` y `almanza`.

### **3.3 Ingeniería de Características**

- **Variables de Retardo (Lags):**
  - Se crearon `lag_1`, `lag_2`, `lag_3` para capturar la influencia de los meses anteriores.

- **Promedio Móvil:**
  - Se calculó `moving_avg_3`, el promedio móvil de los últimos 3 meses.

- **Variables Estacionales:**
  - Se crearon variables dummy para los meses (`mes_num`) para capturar la estacionalidad.

- **Manejo de Valores Nulos:**
  - Se eliminaron las primeras filas que tenían valores nulos debido a la creación de lags.

### **3.4 Selección y Entrenamiento del Modelo**

- **Selección del Modelo:**
  - Se eligió **XGBoost Regressor** por su capacidad para manejar relaciones no lineales y su buen desempeño en problemas de regresión.

- **Preparación de Datos:**
  - Se seleccionaron las características relevantes excluyendo variables que podrían causar multicolinealidad o que no aportaban información adicional.
  - Se dividieron los datos en conjuntos de entrenamiento (80%) y prueba (20%) respetando el orden temporal.

- **Entrenamiento del Modelo:**
  - Se entrenó el modelo con los datos de entrenamiento utilizando hiperparámetros iniciales:
    - `n_estimators=100`
    - `learning_rate=0.1`
    - `max_depth=5`

### **3.5 Evaluación del Modelo**

- **Métricas de Evaluación:**
  - **Root Mean Squared Error (RMSE):** Mide el error promedio de las predicciones.
  - **R² Score:** Indica la proporción de la varianza explicada por el modelo.

- **Validación Cruzada:**
  - Se utilizó `TimeSeriesSplit` para realizar validación cruzada respetando el orden temporal.

- **Visualización de Resultados:**
  - Se graficaron las predicciones vs los valores reales.
  - Se analizó la importancia de las características.

---

## **Resultados**

### **4.1 Métricas de Evaluación**

- **RMSE:** **1228.92**
- **R² Score:** **0.80**

**Interpretación:**

- El modelo es capaz de explicar el **80%** de la variabilidad en los desembarques pesqueros.
- Un RMSE de **1228.92** indica que, en promedio, las predicciones difieren en aproximadamente **1228 toneladas** de los valores reales.

### **4.2 Validación Cruzada**

- **Scores de validación cruzada (R²):** `[0.64, 0.75, 0.91, 0.61, 0.85]`
- **R² promedio en validación cruzada:** **0.75**

**Observaciones:**

- Los puntajes de R² en la validación cruzada varían, lo cual es común en series temporales debido a cambios en las tendencias a lo largo del tiempo.
- Un R² promedio de **0.75** indica que el modelo generaliza bien a diferentes periodos temporales.

### **4.3 Visualización de Resultados**

#### **Predicciones vs Valores Reales**

![Predicciones vs Valores Reales](attachment:image.png)

**Interpretación:**

- Las predicciones (línea rosada) siguen la tendencia general de los desembarques reales (línea azul).
- Se observa que el modelo captura adecuadamente las fluctuaciones en los desembarques a lo largo del tiempo.

#### **Importancia de las Características**

![Importancia de las Características](attachment:image2.png)

**Observaciones:**

- Las variables más influyentes en el modelo son:
  - **lag_1:** Desembarques del mes anterior.
  - **moving_avg_3:** Promedio móvil de los últimos 3 meses.
  - **Variables estacionales:** Algunos meses específicos tienen mayor impacto.

---

## **Análisis y Discusión**

- **Desempeño del Modelo:**
  - Un R² de **0.80** es un buen resultado en problemas reales, especialmente considerando la naturaleza compleja y volátil de los desembarques pesqueros.
  - El RMSE es aceptable en relación con la escala de los desembarques totales.

- **Variabilidad en la Validación Cruzada:**
  - La variabilidad en los scores de R² puede deberse a cambios en las tendencias y patrones a lo largo de los años.
  - Esto resalta la importancia de actualizar y reentrenar el modelo periódicamente.

- **Importancia de las Características:**
  - Las variables de retardo y el promedio móvil son cruciales para capturar la dependencia temporal.
  - Las variables estacionales ayudan a capturar patrones recurrentes cada año.

- **Limitaciones:**
  - El modelo no incorpora variables externas como condiciones climáticas, políticas pesqueras o eventos económicos que podrían afectar los desembarques.
  - Podría haber sobreajuste en ciertos periodos, lo que explica la variabilidad en los scores de validación cruzada.

---

## **Conclusiones**

- **Modelo Efectivo:** El XGBoost Regressor demostró ser efectivo para predecir los desembarques pesqueros mensuales en Tierra del Fuego.
- **Predicciones Útiles:** Las predicciones proporcionadas por el modelo pueden ser valiosas para la planificación y gestión en la industria pesquera.
- **Captura de Patrones Temporales:** La inclusión de variables de retardo y estacionales permitió al modelo capturar adecuadamente las tendencias y patrones en los datos.

---

## **Recomendaciones y Trabajo Futuro**

- **Optimización de Hiperparámetros:**
  - Utilizar técnicas como `RandomizedSearchCV` o `GridSearchCV` para encontrar los mejores hiperparámetros y mejorar el desempeño del modelo.

- **Incorporación de Variables Externas:**
  - Integrar datos adicionales como condiciones climáticas, precios de mercado, y regulaciones pesqueras para enriquecer el modelo.

- **Exploración de Otros Modelos:**
  - Probar modelos específicos para series temporales como ARIMA, Prophet o redes neuronales recurrentes (LSTM) para comparar resultados.

- **Actualización Periódica del Modelo:**
  - Reentrenar el modelo con nuevos datos para mantener su precisión y adaptabilidad a posibles cambios en los patrones.

---

## **Referencias**

- **XGBoost Documentation:** [https://xgboost.readthedocs.io/](https://xgboost.readthedocs.io/)
- **Scikit-learn Documentation:** [https://scikit-learn.org/stable/](https://scikit-learn.org/stable/)
- **Pandas Documentation:** [https://pandas.pydata.org/docs/](https://pandas.pydata.org/docs/)
- **Matplotlib Documentation:** [https://matplotlib.org/stable/contents.html](https://matplotlib.org/stable/contents.html)
- **Seaborn Documentation:** [https://seaborn.pydata.org/](https://seaborn.pydata.org/)

---

