# Anteproyecto
## Programa Ciencia de Datos
### Tema: Cafe en Costa Rica
#### Estudiantes:

- **Carlos Jesus Abarca Murillo**

- **Maria Paula Castillo Espinoza**

### Justificación

El café ha sido desde el siglo XIX uno de los principales motores de la economía costarricense y un producto clave en la conformación del país moderno. Su cultivo y exportación contribuyeron a la construcción de infraestructura nacional como el ferrocarril al Atlántico y a la consolidación de una burguesía cafetalera que marcó la vida política, social y cultural del país. Más de un siglo después el café continúa siendo un sector estratégico: según datos del Instituto del Café de Costa Rica (ICAFE), la actividad cafetalera abarca aproximadamente 94 mil hectáreas y más de 27 mil familias productoras, en su mayoría pequeños agricultores [1].  

En términos económicos, el café sigue teniendo un impacto relevante. Durante la cosecha 2022/2023, Costa Rica exportó cerca de 1,18 millones de sacos de 60 kg, generando ingresos aproximados de 370 millones de dólares para el país [2]. Además, en 2024 se concretó la primera exportación de café certificado como libre de deforestación, lo que refleja el esfuerzo del sector por adaptarse a estándares internacionales de sostenibilidad y acceder a nuevos mercados [3].  

El análisis de los datos publicados por ICAFE permite identificar tendencias en la producción, precios y sostenibilidad, y ofrece una base confiable para aplicar algoritmos de aprendizaje automático. Mediante modelos de regresión, es posible predecir rendimientos o variaciones en precios, mientras que modelos de clasificación pueden ayudar a categorizar regiones productoras según productividad o características específicas. De esta manera, el proyecto busca vincular el aprendizaje automático con un área de alta relevancia nacional, aportando evidencia que puede apoyar la toma de decisiones estratégicas en beneficio del sector cafetalero y de la economía costarricense en general.  

---


### Antecedentes

En los últimos años varias investigaciones han demostrado cómo el aprendizaje automático puede aplicarse de manera efectiva en el sector cafetalero para enfrentar distintos desafíos productivos y ambientales. A continuación se describen trabajos realizados específicamente en Costar Rica y Brazil.

Primeramente en Costa Rica, Arriola-Valverde et al. [4] llevaron a cabo un estudio comparativo de frameworks de deep learning (Deep Forest, RT-DETR y YOLOv9) para detectar plantas de café usando imágenes aéreas tomadas por drones en zonas cafetaleras del Valle Central. El objetivo principal fue evaluar la precisión y eficiencia de distintos modelos en la identificación automática de plantas individuales, esto representaba un reto importante en sistemas agroforestales donde usualmente el café convive con árboles de sombra y otras especies con las que los modelos se podrían confundir fácilmente. Los resultados mostraron que los modelos basados en detección de objetos, específicamente RT-DETR y YOLOv9 alcanzaron métricas de precisión media (mAP) superiores al 90 %, superando a otros enfoques más tradicionales. Además se demostró que estos algoritmos pueden adaptarse a escenarios de alta complejidad visual, donde las plantas no se encuentran en monocultivos homogéneos, sino en paisajes diversos y con alta variabilidad lumínica. El estudio confirma que las técnicas de visión por computadora basadas en aprendizaje profundo tienen un gran potencial para automatizar tareas de monitoreo agrícola, como el conteo de plantas, la estimación de densidad y la planificación de labores, lo cual abre la puerta a futuras aplicaciones en el manejo de cafetales en Costa Rica.  

En Brasil, Costa et al. [5] compararon redes neuronales como MLP (Perceptrón Multicapa) y RBF (Radial Basis Function) para clasificar entornos de cultivo de Coffea arabica. Para ello, usaron más de 30 características relacionadas con la planta y la calidad del grano, incluyendo medidas morfológicas y atributos sensoriales. Los resultados mostraron que las redes eran capaces de diferenciar con mucha precisión entre distintos ambientes y procesos de poscosecha. Esto es importante porque permite relacionar las condiciones de cultivo con la calidad final del café, mostrando cómo el aprendizaje supervisado puede ayudar a clasificar lotes y ambientes de manera más objetiva que solo con inspecciones humanas.

Por otra parte Aparecido et al. [6] probaron varios algoritmos clásicos y de aprendizaje automático como Regresión Lineal Múltiple, K-Nearest Neighbors (KNN), Random Forest y MLP para predecir la incidencia de enfermedades en cafetales, en particular la roya del café a partir de datos climáticos como temperatura, humedad y precipitación. Encontraron que el algoritmo Random Forest tuvo el mejor desempeño en la predicción, lo que lo convierte en una herramienta prometedora para crear sistemas de alerta temprana. De esta forma, los productores podrían anticiparse a brotes de roya y planificar medidas de control más efectivas para así evitar que sus cultivos se vean afectados.

Por último, Pereira et al. [7] utilizaron imágenes multiespectrales captadas por sensores remotos para estimar parámetros del cultivo, como la altura de las plantas y el diámetro de sus copas. Probaron distintos algoritmos de aprendizaje automático y confirmaron que estos modelos podían predecir con bastante exactitud dichas variables a partir de la información de las imágenes. Este tipo de enfoques es muy útil en la agricultura porque permite obtener datos clave de grandes extensiones de cultivo sin necesidad de medir manualmente cada planta, lo cual ahorra tiempo y recursos y facilita la toma de decisiones en zonas con difícil acceso.

Estos trabajos refuerzan la relevancia de aplicar aprendizaje automático en el análisis del sector cafetalero. En este proyecto, se propone usar datos históricos del ICAFE como producción, precios y superficie para construir modelos de regresión y clasificación que predigan producción por año por cantón, y determinar la calidad de la producción en una determinada por cantón.

---

### Marco Teórico

Actualmente existen diferentes metodolgías y acercamientos para poder analizar conjutos de datos, ya sea para poder realizar una clasificación o una regresión. Por dicha razón es que este proyecto se va a enfocar en dos métodos, Random Forest y MLP (Multilayer Perceptron).

Para entender el funcionamiento de Random Forest se va a iniciar con una explicación introductoria a los árboles de decisión, estos constituyen uno de los algoritmos más utilizados en el aprendizaje supervisado, tanto para clasificación como para regresión. Su estructura se asemeja a un árbol jerárquico: los nodos internos representan condiciones sobre atributos, las ramas reflejan los resultados de esas condiciones y las hojas corresponden a la salida final [8].

El objetivo del algoritmo es dividir recursivamente los datos en subconjuntos más homogéneos según una métrica de impureza o de error, donde las métricas más utilizadas en el campo son la entropía y el índice Gini.

Inciando con la entropía, esta mide el grado de desorden en un conjunto y se define como:

$$
H(S) = - \sum_{i=1}^{k} p_i \log_2(p_i)
$$

donde $p_i$ es la proporción de elementos de la clase $i$ en el conjunto $S$, y $k$ el número de clases. Cabe destacar que un nodo es puro si su entropía es 0.

La otra métrica común es el índice Gini:

$$
Gini(S) = 1 - \sum_{i=1}^{k} p_i^2
$$

que mide la probabilidad de clasificar erróneamente un elemento si se asigna aleatoriamente según la distribución de clases.

La calidad de una división se evalúa mediante la ganancia de información (Information Gain), que mide la reducción de impureza obtenida al dividir con un atributo $A$:

$$
IG(S, A) = H(S) - \sum_{v \in Valores(A)} \frac{|S_v|}{|S|} H(S_v)
$$

donde $S_v$ es el subconjunto de $S$ en el que el atributo $A$ toma el valor $v$.

En problemas de regresión, en lugar de impureza de clases se utiliza el error cuadrático medio (MSE):

$$
MSE = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2
$$

donde $y_i$ es el valor real y $\hat{y}_i$ la predicción promedio en el nodo.

Ahora que ya se tiene definido qué es un árbol de decisión y el funcionamiento del mismo, se puede pasar al método Random Forest que el método a usar en este proyecto. Este algoritmo surge precisamente para superar las limitaciones de un único árbol, el cual puede ser inestable y propenso al sobreajuste. Random Forest consiste en construir múltiples árboles de decisión de forma independiente y luego combinar sus resultados para obtener una predicción más robusta y precisa [9].  

Cada árbol se entrena sobre una muestra aleatoria del conjunto de datos original y en cada nodo solo se consideran algunas de las variables. Este funcionamiento aleatorio genera diversidad entre los árboles y reduce la correlación entre sus errores. El resultado final se puede obtener mediante votación en clasificación y mediante el promedio en regresión, esto depende del acercamiento que se esté utilizando.

- Clasificación:

$$
\hat{y} = \text{mode}\{h_1(x), h_2(x), ..., h_B(x)\}
$$

- Regresión:

$$
\hat{y} = \frac{1}{B} \sum_{b=1}^{B} h_b(x)
$$

donde $h_b(x)$ es la predicción del árbol $b$ y $B$ el número total de árboles en el bosque.

Este enfoque reduce la varianza de los árboles individuales sin aumentar de forma importante el sesgo, lo que hace a Random Forest un modelo robusto frente a datos complejos. Cabe destacar que este modelo sacrifica interpretabilidad, ya que al tener muchos árboles funcionando al mismo tiempo resulta difícil seguir el razonamiento de esos cientos de árboles y visualizar una única regla de decisión, sin embargo esto genera que se pueda tener mayor capacidad predictiva y estabilidad. En lugar de depender de un solo camino de decisiones el modelo combina múltiples perspectivas, lo que permite capturar patrones más complejos en los datos y minimizar los efectos del ruido o de variables irrelevantes.  

Además al promediar los resultados de varios árboles, Random Forest tiende a generalizar mejor y a reducir el riesgo de sobreajuste, un problema común en los árboles individuales. Si bien no permite explicar de forma sencilla cada predicción existen métricas como la importancia de las variables (feature importance) que ofrecen una visión global de cuáles factores influyen más en el modelo. Este equilibrio entre precisión y capacidad de interpretación parcial lo convierte en una herramienta especialmente adecuada para problemas aplicados en agricultura, como el análisis de la producción de café a nivel regional [10].  

Además de Random Forest, también se va a implemntar un Perceptrón Multicapa (MLP) el cuál es una de las estructuras más representativas de las redes neuronales artificiales. Los MLP son utilizados para aprendizaje profundo supervisado y es especialmente útil para las tareas de clasificación y regresión donde las relaciones no son necesariamente lineales, por eso para el caso del análisis de los datos de café en Costa Rica van a ser sumamente útiles. [11]

Se sabe que los MLP están compuestos por al menos 3 capas, una de entrada, una o más capas ocultas y una capa de salida. Se dice que el sistema está fuertemente conectado cuando cada una de las neuronas de una capa determinada está conectada a todas las neuronas de la capa siguiente. En este caso los datos fluyen hacia adelante a través de la red, y los errores se propagan hacia atrás durante el proceso de entrenamiento. Este último paso va a ajustando los pesos de la red en función del gradiente del error. [12]

La operación básica de una neurona consiste en aplicar una transformación lineal seguida de una función de activación no lineal:

$$
z = \sum_{i=1}^{n} w_i x_i + b
$$

$$
a = f(z)
$$

donde $x_i$ son las entradas, $w_i$ los pesos, $b$ es el sesgo (bias), $z$ es la combinación lineal, y $f(\cdot)$ es una función de activación, como ReLU, sigmoide o tangente hiperbólica.

El entrenamiento en los MLP funciona minimizando una función de pérdida, un procedimiento similar al que se realiza al errir cuadrático medio en regresión o entropía en árboles de decisión. En este caso se utilizan técnicas como el descenso de gradiente estocástico (SGD) aunque también existen técnicas más avanzadas como Adam. [13]

En el caso de los MLP, estos no son tan interpretables como los árboles de decisión, sin embargo tienen una alta capacidad de modelar relaciones complejas y no lineales entre variables lo que los hace apropiados para modelar el comportamiento del café en las diferentes zonas del país.

---


### Diseño del Experimento

Queremos entender cómo el clima afecta la producción de café en los cantones de Costa Rica. La idea es combinar los datos de producción anual en fanegas de ICAFE (Instituto del Café de Costa Rica) con la información climática de TerraClima (lluvia, temperatura, entre otros) y construir modelos que nos ayuden a explicar qué factores influyen más en la producción de café en Costa Rica

Los datos que usaremos son:
 * Producción: Fanegas de café por cantón y año cafetalero (de septiembre a agosto).
 * Clima: Valores resumidos en el mismo periodo (precipitación total del año cafetalero, temperatura promedio anual, evapotranspiración  y deficít hídrico)

 Se probarán dos algoritmos (MLP y Random Forest) para realizar una regresión y precedir la producción de acuerdo a los datos climáticos, además, con estos dos algoritmos también realizaremos clasificación para definir si la producción de un cantón es "buena", "media" o "mala" de acuerdo, nuevamente, a los datos climáticos.

 Las variables que tenemos son:

Regresión:
 * Variable de salida: Producción de café (fanegas)
 * Variables de entrada (factores): clima.

Clasificación:
 * Variable de salida: Variable categórica ("bueno", "medio", "malo") basada en las producciónes de cada cantón.
 * Variables de entrada (factores): clima.

---

### Plan de Trabajo

El desarrollo del proyecto será de la siguiete forma asegurando extracción, preparación de datos, análisis de datos, obtención y análisis de resultados.

1. Recolección y preparación de los datos
- Revisión de los datos disponibles en la página web de ICAFE.
- Extracción y consolidación de los datos obtenidos en un solo archivo CSV o XLSX.
- Limpieza y normalización de datos.

2. Exploración y análisis inicial
- Generación de estadísticas básicas.
- Visualización de distribuciones por región.

3. Construcción de modelos
- Implementación de Random Forest como método de clasificación.
- Implementación de un Perceptrón Multicapa (MLP) como modelo de regresión.

4. Entrenamiento y validación
- División de datos en conjunto de entrenamiento, validación y prueba.
- Entrenamiento de ambos modelos con los datos preparados.
- Documentación de desempeño de los modelos (Accuracy, Precision, Recall, F1, Rˆ2, RMSE)

5. Comparación de resultados
- Elaboración de tabla comparativa entre los modelos implementados.
- Discusión sobre la relevancia práctica de los resultados en el contexto de la caficultura costarricense

6. Conclusiones y documentación
- Redacción de conclusiones principales del proyecto.
- Finalización del Jupyter Notebook con todas las secciones documentadas.
- Preparación de la presentación final para el grupo de clase.



### Referencias

[1] Instituto del Café de Costa Rica (ICAFE), *Informe de Actividad Cafetalera 2024*. ICAFE, San José, Costa Rica, 2024. [En línea]. Disponible en: https://www.icafe.cr/wp-content/uploads/informacion_mercado/informes_actividad/actual/Informe%20Actividad%20Cafetalera.pdf

[2] USDA Foreign Agricultural Service, *Costa Rica Coffee Annual Report 2024*. United States Department of Agriculture, San José, 2024. [En línea]. Disponible en: https://apps.fas.usda.gov/newgainapi/api/Report/DownloadReportByFileName?fileName=Coffee+Annual_San+Jose_Costa+Rica_CS2024-0009.pdf

[3] Programa de las Naciones Unidas para el Desarrollo (PNUD), *Costa Rica exporta su primer lote de café libre de deforestación*, 2024. [En línea]. Disponible en: https://climatepromise.undp.org/es/news-and-stories/costa-rica-exporta-su-primer-lote-de-cafe-libre-de-deforestacion

[4] S. Arriola-Valverde, R. Rímolo-Donadio, K. Villagra-Mendoza, A. Chacón-Rodríguez, R. García-Ramírez y E. Somarriba-Chávez, “A Comparative Study of Deep Learning Frameworks Applied to Coffee Plant Detection from Close-Range UAS-RGB Imagery in Costa Rica,” *Remote Sensing*, vol. 16, no. 24, art. 4617, 2024.

[5] W. G. da Costa, I. P. Barbosa, J. E. de Souza, C. D. Cruz, M. Nascimento y A. C. B. de Oliveira, “Machine learning and statistics to qualify environments through multi-traits in Coffea arabica,” *PLOS ONE*, vol. 16, no. 1, art. e0245298, 2021.

[6] L. E. de O. Aparecido, L. S. C. Rolim, F. P. L. Santos, R. P. P. C. Rody y C. E. G. Rody, “Machine learning algorithms for forecasting the incidence of coffee leaf rust in Brazil,” *Crop Protection*, vol. 130, art. 105067, 2020.

[7] F. V. Pereira, M. A. Almeida, A. G. Galo y L. R. Matias, “Estimating coffee crop parameters through multispectral imagery and machine learning techniques,” *ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences*, vol. X-3-2024, pp. 317–324, 2024.

[8] G. James, D. Witten, T. Hastie y R. Tibshirani, *An Introduction to Statistical Learning with Applications in R*, 2nd ed. New York: Springer, 2021.  

[9] L. Rokach, *Decision Forests for Classification, Regression, and Clustering*, 2nd ed. Singapore: World Scientific, 2022.  

[10] T. G. Dietterich, "Ensemble Learning Theory and Practice," in *Advances in Neural Information Processing Systems*, vol. 32, Curran Associates, 2020.

[11] C. M. Bishop, *Pattern Recognition and Machine Learning*, New York: Springer, 2006.

[12] I. Goodfellow, Y. Bengio and A. Courville, *Deep Learning*, Cambridge: MIT Press, 2016. 

[13] D. P. Kingma and J. Ba, "Adam: A Method for Stochastic Optimization," *International Conference on Learning Representations (ICLR)*, 2015.
