# <font color='#7e5109'>**PROYECTO CULTIVARIA**</font>

## <font color='118765'>**1. ¿Qué problema se quiere resolver?**</font>

El problema que se quiere resolver es la optimización de la planificación agrícola para maximizar la producción de cultivos. Esto incluye la selección del cultivo más adecuado para una parcela específica, basándose en variables como el clima, las condiciones del suelo, la localización y otros factores relevantes. <br><br>
En el enfoque de **Machine Learning**, se puede desarrollar un modelo predictivo que, basado en los datos recopilados (clima, suelo, localización, etc.), recomiende el cultivo más adecuado, la cantidad de fertilizante necesaria o el momento óptimo para la siembra y la cosecha. Este modelos permitirían optimizar los recursos y mejorar la eficiencia en la agricultura, contribuyendo a una mayor productividad y sostenibilidad.

<br>

## <font color='118765'>**2. ¿Tienes datos suficientes y de calidad?**</font>

<font color='#7e5109'>**Datos necesarios:**</font>

* <font color='#a38409'>**ID_Parcela (numérico):**</font> Identificador único de la parcela agrícola.
* <font color='#a38409'>**Coordenadas (array de dos valores numéricos):**</font> Latitud y longitud de la parcela.
* <font color='#a38409'>**Temperatura (numérico):**</font> Temperatura promedio en grados Celsius.
* <font color='#a38409'>**Humedad_Relativa (numérico):**</font> Humedad relativa en porcentaje.
* <font color='#a38409'>**Precipitacion (numérico):**</font> Precipitación en milímetros.
* <font color='#a38409'>**pH_Suelo (numérico):**</font> pH del suelo (escala de 0 a 14).
* <font color='#a38409'>**Nutriente_N (numérico):**</font> Concentración de nitrógeno en el suelo (mg/kg).
* <font color='#a38409'>**Nutriente_P (numérico):**</font> Concentración de fósforo en el suelo (mg/kg).
* <font color='#a38409'>**Nutriente_K (numérico):**</font> Concentración de potasio en el suelo (mg/kg).
* <font color='#a38409'>**Nombre_Cultivo (texto):**</font> Nombre del cultivo recomendado (por ejemplo, maíz, trigo, soja). <br><br>

<font color='#7e5109'>**¿Son de calidad?**</font><br>
Para determinar si los datos son suficientes y de calidad, es fundamental acceder a fuentes confiables y completas que cubran las variables clave del proyecto, como clima, suelo, localización y cultivos. Para este caso, puedo utilizar datasets de organizaciones reconocidas como **NOAA** (https://www.ncdc.noaa.gov/) para datos climáticos históricos y en tiempo real, **FAO** (https://www.fao.org/faostat/en/) para información agrícola y de suelos, y **SoilGrids** (https://www.soilgrids.org/) para mapas globales de propiedades del suelo. Además, plataformas como **Kaggle** (https://www.kaggle.com/datasets) ofrecen datasets específicos, como el *"Crop Recommendation Dataset"*, que incluye variables como temperatura, humedad, pH y nutrientes del suelo, lo cual es ideal para entrenar modelos de recomendación de cultivos.

<br>

## <font color='118765'>**3. ¿Qué métrica indicará el éxito del modelo?**</font>

Para evaluar su éxito se utilizará la métrica **F1-Score**, la cual combina dos aspectos clave del rendimiento de un modelo de clasificación: la *precisión* y el *recall* (sensibilidad o exhaustividad). Es especialmente útil cuando hay un desbalance entre las clases (frecuencia de unos cuantos cultivos), ya que no solo mide cuántas predicciones son correctas, sino también cuántos casos relevantes fueron identificados correctamente.<br>
Un F1-Score de 0.782 (78.2%) indica que el modelo tiene un buen equilibrio entre precisión y recall, pero aún hay margen de mejora.<br><br>

<font color='#7e5109'>**Componentes del F1-Score**</font><br>

1. <font color='#a38409'>**Precisión (Precision):**</font> Mide la proporción de predicciones positivas que fueron correctas. Es decir, de todos los cultivos que el modelo recomendó, ¿cuántos eran realmente viables? <br><br>
            **Presición =** Verdaderos Positivos (*VP*) / (VP + Falsos Positivos (*FP*)) <br>

2. <font color='#a38409'>**Recall (Sensibilidad o Exhaustividad):**</font> Mide la proporción de casos positivos reales que el modelo identificó correctamente. Es decir, de todos los cultivos viables, ¿cuántos recomendó el modelo? <br><br>
            **Recall =** Verdaderos Positivos (*VP*) / (VP + Falsos Negativos (*FN*)) <br>

3. <font color='#a38409'>**F1-Score:**</font> Es la media armónica entre la precisión y el recall. La media armónica es útil porque penaliza los valores extremos, lo que hace que el F1-Score sea una métrica equilibrada.<br><br>
            **F1-Score =** 2 × ((Presición × Recall) / (Presición + Recall)) <br><br>

<font color='#7e5109'>**Ejemplo**</font><br>

In [None]:
from sklearn.metrics import f1_score

# Valores reales y predicciones del modelo
y_true = ["maíz", "trigo", "soja", "maíz", "trigo"]
y_pred = ["maíz", "trigo", "maíz", "maíz", "trigo"]

# Calcular F1-Score (promedio ponderado para múltiples clases)
f1 = f1_score(y_true, y_pred, average="weighted")
print(f"F1-Score: {f1 * 100:.2f}%")