

### Proyecto: Predicción del Cultivo Adecuado en Función de Condiciones del Suelo y Clima

## **Objetivo**
Desarrollar un modelo de machine learning para predecir el cultivo adecuado según las condiciones del suelo y el clima.
Esto permitirá a los agricultores tomar decisiones informadas sobre qué sembrar, optimizando el rendimiento de sus tierras.

---

### **Procedimiento**

#### **1. Análisis Exploratorio de Datos (EDA)**
Se realizó un análisis inicial para comprender las características del dataset y su distribución.

##### **Resumen Estadístico**
Variables del Suelo (N, P, K):
- **Nitrógeno (N):** Promedio 50.55, rango entre 0 y 140.
- **Fósforo (P):** Promedio 53.36, rango entre 5 y 145.
- **Potasio (K):** Promedio 48.15, rango entre 5 y 205.

Variables Climáticas:
- **Temperatura:** Media de 25.62°C, rango entre 8.82°C y 43.67°C.
- **Humedad:** Media de 71.48%, rango entre 14.26% y 99.98%.
- **pH del Suelo:** Promedio 6.47, rango entre 3.50 y 9.93.
- **Precipitación:** Media de 103.46 mm, rango entre 20.21 mm y 298.56 mm.

##### **Distribuciones**
Las variables numéricas mostraron diferentes distribuciones:
- **N, P, K:** Valores atípicos en los extremos superiores.
- **pH:** Centrados alrededor de 6.5.

##### **Mapa de Calor de Correlaciones**
Las correlaciones entre variables fueron débiles, lo que indica que cada variable aporta información única para predecir la variable objetivo.

##### **Distribución de la Variable Objetivo**
Clases Equilibradas: Cada uno de los 22 cultivos está representado por 100 muestras.

---

#### **2. Preprocesamiento de Datos**

##### **Normalización de Variables Numéricas**
- Se utilizó `MinMaxScaler` para escalar las variables numéricas entre 0 y 1.

##### **Codificación de la Variable Categórica**
- La variable `label` (cultivo) fue codificada usando `LabelEncoder`.
- Los datos preprocesados se guardaron en un archivo llamado `crop_data_preprocessed.csv`.

---

### **3. Entrenamiento del Modelo**

El dataset fue dividido en:
- **80%** para entrenamiento (1760 muestras).
- **20%** para prueba (440 muestras).

Se utilizó un **Random Forest Classifier**:
- El modelo obtuvo una **exactitud del 100%** en el conjunto de prueba.
- El modelo entrenado se guardó en el archivo `crop_model.pkl`.

---

### **4. Evaluación del Modelo**

#### **Reporte de Clasificación**
- **Accuracy (Exactitud):** 1.00.
- **Macro Avg y Weighted Avg:** 1.00.

#### **Matriz de Confusión**
- Guardada como `confusion_matrix.png`, confirmó que todas las predicciones fueron correctas.

#### **Predicción Personalizada**
Valores de entrada: `N=50, P=40, K=20, temperature=25, humidity=80, ph=6.5, rainfall=200`.
- Predicción del modelo: **apple** (manzana).

---

## **Resultados**

### **1. Exactitud del Modelo**
- El modelo clasificó correctamente todas las muestras del conjunto de prueba.

### **2. Predicción Ejemplar**
- Las condiciones dadas como ejemplo fueron clasificadas correctamente como **apple**.

### **3. Archivos Generados**
- **Gráficos:** `distribuciones_variables.png`, `mapa_calor_correlaciones.png`, `confusion_matrix.png`.
- **Archivos de datos:** `crop_data_cleaned.csv`, `crop_data_preprocessed.csv`.
- **Modelo entrenado:** `crop_model.pkl`.

---

## **Conclusiones**

1. El modelo desarrollado con Random Forest Classifier demostró ser altamente efectivo para predecir el cultivo adecuado, con una exactitud del 100%.
2. La distribución equilibrada de las clases en el dataset fue clave para evitar sesgos y asegurar un rendimiento óptimo del modelo.
3. Las condiciones del suelo y el clima, como `N`, `P`, `K`, temperatura, humedad, `pH` y precipitación, son determinantes en la clasificación de cultivos.
4. Este modelo podría ser implementado en sistemas de apoyo a la decisión para agricultores, permitiendo optimizar la productividad y el uso de recursos.

---

## **Recomendaciones Futuras**

1. Realizar validación cruzada para confirmar que el modelo generaliza bien a nuevos datos.
2. Experimentar con otros algoritmos como Gradient Boosting o redes neuronales para comparar resultados.
3. Incluir variables adicionales, como el tipo de suelo o datos históricos de rendimiento, para mejorar la precisión del modelo.
4. Implementar el modelo en una aplicación web o móvil para facilitar su uso por parte de agricultores.
