# ============================================
# Cuaderno de Kaggle: **Análisis de Datos en Agricultura**
# Descripción: Exploración y análisis de datos agrícolas aplicando técnicas de Ciencia de Datos.
# ============================================

In [None]:
# Librerías principales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración de estilo
plt.style.use("seaborn-v0_8")
sns.set_palette("Set2")

1. 📌 **Introducción**

En este cuaderno exploraremos un dataset agrícola que contiene información sobre rendimiento de cultivos, condiciones climáticas y características del suelo. El objetivo es:

* Realizar un **análisis exploratorio de datos (EDA)**.

* Identificar **patrones y correlaciones**.

* Visualizar la relación entre **clima y producción agrícola**.

Esto es útil para apoyar la toma de decisiones en agricultura de precisión.

2. 📂 **Carga y Descripción de los Datos**

Usaremos un dataset público (ejemplo: Crop Production Dataset from FAO / Kaggle).

In [None]:
# Cargar dataset (ejemplo: CSV local o Kaggle Datasets)
df = pd.read_csv("crop_production.csv")

# Ver las primeras filas
df.head()

📊 **Columnas comunes del dataset:**

* State → Estado / Región.
* Crop → Cultivo (Arroz, Maíz, Trigo, etc.).
* Year → Año de producción.
* Season → Estación (Kharif, Rabi, etc.).
* Area → Área cultivada (hectáreas).
* Production → Producción total (toneladas).

3. 🔍 **Análisis Exploratorio de Datos (EDA)**

 **3.1 Dimensiones del dataset**

In [None]:
df.shape

**3.2 Información general**

In [None]:
df.info()

**3.3 Valores nulos**

In [None]:
df.isnull().sum()

**3.4 Estadísticas descriptivas**

In [None]:
df.describe().T

4. 📊 **Visualización de Datos**

  **4.1 Producción por tipo de cultivo**

In [None]:
plt.figure(figsize=(10,6))
sns.barplot(x="Crop", y="Production", data=df.groupby("Crop").sum().reset_index().sort_values("Production", ascending=False).head(10))
plt.title("Top 10 cultivos por producción total")
plt.xticks(rotation=45)
plt.show()

**4.2 Tendencia de producción a lo largo de los años**

In [None]:
plt.figure(figsize=(12,6))
sns.lineplot(x="Year", y="Production", data=df.groupby("Year").sum().reset_index())
plt.title("Tendencia de producción agrícola a lo largo de los años")
plt.show()

**4.3 Producción vs Área cultivada**

In [None]:
plt.figure(figsize=(8,6))
sns.scatterplot(x="Area", y="Production", data=df, hue="Crop", alpha=0.6)
plt.title("Relación entre Área y Producción por cultivo")
plt.show()

**5. 🔗 Correlaciones**

In [None]:
plt.figure(figsize=(8,6))
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap="YlGnBu")
plt.title("Matriz de Correlación")
plt.show()

**6. 💡 Insights y Conclusiones**

- Los cultivos más productivos en términos de toneladas son Arroz, Trigo y Maíz.
- Existe una correlación positiva entre el área cultivada y la producción, pero con variabilidad por tipo de cultivo.
- Se observa un crecimiento/declive en ciertos cultivos a lo largo de los años.
- El análisis de datos agrícolas permite detectar tendencias útiles para planificar siembras y anticipar riesgos de producción.

**7. 🚀 Próximos pasos**

- Incorporar variables climáticas (lluvia, temperatura).
- Aplicar modelos predictivos (ej. regresión lineal o Random Forest) para estimar rendimientos.
- Integrar este análisis en un pipeline de agricultura de precisión.