# ============================================
# Cuaderno de Kaggle: **An√°lisis de Datos en Agricultura**
# Descripci√≥n: Exploraci√≥n y an√°lisis de datos agr√≠colas aplicando t√©cnicas de Ciencia de Datos.
# ============================================

In [None]:
# Librer√≠as principales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n de estilo
plt.style.use("seaborn-v0_8")
sns.set_palette("Set2")

1. üìå **Introducci√≥n**

En este cuaderno exploraremos un dataset agr√≠cola que contiene informaci√≥n sobre rendimiento de cultivos, condiciones clim√°ticas y caracter√≠sticas del suelo. El objetivo es:

* Realizar un **an√°lisis exploratorio de datos (EDA)**.

* Identificar **patrones y correlaciones**.

* Visualizar la relaci√≥n entre **clima y producci√≥n agr√≠cola**.

Esto es √∫til para apoyar la toma de decisiones en agricultura de precisi√≥n.

2. üìÇ **Carga y Descripci√≥n de los Datos**

Usaremos un dataset p√∫blico (ejemplo: Crop Production Dataset from FAO / Kaggle).

In [None]:
# Cargar dataset (ejemplo: CSV local o Kaggle Datasets)
df = pd.read_csv("crop_production.csv")

# Ver las primeras filas
df.head()

üìä **Columnas comunes del dataset:**

* State ‚Üí Estado / Regi√≥n.
* Crop ‚Üí Cultivo (Arroz, Ma√≠z, Trigo, etc.).
* Year ‚Üí A√±o de producci√≥n.
* Season ‚Üí Estaci√≥n (Kharif, Rabi, etc.).
* Area ‚Üí √Årea cultivada (hect√°reas).
* Production ‚Üí Producci√≥n total (toneladas).

3. üîç **An√°lisis Exploratorio de Datos (EDA)**

 **3.1 Dimensiones del dataset**

In [None]:
df.shape

**3.2 Informaci√≥n general**

In [None]:
df.info()

**3.3 Valores nulos**

In [None]:
df.isnull().sum()

**3.4 Estad√≠sticas descriptivas**

In [None]:
df.describe().T

4. üìä **Visualizaci√≥n de Datos**

  **4.1 Producci√≥n por tipo de cultivo**

In [None]:
plt.figure(figsize=(10,6))
sns.barplot(x="Crop", y="Production", data=df.groupby("Crop").sum().reset_index().sort_values("Production", ascending=False).head(10))
plt.title("Top 10 cultivos por producci√≥n total")
plt.xticks(rotation=45)
plt.show()

**4.2 Tendencia de producci√≥n a lo largo de los a√±os**

In [None]:
plt.figure(figsize=(12,6))
sns.lineplot(x="Year", y="Production", data=df.groupby("Year").sum().reset_index())
plt.title("Tendencia de producci√≥n agr√≠cola a lo largo de los a√±os")
plt.show()

**4.3 Producci√≥n vs √Årea cultivada**

In [None]:
plt.figure(figsize=(8,6))
sns.scatterplot(x="Area", y="Production", data=df, hue="Crop", alpha=0.6)
plt.title("Relaci√≥n entre √Årea y Producci√≥n por cultivo")
plt.show()

**5. üîó Correlaciones**

In [None]:
plt.figure(figsize=(8,6))
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap="YlGnBu")
plt.title("Matriz de Correlaci√≥n")
plt.show()

**6. üí° Insights y Conclusiones**

- Los cultivos m√°s productivos en t√©rminos de toneladas son Arroz, Trigo y Ma√≠z.
- Existe una correlaci√≥n positiva entre el √°rea cultivada y la producci√≥n, pero con variabilidad por tipo de cultivo.
- Se observa un crecimiento/declive en ciertos cultivos a lo largo de los a√±os.
- El an√°lisis de datos agr√≠colas permite detectar tendencias √∫tiles para planificar siembras y anticipar riesgos de producci√≥n.

**7. üöÄ Pr√≥ximos pasos**

- Incorporar variables clim√°ticas (lluvia, temperatura).
- Aplicar modelos predictivos (ej. regresi√≥n lineal o Random Forest) para estimar rendimientos.
- Integrar este an√°lisis en un pipeline de agricultura de precisi√≥n.