## Exploración inicial de los datos

Vamos a ver que insights podemos sacar de estos datos.

Ideas:
- Áreas por categorías
- Áreas por cultivos
- Porcentaje de área destinada a cada cultivo del área de cada isla (quitando superficie agrícola no utilizada)
- Área destinada al cultivo por cada isla (quitan superficie agrícola no utilizada)
- Cuántos cultivos hay con o sin riego automático
- Cuales son los cultivos que más usan riego automático
- Cuáles son las técnicas más utilizadas (por tipo de cultivo y en total)
- Relación entre áreas agrícolas cultivadas vs áreas agrícolas no cultivadas.
- Cultivos + IPC

### Área por categoría
Podemos ver que cultivos son los que más área sea dedicado a los mismos. 

In [None]:
areas_por_categoria = gdf.groupby('categoria')['area_m2'].sum().reset_index()
areas_por_categoria = areas_por_categoria.sort_values('area_m2', ascending=False).head(10)
areas_por_categoria

In [None]:
out = sns.barplot(data=areas_por_categoria, x='categoria', y='area_m2')
out.tick_params(axis='x', rotation=90)

In [None]:
area_por_categoria_cultivable = areas_por_categoria[~areas_por_categoria.isin(categorias_no_cultivo)].dropna()
out = sns.barplot(data=area_por_categoria_cultivable, x='categoria', y='area_m2')
out.tick_params(axis='x', rotation=90)

### Área por agrupación
Podemos ver que cultivos son los que más área sea dedicado a los mismos. 

In [None]:
areas_por_agrupación = gdf.groupby('agrupacion')['area_m2'].sum().reset_index().sort_values('area_m2', ascending=False)
areas_por_agrupación

In [None]:
out = sns.barplot(data=areas_por_agrupación, x='agrupacion', y='area_m2')
out.tick_params(axis='x', rotation=90)

In [None]:
area_por_agrupacion_cultivable = areas_por_agrupación[~areas_por_agrupación.isin(categorias_no_cultivo)].dropna()
out = sns.barplot(data=area_por_agrupacion_cultivable, x='agrupacion', y='area_m2')
out.tick_params(axis='x', rotation=90)

### Área por tipo de cultivo
Podemos ver que cultivos son los que más área sea dedicado a los mismos. 

In [None]:
areas_por_cultivo = gdf.groupby('cultivo_na')['area_m2'].sum().reset_index().sort_values('area_m2', ascending=False)
areas_por_cultivo.sort_values('area_m2', ascending=False).head(10)

In [None]:
out = sns.barplot(data=areas_por_cultivo.head(10), x='cultivo_na', y='area_m2')
out.tick_params(axis='x', rotation=90)

In [None]:
area_por_cultivo_cultivable = areas_por_cultivo[~areas_por_cultivo.isin(categorias_no_cultivo)].dropna()
out = sns.barplot(data=area_por_cultivo_cultivable.head(15), x='cultivo_na', y='area_m2')
out.tick_params(axis='x', rotation=90)

### Porcentaje dedicado a cada cultivo
Para ver el porcentaje dedicado a cada cultivo en total del área disponible

In [None]:
# Calcular porcentajes
area_por_cultivo_cultivable['percentage'] = (area_por_cultivo_cultivable['area_m2'] / area_por_cultivo_cultivable['area_m2'].sum()) * 100

# Gráfico de pastel
plt.figure(figsize=(10, 8))
plt.pie(
    area_por_cultivo_cultivable['percentage'].head(10), 
    labels=area_por_cultivo_cultivable['cultivo_na'].head(10), 
    autopct='%1.1f%%', 
    startangle=140, 
    colors=plt.cm.tab20.colors
)
plt.title("Proporción de Áreas por Cultivo (%)", fontsize=16)
plt.show()

### Isla que cultiva más X

In [None]:
area_por_isla_cultivo = gdf.groupby(["isla_na", "cultivo_na"], as_index=False)["area_m2"].sum()
millo_por_isla = area_por_isla_cultivo[area_por_isla_cultivo.cultivo_na == 'Millo'].sort_values('area_m2', ascending=False)

In [None]:
out = sns.barplot(data=millo_por_isla, x='isla_na', y='area_m2')
out.tick_params(axis='x', rotation=90)