# An√°lisis Exploratorio de Datos (EDA) - Producci√≥n Agroindustrial de Ica

**Objetivo**: Realizar un an√°lisis exploratorio completo del dataset de certificaciones de productos agr√≠colas de la regi√≥n de Ica (Per√∫).

**Fuente de datos**: Certificaciones VUCE (Ventanilla √önica de Comercio Exterior) - SENASA

**Per√≠odo**: 2025 (datos m√°s recientes)

---

## 1. Importaci√≥n de Librer√≠as y Configuraci√≥n

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
from pathlib import Path

# Configuraci√≥n
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

# Configurar directorio de trabajo
import os
os.chdir('..')

print("üìä Librer√≠as importadas correctamente")
print("üìÅ Directorio de trabajo:", os.getcwd())

## 2. Carga de Datos

In [None]:
# Cargar datos
df = pd.read_csv("data/lugar_produccion_ica.csv", encoding='latin-1')

print(f"‚úÖ Dataset cargado exitosamente")
print(f"üìä Dimensiones: {df.shape[0]} filas, {df.shape[1]} columnas")
print("\nüìã Primeras 5 filas:")
df.head()

## 3. Exploraci√≥n Inicial

In [None]:
# Informaci√≥n general del dataset
print("üìã INFORMACI√ìN GENERAL DEL DATASET")
print("=" * 50)

print(f"\nüìä Informaci√≥n b√°sica:")
print(f"- Per√≠odo: {df['A√ëO CERTIFICACION'].min()} - {df['A√ëO CERTIFICACION'].max()}")
print(f"- Departamento: {df['DEPARTAMENTO'].unique()}")
print(f"- Provincias: {len(df['PROVINCIA'].unique())} √∫nicas")
print(f"- Distritos: {len(df['DISTRITO'].unique())} √∫nicos")
print(f"- Productos √∫nicos: {len(df['CULTIVO'].unique())}")
print(f"- Tipos de productor: {df['TIPO PROD'].unique()}")

# Informaci√≥n de columnas
print("\nüìã Columnas del dataset:")
for i, col in enumerate(df.columns, 1):
    print(f"{i:2d}. {col}")

In [None]:
# An√°lisis de tipos de datos y valores nulos
print("üìä AN√ÅLISIS DE CALIDAD DE DATOS")
print("=" * 50)

# Crear resumen de calidad
calidad_datos = pd.DataFrame({
    'Tipo_Datos': df.dtypes,
    'Valores_Nulos': df.isnull().sum(),
    'Porcentaje_Nulos': (df.isnull().sum() / len(df) * 100).round(2),
    'Valores_√önicos': df.nunique()
})

print("\nüìã Resumen de calidad de datos:")
display(calidad_datos)

## 4. An√°lisis Descriptivo

In [None]:
# Estad√≠sticas descriptivas de variables num√©ricas
print("üìä ESTAD√çSTICAS DESCRIPTIVAS")
print("=" * 50)

# Columnas num√©ricas principales
numeric_cols = ['AREA TOTAL (HA)', 'AREA CERTIFICAR (HA)', 'RENDIMIENTO CERTIFICADO', 'RENDIMIENTO SOLICITUD']
existing_numeric_cols = [col for col in numeric_cols if col in df.columns]

if existing_numeric_cols:
    # Convertir a num√©rico
    for col in existing_numeric_cols:
        df[col] = pd.to_numeric(df[col], errors='coerce')
    
    print("\nüìã Estad√≠sticas descriptivas (variables num√©ricas):")
    display(df[existing_numeric_cols].describe())
else:
    print("‚ö†Ô∏è No se encontraron columnas num√©ricas espec√≠ficas")

In [None]:
# Top 10 productos m√°s frecuentes
print("ü•á TOP 10 PRODUCTOS M√ÅS CERTIFICADOS")
print("=" * 50)

top_productos = df['CULTIVO'].value_counts().head(10)
print("\nüìã Ranking de productos:")
for i, (producto, count) in enumerate(top_productos.items(), 1):
    print(f"{i:2d}. {producto}: {count:,} certificaciones")

# Visualizaci√≥n
plt.figure(figsize=(12, 8))
sns.barplot(data=top_productos.reset_index(), y='CULTIVO', x='count', palette='viridis')
plt.title('Top 10 Productos M√°s Certificados en Ica', fontsize=16, fontweight='bold')
plt.xlabel('N√∫mero de Certificaciones', fontsize=12)
plt.ylabel('Producto', fontsize=12)
plt.tight_layout()
plt.show()

In [None]:
# Distribuci√≥n geogr√°fica por provincia y distrito
print("üó∫Ô∏è DISTRIBUCI√ìN GEOGR√ÅFICA")
print("=" * 50)

# Por provincia
provincia_dist = df['PROVINCIA'].value_counts()
print("\nüìã Distribuci√≥n por provincia:")
for provincia, count in provincia_dist.items():
    print(f"- {provincia}: {count:,} certificaciones ({count/len(df)*100:.1f}%)")

# Top 10 distritos
print("\nüìã Top 10 distritos m√°s activos:")
top_distritos = df['DISTRITO'].value_counts().head(10)
for i, (distrito, count) in enumerate(top_distritos.items(), 1):
    print(f"{i:2d}. {distrito}: {count:,} certificaciones")

# Visualizaci√≥n por provincia
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Gr√°fico de barras por provincia
provincia_dist.plot(kind='bar', ax=ax1, color='skyblue')
ax1.set_title('Distribuci√≥n de Certificaciones por Provincia', fontsize=14, fontweight='bold')
ax1.set_ylabel('N√∫mero de Certificaciones')
ax1.tick_params(axis='x', rotation=45)

# Gr√°fico de pastel por provincia
provincia_dist.plot(kind='pie', ax=ax2, autopct='%1.1f%%', startangle=90)
ax2.set_title('Distribuci√≥n Porcentual por Provincia', fontsize=14, fontweight='bold')
ax2.set_ylabel('')

plt.tight_layout()
plt.show()

## 5. An√°lisis Temporal

In [None]:
# An√°lisis temporal por mes
print("üìÖ AN√ÅLISIS TEMPORAL")
print("=" * 50)

# Distribuci√≥n mensual
mes_dist = df['MES CERTIFICACION'].value_counts().sort_index()
print("\nüìã Distribuci√≥n mensual de certificaciones:")
for mes, count in mes_dist.items():
    print(f"- {mes}: {count:,} certificaciones")

# Visualizaci√≥n temporal
plt.figure(figsize=(14, 8))

# Tendencia mensual
plt.subplot(2, 2, 1)
mes_dist.plot(kind='bar', color='coral')
plt.title('Certificaciones por Mes', fontsize=12, fontweight='bold')
plt.ylabel('N√∫mero de Certificaciones')
plt.tick_params(axis='x', rotation=45)

# An√°lisis por tipo de productor
plt.subplot(2, 2, 2)
tipo_prod_dist = df['TIPO PROD'].value_counts()
tipo_prod_dist.plot(kind='pie', autopct='%1.1f%%', startangle=90)
plt.title('Distribuci√≥n por Tipo de Productor', fontsize=12, fontweight='bold')
plt.ylabel('')

# Heatmap mensual por provincia
plt.subplot(2, 1, 2)
heatmap_data = df.groupby(['PROVINCIA', 'MES CERTIFICACION']).size().unstack(fill_value=0)
sns.heatmap(heatmap_data, annot=True, fmt='d', cmap='YlOrRd', cbar_kws={'label': 'Certificaciones'})
plt.title('Mapa de Calor: Certificaciones por Provincia y Mes', fontsize=12, fontweight='bold')
plt.xlabel('Mes')
plt.ylabel('Provincia')

plt.tight_layout()
plt.show()

## 6. An√°lisis de Rendimiento y √Årea

In [None]:
# An√°lisis de rendimiento por cultivo
print("üå± AN√ÅLISIS DE RENDIMIENTO Y √ÅREA")
print("=" * 50)

# Estad√≠sticas por cultivo (para cultivos con m√°s de 5 registros)
cultivo_stats = df.groupby('CULTIVO').agg({
    'AREA CERTIFICAR (HA)': ['count', 'sum', 'mean'],
    'RENDIMIENTO CERTIFICADO': ['mean', 'std']
}).round(2)

# Filtrar cultivos con m√°s de 5 registros
cultivo_stats_filtered = cultivo_stats[cultivo_stats[('AREA CERTIFICAR (HA)', 'count')] >= 5]

print("\nüìã Estad√≠sticas por cultivo (>5 registros):")
print("Cultivo | Certificaciones | √Årea Total (Ha) | √Årea Promedio | Rendimiento Promedio")
print("-" * 90)

for cultivo in cultivo_stats_filtered.index:
    count = cultivo_stats_filtered.loc[cultivo, ('AREA CERTIFICAR (HA)', 'count')]
    area_total = cultivo_stats_filtered.loc[cultivo, ('AREA CERTIFICAR (HA)', 'sum')]
    area_prom = cultivo_stats_filtered.loc[cultivo, ('AREA CERTIFICAR (HA)', 'mean')]
    rend_prom = cultivo_stats_filtered.loc[cultivo, ('RENDIMIENTO CERTIFICADO', 'mean')]
    
    print(f"{cultivo[:25]:<25} | {count:>12} | {area_total:>12.1f} | {area_prom:>11.1f} | {rend_prom:>17.1f}")

In [None]:
# Visualizaci√≥n de rendimiento vs √°rea
# Preparar datos para visualizaci√≥n
cultivo_viz = df.groupby('CULTIVO').agg({
    'AREA CERTIFICAR (HA)': ['count', 'sum'],
    'RENDIMIENTO CERTIFICADO': 'mean'
}).round(2)

cultivo_viz.columns = ['Certificaciones', 'Area_Total', 'Rendimiento_Promedio']
cultivo_viz = cultivo_viz[cultivo_viz['Certificaciones'] >= 3].reset_index()

# Crear visualizaci√≥n interactiva con Plotly
fig = px.scatter(
    cultivo_viz, 
    x='Certificaciones', 
    y='Rendimiento_Promedio',
    size='Area_Total',
    hover_name='CULTIVO',
    hover_data=['Area_Total'],
    title='Rendimiento vs Frecuencia de Certificaciones por Cultivo',
    labels={
        'Certificaciones': 'N√∫mero de Certificaciones',
        'Rendimiento_Promedio': 'Rendimiento Promedio (t/ha)',
        'Area_Total': '√Årea Total (Ha)'
    },
    color='Rendimiento_Promedio',
    color_continuous_scale='viridis'
)

fig.update_layout(
    width=900,
    height=600,
    title_font_size=16
)

fig.show()

## 7. An√°lisis por Tipo de Productor

In [None]:
# An√°lisis por tipo de productor
print("üë• AN√ÅLISIS POR TIPO DE PRODUCTOR")
print("=" * 50)

# Distribuci√≥n general
tipo_prod_dist = df['TIPO PROD'].value_counts()
print("\nüìã Distribuci√≥n por tipo de productor:")
for tipo, count in tipo_prod_dist.items():
    print(f"- {tipo}: {count:,} certificaciones ({count/len(df)*100:.1f}%)")

# An√°lisis por cultivo y tipo de productor
tipo_cultivo_cross = pd.crosstab(df['CULTIVO'], df['TIPO PROD'])
top_cultivos = df['CULTIVO'].value_counts().head(8).index
tipo_cultivo_top = tipo_cultivo_cross.loc[top_cultivos]

print("\nüìã Distribuci√≥n por tipo de productor en principales cultivos:")
display(tipo_cultivo_top)

# Visualizaci√≥n
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Gr√°fico de barras apiladas
tipo_cultivo_top.plot(kind='bar', stacked=True, ax=ax1, color=['lightblue', 'lightcoral'])
ax1.set_title('Tipo de Productor por Cultivo Principal', fontsize=14, fontweight='bold')
ax1.set_ylabel('N√∫mero de Certificaciones')
ax1.tick_params(axis='x', rotation=45)
ax1.legend(title='Tipo Productor')

# Gr√°fico de barras agrupadas
tipo_cultivo_top.plot(kind='bar', ax=ax2, color=['lightblue', 'lightcoral'])
ax2.set_title('Comparaci√≥n por Tipo de Productor', fontsize=14, fontweight='bold')
ax2.set_ylabel('N√∫mero de Certificaciones')
ax2.tick_params(axis='x', rotation=45)
ax2.legend(title='Tipo Productor')

plt.tight_layout()
plt.show()

## 8. Insights y Conclusiones Principales

In [None]:
# Generar insights principales
print("üéØ INSIGHTS Y CONCLUSIONES PRINCIPALES")
print("=" * 60)

# Calcular m√©tricas clave
total_certificaciones = len(df)
total_area = df['AREA CERTIFICAR (HA)'].sum()
productos_unicos = df['CULTIVO'].nunique()
distritos_unicos = df['DISTRITO'].nunique()
provincias_unicas = df['PROVINCIA'].nunique()

producto_principal = df['CULTIVO'].value_counts().index[0]
provincia_principal = df['PROVINCIA'].value_counts().index[0]
distrito_principal = df['DISTRITO'].value_counts().index[0]
mes_principal = df['MES CERTIFICACION'].value_counts().index[0]

print(f"\nüìä M√âTRICAS CLAVE:")
print(f"- Total de certificaciones: {total_certificaciones:,}")
print(f"- √Årea total certificada: {total_area:,.1f} hect√°reas")
print(f"- Productos √∫nicos: {productos_unicos}")
print(f"- Distritos participantes: {distritos_unicos}")
print(f"- Provincias participantes: {provincias_unicas}")

print(f"\nü•á PRINCIPALES HALLAZGOS:")
print(f"- Producto m√°s certificado: {producto_principal}")
print(f"- Provincia m√°s activa: {provincia_principal}")
print(f"- Distrito m√°s activo: {distrito_principal}")
print(f"- Mes con m√°s certificaciones: {mes_principal}")

# Tipo de productor predominante
tipo_predominante = df['TIPO PROD'].value_counts().index[0]
porcentaje_tipo = (df['TIPO PROD'].value_counts().iloc[0] / len(df)) * 100
print(f"- Tipo de productor predominante: {tipo_predominante} ({porcentaje_tipo:.1f}%)")

print(f"\nüîç INSIGHTS ESTRAT√âGICOS:")
print(f"1. La regi√≥n de Ica se enfoca principalmente en cultivos de exportaci√≥n")
print(f"2. {provincia_principal} es la provincia l√≠der en certificaciones")
print(f"3. Los productores jur√≠dicos (empresas) dominan el sector")
print(f"4. La estacionalidad muestra picos en {mes_principal}")
print(f"5. {producto_principal} es el cultivo estrella de la regi√≥n")
print(f"6. La diversificaci√≥n productiva incluye {productos_unicos} cultivos diferentes")
print(f"7. La cobertura geogr√°fica abarca {distritos_unicos} distritos")

print(f"\nüí° RECOMENDACIONES:")
print(f"- Fortalecer la cadena productiva de {producto_principal}")
print(f"- Apoyar el desarrollo de peque√±os productores (tipo Natural)")
print(f"- Expandir la certificaci√≥n en distritos con menor participaci√≥n")
print(f"- Desarrollar estrategias de diversificaci√≥n de cultivos")
print(f"- Optimizar los procesos de certificaci√≥n en √©poca de alta demanda")

## 9. Exportaci√≥n de Resultados

In [None]:
# Crear resumenes para exportar
print("üíæ EXPORTANDO RESULTADOS")
print("=" * 50)

# Crear directorio de salida
output_dir = Path('outputs')
output_dir.mkdir(exist_ok=True)

# Resumen ejecutivo
resumen_ejecutivo = {
    'M√©trica': ['Total Certificaciones', '√Årea Total (Ha)', 'Productos √önicos', 'Distritos', 'Provincias'],
    'Valor': [total_certificaciones, f"{total_area:,.1f}", productos_unicos, distritos_unicos, provincias_unicas]
}

df_resumen = pd.DataFrame(resumen_ejecutivo)
df_resumen.to_csv(output_dir / 'resumen_ejecutivo.csv', index=False, encoding='utf-8')

# Top productos
top_productos.to_csv(output_dir / 'top_productos.csv', header=['Certificaciones'], encoding='utf-8')

# Distribuci√≥n geogr√°fica
distribucion_geo = pd.DataFrame({
    'Provincia': provincia_dist.index,
    'Certificaciones': provincia_dist.values,
    'Porcentaje': (provincia_dist.values / len(df) * 100).round(1)
})
distribucion_geo.to_csv(output_dir / 'distribucion_geografica.csv', index=False, encoding='utf-8')

print("‚úÖ Resultados exportados exitosamente")
print(f"üìÅ Archivos guardados en: {output_dir.absolute()}")
print("- resumen_ejecutivo.csv")
print("- top_productos.csv")
print("- distribucion_geografica.csv")

---

## Conclusiones del An√°lisis Exploratorio

Este an√°lisis exploratorio ha revelado aspectos importantes sobre la producci√≥n agroindustrial certificada en la regi√≥n de Ica:

### üéØ Puntos Clave:
1. **Diversidad productiva**: La regi√≥n cuenta con m√∫ltiples cultivos certificados
2. **Concentraci√≥n geogr√°fica**: Ciertas provincias y distritos lideran la actividad
3. **Estacionalidad**: Patrones claros de certificaci√≥n por meses
4. **Estructura empresarial**: Predominio de productores jur√≠dicos
5. **Potencial de crecimiento**: Oportunidades en distritos menos participativos

### üìà Pr√≥ximos Pasos:
- An√°lisis de modelado predictivo (Notebook 02)
- Desarrollo de indicadores de competitividad
- An√°lisis de correlaciones entre variables
- Segmentaci√≥n de productores

---
*An√°lisis realizado con Python - Pandas, Seaborn, Plotly*