# Estadística de Producción Agrícola SIAP

Los datos abiertos del **SIAP** proporcionan información detallada sobre estadísticas agrícolas en México. Incluye datos sobre la superficie sembrada, cosechada y siniestrada, el precio promedio rural, el volumen y el valor de la producción de cultivos cíclicos y perennes, clasificados por modalidad hídrica. Los informes cubren las 32 entidades federativas del país y se desglosan a nivel nacional, estatal, distrital y municipal. Estos datos abarcan la serie anual desde 1980 hasta 2022. Los datos puden ser consultados en el siguiente [enlace](http://infosiap.siap.gob.mx/gobmx/datosAbiertos_a.php).

In [20]:
# Importar librerias

import os
import urllib.request
import datetime
import pandas as pd
pd.set_option('display.max_columns', None)
import numpy as np

### Creación de Directorios

In [6]:
#  Estos son los directorios donde se guardaran los datos

subdir = "./data/"
data_raw = subdir + "raw/"
data_processed = subdir + "processed/"
url = "http://infosiap.siap.gob.mx/gobmx/datosAbiertos_a.php"

if not os.path.exists(subdir):
    os.makedirs(subdir)
if not os.path.exists(data_raw):
    os.makedirs(data_raw)
if not os.path.exists(data_processed):
    os.makedirs(data_processed)

### Creación de Registro

In [12]:
with open(subdir + "info.txt", 'w') as f:
        f.write("Estadística de Producción Agrícola SIAP\n")
        info = """

        Fuente: Sistema de Estadísticas Agrícolas de México SIAP

        Descripción:
        Este registro proporciona información exhaustiva sobre las estadísticas agrícolas en México. Incluye datos cruciales, 
        como la superficie sembrada, cosechada y siniestrada, el precio medio rural, el volumen de producción y el valor de 
        la producción de cultivos tanto cíclicos como perennes.

        Cobertura Geográfica:
        Los informes abarcan las 32 entidades federativas de México, y los datos se presentan a nivel nacional, estatal, distrital y municipal.

        Rango de Tiempo:
        Los datos abarcan desde 1980 hasta 2022.

        Este registro se encuentra disponible para su consulta y análisis, proporcionando una visión completa de la agricultura 
        en México a lo largo de las décadas, y ofreciendo información crucial para la toma de decisiones y la planificación en el sector agrícola.

        """ 
        f.write(info + '\n')
        f.write("Descargado el " + datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") + "\n")
        f.write('\n')
        f.write("Desde: " + url + "\n")

### Descargando la Data

En esta instancia, se procede a la descarga de datos correspondientes al período comprendido entre **2003** y **2022** por conveniencia, en respuesta a la recomendación del cliente, quien ha expresado que la información de años precedentes carece de relevancia para el análisis que se pretende llevar a cabo.

In [18]:
data_combined_2003_20 = pd.DataFrame()
data_combined_2021_22 = pd.DataFrame()

# Descarga y concatena los datos para los años de 2003 a 2020
for year in range(2003, 2021):
    url = f"http://infosiap.siap.gob.mx/gobmx/datosAbiertos/ProduccionAgricola/Cierre_agricola_mun_{year}.csv" # Aqui son distintos los nombres de los archivos
    data1 = pd.read_csv(url, encoding='latin-1', low_memory=False)
    data1.to_csv(f'{data_raw}Cierre_agricola_{year}.csv', index=False)
    data_combined_2003_20 = pd.concat([data_combined_2003_20, data1])

# Descarga y concatena los datos para los años de 2021 a 2022
for year in range(2021, 2023):
    url = f"http://infosiap.siap.gob.mx/gobmx/datosAbiertos/ProduccionAgricola/Cierre_agr_mun_{year}.csv" # Aqui es con "arg" en lugar de "agricola".
    data2 = pd.read_csv(url, encoding='latin-1', low_memory=False)
    data2.to_csv(f'{data_raw}Cierre_agricola_{year}.csv', index=False)
    data_combined_2021_22 = pd.concat([data_combined_2021_22, data2])

data_combined = pd.concat([data_combined_2003_20, data_combined_2021_22])
data_combined.reset_index(drop=True, inplace=True)
data_combined.to_csv(data_processed + 'Cierre_agricola__2003_2023.csv', index=False)

In [24]:
data_combined.head()

Unnamed: 0,Anio,Idestado,Nomestado,Idddr,Nomddr,Idcader,Nomcader,Idmunicipio,Nommunicipio,Idciclo,Nomcicloproductivo,Idmodalidad,Nommodalidad,Idunidadmedida,Nomunidad,Idcultivo,Nomcultivo,Sembrada,Cosechada,Siniestrada,Volumenproduccion,Rendimiento,Precio,Valorproduccion,Nomcultivo Sin Um,Preciomediorural
0,2003,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,1,Otoño-Invierno,1,Riego,200201,Tonelada,5490000,Avena forrajera en verde,1062.0,1062.0,0.0,28529.0,26.86,323.4,9226278.6,,
1,2003,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,1,Otoño-Invierno,1,Riego,200201,Tonelada,5900000,Cebada forrajera en verde,2.0,2.0,0.0,54.0,27.0,250.0,13500.0,,
2,2003,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,1,Otoño-Invierno,1,Riego,200201,Tonelada,5980000,Centeno forrajero en verde,17.0,17.0,0.0,1020.0,60.0,350.0,357000.0,,
3,2003,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,1,Otoño-Invierno,1,Riego,200201,Tonelada,9090000,Triticale forrajero en verde,24.0,24.0,0.0,720.0,30.0,400.0,288000.0,,
4,2003,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,1,Aguascalientes,1,Otoño-Invierno,1,Riego,200201,Tonelada,15050000,Pastos y praderas,415.0,415.0,0.0,25830.0,62.24,314.9,8133867.0,,
