# Transformación de los datos 

In [1]:
# !pip install pyarrow

In [140]:
# Importar librerías
import pandas as pd
import os
import warnings
import re

In [69]:
# Crear carpeta para almacenar datos Tidy
if not os.path.exists('Tidy'):
    os.mkdir("Tidy")

## SIAP

### Unión de los datos

In [169]:
# Arreglos con valores de años, meses y cultivos
anio_arr = pd.read_csv('./Catalogos_API_SIAP/Anio_Agricola.csv').ID.to_list()
cultivo_arr = pd.read_csv('./Catalogos_API_SIAP/Cultivo.csv').ID.to_list()
mes_arr = pd.read_csv('./Catalogos_API_SIAP/Mes_Agricola.csv').ID.to_list()
cultivo_arr.remove(0) # 0: Todos

In [170]:
# Dataframe vacío con las columnas de nuestros datos
columnas = ["Entidad", "Municipio", "Superficie Sembrada", "Superficie Cosechada", "Superficie Siniestrada", "Produccion", "Rendimiento","Anio", "Mes", "Cultivo"]
df_raw = pd.DataFrame(columns=columnas)

total = 0
# Iteración sobre CSV's para llenar DataFrame
for anio in anio_arr:
    for i in range(1,13):
        df_aux = pd.read_csv("./raw/SIAP/"+str(anio)+"/Avance_Agricola_"+str(anio)+ "_" + str(i) + '.csv')
        df_raw = pd.concat([df_raw, df_aux], axis=0)
        total += df_aux.shape[0]

# La columna Superficie Siniestrada se llena con nan's en sus valores faltantes
df_raw['Superficie Siniestrada'] = pd.to_numeric(df_raw['Superficie Siniestrada'], errors='coerce')

  df_raw = pd.concat([df_raw, df_aux], axis=0)


In [180]:
# Dimensión de los datos
print(f"Dimensión de los datos: {df_raw.shape}")

Dimensión de los datos: (1154774, 10)


In [171]:
# 5 filas ejemplos
df_raw.sample(n=5)

Unnamed: 0,Entidad,Municipio,Superficie Sembrada,Superficie Cosechada,Superficie Siniestrada,Produccion,Rendimiento,Anio,Mes,Cultivo
16922,Michoacán,Tacámbaro,50.25,12.0,0.0,174.0,14.5,2022,6,390
10220,Veracruz,Mecatlán,810.0,62.64,0.0,124.66,1.99,2019,5,225
14998,Jalisco,Talpa de Allende,13.0,13.0,0.0,414.5,31.88,2021,11,285
5050,Zacatecas,Fresnillo,2030.0,960.0,0.0,3475.0,3.62,2022,9,77
2582,Hidalgo,Tulancingo de Bravo,394.77,126.5,0.0,2061.95,16.3,2023,7,42


In [72]:
# Si aún no existe, guardamos el DataFrame en un parquet
if not os.path.exists('raw/SIAP/Avance_Agricola_Historico.parquet'):
    name_csv = "Avance_Agricola_Historico"
    ruta_completa = os.path.join("raw/SIAP/",name_csv)
    df_raw.to_parquet(ruta_completa + '.parquet', index=False)

### Decodificación de variables

In [173]:
# Cargar parquet
df = pd.read_parquet('./raw/SIAP/Avance_Agricola_Historico.parquet')

In [174]:
# Cargar catálogos
catalogo_cultivos = pd.read_csv('./Catalogos_API_SIAP/Cultivo.csv')  # Cultivos
catalogo_mes = pd.read_csv('./Catalogos_API_SIAP/Mes_Agricola.csv')  # Meses

# Convertir los id's en keys de diccionario
catalogo_cultivos = catalogo_cultivos.set_index('ID')['Name'].to_dict()
catalogo_mes = catalogo_mes.set_index('ID')['Name'].to_dict()

# Mapear los valores de nuestras columnas con respecto a estos catálgoso
df['Cultivo'] = df['Cultivo'].map(catalogo_cultivos)
df['Mes'] = df['Mes'].map(catalogo_mes)


In [175]:
# 5 filas ejemplos
df.sample(n=5)

Unnamed: 0,Entidad,Municipio,Superficie Sembrada,Superficie Cosechada,Superficie Siniestrada,Produccion,Rendimiento,Anio,Mes,Cultivo
744124,Guanajuato,Valle de Santiago,2843.0,2843.0,0.0,48404.8,17.03,2020,Diciembre,Brócoli
614637,Oaxaca,San Juan Lajarcia,144.5,6.5,0.0,182.33,28.05,2020,Mayo,Agave
194384,Oaxaca,San Francisco Sola,6.2,3.5,0.0,3.22,0.92,2022,Abril,Frijol
795980,Querétaro,Tolimán,6.0,0.0,0.0,0.0,0.0,2019,Marzo,Tomate verde
535857,Puebla,Guadalupe Victoria,5410.0,560.0,0.0,3165.0,5.65,2021,Noviembre,Maíz grano


In [76]:
# Crear parquet con los valores decodificados
if not os.path.exists('./Tidy/SIAP.parquet'):
    df.to_parquet('./Tidy/SIAP.parquet', index=False)

## SNIIM

### Unión de los datos

In [232]:
# Crea una lista para almacenar los DataFrames de los archivos CSV
dataframes = []

# Itera a través de los archivos en la ruta
for archivo in os.listdir("./raw/SNIIM/"):
    if archivo.endswith(".csv"):
        # Lee cada archivo CSV y lo convierte en un DataFrame
        archivo_csv = os.path.join('./raw/SNIIM/' + str(archivo))
        if os.path.getsize(archivo_csv) > 0:
            try:
                df_sniim = pd.read_csv(archivo_csv)
                dataframes.append(df_sniim)
            except pd.errors.EmptyDataError:
                print(f"El archivo {archivo} está vacío y se omitirá.")

El archivo sniim_product_aguacate_fuerte_primera.csv está vacío y se omitirá.
El archivo sniim_product_aguacate_hass_flor_vieja_primera.csv está vacío y se omitirá.
El archivo sniim_product_melón_cantaloupe_#_16_primera.csv está vacío y se omitirá.
El archivo sniim_product_melón_cantaloupe_#_45_primera.csv está vacío y se omitirá.
El archivo sniim_product_melón_cantaloupe_#_48_primera.csv está vacío y se omitirá.
El archivo sniim_product_papa_marciana_primera.csv está vacío y se omitirá.
El archivo sniim_product_plátano_enanogigante_primera.csv está vacío y se omitirá.
El archivo sniim_product_santa_lucía_girasol.csv está vacío y se omitirá.
El archivo sniim_product_santa_lucía_vegetal_mixto.csv está vacío y se omitirá.
El archivo sniim_product_santísima_vegetal_mixto.csv está vacío y se omitirá.
El archivo sniim_product_sarita_cártamo.csv está vacío y se omitirá.
El archivo sniim_product_sarita_maíz.csv está vacío y se omitirá.
El archivo sniim_product_sarita_vegetal_mixto.csv está va

In [233]:
# Combina todos los DataFrames en uno solo
df_completo = pd.concat(dataframes, ignore_index=True)
# Muestra de 5 filas aleatorias del dataframe
df_completo.sample(n=5)

Unnamed: 0,fecha,presentacion,origen,destino,precio_min,precio_max,precio_frec,obs,name
171120,08/05/2019,Kilogramo,Sinaloa,"Coahuila: Central de Abasto de La Laguna, Torreón",20.0,21.0,20.5,,chile chilaca_primera
328492,02/10/2020,Caja de 12 kg.,México,DF: Central de Abasto de Iztapalapa DF,19.17,21.67,20.83,,durazno amarillo_primera
420945,17/09/2020,Kilogramo,Guanajuato,Aguascalientes: Centro Comercial Agropecuario ...,6.0,8.0,7.0,,jícama_primera
225228,17/06/2022,Kilogramo,Aguascalientes,Aguascalientes: Centro Comercial Agropecuario ...,110.0,130.0,120.0,,chile pasilla_primera
860337,18/07/2023,Caja de 9 kg.,Distrito Federal,"Campeche: Mercado ""Pedro Sáinz de Baranda"", Ca...",55.56,61.11,61.11,,uva sin semilla_primera


In [234]:
# Dimensión de los datos
print(f"Dimensión de los datos: {df_completo.shape}")

Dimensión de los datos: (900763, 9)


In [235]:
# Renombrar las columnas para que sigan el mismo formato que los datos del SIAP
nuevos_nombres = {
    "fecha": "Fecha",
    "presentacion": "Presentacion",
    "origen": "Origen",
    "destino": "Destino",
    "precio_min": "Precio Minimo",
    "precio_max": "Precio Maximo",
    "precio_frec": "Precio Frecuente",
    "obs": "Observacion",
    "name":"Cultivo"
}

# Aplicar el renombramiento al df_completo
df_completo = df_completo.rename(columns=nuevos_nombres)

In [236]:
# Muestra de 5 filas aleatorias del dataframe
df_completo.sample(n=5)

Unnamed: 0,Fecha,Presentacion,Origen,Destino,Precio Minimo,Precio Maximo,Precio Frecuente,Observacion,Cultivo
51936,01/12/2022,Manojo de 4 kg.,Puebla,Chiapas: Central de Abasto de Tuxtla Gutiérrez,10.0,15.0,10.0,,betabel_primera
796001,09/09/2020,Caja de 13 kg.,Sinaloa,Aguascalientes: Centro Comercial Agropecuario ...,16.92,18.46,17.69,,tomate bola_primera
152265,18/10/2022,Kilogramo,Sonora,Chihuahua: Mercado de Abasto de Cd. Juárez,40.0,40.0,40.0,,chile california_primera
819015,26/09/2022,Kilogramo,Tamaulipas,Aguascalientes: Centro Comercial Agropecuario ...,15.0,17.0,16.0,,toronja roja_primera
73096,29/09/2020,Caja de 15 kg.,Aguascalientes,Aguascalientes: Centro Comercial Agropecuario ...,11.33,12.67,12.0,,calabacita italiana_primera


El dataframe no puede almacenarse como parquet porque:
- La columna "Precio Maximo" contiene floats y strings
- La columna "Observacion" contiene inconsistencias

In [237]:
# Tipo de dato de cada columna
df_completo.dtypes

Fecha                object
Presentacion         object
Origen               object
Destino              object
Precio Minimo       float64
Precio Maximo        object
Precio Frecuente    float64
Observacion          object
Cultivo              object
dtype: object

In [238]:
# "Precio Maximo" de object a float
strings = df_completo['Precio Maximo'].apply(lambda x: isinstance(x, str)); # Identificar elementos de la columna que son strings
df_completo['Precio Maximo'][strings] = df_completo['Precio Maximo'][strings].str.replace(',', '').astype(float);  # Eliminar comas en estos elementos
df_completo['Precio Maximo'] = df_completo['Precio Maximo'].astype(float)   # Convertir elementos en float
# Nuevo tipo de dato de cada columna
df_completo.dtypes

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_completo['Precio Maximo'][strings] = df_completo['Precio Maximo'][strings].str.replace(',', '').astype(float);  # Eliminar comas en estos elementos


Fecha                object
Presentacion         object
Origen               object
Destino              object
Precio Minimo       float64
Precio Maximo       float64
Precio Frecuente    float64
Observacion          object
Cultivo              object
dtype: object

In [239]:
# "Observacion" a str
df_completo['Observacion'] = df_completo['Observacion'].astype(str)

In [240]:
# Almacenamos el archivo como parquet 
if not os.path.exists('./Tidy/SNIIM.parquet'):
    df_completo.to_parquet('./Tidy/SNIIM.parquet', index=False)