# Limpiando Datos de SIAP

La limpieza de datos es una de las etapas más críticas y esenciales en el proceso de Ciencia de Datos. Antes de que los datos puedan ser utilizados para modelar, analizar o visualizar, es muy importante asegurarse de que estén limpios, consistentes y libres de anomalías o inexactitudes. Esto se debe a que la calidad de los datos determina directamente la calidad de los insights obtenidos. Datos incorrectos o inconsistentes pueden conducir a resultados engañosos, decisiones erróneas y, en última instancia, a la pérdida de confianza en los análisis realizados. Así, la limpieza de datos no es sólo un paso preliminar, sino un componente integral para garantizar que el análisis de datos sea preciso, relevante y confiable.

Esta libreta es previa a la descarga de datos de la libreta API_SIAP_Descarga.ipynb

Primero importamos las librerias que vamos a usar.

In [26]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os
from datetime import datetime
import selector as s
import selective_download_siap as d

print(s.cultivos)
print(s.ciclos)
print(s.modalidad)
print(s.meses)
print(s.anios)

['Resumen cultivos', 'Agave', 'Aguacate', 'Ajo', 'Ajonjolí', 'Alfalfa', 'Algodón hueso', 'Amaranto', 'Arroz palay', 'Avena forrajera en verde', 'Avena grano', 'Berenjena', 'Brócoli', 'Cacao', 'Café cereza', 'Calabacita', 'Caña de azúcar', 'Cártamo', 'Cebada grano', 'Cebolla', 'Chile verde', 'Coliflor', 'Copra', 'Crisantemo', 'Durazno', 'Elote', 'Espárrago', 'Frambuesa', 'Fresa', 'Frijol', 'Garbanzo grano', 'Gerbera', 'Gladiola', 'Guayaba', 'Lechuga', 'Limón', 'Maguey pulquero', 'Maíz forrajero en verde', 'Maíz grano', 'Mango', 'Manzana', 'Melón', 'Naranja', 'Nopalitos', 'Nuez', 'Papa', 'Papaya', 'Pepino', 'Pera', 'Piña', 'Plátano', 'Rosa', 'Sandía', 'Sorgo forrajero en verde', 'Sorgo grano', 'Soya', 'Tabaco', 'Tomate rojo (jitomate)', 'Tomate verde', 'Toronja (pomelo)', 'Trigo grano', 'Tuna', 'Uva', 'Zanahoria', 'Zarzamora']
['Otoño - Invierno', 'Primavera - Verano', 'Perennes', 'Año Agrícola (OI + PV)', 'Ciclicos - Perennes']
['Riego', 'Temporal', 'Riego + Temporal']
['Agosto', 'Julio

Ahora, para definamos el siguiente selector.

* Checaremos todos los años.
* Durante el ciclo Otoño- Invierno.
* Todos los meses.
* Revisando la modalidad de Riego.

In [27]:
selector_data = {
    'Anio':[],
    'Ciclos':['Otoño - Invierno'],
    'Cultivos':['Aguacate'],
    'Meses':[],
    'Modalidad':['Riego']
}

d.download_selector(selector_data)

Se crea un loop para enlistar todos los archivos que están dentro de el folder.

In [28]:
file_pad = os.path.join("..","..","data","siap")
path_list = []
for x in os.listdir(file_pad):
    if x.endswith(".csv"):
        x = os.path.join(file_pad,x)
        path_list.append(x)


In [29]:
len(path_list)

69

Se lee el primer csv para analizar para explorar los datos.

In [30]:
dt = pd.read_csv(path_list[0],
                sep = ',',
                encoding='utf-8',
                header=[0,1])
print(path_list[0])
dt.head()

..\..\data\siap\aguacate_abril_2018.csv


Unnamed: 0_level_0,Unnamed: 0_level_0,Entidad,Municipio,Superficie(ha),Superficie(ha),Superficie(ha),Producción,Rendimiento(udm/ha)
Unnamed: 0_level_1,Unnamed: 0_level_1.1,Entidad,Municipio,Sembrada,Cosechada,Siniestrada,Producción,Rendimiento(udm/ha)
0,1,Aguascalientes,Calvillo,23.0,0.0,0.0,0.0,0.0
1,2,Baja California,Ensenada,46.75,0.0,0.0,0.0,0.0
2,3,Baja California Sur,Comondú,16.0,0.0,0.0,0.0,0.0
3,4,Baja California Sur,Mulegé,6.0,0.0,0.0,0.0,0.0
4,5,Baja California Sur,La Paz,57.0,0.0,0.0,0.0,0.0


Una vez teniendo la lista de archivos, leemos los csv dentro del archivo y los concatenamos a un solo dataframe. Para poder diferenciar cada uno de los archivos y entradas, podemos agregar un indicador para el cultivo, el mes y el año, a partir de los nombres de cada archivo.

In [31]:
dict_meses = {
    "enero": "1",
    "febrero": "2",
    "marzo": "3",
    "abril": "4",
    "mayo": "5",
    "junio": "6",
    "julio": "7",
    "agosto": "8",
    "septiembre": "9",
    "octubre": "10",
    "noviembre": "11",
    "diciembre": "12"
}

In [32]:
for i, filepath in enumerate(path_list):
    dt = pd.read_csv(filepath,
                   sep = ',',
                   encoding='utf-8',
                   header=[0,1])
    filename = filepath.split(os.sep)[-1]
    name = filename.split(".")[0]
    anio = name.split("_")[-1]
    mes = name.split("_")[-2]
    cultivo = " ".join(name.split("_")[:-2])
    
    dt[("Cultivo","Cultivo")] = cultivo
    dt[("Mes","Mes")] = dict_meses[mes]
    dt[("Año","Año")] = anio
    
    if i == 0:
        data_siap = dt.copy()
    else:
        data_siap = pd.concat([data_siap, dt])

In [33]:
data_siap.shape

(43680, 11)

El dataframe tiene un total de 8 características y 655428 observaciones.

In [34]:
data_siap.head()

Unnamed: 0_level_0,Unnamed: 0_level_0,Entidad,Municipio,Superficie(ha),Superficie(ha),Superficie(ha),Producción,Rendimiento(udm/ha),Cultivo,Mes,Año
Unnamed: 0_level_1,Unnamed: 0_level_1.1,Entidad,Municipio,Sembrada,Cosechada,Siniestrada,Producción,Rendimiento(udm/ha),Cultivo,Mes,Año
0,1,Aguascalientes,Calvillo,23.0,0.0,0.0,0.0,0.0,aguacate,4,2018
1,2,Baja California,Ensenada,46.75,0.0,0.0,0.0,0.0,aguacate,4,2018
2,3,Baja California Sur,Comondú,16.0,0.0,0.0,0.0,0.0,aguacate,4,2018
3,4,Baja California Sur,Mulegé,6.0,0.0,0.0,0.0,0.0,aguacate,4,2018
4,5,Baja California Sur,La Paz,57.0,0.0,0.0,0.0,0.0,aguacate,4,2018


Vemos que nuestro dataframe cuenta con dos niveles de indice para las columnas. El nivel superior parece ser redundante con el inferior, asi que podemos removerlo para evitar confusiones mas adelante.

In [35]:
data_siap.columns = data_siap.columns.droplevel()

In [36]:
data_siap.head()

Unnamed: 0,Unnamed: 0_level_1,Entidad,Municipio,Sembrada,Cosechada,Siniestrada,Producción,Rendimiento(udm/ha),Cultivo,Mes,Año
0,1,Aguascalientes,Calvillo,23.0,0.0,0.0,0.0,0.0,aguacate,4,2018
1,2,Baja California,Ensenada,46.75,0.0,0.0,0.0,0.0,aguacate,4,2018
2,3,Baja California Sur,Comondú,16.0,0.0,0.0,0.0,0.0,aguacate,4,2018
3,4,Baja California Sur,Mulegé,6.0,0.0,0.0,0.0,0.0,aguacate,4,2018
4,5,Baja California Sur,La Paz,57.0,0.0,0.0,0.0,0.0,aguacate,4,2018


Para evitar confusiones, podemos aclarar que las columnas de `Sembrada`, `Cosechada` y `Siniestrada` se refiere a la superficie sembrada/cosechada/siniestrada en hectareas (ha), por lo que podemos renombrar dichas columnas.

In [37]:
nuevos_nombres_cols = {
    "Sembrada": "Sembrada (ha)",
    "Cosechada": "Cosechada (ha)",
    "Siniestrada": "Siniestrada (ha)"
}

In [38]:
data_siap = data_siap.rename(columns=nuevos_nombres_cols)

In [39]:
data_siap.head()

Unnamed: 0,Unnamed: 0_level_1,Entidad,Municipio,Sembrada (ha),Cosechada (ha),Siniestrada (ha),Producción,Rendimiento(udm/ha),Cultivo,Mes,Año
0,1,Aguascalientes,Calvillo,23.0,0.0,0.0,0.0,0.0,aguacate,4,2018
1,2,Baja California,Ensenada,46.75,0.0,0.0,0.0,0.0,aguacate,4,2018
2,3,Baja California Sur,Comondú,16.0,0.0,0.0,0.0,0.0,aguacate,4,2018
3,4,Baja California Sur,Mulegé,6.0,0.0,0.0,0.0,0.0,aguacate,4,2018
4,5,Baja California Sur,La Paz,57.0,0.0,0.0,0.0,0.0,aguacate,4,2018


Ademas, vemos que la primera columna (`Unnamed: 0_level_1`, parece ser una columna de indices, por lo que podemos eliminarla para evitar redundancias.

In [40]:
data_siap.drop(columns="Unnamed: 0_level_1",inplace=True)

In [41]:
data_siap.head()

Unnamed: 0,Entidad,Municipio,Sembrada (ha),Cosechada (ha),Siniestrada (ha),Producción,Rendimiento(udm/ha),Cultivo,Mes,Año
0,Aguascalientes,Calvillo,23.0,0.0,0.0,0.0,0.0,aguacate,4,2018
1,Baja California,Ensenada,46.75,0.0,0.0,0.0,0.0,aguacate,4,2018
2,Baja California Sur,Comondú,16.0,0.0,0.0,0.0,0.0,aguacate,4,2018
3,Baja California Sur,Mulegé,6.0,0.0,0.0,0.0,0.0,aguacate,4,2018
4,Baja California Sur,La Paz,57.0,0.0,0.0,0.0,0.0,aguacate,4,2018


Tipos de características del dataframe.

In [42]:
data_siap.dtypes

Entidad                 object
Municipio               object
Sembrada (ha)          float64
Cosechada (ha)         float64
Siniestrada (ha)       float64
Producción             float64
Rendimiento(udm/ha)    float64
Cultivo                 object
Mes                     object
Año                     object
dtype: object

Podemos ver que hay dos características que pueden ser embebida en una sola característica: `Mes` y `Año` pueden ir en una sola variable llamada `Fecha`. Se puede observar que en ``Entidad``, ``Municipio`` y ``Cultivo`` son variables categóricas, pero no se le ha asignado.

In [43]:
data_siap["fecha_str"] = data_siap["Año"].astype(str) + "_" + data_siap["Mes"].astype(str)

In [44]:
data_siap["fecha"] = pd.to_datetime(data_siap["fecha_str"], format='%Y_%m', errors='ignore')
data_siap.head()

Unnamed: 0,Entidad,Municipio,Sembrada (ha),Cosechada (ha),Siniestrada (ha),Producción,Rendimiento(udm/ha),Cultivo,Mes,Año,fecha_str,fecha
0,Aguascalientes,Calvillo,23.0,0.0,0.0,0.0,0.0,aguacate,4,2018,2018_4,2018-04-01
1,Baja California,Ensenada,46.75,0.0,0.0,0.0,0.0,aguacate,4,2018,2018_4,2018-04-01
2,Baja California Sur,Comondú,16.0,0.0,0.0,0.0,0.0,aguacate,4,2018,2018_4,2018-04-01
3,Baja California Sur,Mulegé,6.0,0.0,0.0,0.0,0.0,aguacate,4,2018,2018_4,2018-04-01
4,Baja California Sur,La Paz,57.0,0.0,0.0,0.0,0.0,aguacate,4,2018,2018_4,2018-04-01


Se remueven las caracteristicas ya embedidas en `Fecha`

In [45]:
data_siap = data_siap.drop(labels = ["Año", "Mes", "fecha_str"], axis = 1)
data_siap

Unnamed: 0,Entidad,Municipio,Sembrada (ha),Cosechada (ha),Siniestrada (ha),Producción,Rendimiento(udm/ha),Cultivo,fecha
0,Aguascalientes,Calvillo,23.00,0.00,0.0,0.00,0.00,aguacate,2018-04-01
1,Baja California,Ensenada,46.75,0.00,0.0,0.00,0.00,aguacate,2018-04-01
2,Baja California Sur,Comondú,16.00,0.00,0.0,0.00,0.00,aguacate,2018-04-01
3,Baja California Sur,Mulegé,6.00,0.00,0.0,0.00,0.00,aguacate,2018-04-01
4,Baja California Sur,La Paz,57.00,0.00,0.0,0.00,0.00,aguacate,2018-04-01
...,...,...,...,...,...,...,...,...,...
643,Zacatecas,Mezquital del Oro,6.00,0.00,0.0,0.00,0.00,aguacate,2023-09-01
644,Zacatecas,Moyahua de Estrada,9.00,0.00,0.0,0.00,0.00,aguacate,2023-09-01
645,Zacatecas,Nochistlán de Mejía,2.00,0.00,0.0,0.00,0.00,aguacate,2023-09-01
646,Zacatecas,Susticacán,3.00,1.50,0.0,11.00,7.33,aguacate,2023-09-01


Cambiamos los tipo de objeto ``object`` a ``category``.

In [46]:
data_siap["Entidad"] = data_siap["Entidad"].astype("category")
data_siap["Municipio"] = data_siap["Municipio"].astype("category")
data_siap["Cultivo"] = data_siap["Cultivo"].astype("category")
data_siap.dtypes

Entidad                      category
Municipio                    category
Sembrada (ha)                 float64
Cosechada (ha)                float64
Siniestrada (ha)              float64
Producción                    float64
Rendimiento(udm/ha)           float64
Cultivo                      category
fecha                  datetime64[ns]
dtype: object

In [47]:
data_siap.describe()

Unnamed: 0,Sembrada (ha),Cosechada (ha),Siniestrada (ha),Producción,Rendimiento(udm/ha)
count,43680.0,43680.0,43680.0,43680.0,43680.0
mean,774.000095,626.733828,0.045871,3836.296,3.695489
std,9901.812163,8147.356615,1.579483,56165.82,4.303191
min,0.3,0.0,0.0,0.0,0.0
25%,6.0,0.0,0.0,0.0,0.0
50%,24.0,4.0,0.0,14.49,2.31
75%,91.0,35.0,0.0,200.17,6.38
max,259769.36,243621.85,107.26,2603498.0,31.89


Cambiamos el orden de los datos de wide a tidy

In [48]:
siap_tidy = pd.melt(data_siap,
                    ["Entidad", "Municipio","Cultivo","fecha"],
                    var_name="variable",
                    value_name="values")
siap_tidy

Unnamed: 0,Entidad,Municipio,Cultivo,fecha,variable,values
0,Aguascalientes,Calvillo,aguacate,2018-04-01,Sembrada (ha),23.00
1,Baja California,Ensenada,aguacate,2018-04-01,Sembrada (ha),46.75
2,Baja California Sur,Comondú,aguacate,2018-04-01,Sembrada (ha),16.00
3,Baja California Sur,Mulegé,aguacate,2018-04-01,Sembrada (ha),6.00
4,Baja California Sur,La Paz,aguacate,2018-04-01,Sembrada (ha),57.00
...,...,...,...,...,...,...
218395,Zacatecas,Mezquital del Oro,aguacate,2023-09-01,Rendimiento(udm/ha),0.00
218396,Zacatecas,Moyahua de Estrada,aguacate,2023-09-01,Rendimiento(udm/ha),0.00
218397,Zacatecas,Nochistlán de Mejía,aguacate,2023-09-01,Rendimiento(udm/ha),0.00
218398,Zacatecas,Susticacán,aguacate,2023-09-01,Rendimiento(udm/ha),7.33


Vamos a guardar los resultados de estas tablas en un formato parquet ya que este es la forma más compacta. Para esto es necesario importar la librería arrow para poder usar ``pd.DataFrame.to_parquet()``, ya que èsta funcion utiliza esta libaría como mecanismo de empaquetamiento.

In [49]:
import pyarrow

Se guarda en ``clean_data/`` dentro del archivo ``data/``

In [50]:
if not os.path.exists(os.path.join("..","..","data","clean_data")):
    os.mkdir(os.path.join("..","..","data","clean_data"))
    
siap_tidy.to_parquet(os.path.join("..","..","data","clean_data","siap.parquet.zip"), engine="pyarrow", compression = "gzip")
data_siap.to_parquet(os.path.join("..","..","data","clean_data","siap_data.parquet.zip"), engine="pyarrow", compression = "gzip")