# Limpiando Datos de SIAP

La limpieza de datos es una de las etapas más críticas y esenciales en el proceso de Ciencia de Datos. Antes de que los datos puedan ser utilizados para modelar, analizar o visualizar, es muy importante asegurarse de que estén limpios, consistentes y libres de anomalías o inexactitudes. Esto se debe a que la calidad de los datos determina directamente la calidad de los insights obtenidos. Datos incorrectos o inconsistentes pueden conducir a resultados engañosos, decisiones erróneas y, en última instancia, a la pérdida de confianza en los análisis realizados. Así, la limpieza de datos no es sólo un paso preliminar, sino un componente integral para garantizar que el análisis de datos sea preciso, relevante y confiable.

Esta libreta es previa a la descarga de datos de la libreta API_SIAP_Descarga.ipynb

Primero importamos las librerias que vamos a usar.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os
from datetime import datetime

Se crea un loop para enlistar todos los archivos que están dentro de el folder.

In [2]:
file_pad = os.path.join("..","..","data","siap")
path_list = []
for x in os.listdir(file_pad):
    if x.endswith(".csv"):
        x = os.path.join(file_pad,x)
        path_list.append(x)
path_list[:5]

['../../data/siap/maíz_forrajero_en_verde_mayo_2023.csv',
 '../../data/siap/avena_grano_febrero_2021.csv',
 '../../data/siap/nuez_marzo_2023.csv',
 '../../data/siap/coliflor_enero_2022.csv',
 '../../data/siap/sandía_abril_2022.csv']

In [3]:
len(path_list)

2856

Se lee el primer csv para analizar para explorar los datos.

In [4]:
dt = pd.read_csv(path_list[0],
                sep = ',',
                encoding='utf-8',
                header=[0,1])

dt.head()

Unnamed: 0_level_0,Unnamed: 0_level_0,Entidad,Municipio,Superficie (ha),Superficie (ha),Superficie (ha),Producción,Rendimiento (udm/ha)
Unnamed: 0_level_1,Unnamed: 0_level_1.1,Entidad,Municipio,Sembrada,Cosechada,Siniestrada,Producción,Rendimiento (udm/ha)
0,1,Aguascalientes,Aguascalientes,2850.0,0.0,0.0,0.0,0.0
1,2,Aguascalientes,Asientos,1560.0,0.0,0.0,0.0,0.0
2,3,Aguascalientes,Calvillo,110.0,0.0,0.0,0.0,0.0
3,4,Aguascalientes,Cosío,650.0,0.0,0.0,0.0,0.0
4,5,Aguascalientes,Jesús María,600.0,0.0,0.0,0.0,0.0


Una vez teniendo la lista de archivos, leemos los csv dentro del archivo y los concatenamos a un solo dataframe. Para poder diferenciar cada uno de los archivos y entradas, podemos agregar un indicador para el cultivo, el mes y el año, a partir de los nombres de cada archivo.

In [5]:
dict_meses = {
    "enero": "1",
    "febrero": "2",
    "marzo": "3",
    "abril": "4",
    "mayo": "5",
    "junio": "6",
    "julio": "7",
    "agosto": "8",
    "septiembre": "9",
    "octubre": "10",
    "noviembre": "11",
    "diciembre": "12"
}

In [6]:
for i, filepath in enumerate(path_list):
    dt = pd.read_csv(filepath,
                   sep = ',',
                   encoding='utf-8',
                   header=[0,1])
    filename = filepath.split(os.sep)[-1]
    name = filename.split(".")[0]
    anio = name.split("_")[-1]
    mes = name.split("_")[-2]
    cultivo = " ".join(name.split("_")[:-2])
    
    dt[("Cultivo","Cultivo")] = cultivo
    dt[("Mes","Mes")] = dict_meses[mes]
    dt[("Año","Año")] = anio
    
    if i == 0:
        data_siap = dt.copy()
    else:
        data_siap = pd.concat([data_siap, dt])

In [7]:
data_siap.shape

(762556, 11)

El dataframe tiene un total de 11 características y 762556 observaciones.

In [8]:
data_siap.head()

Unnamed: 0_level_0,Unnamed: 0_level_0,Entidad,Municipio,Superficie (ha),Superficie (ha),Superficie (ha),Producción,Rendimiento (udm/ha),Cultivo,Mes,Año
Unnamed: 0_level_1,Unnamed: 0_level_1.1,Entidad,Municipio,Sembrada,Cosechada,Siniestrada,Producción,Rendimiento (udm/ha),Cultivo,Mes,Año
0,1,Aguascalientes,Aguascalientes,2850.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023
1,2,Aguascalientes,Asientos,1560.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023
2,3,Aguascalientes,Calvillo,110.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023
3,4,Aguascalientes,Cosío,650.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023
4,5,Aguascalientes,Jesús María,600.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023


Vemos que nuestro dataframe cuenta con dos niveles de indice para las columnas. El nivel superior parece ser redundante con el inferior, asi que podemos removerlo para evitar confusiones mas adelante.

In [9]:
data_siap.columns = data_siap.columns.droplevel()

In [10]:
data_siap.head()

Unnamed: 0,Unnamed: 0_level_1,Entidad,Municipio,Sembrada,Cosechada,Siniestrada,Producción,Rendimiento (udm/ha),Cultivo,Mes,Año
0,1,Aguascalientes,Aguascalientes,2850.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023
1,2,Aguascalientes,Asientos,1560.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023
2,3,Aguascalientes,Calvillo,110.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023
3,4,Aguascalientes,Cosío,650.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023
4,5,Aguascalientes,Jesús María,600.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023


Para evitar confusiones, podemos aclarar que las columnas de `Sembrada`, `Cosechada` y `Siniestrada` se refiere a la superficie sembrada/cosechada/siniestrada en hectareas (ha), por lo que podemos renombrar dichas columnas.

In [11]:
nuevos_nombres_cols = {
    "Sembrada": "Sembrada (ha)",
    "Cosechada": "Cosechada (ha)",
    "Siniestrada": "Siniestrada (ha)"
}

In [12]:
data_siap = data_siap.rename(columns=nuevos_nombres_cols)

In [13]:
data_siap.head()

Unnamed: 0,Unnamed: 0_level_1,Entidad,Municipio,Sembrada (ha),Cosechada (ha),Siniestrada (ha),Producción,Rendimiento (udm/ha),Cultivo,Mes,Año
0,1,Aguascalientes,Aguascalientes,2850.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023
1,2,Aguascalientes,Asientos,1560.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023
2,3,Aguascalientes,Calvillo,110.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023
3,4,Aguascalientes,Cosío,650.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023
4,5,Aguascalientes,Jesús María,600.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023


Ademas, vemos que la primera columna (`Unnamed: 0_level_1`, parece ser una columna de indices, por lo que podemos eliminarla para evitar redundancias.

In [14]:
data_siap.drop(columns="Unnamed: 0_level_1",inplace=True)

In [15]:
data_siap.head()

Unnamed: 0,Entidad,Municipio,Sembrada (ha),Cosechada (ha),Siniestrada (ha),Producción,Rendimiento (udm/ha),Cultivo,Mes,Año
0,Aguascalientes,Aguascalientes,2850.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023
1,Aguascalientes,Asientos,1560.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023
2,Aguascalientes,Calvillo,110.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023
3,Aguascalientes,Cosío,650.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023
4,Aguascalientes,Jesús María,600.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023


In [16]:
data_siap = data_siap[data_siap["Entidad"] != "Total"]

Tipos de características del dataframe.

In [17]:
data_siap.dtypes

Entidad                  object
Municipio                object
Sembrada (ha)           float64
Cosechada (ha)          float64
Siniestrada (ha)        float64
Producción              float64
Rendimiento (udm/ha)    float64
Cultivo                  object
Mes                      object
Año                      object
dtype: object

Podemos ver que hay dos características que pueden ser embebida en una sola característica: `Mes` y `Año` pueden ir en una sola variable llamada `Fecha`. Se puede observar que en ``Entidad``, ``Municipio`` y ``Cultivo`` son variables categóricas, pero no se le ha asignado.

In [18]:
data_siap["fecha_str"] = data_siap["Año"].astype(str) + "_" + data_siap["Mes"].astype(str)

In [19]:
data_siap["fecha"] = pd.to_datetime(data_siap["fecha_str"], format='%Y_%m', errors='ignore')
data_siap.head()

Unnamed: 0,Entidad,Municipio,Sembrada (ha),Cosechada (ha),Siniestrada (ha),Producción,Rendimiento (udm/ha),Cultivo,Mes,Año,fecha_str,fecha
0,Aguascalientes,Aguascalientes,2850.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023,2023_5,2023-05-01
1,Aguascalientes,Asientos,1560.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023,2023_5,2023-05-01
2,Aguascalientes,Calvillo,110.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023,2023_5,2023-05-01
3,Aguascalientes,Cosío,650.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023,2023_5,2023-05-01
4,Aguascalientes,Jesús María,600.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,5,2023,2023_5,2023-05-01


Se remueven las caracteristicas ya embedidas en `Fecha`

In [20]:
data_siap = data_siap.drop(labels = ["Año", "Mes", "fecha_str"], axis = 1)
data_siap.head()

Unnamed: 0,Entidad,Municipio,Sembrada (ha),Cosechada (ha),Siniestrada (ha),Producción,Rendimiento (udm/ha),Cultivo,fecha
0,Aguascalientes,Aguascalientes,2850.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,2023-05-01
1,Aguascalientes,Asientos,1560.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,2023-05-01
2,Aguascalientes,Calvillo,110.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,2023-05-01
3,Aguascalientes,Cosío,650.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,2023-05-01
4,Aguascalientes,Jesús María,600.0,0.0,0.0,0.0,0.0,maíz forrajero en verde,2023-05-01


Cambiamos los tipo de objeto ``object`` a ``category``.

In [21]:
data_siap["Entidad"] = data_siap["Entidad"].astype("category")
data_siap["Municipio"] = data_siap["Municipio"].astype("category")
data_siap["Cultivo"] = data_siap["Cultivo"].astype("category")
data_siap.dtypes

Entidad                       category
Municipio                     category
Sembrada (ha)                  float64
Cosechada (ha)                 float64
Siniestrada (ha)               float64
Producción                     float64
Rendimiento (udm/ha)           float64
Cultivo                       category
fecha                   datetime64[ns]
dtype: object

In [22]:
data_siap.describe()

Unnamed: 0,Sembrada (ha),Cosechada (ha),Siniestrada (ha),Producción,Rendimiento (udm/ha)
count,759700.0,759700.0,759700.0,759700.0,759700.0
mean,738.708553,363.051979,10.581317,7190.207,27.183683
std,3726.511459,2505.708508,539.58012,58438.06,367.859248
min,0.0,0.0,0.0,0.0,0.0
25%,11.76,0.0,0.0,0.0,0.0
50%,50.0,8.32,0.0,62.3,2.4
75%,293.65,80.0,0.0,819.4075,16.34
max,307728.0,217757.0,93795.0,6962737.0,77943.32


Cambiamos el orden de los datos de wide a tidy

In [23]:
siap_tidy = pd.melt(data_siap,
                    ["Entidad", "Municipio","Cultivo","fecha"],
                    var_name="variable",
                    value_name="values")
siap_tidy.head()

Unnamed: 0,Entidad,Municipio,Cultivo,fecha,variable,values
0,Aguascalientes,Aguascalientes,maíz forrajero en verde,2023-05-01,Sembrada (ha),2850.0
1,Aguascalientes,Asientos,maíz forrajero en verde,2023-05-01,Sembrada (ha),1560.0
2,Aguascalientes,Calvillo,maíz forrajero en verde,2023-05-01,Sembrada (ha),110.0
3,Aguascalientes,Cosío,maíz forrajero en verde,2023-05-01,Sembrada (ha),650.0
4,Aguascalientes,Jesús María,maíz forrajero en verde,2023-05-01,Sembrada (ha),600.0


Vamos a guardar los resultados de estas tablas en un formato parquet ya que este es la forma más compacta. Para esto es necesario importar la librería arrow para poder usar ``pd.DataFrame.to_parquet()``, ya que èsta funcion utiliza esta libaría como mecanismo de empaquetamiento.

In [24]:
import pyarrow

Se guarda en ``clean_data/`` dentro del archivo ``data/``

In [25]:
if not os.path.exists(os.path.join("..","..","data","clean_data")):
    os.mkdir(os.path.join("..","..","data","clean_data"))
    
data_siap.to_parquet(os.path.join("..","..","data","clean_data","siap_wide.parquet.zip"), engine="pyarrow", compression = "gzip")
siap_tidy.to_parquet(os.path.join("..","..","data","clean_data","siap.parquet.zip"), engine="pyarrow", compression = "gzip")