# Limpiando Datos de SIAP

La limpieza de datos es una de las etapas más críticas y esenciales en el proceso de Ciencia de Datos. Antes de que los datos puedan ser utilizados para modelar, analizar o visualizar, es muy importante asegurarse de que estén limpios, consistentes y libres de anomalías o inexactitudes. Esto se debe a que la calidad de los datos determina directamente la calidad de los insights obtenidos. Datos incorrectos o inconsistentes pueden conducir a resultados engañosos, decisiones erróneas y, en última instancia, a la pérdida de confianza en los análisis realizados. Así, la limpieza de datos no es sólo un paso preliminar, sino un componente integral para garantizar que el análisis de datos sea preciso, relevante y confiable.

Esta libreta es previa a la descarga de datos de la libreta API_SIAP_Descarga.ipynb

Primero importamos las librerias que vamos a usar.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os
from datetime import datetime

Se crea un loop para enlistar todos los archivos que están dentro de el folder.

In [2]:
file_pad = os.path.join("data","siap")
path_list = []
for x in os.listdir(file_pad):
    if x.endswith(".csv"):
        x = os.path.join(file_pad,x)
        path_list.append(x)
path_list[:5]

['data/siap/maíz_forrajero_en_verde_mayo_2023.csv',
 'data/siap/avena_grano_febrero_2021.csv',
 'data/siap/nuez_marzo_2023.csv',
 'data/siap/coliflor_enero_2022.csv',
 'data/siap/sandía_abril_2022.csv']

In [3]:
len(path_list)

2792

Se lee el primer csv para analizar para explorar los datos.

In [4]:
dt = pd.read_csv(path_list[0],
                sep = ',',
                encoding='utf-8',
                header=[0,1])

dt.head()

Unnamed: 0_level_0,Unnamed: 0_level_0,Entidad,Municipio,Superficie (ha),Superficie (ha),Superficie (ha),Producción,Rendimiento (udm/ha)
Unnamed: 0_level_1,Unnamed: 0_level_1.1,Entidad,Municipio,Sembrada,Cosechada,Siniestrada,Producción,Rendimiento (udm/ha)
0,1,Aguascalientes,Aguascalientes,2850.0,0.0,0.0,0.0,0.0
1,2,Aguascalientes,Asientos,1560.0,0.0,0.0,0.0,0.0
2,3,Aguascalientes,Calvillo,110.0,0.0,0.0,0.0,0.0
3,4,Aguascalientes,Cosío,650.0,0.0,0.0,0.0,0.0
4,5,Aguascalientes,Jesús María,600.0,0.0,0.0,0.0,0.0


Una vez teniendo la lista de archivos, leemos los csv dentro del archivo y los concatenamos a un solo dataframe.

In [5]:
for i, file in enumerate(path_list):
    dt = pd.read_csv(file,
                   sep = ',',
                   encoding='utf-8',
                   header=[0,1])
    # dt.index = pd.to_datetime(dt.index)

    if i == 0:
        data_siap = dt.copy()
    else:
        data_siap = pd.concat([data_siap, dt])

In [6]:
data_siap.shape

(655428, 8)

El dataframe tiene un total de 8 características y 655428 observaciones.

In [7]:
data_siap.head()

Unnamed: 0_level_0,Unnamed: 0_level_0,Entidad,Municipio,Superficie (ha),Superficie (ha),Superficie (ha),Producción,Rendimiento (udm/ha)
Unnamed: 0_level_1,Unnamed: 0_level_1.1,Entidad,Municipio,Sembrada,Cosechada,Siniestrada,Producción,Rendimiento (udm/ha)
0,1,Aguascalientes,Aguascalientes,2850.0,0.0,0.0,0.0,0.0
1,2,Aguascalientes,Asientos,1560.0,0.0,0.0,0.0,0.0
2,3,Aguascalientes,Calvillo,110.0,0.0,0.0,0.0,0.0
3,4,Aguascalientes,Cosío,650.0,0.0,0.0,0.0,0.0
4,5,Aguascalientes,Jesús María,600.0,0.0,0.0,0.0,0.0


Vemos que nuestro dataframe cuenta con dos niveles de indice para las columnas. El nivel superior parece ser redundante con el inferior, asi que podemos removerlo para evitar confusiones mas adelante.

In [8]:
data_siap.columns = data_siap.columns.droplevel()

In [9]:
data_siap.head()

Unnamed: 0,Unnamed: 0_level_1,Entidad,Municipio,Sembrada,Cosechada,Siniestrada,Producción,Rendimiento (udm/ha)
0,1,Aguascalientes,Aguascalientes,2850.0,0.0,0.0,0.0,0.0
1,2,Aguascalientes,Asientos,1560.0,0.0,0.0,0.0,0.0
2,3,Aguascalientes,Calvillo,110.0,0.0,0.0,0.0,0.0
3,4,Aguascalientes,Cosío,650.0,0.0,0.0,0.0,0.0
4,5,Aguascalientes,Jesús María,600.0,0.0,0.0,0.0,0.0


Para evitar confusiones, podemos aclarar que las columnas de `Sembrada`, `Cosechada` y `Siniestrada` se refiere a la superficie sembrada/cosechada/siniestrada en hectareas (ha), por lo que podemos renombrar dichas columnas.

In [10]:
nuevos_nombres_cols = {
    "Sembrada": "Sembrada (ha)",
    "Cosechada": "Cosechada (ha)",
    "Siniestrada": "Siniestrada (ha)"
}

In [11]:
data_siap = data_siap.rename(columns=nuevos_nombres_cols)

In [12]:
data_siap.head()

Unnamed: 0,Unnamed: 0_level_1,Entidad,Municipio,Sembrada (ha),Cosechada (ha),Siniestrada (ha),Producción,Rendimiento (udm/ha)
0,1,Aguascalientes,Aguascalientes,2850.0,0.0,0.0,0.0,0.0
1,2,Aguascalientes,Asientos,1560.0,0.0,0.0,0.0,0.0
2,3,Aguascalientes,Calvillo,110.0,0.0,0.0,0.0,0.0
3,4,Aguascalientes,Cosío,650.0,0.0,0.0,0.0,0.0
4,5,Aguascalientes,Jesús María,600.0,0.0,0.0,0.0,0.0


Ademas, vemos que la primera columna (`Unnamed: 0_level_1`, parece ser una columna de indices, por lo que podemos eliminarla para evitar redundancias.

In [13]:
data_siap.drop(columns="Unnamed: 0_level_1",inplace=True)

In [14]:
data_siap.head()

Unnamed: 0,Entidad,Municipio,Sembrada (ha),Cosechada (ha),Siniestrada (ha),Producción,Rendimiento (udm/ha)
0,Aguascalientes,Aguascalientes,2850.0,0.0,0.0,0.0,0.0
1,Aguascalientes,Asientos,1560.0,0.0,0.0,0.0,0.0
2,Aguascalientes,Calvillo,110.0,0.0,0.0,0.0,0.0
3,Aguascalientes,Cosío,650.0,0.0,0.0,0.0,0.0
4,Aguascalientes,Jesús María,600.0,0.0,0.0,0.0,0.0


Tipos de características del dataframe.

In [15]:
data_siap.dtypes

Entidad                  object
Municipio                object
Sembrada (ha)           float64
Cosechada (ha)          float64
Siniestrada (ha)        float64
Producción              float64
Rendimiento (udm/ha)    float64
dtype: object

Se puede observar que en ``Entidad``, ``Municipio`` y ``Cultivo`` son variables categóricas, pero no se le ha asignado.

Cambiamos los tipo de objeto ``object`` a ``category``.

In [16]:
data_siap["Entidad"] = data_siap["Entidad"].astype("category")
data_siap["Municipio"] = data_siap["Municipio"].astype("category")
data_siap.dtypes

Entidad                 category
Municipio               category
Sembrada (ha)            float64
Cosechada (ha)           float64
Siniestrada (ha)         float64
Producción               float64
Rendimiento (udm/ha)     float64
dtype: object

In [17]:
data_siap.describe()

Unnamed: 0,Sembrada (ha),Cosechada (ha),Siniestrada (ha),Producción,Rendimiento (udm/ha)
count,655428.0,655428.0,655428.0,655428.0,655428.0
mean,1314.943,566.3875,12.920081,11924.78,26.851913
std,35144.12,11440.78,1236.769113,380947.4,404.760392
min,0.0,0.0,0.0,0.0,0.0
25%,10.5,0.0,0.0,0.0,0.0
50%,45.0,4.0,0.0,21.78,1.3
75%,255.0,51.0,0.0,533.55,12.86
max,7481137.0,1314829.0,321319.46,55039100.0,77943.32


Cambiamos el orden de los datos de wide a tidy

In [22]:
siap_tidy = pd.melt(data_siap,
                    ["Entidad", "Municipio"],
                    var_name="variable",
                    value_name="values")
siap_tidy.head()

Unnamed: 0,Entidad,Municipio,variable,values
0,Aguascalientes,Aguascalientes,Sembrada (ha),2850.0
1,Aguascalientes,Asientos,Sembrada (ha),1560.0
2,Aguascalientes,Calvillo,Sembrada (ha),110.0
3,Aguascalientes,Cosío,Sembrada (ha),650.0
4,Aguascalientes,Jesús María,Sembrada (ha),600.0


Vamos a guardar los resultados de estas tablas en un formato parquet ya que este es la forma más compacta. Para esto es necesario importar la librería arrow para poder usar ``pd.DataFrame.to_parquet()``, ya que èsta funcion utiliza esta libaría como mecanismo de empaquetamiento.

In [23]:
import pyarrow

Se guarda en ``clean_data/`` dentro del archivo ``data/``

In [25]:
if not os.path.exists(os.path.join("data","clean_data")):
    os.mkdir(os.path.join("data","clean_data"))
    
siap_tidy.to_parquet(os.path.join("data","clean_data","siap.parquet.zip"), engine="pyarrow", compression = "gzip")