# Limpiando Datos de SIAP

La limpieza de datos es una de las etapas más críticas y esenciales en el proceso de Ciencia de Datos. Antes de que los datos puedan ser utilizados para modelar, analizar o visualizar, es muy importante asegurarse de que estén limpios, consistentes y libres de anomalías o inexactitudes. Esto se debe a que la calidad de los datos determina directamente la calidad de los insights obtenidos. Datos incorrectos o inconsistentes pueden conducir a resultados engañosos, decisiones erróneas y, en última instancia, a la pérdida de confianza en los análisis realizados. Así, la limpieza de datos no es sólo un paso preliminar, sino un componente integral para garantizar que el análisis de datos sea preciso, relevante y confiable.

Esta libreta es previa a la descarga de datos de la libreta API_SIAP_Descarga.ipynb

Primero importamos las librerias que vamos a usar.

In [113]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os
from datetime import datetime

Se crea un loop para enlistar todos los archivos que están dentro de el archivo.

In [114]:
file_pad = r"data\siap"
path_list = []
for x in os.listdir(file_pad):
    if x.endswith(".csv"):
        x = file_pad + "\\" + x
        path_list.append(x)
path_list[:5]

['data\\siap\\agave_abril_2020.csv',
 'data\\siap\\agave_abril_2021.csv',
 'data\\siap\\agave_abril_2022.csv',
 'data\\siap\\agave_abril_2023.csv',
 'data\\siap\\agave_agosto_2020.csv']

Se lee el primer csv para analizar para explorar los datos.

In [115]:
dt = pd.read_csv(path_list[0],
                sep = ',',
                encoding='utf-8')

dt.head()

Unnamed: 0,Entidad,Municipio,Sembrada,Cosechada,Siniestrada,Producción,Rendimiento (udm/ha),Cultivo,Mes,Año
0,Aguascalientes,Aguascalientes,8.0,0.0,0.0,0.0,0.0,Agave,4,2020
1,Baja California,Ensenada,1.0,0.0,0.0,0.0,0.0,Agave,4,2020
2,Colima,Manzanillo,1.4,0.0,0.0,0.0,0.0,Agave,4,2020
3,Durango,Durango,12.0,0.0,0.0,0.0,0.0,Agave,4,2020
4,Durango,Mezquital,110.0,0.0,0.0,0.0,0.0,Agave,4,2020


Una vez teniendo la lista de archivos, leemos los csv dentro del archivo y los concatenamos a un solo dataframe.

In [116]:
for i, file in enumerate(path_list):
    dt = pd.read_csv(file,
                   sep = ',',
                   encoding='utf-8')
    # dt.index = pd.to_datetime(dt.index)

    if i == 0:
        data_siap = dt.copy()
    else:
        data_siap = pd.concat([data_siap, dt])

In [117]:
data_siap.shape

(655428, 10)

El dataframe tiene un total de 10 características y 655428 observaciones.

In [118]:
data_siap.head()

Unnamed: 0,Entidad,Municipio,Sembrada,Cosechada,Siniestrada,Producción,Rendimiento (udm/ha),Cultivo,Mes,Año
0,Aguascalientes,Aguascalientes,8.0,0.0,0.0,0.0,0.0,Agave,4,2020
1,Baja California,Ensenada,1.0,0.0,0.0,0.0,0.0,Agave,4,2020
2,Colima,Manzanillo,1.4,0.0,0.0,0.0,0.0,Agave,4,2020
3,Durango,Durango,12.0,0.0,0.0,0.0,0.0,Agave,4,2020
4,Durango,Mezquital,110.0,0.0,0.0,0.0,0.0,Agave,4,2020


Tipos de características del dataframe.

In [119]:
data_siap.dtypes

Entidad                  object
Municipio                object
Sembrada                float64
Cosechada               float64
Siniestrada             float64
Producción              float64
Rendimiento (udm/ha)    float64
Cultivo                  object
Mes                       int64
Año                       int64
dtype: object

Podemos ver que hay dos características que pueden ser embebida en una sola característica: **Mes** y **Año** pueden ir en una sola variable llamada **Fecha**. Se puede observar que en Entidad Municipio y Cultivo son variables categóricas, pero no se le ha asignado.

In [120]:
data_siap["fecha_str"] = data_siap["Año"].astype(str) + "_" + data_siap["Mes"].astype(str)

In [121]:
data_siap["fecha"] = pd.to_datetime(data_siap["fecha_str"], format='%Y_%m', errors='ignore')
data_siap.head()

Unnamed: 0,Entidad,Municipio,Sembrada,Cosechada,Siniestrada,Producción,Rendimiento (udm/ha),Cultivo,Mes,Año,fecha_str,fecha
0,Aguascalientes,Aguascalientes,8.0,0.0,0.0,0.0,0.0,Agave,4,2020,2020_4,2020-04-01
1,Baja California,Ensenada,1.0,0.0,0.0,0.0,0.0,Agave,4,2020,2020_4,2020-04-01
2,Colima,Manzanillo,1.4,0.0,0.0,0.0,0.0,Agave,4,2020,2020_4,2020-04-01
3,Durango,Durango,12.0,0.0,0.0,0.0,0.0,Agave,4,2020,2020_4,2020-04-01
4,Durango,Mezquital,110.0,0.0,0.0,0.0,0.0,Agave,4,2020,2020_4,2020-04-01


Se remueven las características ya embebidas.

In [122]:
data_siap = data_siap.drop(labels = ["Año", "Mes", "fecha_str"], axis = 1)
data_siap.head()

Unnamed: 0,Entidad,Municipio,Sembrada,Cosechada,Siniestrada,Producción,Rendimiento (udm/ha),Cultivo,fecha
0,Aguascalientes,Aguascalientes,8.0,0.0,0.0,0.0,0.0,Agave,2020-04-01
1,Baja California,Ensenada,1.0,0.0,0.0,0.0,0.0,Agave,2020-04-01
2,Colima,Manzanillo,1.4,0.0,0.0,0.0,0.0,Agave,2020-04-01
3,Durango,Durango,12.0,0.0,0.0,0.0,0.0,Agave,2020-04-01
4,Durango,Mezquital,110.0,0.0,0.0,0.0,0.0,Agave,2020-04-01


Cambiamos los tipo de objeto de object a category.

In [123]:
data_siap["Entidad"] = data_siap["Entidad"].astype("category")
data_siap["Municipio"] = data_siap["Municipio"].astype("category")
data_siap["Cultivo"] = data_siap["Cultivo"].astype("category")
data_siap.dtypes

Entidad                       category
Municipio                     category
Sembrada                       float64
Cosechada                      float64
Siniestrada                    float64
Producción                     float64
Rendimiento (udm/ha)           float64
Cultivo                       category
fecha                   datetime64[ns]
dtype: object

In [124]:
data_siap.describe()

Unnamed: 0,Sembrada,Cosechada,Siniestrada,Producción,Rendimiento (udm/ha),fecha
count,655428.0,655428.0,655428.0,655428.0,655428.0,655428
mean,1314.943,566.3875,12.920081,11924.78,26.851913,2021-10-30 21:58:39.852065792
min,0.0,0.0,0.0,0.0,0.0,2020-01-01 00:00:00
25%,10.5,0.0,0.0,0.0,0.0,2020-12-01 00:00:00
50%,45.0,4.0,0.0,21.78,1.3,2021-11-01 00:00:00
75%,255.0,51.0,0.0,533.55,12.86,2022-09-01 00:00:00
max,7481137.0,1314829.0,321319.46,55039100.0,77943.32,2023-08-01 00:00:00
std,35144.12,11440.78,1236.769113,380947.4,404.760392,


Cambiamos el orden de los datos de wide a tidy

In [125]:
siap_tidy = pd.melt(data_siap,
                    ["Entidad", "Municipio", "Cultivo", "fecha"],
                    var_name="variable",
                    value_name="values")
siap_tidy.head()

Unnamed: 0,Entidad,Municipio,Cultivo,fecha,variable,values
0,Aguascalientes,Aguascalientes,Agave,2020-04-01,Sembrada,8.0
1,Baja California,Ensenada,Agave,2020-04-01,Sembrada,1.0
2,Colima,Manzanillo,Agave,2020-04-01,Sembrada,1.4
3,Durango,Durango,Agave,2020-04-01,Sembrada,12.0
4,Durango,Mezquital,Agave,2020-04-01,Sembrada,110.0


Vamos a guardar los resultados de estas tablas en un formato parquet ya que este es la forma más compacta. Para esto es necesario importar la librería arrow para poder usar pd.DataFrame.to_parquet(), ya que este utiliza esta libaría como mecanismo de empaquetamiento.

In [126]:
import pyarrow

Se guarda en clean_data/ dentro del archivo data/

In [127]:
siap_tidy.to_parquet(r"data\clean_data\siap.parquet.zip", engine="pyarrow", compression = "gzip")