# Notebook de demostración: validación de tablas finales

Este notebook muestra la utilización del módulo `bigdata_validator`, encargado de la validación de las tablas finales del proyecto de automatización de indicadores de Big Data (México).

La documentación no se encuentra aquí, sino en el repositorio de GitHub: https://github.com/r-leo/bigdata_validator


## 1. Instalación e importación

Instalar el módulo `bigdata_validator` e importar su clase `Validator`:

In [1]:
%%capture
%pip install git+https://github.com/r-leo/bigdata_validator.git

In [1]:
import bigdata_validator
from bigdata_validator import Validator

Adicionalmente se puede verificar que la versión instalada sea la más reciente (`2.0.0`):

In [2]:
print(bigdata_validator.__version__)

2.0.0


## 2. Creación de validadores

Instanciar los validadores necesarios para los **cuatro** indicadores de **alta frecuencia**:

In [3]:
# Consumo
con = Validator('tables/131.csv', indicator='hf_consumption')

# Inversión
inv = Validator('tables/132.csv', indicator='hf_investment')

# Sector exterior
exs = Validator('tables/133.csv', indicator='hf_external')

# Actividad sectorial
sea = Validator('tables/134.csv', indicator='hf_sectoral')

Igualmente para el caso de los **cuatro** indicadores de **alta granularidad**:

In [4]:
# Consumo nacional
con_agg = Validator('tables/231.csv', indicator='hg_national')

# Consumo por regiones
con_reg = Validator('tables/232.csv', indicator='hg_regions')

# Consumo por estados
con_sta = Validator('tables/233.csv', indicator='hg_states')

# Consumo por ciudades
con_cit = Validator('tables/234.csv', indicator='hg_cities')

Y finalmente los **ocho** indicadores **globales**:

In [5]:
# Global - consumo
global_con = Validator('tables/global_131.csv', indicator='hf_consumption')

# Global - inversión
global_inv = Validator('tables/global_132.csv', indicator='hf_investment')

# Global - sector exterior
global_exs = Validator('tables/global_133.csv', indicator='hf_external')

# Global - actividad sectorial
global_sea = Validator('tables/global_134.csv', indicator='hf_sectoral')

# Global - consumo nacional
global_con_agg = Validator('tables/global_231.csv', indicator='hg_national')

# Global - consumo por regiones
global_con_reg = Validator('tables/global_232.csv', indicator='hg_regions')

# Global - consumo por estados
global_con_sta = Validator('tables/global_233.csv', indicator='hg_states')

# Global - consumo por ciudades
global_con_cit = Validator('tables/global_234.csv', indicator='hg_cities')

## 3. Proceso de validación automática

Para efectuar la validación de cada uno de los indicadores basta con llamar al método `.validate()` del validador correspondiente. Si únicamente se quisiera obtener el valor booleano de la validación dentro de un flujo de código, bastaría con llamar al método `.is_valid()` (véase la [documentación](https://github.com/r-leo/bigdata_validator?tab=readme-ov-file#23-validar-dentro-de-un-script-is_valid)).

**Resultados de las validaciones de los indicadores de alta frecuencia**

In [6]:
# Consumo
con.validate()

No se encontraron errores.


In [7]:
# Inversión
inv.validate()

No se encontraron errores.


In [8]:
# Sector exterior
exs.validate()

No se encontraron errores.


In [9]:
# Actividad sectorial
sea.validate()

No se encontraron errores.


**Resultados de las validaciones de los indicadores de alta granularidad**

In [10]:
# Consumo nacional
con_agg.validate()

No se encontraron errores.


In [11]:
# Consumo por regiones
con_reg.validate()

No se encontraron errores.


In [12]:
# Consumo por estados
con_sta.validate()

Errores encontrados (26):

1	El registro ['N' 'MX-CAM' 'Airlines'] no tiene datos para la última fecha.
2	El registro ['N' 'MX-COL' 'Airlines'] no tiene datos para la última fecha.
3	El registro ['N' 'MX-GUA' 'Airlines'] no tiene datos para la última fecha.
4	El registro ['N' 'MX-HID' 'Airlines'] no tiene datos para la última fecha.
5	El registro ['N' 'MX-MOR' 'Airlines'] no tiene datos para la última fecha.
6	El registro ['N' 'MX-NAY' 'Airlines'] no tiene datos para la última fecha.
7	El registro ['N' 'MX-OAX' 'Airlines'] no tiene datos para la última fecha.
8	El registro ['N' 'MX-SIN' 'Airlines'] no tiene datos para la última fecha.
9	El registro ['N' 'MX-SLP' 'Airlines'] no tiene datos para la última fecha.
10	El registro ['N' 'MX-TAB' 'Airlines'] no tiene datos para la última fecha.
11	El registro ['N' 'MX-TLA' 'Airlines'] no tiene datos para la última fecha.
12	El registro ['N' 'MX-VER' 'Airlines'] no tiene datos para la última fecha.
13	El registro ['N' 'MX-ZAC' 'Airlines'] no ti

In [13]:
# Consumo por ciudades
con_cit.validate()

No se encontraron errores.


**Resultados de las validaciones de los indicadores globales**

In [14]:
# Global - consumo
global_con.validate()

No se encontraron errores.


In [15]:
# Global - inversión
global_inv.validate()

No se encontraron errores.


In [16]:
# Global - sector exterior
global_exs.validate()

No se encontraron errores.


In [17]:
# Global - actividad sectorial
global_sea.validate()

No se encontraron errores.


In [18]:
# Global - consumo nacional
global_con_agg.validate()

No se encontraron errores.


In [19]:
# Global - consumo por regiones
global_con_reg.validate()

No se encontraron errores.


In [20]:
# gGlobal - consumo por estados
global_con_sta.validate()

Errores encontrados (26):

1	El registro ['N' 'MX-CAM' 'Airlines'] no tiene datos para la última fecha.
2	El registro ['N' 'MX-COL' 'Airlines'] no tiene datos para la última fecha.
3	El registro ['N' 'MX-GUA' 'Airlines'] no tiene datos para la última fecha.
4	El registro ['N' 'MX-HID' 'Airlines'] no tiene datos para la última fecha.
5	El registro ['N' 'MX-MOR' 'Airlines'] no tiene datos para la última fecha.
6	El registro ['N' 'MX-NAY' 'Airlines'] no tiene datos para la última fecha.
7	El registro ['N' 'MX-OAX' 'Airlines'] no tiene datos para la última fecha.
8	El registro ['N' 'MX-SIN' 'Airlines'] no tiene datos para la última fecha.
9	El registro ['N' 'MX-SLP' 'Airlines'] no tiene datos para la última fecha.
10	El registro ['N' 'MX-TAB' 'Airlines'] no tiene datos para la última fecha.
11	El registro ['N' 'MX-TLA' 'Airlines'] no tiene datos para la última fecha.
12	El registro ['N' 'MX-VER' 'Airlines'] no tiene datos para la última fecha.
13	El registro ['N' 'MX-ZAC' 'Airlines'] no ti

In [21]:
# Global - consumo por ciudades
global_con_cit.validate()

No se encontraron errores.


## 4. Corrección de errores

El fichero que contiene los datos de **consumo por estados** (tanto el local como el global) no pasaron satisfactoriamente el proceso de validación. El problema es que para una gran cantidad de fechas, la categoría de 'Aerolíneas' en Sinaloa no tiene datos. La solución propuesta es eliminar la categoría 'Aerolíneas' en ambos ficheros:

In [22]:
import pandas as pd

# Leer fichero de consumo por estados
states_original = pd.read_csv('tables/233.csv', dtype=str, skip_blank_lines=False)
# Leer fichero de consumo por estados (global)
global_states_original = pd.read_csv('tables/global_233.csv', dtype=str, skip_blank_lines=False)

# Eliminar la categoría "Aerolíneas" en ambos DataFrames
states_new = states_original.copy().query('SHORT_SPANISH_NAME != "Aerolíneas"')
global_states_new = global_states_original.copy().query('SHORT_SPANISH_NAME != "Aerolíneas"')

# Guardar fichero de consumo por estados
states_new.to_csv('tables/233_NEW.csv', index=False)
# Guardar fichero de consumo por estados (global)
global_states_new.to_csv('tables/global_233_NEW.csv', index=False)

# Imprimir el número de filas eliminadas en cada fichero
print('Filas perdidas (local): ', len(states_original) - len(states_new))
print('Filas perdidas (global):', len(global_states_original) - len(global_states_new))

Filas perdidas (local):  24258
Filas perdidas (global): 24258


Una vez corregidas, ambas tablas se pasan nuevamente por el proceso de validación para verificar que esta vez no devuelvan ningún error:

In [23]:
# Consumo por estados
Validator('tables/233_NEW.csv', indicator='hg_states').validate()

No se encontraron errores.


In [24]:
# Global - consumo por estados
Validator('tables/global_233_NEW.csv', indicator='hg_states').validate()

No se encontraron errores.


Con esto queda concluido el proceso de validación y corrección de los 16 ficheros muestra para México.