In [1]:
import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt
import seaborn as sns

Importamos datasets de posos "Consolidado Diesel..."

In [2]:
# Cargar múltiples archivos CSV
folder_path = 'datos'  # Cambia por tu ruta
xlsx_files = [file for file in os.listdir(folder_path) if file.endswith('.xlsx')]

datasets = {file: pd.read_excel(os.path.join(folder_path, file)) for file in xlsx_files}

In [3]:
#Función encontrar datos nulos:
def verificacionValoresNulos(nombre, df):
    print(f"\nValores faltantes por columna en {nombre}:")
    print(df.isnull().sum())

    print(f"\nRegistros duplicados en {nombre}: {df.duplicated().sum()}")

    # Puedes descomentar las siguientes líneas para manejar nulos y duplicados:
    # df.drop_duplicates(inplace=True)
    # df.fillna(method='ffill', inplace=True)  # puedes cambiar esta estrategia

In [4]:
#Funcion para devolver el tipo de datos de cada columna:
def tipoDatos(nombre, df):
    print(f"\nTipos de datos en {nombre}:")
    print("\nTipos de datos por columna:")
    print(df.dtypes)

In [5]:
#Funcion para devolver valores unicos:
def valoresUnicos(nombre, df):
    print(f"\nValores únicos en {nombre}:")
    print("\nValores únicos por columna:")
    for col in df.columns:
        print(f"{col}: {df[col].nunique()}")

## Valores nulos

In [6]:
for nombre, df in datasets.items():
    verificacionValoresNulos(nombre, df)


Valores faltantes por columna en Consolidado Diesel 2020.xlsx:
FOLIO DORS                            0
Fuera de Procedimiento             3563
Fecha de Solicitud                 3563
Hora de Solicitud                   623
MEDIO                              3563
Fecha de Servicio                     0
Hora requerida                        0
Solicita                              1
Segm.                                 0
Celda                                 0
Destino/Pozo                          0
Lts. Solicitados                      0
Economico                             0
Tipo de Unidad                       12
Clasificacion (Vehiculo/Equipo)      49
Tipo de medida Km/Hr                828
Recibe en Pozo/usuario                1
Autorizante                           0
STATUS                                0
Zona                               3563
Ruta                               4075
Proveedor                          3566
Eco Unidad Proveedor               4081
Operador        

## Forma de los datasets 

In [7]:
for nombre, df in datasets.items():
    print(df.columns)

Index(['FOLIO DORS', 'Fuera de Procedimiento', 'Fecha de Solicitud',
       'Hora de Solicitud', 'MEDIO', 'Fecha de Servicio', 'Hora requerida',
       'Solicita', 'Segm.', 'Celda', 'Destino/Pozo', 'Lts. Solicitados',
       'Economico', 'Tipo de Unidad', 'Clasificacion (Vehiculo/Equipo)',
       'Tipo de medida Km/Hr', 'Recibe en Pozo/usuario', 'Autorizante',
       'STATUS', 'Zona', 'Ruta', 'Proveedor', 'Eco Unidad Proveedor',
       'Operador', 'HR', 'KM', 'HR Llegada a Pozo', 'Tiempo de Retraso',
       'Cant. Sum.', 'PRECIO POR LT', 'COSTO DE SUMINISTRO', 'Gin Number',
       'Recibe en Pozo/usuario.1', 'TICKET', 'FLETE', 'KM RECORRIDO',
       'FLETE / MANIOBRA', 'COSTO TOTAL', 'CONCILIADO', 'COORDINADOR',
       'COMENTARIOS', 'PERIODO', 'Q', 'LOCATION', 'SITE'],
      dtype='object')
Index(['FOLIO DORS', 'Fuera de Tiempo', 'Fecha de Solicitud',
       'Hora de Solicitud', 'MEDIO', 'Fecha de Servicio', 'Hora requerida',
       'Solicita', 'BL', 'SBL', 'Destino/Pozo', 'Lts. Solic

Filas y columnas de cada base de datos proporcionada    

In [8]:
for nombre, df in datasets.items():
    print(df.shape)

(7025, 45)
(7307, 50)
(8256, 47)
(8257, 49)
(4156, 47)


Al tener un número distinto de columnas y nombres diferentes para ciertas columnas. Vamos a juntar el dataset en uno solo, estandarizando los nombres y la cantidad de columnas 

In [9]:
#Código para mostrar las columnas con nombres iguales en los datasets
def columnas_iguales(datasets):
    #Obtener las columnas de cada dataset
    columnas = [set(df.columns) for df in datasets.values()]
    #Encontrar la intersección de columnas entre todos los datasets
    columnas_comunes = set.intersection(*columnas)
    #Convertir el conjunto a una lista y devolverla
    columnas_comunes = set(columnas_comunes)
    return list(columnas_comunes)

lista_columnas_comunes = columnas_iguales(datasets)
print("Columnas comunes en todos los datasets:")
print(lista_columnas_comunes)
print(f"El número de columnas comunes es:", len(lista_columnas_comunes))


Columnas comunes en todos los datasets:
['Q', 'KM RECORRIDO', 'FLETE / MANIOBRA', 'Economico', 'COSTO TOTAL', 'Recibe en Pozo/usuario.1', 'Destino/Pozo', 'HR Llegada a Pozo', 'COMENTARIOS', 'Proveedor', 'TICKET', 'Zona', 'Fecha de Servicio', 'Recibe en Pozo/usuario', 'SITE', 'Tiempo de Retraso', 'Gin Number', 'Fecha de Solicitud', 'Hora de Solicitud', 'Hora requerida', 'Autorizante', 'PRECIO POR LT', 'FLETE', 'PERIODO', 'Solicita', 'LOCATION', 'Lts. Solicitados', 'Tipo de Unidad', 'STATUS', 'Operador', 'Eco Unidad Proveedor', 'FOLIO DORS']
El número de columnas comunes es: 32


In [10]:
#Código para mostrar las columnas que no son iguales en los datasets
def columnas_diferentes(datasets):
    #Obtener las columnas de cada dataset
    columnas = [set(df.columns) for df in datasets.values()]
    #Encontrar la diferencia de columnas entre todos los datasets
    columnas_diferentes = set.union(*columnas) - set.intersection(*columnas)
    #Convertir el conjunto a una lista y devolverla
    return list(columnas_diferentes)

lista_columnas_diferentes = columnas_diferentes(datasets)
print("Columnas diferentes en los datasets:")
print(lista_columnas_diferentes)
print(f"El número de columnas diferentes es:", len(lista_columnas_diferentes))

Columnas diferentes en los datasets:
['Costo Total + IEPS', 'Segm.', 'KM', 'GR SAP FLETE', 'CORTES', 'COORDINADOR', 'SWPS PO DIESEL', 'HR', 'CCs', 'Cant. Sum.', 'Tipo de medida Km/Hr', 'GR SAP FUEL', 'Celda', 'MEDIO', 'COSTO DE SUMINISTRO', 'BL', 'Sub Business Line', 'Costo TOTAL SIN IEPS', 'PO SAP FLETE', 'Clasificacion (Vehiculo/Equipo)', 'GR IEPS', 'PO SAP FUEL', 'Ruta', 'CONCILIADO', 'Cant. Suministrada', 'Fuera de Procedimiento', 'Costo IEPS', 'IEPS x LT', 'Business Line', 'SBL', 'SWPS PO FLETE', 'Fuera de Tiempo']
El número de columnas diferentes es: 32


32 columnas iguales + 32 columnas diferentes no hace sentido, pero de esas 32 diferentes puede ser entre 2 datasets, entre todos, etc. puede que una columna esté presente en 3 datasets y en 1 no, así muchos casos.

In [11]:
#Comparar columnas iguales y distintas del dataset del 2024 vs 2023
def comparar_columnas(datasets, nombre1, nombre2):
    # Obtener las columnas de cada dataset
    columnas1 = set(datasets[nombre1].columns)
    columnas2 = set(datasets[nombre2].columns)
    
    # Comparar columnas
    iguales = columnas1.intersection(columnas2)
    diferentes = columnas1.symmetric_difference(columnas2)
    
    return iguales, diferentes

### Comparación 2024

In [12]:
#Comparación 2023 vs 2024
iguales, diferentes = comparar_columnas(datasets, 'Consolidado Diesel 2023.xlsx', 'Consolidado Diesel 2024.xlsx')
print("\nColumnas iguales entre los datasets:")
print(iguales)
print("\nColumnas diferentes entre los datasets:")
print(diferentes)


Columnas iguales entre los datasets:
{'Costo Total + IEPS', 'Q', 'FLETE / MANIOBRA', 'Economico', 'COSTO TOTAL', 'GR SAP FLETE', 'CORTES', 'Recibe en Pozo/usuario.1', 'Business Line', 'Destino/Pozo', 'HR Llegada a Pozo', 'COMENTARIOS', 'CCs', 'GR SAP FUEL', 'Proveedor', 'TICKET', 'Zona', 'Fecha de Servicio', 'Recibe en Pozo/usuario', 'SITE', 'Sub Business Line', 'FOLIO DORS', 'Tiempo de Retraso', 'Gin Number', 'Costo TOTAL SIN IEPS', 'Fecha de Solicitud', 'PO SAP FLETE', 'Hora de Solicitud', 'Hora requerida', 'Autorizante', 'PRECIO POR LT', 'PO SAP FUEL', 'FLETE', 'GR IEPS', 'PERIODO', 'Solicita', 'LOCATION', 'Lts. Solicitados', 'Cant. Suministrada', 'Tipo de Unidad', 'STATUS', 'Costo IEPS', 'IEPS x LT', 'Operador', 'Eco Unidad Proveedor', 'KM RECORRIDO', 'Fuera de Tiempo'}

Columnas diferentes entre los datasets:
{'COORDINADOR', 'CONCILIADO'}


In [14]:
#Comparacion 2022 vs 2024
iguales, diferentes = comparar_columnas(datasets, 'Consolidado Diesel 2022.xlsx', 'Consolidado Diesel 2024.xlsx')
print("\nColumnas iguales entre los datasets:")
print(iguales)
print("\nColumnas diferentes entre los datasets:")
print(diferentes)


Columnas iguales entre los datasets:
{'Costo Total + IEPS', 'Q', 'FLETE / MANIOBRA', 'Economico', 'COSTO TOTAL', 'CORTES', 'Recibe en Pozo/usuario.1', 'Business Line', 'Destino/Pozo', 'HR Llegada a Pozo', 'COMENTARIOS', 'CCs', 'Proveedor', 'TICKET', 'Zona', 'Fecha de Servicio', 'Recibe en Pozo/usuario', 'SITE', 'Sub Business Line', 'FOLIO DORS', 'Tiempo de Retraso', 'Gin Number', 'Costo TOTAL SIN IEPS', 'Fecha de Solicitud', 'PO SAP FLETE', 'Hora de Solicitud', 'Hora requerida', 'Autorizante', 'PRECIO POR LT', 'PO SAP FUEL', 'FLETE', 'PERIODO', 'Solicita', 'LOCATION', 'Lts. Solicitados', 'Cant. Suministrada', 'Tipo de Unidad', 'STATUS', 'Costo IEPS', 'IEPS x LT', 'Operador', 'Eco Unidad Proveedor', 'KM RECORRIDO', 'Fuera de Tiempo'}

Columnas diferentes entre los datasets:
{'GR SAP FLETE', 'COORDINADOR', 'GR SAP FUEL', 'GR IEPS', 'Ruta', 'CONCILIADO'}


In [15]:
#Comparacion 2021 vs 2024
iguales, diferentes = comparar_columnas(datasets, 'Consolidado Diesel 2021.xlsx', 'Consolidado Diesel 2024.xlsx')
print("\nColumnas iguales entre los datasets:")
print(iguales)
print("\nColumnas diferentes entre los datasets:")
print(diferentes)


Columnas iguales entre los datasets:
{'Costo Total + IEPS', 'Q', 'KM RECORRIDO', 'FLETE / MANIOBRA', 'Economico', 'COSTO TOTAL', 'Recibe en Pozo/usuario.1', 'Destino/Pozo', 'HR Llegada a Pozo', 'COMENTARIOS', 'Proveedor', 'TICKET', 'Zona', 'Fecha de Servicio', 'Recibe en Pozo/usuario', 'SITE', 'Tiempo de Retraso', 'Gin Number', 'Costo TOTAL SIN IEPS', 'Fecha de Solicitud', 'Hora de Solicitud', 'Hora requerida', 'Autorizante', 'PRECIO POR LT', 'FLETE', 'PERIODO', 'Solicita', 'LOCATION', 'Lts. Solicitados', 'Cant. Suministrada', 'Tipo de Unidad', 'STATUS', 'Costo IEPS', 'IEPS x LT', 'Operador', 'Eco Unidad Proveedor', 'FOLIO DORS', 'Fuera de Tiempo'}

Columnas diferentes entre los datasets:
{'KM', 'GR SAP FLETE', 'CORTES', 'COORDINADOR', 'SWPS PO DIESEL', 'HR', 'CCs', 'Tipo de medida Km/Hr', 'GR SAP FUEL', 'MEDIO', 'BL', 'Sub Business Line', 'PO SAP FLETE', 'Clasificacion (Vehiculo/Equipo)', 'PO SAP FUEL', 'GR IEPS', 'Ruta', 'CONCILIADO', 'Business Line', 'SBL', 'SWPS PO FLETE'}


In [16]:
#Comparacion 2020 vs 2024
iguales, diferentes = comparar_columnas(datasets, 'Consolidado Diesel 2020.xlsx', 'Consolidado Diesel 2024.xlsx')
print("\nColumnas iguales entre los datasets:")
print(iguales)
print("\nColumnas diferentes entre los datasets:")
print(diferentes)


Columnas iguales entre los datasets:
{'Q', 'FLETE / MANIOBRA', 'Economico', 'COSTO TOTAL', 'Recibe en Pozo/usuario.1', 'Destino/Pozo', 'HR Llegada a Pozo', 'COMENTARIOS', 'Proveedor', 'TICKET', 'Zona', 'Fecha de Servicio', 'Recibe en Pozo/usuario', 'SITE', 'Tiempo de Retraso', 'FOLIO DORS', 'Gin Number', 'Fecha de Solicitud', 'Hora de Solicitud', 'Hora requerida', 'Autorizante', 'PRECIO POR LT', 'FLETE', 'PERIODO', 'Solicita', 'LOCATION', 'Lts. Solicitados', 'Tipo de Unidad', 'STATUS', 'Operador', 'Eco Unidad Proveedor', 'KM RECORRIDO'}

Columnas diferentes entre los datasets:
{'Costo Total + IEPS', 'Segm.', 'KM', 'GR SAP FLETE', 'CORTES', 'COORDINADOR', 'HR', 'CCs', 'Tipo de medida Km/Hr', 'Cant. Sum.', 'GR SAP FUEL', 'Celda', 'MEDIO', 'COSTO DE SUMINISTRO', 'Sub Business Line', 'Costo TOTAL SIN IEPS', 'PO SAP FLETE', 'Clasificacion (Vehiculo/Equipo)', 'PO SAP FUEL', 'GR IEPS', 'Ruta', 'CONCILIADO', 'Cant. Suministrada', 'Fuera de Procedimiento', 'Costo IEPS', 'IEPS x LT', 'Business 

In [17]:
#Comparacion 2020 vs 2024
iguales, diferentes = comparar_columnas(datasets, 'Consolidado Diesel 2020.xlsx', 'Consolidado Diesel 2024.xlsx')
print("\nColumnas iguales entre los datasets:")
print(iguales)
print("\nColumnas diferentes entre los datasets:")
print(diferentes)


Columnas iguales entre los datasets:
{'Q', 'FLETE / MANIOBRA', 'Economico', 'COSTO TOTAL', 'Recibe en Pozo/usuario.1', 'Destino/Pozo', 'HR Llegada a Pozo', 'COMENTARIOS', 'Proveedor', 'TICKET', 'Zona', 'Fecha de Servicio', 'Recibe en Pozo/usuario', 'SITE', 'Tiempo de Retraso', 'FOLIO DORS', 'Gin Number', 'Fecha de Solicitud', 'Hora de Solicitud', 'Hora requerida', 'Autorizante', 'PRECIO POR LT', 'FLETE', 'PERIODO', 'Solicita', 'LOCATION', 'Lts. Solicitados', 'Tipo de Unidad', 'STATUS', 'Operador', 'Eco Unidad Proveedor', 'KM RECORRIDO'}

Columnas diferentes entre los datasets:
{'Costo Total + IEPS', 'Segm.', 'KM', 'GR SAP FLETE', 'CORTES', 'COORDINADOR', 'HR', 'CCs', 'Tipo de medida Km/Hr', 'Cant. Sum.', 'GR SAP FUEL', 'Celda', 'MEDIO', 'COSTO DE SUMINISTRO', 'Sub Business Line', 'Costo TOTAL SIN IEPS', 'PO SAP FLETE', 'Clasificacion (Vehiculo/Equipo)', 'PO SAP FUEL', 'GR IEPS', 'Ruta', 'CONCILIADO', 'Cant. Suministrada', 'Fuera de Procedimiento', 'Costo IEPS', 'IEPS x LT', 'Business 

### Comparación 2023

In [18]:
#Comparacion 2023 vs 2022
iguales, diferentes = comparar_columnas(datasets, 'Consolidado Diesel 2022.xlsx', 'Consolidado Diesel 2023.xlsx')
print("\nColumnas iguales entre los datasets:")
print(iguales)
print("\nColumnas diferentes entre los datasets:")
print(diferentes)


Columnas iguales entre los datasets:
{'Costo Total + IEPS', 'Q', 'FLETE / MANIOBRA', 'Economico', 'COSTO TOTAL', 'COORDINADOR', 'Recibe en Pozo/usuario.1', 'CORTES', 'Business Line', 'Destino/Pozo', 'HR Llegada a Pozo', 'COMENTARIOS', 'CCs', 'Proveedor', 'TICKET', 'Zona', 'Fecha de Servicio', 'Recibe en Pozo/usuario', 'SITE', 'Sub Business Line', 'FOLIO DORS', 'Tiempo de Retraso', 'Gin Number', 'Costo TOTAL SIN IEPS', 'Fecha de Solicitud', 'PO SAP FLETE', 'Hora de Solicitud', 'Hora requerida', 'Autorizante', 'PRECIO POR LT', 'PO SAP FUEL', 'FLETE', 'PERIODO', 'Solicita', 'CONCILIADO', 'LOCATION', 'Lts. Solicitados', 'Cant. Suministrada', 'Tipo de Unidad', 'STATUS', 'Costo IEPS', 'IEPS x LT', 'Operador', 'Eco Unidad Proveedor', 'KM RECORRIDO', 'Fuera de Tiempo'}

Columnas diferentes entre los datasets:
{'GR SAP FLETE', 'GR SAP FUEL', 'GR IEPS', 'Ruta'}


In [19]:
#Comparacion 2023 vs 2021
iguales, diferentes = comparar_columnas(datasets, 'Consolidado Diesel 2021.xlsx', 'Consolidado Diesel 2023.xlsx')
print("\nColumnas iguales entre los datasets:")
print(iguales)
print("\nColumnas diferentes entre los datasets:")
print(diferentes)


Columnas iguales entre los datasets:
{'Costo Total + IEPS', 'Q', 'KM RECORRIDO', 'FLETE / MANIOBRA', 'Economico', 'COSTO TOTAL', 'COORDINADOR', 'Recibe en Pozo/usuario.1', 'Destino/Pozo', 'HR Llegada a Pozo', 'COMENTARIOS', 'Proveedor', 'TICKET', 'Zona', 'Fecha de Servicio', 'Recibe en Pozo/usuario', 'SITE', 'Tiempo de Retraso', 'Gin Number', 'Costo TOTAL SIN IEPS', 'Fecha de Solicitud', 'Hora de Solicitud', 'Hora requerida', 'Autorizante', 'PRECIO POR LT', 'FLETE', 'PERIODO', 'Solicita', 'CONCILIADO', 'LOCATION', 'Lts. Solicitados', 'Cant. Suministrada', 'Tipo de Unidad', 'STATUS', 'Costo IEPS', 'IEPS x LT', 'Operador', 'Eco Unidad Proveedor', 'FOLIO DORS', 'Fuera de Tiempo'}

Columnas diferentes entre los datasets:
{'KM', 'GR SAP FLETE', 'CORTES', 'SWPS PO DIESEL', 'HR', 'CCs', 'Tipo de medida Km/Hr', 'GR SAP FUEL', 'MEDIO', 'BL', 'Sub Business Line', 'PO SAP FLETE', 'Clasificacion (Vehiculo/Equipo)', 'PO SAP FUEL', 'GR IEPS', 'Ruta', 'Business Line', 'SBL', 'SWPS PO FLETE'}


In [20]:
#Comparacion 2023 vs 2020
iguales, diferentes = comparar_columnas(datasets, 'Consolidado Diesel 2020.xlsx', 'Consolidado Diesel 2023.xlsx')
print("\nColumnas iguales entre los datasets:")
print(iguales)
print("\nColumnas diferentes entre los datasets:")
print(diferentes)


Columnas iguales entre los datasets:
{'Q', 'FLETE / MANIOBRA', 'Economico', 'COSTO TOTAL', 'COORDINADOR', 'Recibe en Pozo/usuario.1', 'Destino/Pozo', 'HR Llegada a Pozo', 'COMENTARIOS', 'Proveedor', 'TICKET', 'Zona', 'Fecha de Servicio', 'Recibe en Pozo/usuario', 'SITE', 'Tiempo de Retraso', 'FOLIO DORS', 'Gin Number', 'Fecha de Solicitud', 'Hora de Solicitud', 'Hora requerida', 'Autorizante', 'PRECIO POR LT', 'FLETE', 'PERIODO', 'Solicita', 'CONCILIADO', 'LOCATION', 'Lts. Solicitados', 'Tipo de Unidad', 'STATUS', 'Operador', 'Eco Unidad Proveedor', 'KM RECORRIDO'}

Columnas diferentes entre los datasets:
{'Costo Total + IEPS', 'Segm.', 'KM', 'GR SAP FLETE', 'CORTES', 'HR', 'CCs', 'Tipo de medida Km/Hr', 'Cant. Sum.', 'GR SAP FUEL', 'Celda', 'MEDIO', 'COSTO DE SUMINISTRO', 'Sub Business Line', 'Costo TOTAL SIN IEPS', 'PO SAP FLETE', 'Clasificacion (Vehiculo/Equipo)', 'PO SAP FUEL', 'GR IEPS', 'Ruta', 'Cant. Suministrada', 'Fuera de Procedimiento', 'Costo IEPS', 'IEPS x LT', 'Business 

### Comparación 2022

In [21]:
#Comparacion 2022 vs 2021
iguales, diferentes = comparar_columnas(datasets, 'Consolidado Diesel 2021.xlsx', 'Consolidado Diesel 2022.xlsx')
print("\nColumnas iguales entre los datasets:")
print(iguales)
print("\nColumnas diferentes entre los datasets:")
print(diferentes)


Columnas iguales entre los datasets:
{'Costo Total + IEPS', 'Q', 'KM RECORRIDO', 'FLETE / MANIOBRA', 'Economico', 'COSTO TOTAL', 'COORDINADOR', 'Recibe en Pozo/usuario.1', 'Destino/Pozo', 'HR Llegada a Pozo', 'COMENTARIOS', 'Proveedor', 'TICKET', 'Zona', 'Fecha de Servicio', 'Recibe en Pozo/usuario', 'SITE', 'Tiempo de Retraso', 'Gin Number', 'Costo TOTAL SIN IEPS', 'Fecha de Solicitud', 'Hora de Solicitud', 'Hora requerida', 'Autorizante', 'PRECIO POR LT', 'FLETE', 'PERIODO', 'Ruta', 'Solicita', 'CONCILIADO', 'LOCATION', 'Lts. Solicitados', 'Cant. Suministrada', 'Tipo de Unidad', 'STATUS', 'Costo IEPS', 'IEPS x LT', 'Operador', 'Eco Unidad Proveedor', 'FOLIO DORS', 'Fuera de Tiempo'}

Columnas diferentes entre los datasets:
{'KM', 'CORTES', 'SWPS PO DIESEL', 'HR', 'CCs', 'Tipo de medida Km/Hr', 'MEDIO', 'BL', 'Sub Business Line', 'PO SAP FLETE', 'Clasificacion (Vehiculo/Equipo)', 'PO SAP FUEL', 'Business Line', 'SBL', 'SWPS PO FLETE'}


In [22]:
#Comparacion 2022 vs 2020
iguales, diferentes = comparar_columnas(datasets, 'Consolidado Diesel 2020.xlsx', 'Consolidado Diesel 2022.xlsx')
print("\nColumnas iguales entre los datasets:")
print(iguales)
print("\nColumnas diferentes entre los datasets:")
print(diferentes)


Columnas iguales entre los datasets:
{'Q', 'FLETE / MANIOBRA', 'Economico', 'COSTO TOTAL', 'COORDINADOR', 'Recibe en Pozo/usuario.1', 'Destino/Pozo', 'HR Llegada a Pozo', 'COMENTARIOS', 'Proveedor', 'TICKET', 'Zona', 'Fecha de Servicio', 'Recibe en Pozo/usuario', 'SITE', 'Tiempo de Retraso', 'FOLIO DORS', 'Gin Number', 'Fecha de Solicitud', 'Hora de Solicitud', 'Hora requerida', 'Autorizante', 'PRECIO POR LT', 'FLETE', 'PERIODO', 'Ruta', 'Solicita', 'CONCILIADO', 'LOCATION', 'Lts. Solicitados', 'Tipo de Unidad', 'STATUS', 'Operador', 'Eco Unidad Proveedor', 'KM RECORRIDO'}

Columnas diferentes entre los datasets:
{'Costo Total + IEPS', 'Segm.', 'KM', 'CORTES', 'HR', 'CCs', 'Tipo de medida Km/Hr', 'Cant. Sum.', 'Celda', 'MEDIO', 'COSTO DE SUMINISTRO', 'Sub Business Line', 'Costo TOTAL SIN IEPS', 'PO SAP FLETE', 'Clasificacion (Vehiculo/Equipo)', 'PO SAP FUEL', 'Cant. Suministrada', 'Fuera de Procedimiento', 'Costo IEPS', 'IEPS x LT', 'Business Line', 'Fuera de Tiempo'}


### Comparación 2021

In [23]:
#Comparacion 2020 vs 2021
iguales, diferentes = comparar_columnas(datasets, 'Consolidado Diesel 2020.xlsx', 'Consolidado Diesel 2021.xlsx')
print("\nColumnas iguales entre los datasets:")
print(iguales)
print("\nColumnas diferentes entre los datasets:")
print(diferentes)


Columnas iguales entre los datasets:
{'Q', 'KM', 'FLETE / MANIOBRA', 'Economico', 'COSTO TOTAL', 'COORDINADOR', 'Recibe en Pozo/usuario.1', 'HR', 'Destino/Pozo', 'HR Llegada a Pozo', 'COMENTARIOS', 'Tipo de medida Km/Hr', 'Proveedor', 'TICKET', 'MEDIO', 'Zona', 'Fecha de Servicio', 'Recibe en Pozo/usuario', 'SITE', 'Tiempo de Retraso', 'FOLIO DORS', 'Gin Number', 'Fecha de Solicitud', 'Hora de Solicitud', 'Clasificacion (Vehiculo/Equipo)', 'Hora requerida', 'Autorizante', 'PRECIO POR LT', 'FLETE', 'PERIODO', 'Ruta', 'Solicita', 'CONCILIADO', 'LOCATION', 'Lts. Solicitados', 'Tipo de Unidad', 'STATUS', 'Operador', 'Eco Unidad Proveedor', 'KM RECORRIDO'}

Columnas diferentes entre los datasets:
{'Costo Total + IEPS', 'Segm.', 'SWPS PO DIESEL', 'Cant. Sum.', 'Celda', 'BL', 'COSTO DE SUMINISTRO', 'Costo TOTAL SIN IEPS', 'Cant. Suministrada', 'Fuera de Procedimiento', 'Costo IEPS', 'IEPS x LT', 'SBL', 'SWPS PO FLETE', 'Fuera de Tiempo'}


Hay columnas que se refieren a lo mismo pero tienen un nombre distinto.

**Equivalencias:**

'Sub Business Line' = 'SBL' 

'Business Line' = 'BL' 

'Fuera de Tiempo' = 'Fuera de Procedimiento'

'Cant. Suministrada' = Cant. Sum.

'KM' y 'HR' = 'Tipo de medida Km/Hr'

Por practicidad se decide descartar la base 2020 pues carece de columnas de interés como Costos con y sin IEPS, lts x ieps, entre otras.


In [24]:
# Renombrar columnas según las equivalencias
def renombrar_columnas(df, equivalencias):
    df.rename(columns=equivalencias, inplace=True)
    return df

# Diccionario de equivalencias para renombrar columnas
equivalencias_columnas = {
    'SBL': 'Sub Business Line',
    'BL': 'Business Line',
    'Fuera de Procedimiento': 'Fuera de Tiempo',
    'Cant. Sum.': 'Cant. Suministrada'
}

# Aplicar el renombrado a cada dataset
for nombre, df in datasets.items():
    datasets[nombre] = renombrar_columnas(df, equivalencias_columnas)


Probamos otra vez las columnas iguales y las distintas:

In [25]:
#Nueva colección de datasets sin considerar el dataset Consolidado Diesel 2020.xlsx
datasets_nuevo = {k: v for k, v in datasets.items() if k != 'Consolidado Diesel 2020.xlsx'}
print(datasets_nuevo.keys())

dict_keys(['Consolidado Diesel 2021.xlsx', 'Consolidado Diesel 2022.xlsx', 'Consolidado Diesel 2023.xlsx', 'Consolidado Diesel 2024.xlsx'])


In [26]:
lista_columnas_comunes = columnas_iguales(datasets_nuevo)
print("Columnas iguales: ")
print(lista_columnas_comunes)
print("Número de columnas iguales:", len(lista_columnas_comunes))
print("Columnas diferentes: ")
print(columnas_diferentes(datasets_nuevo))
print("Número de columnas diferentes:", len(columnas_diferentes(datasets_nuevo)))

Columnas iguales: 
['Costo Total + IEPS', 'Q', 'KM RECORRIDO', 'FLETE / MANIOBRA', 'Economico', 'COSTO TOTAL', 'Recibe en Pozo/usuario.1', 'Business Line', 'Destino/Pozo', 'HR Llegada a Pozo', 'COMENTARIOS', 'Proveedor', 'TICKET', 'Zona', 'Fecha de Servicio', 'Recibe en Pozo/usuario', 'SITE', 'Sub Business Line', 'Tiempo de Retraso', 'Gin Number', 'Costo TOTAL SIN IEPS', 'Fecha de Solicitud', 'Hora de Solicitud', 'Hora requerida', 'Autorizante', 'PRECIO POR LT', 'FLETE', 'PERIODO', 'Solicita', 'LOCATION', 'Lts. Solicitados', 'Cant. Suministrada', 'Tipo de Unidad', 'STATUS', 'Costo IEPS', 'IEPS x LT', 'Operador', 'Eco Unidad Proveedor', 'FOLIO DORS', 'Fuera de Tiempo']
Número de columnas iguales: 40
Columnas diferentes: 
['GR SAP FUEL', 'KM', 'MEDIO', 'PO SAP FLETE', 'GR SAP FLETE', 'Clasificacion (Vehiculo/Equipo)', 'CORTES', 'CONCILIADO', 'COORDINADOR', 'SWPS PO DIESEL', 'GR IEPS', 'HR', 'PO SAP FUEL', 'SWPS PO FLETE', 'Ruta', 'CCs', 'Tipo de medida Km/Hr']
Número de columnas diferent

In [27]:
#Para todos los datasets de datasetnuevo, se conservan solamente las columnas que aparecen en lista_columnas_comunes
for nombre, df in datasets_nuevo.items():
    datasets_nuevo[nombre] = df[lista_columnas_comunes]

In [28]:
#Contar numero de columnas de cada dataset
for nombre, df in datasets_nuevo.items():
    print(f"{nombre}: {df.shape[1]} columnas")

Consolidado Diesel 2021.xlsx: 40 columnas
Consolidado Diesel 2022.xlsx: 40 columnas
Consolidado Diesel 2023.xlsx: 40 columnas
Consolidado Diesel 2024.xlsx: 40 columnas


In [29]:
datasets_nuevo['Consolidado Diesel 2021.xlsx'].columns

Index(['Costo Total + IEPS', 'Q', 'KM RECORRIDO', 'FLETE / MANIOBRA',
       'Economico', 'COSTO TOTAL', 'Recibe en Pozo/usuario.1', 'Business Line',
       'Destino/Pozo', 'HR Llegada a Pozo', 'COMENTARIOS', 'Proveedor',
       'TICKET', 'Zona', 'Fecha de Servicio', 'Recibe en Pozo/usuario', 'SITE',
       'Sub Business Line', 'Tiempo de Retraso', 'Gin Number',
       'Costo TOTAL SIN IEPS', 'Fecha de Solicitud', 'Hora de Solicitud',
       'Hora requerida', 'Autorizante', 'PRECIO POR LT', 'FLETE', 'PERIODO',
       'Solicita', 'LOCATION', 'Lts. Solicitados', 'Cant. Suministrada',
       'Tipo de Unidad', 'STATUS', 'Costo IEPS', 'IEPS x LT', 'Operador',
       'Eco Unidad Proveedor', 'FOLIO DORS', 'Fuera de Tiempo'],
      dtype='object')

Como todos los registros de todos los datasets de datasets_nuevo contienen alguna fecha para 'Fecha de Servicio', no es necesario añadir otra columna con el año, pues apartir de esta columna se puede deducir a que fecha corresponde

In [30]:
# Crear un nuevo DataFrame para almacenar los datos combinados
combined_df = pd.DataFrame()
# Iterar sobre los DataFrames y concatenarlos
for nombre, df in datasets_nuevo.items():
    # Concatenar los DataFrames
    combined_df = pd.concat([combined_df, df], ignore_index=True)


## Análisis dataframe combinado

In [31]:
combined_df.shape

(27976, 40)

In [32]:
combined_df.head(5)

Unnamed: 0,Costo Total + IEPS,Q,KM RECORRIDO,FLETE / MANIOBRA,Economico,COSTO TOTAL,Recibe en Pozo/usuario.1,Business Line,Destino/Pozo,HR Llegada a Pozo,...,Lts. Solicitados,Cant. Suministrada,Tipo de Unidad,STATUS,Costo IEPS,IEPS x LT,Operador,Eco Unidad Proveedor,FOLIO DORS,Fuera de Tiempo
0,3696.903,Q1,,0.0,2224-VH,3696.903,,WCF,ESTACION DIESEL,,...,350,212.1,QUINTA,,0.0,0.0,,,DIE-020493,
1,5734.47,Q1,,0.0,386-PR,5734.47,,WCF,ESTACION DIESEL,,...,450,329.0,QUINTA,,0.0,0.0,,,DIE-020494,
2,3660.3,Q1,,0.0,301-VH,3660.3,,WCF,ESTACION DIESEL,,...,230,210.0,PORTA SILOS,,0.0,0.0,,,DIE-020495,
3,1948.674,Q1,,0.0,219-VH,1948.674,,WCF,ESTACION DIESEL,,...,200,111.8,RECIRCULADOR,,0.0,0.0,,,DIE-020496,
4,8713.257,Q1,,0.0,SPF34313Y0007,8713.257,,RPS,ESTACION DIESEL,,...,500,499.9,SPF,,0.0,0.0,,,DIE-020497,


In [35]:
#Imprimir datatype de cada columna
print(combined_df.dtypes)

Costo Total + IEPS                 float64
Q                                   object
KM RECORRIDO                        object
FLETE / MANIOBRA                   float64
Economico                           object
COSTO TOTAL                        float64
Recibe en Pozo/usuario.1            object
Business Line                       object
Destino/Pozo                        object
HR Llegada a Pozo                   object
COMENTARIOS                         object
Proveedor                           object
TICKET                              object
Zona                                object
Fecha de Servicio           datetime64[ns]
Recibe en Pozo/usuario              object
SITE                                object
Sub Business Line                   object
Tiempo de Retraso                   object
Gin Number                          object
Costo TOTAL SIN IEPS               float64
Fecha de Solicitud          datetime64[ns]
Hora de Solicitud                   object
Hora requer

### Análisis de duplicados

Al combinar distintos datasets puede que haya registros duplicados

In [36]:
duplicados = combined_df[combined_df.duplicated()]
print(duplicados)

       Costo Total + IEPS   Q KM RECORRIDO  FLETE / MANIOBRA     Economico  \
311            13944.0000  Q1            0             480.0     GENERADOR   
325                0.0000  Q1            0               0.0     GENERADOR   
326                0.0000  Q1            0               0.0     GENERADOR   
502             1811.2020  Q1          NaN               0.0  1017CR041047   
506            12201.0000  Q1            0             420.0     GENERADOR   
...                   ...  ..          ...               ...           ...   
27783          10807.0590  Q4          0.0               0.0          TOTE   
27802           2151.9288  Q4          0.0               0.0     LUMINARIA   
27805           2161.4118  Q4          0.0               0.0     LUMINARIA   
27953          10677.7490  Q4          0.0               0.0     GENERADOR   
27957          16016.6235  Q4          0.0               0.0          TOTE   

       COSTO TOTAL        Recibe en Pozo/usuario.1 Business Lin

In [37]:
combined_df = combined_df.drop_duplicates(keep='first')

In [38]:
combined_df.shape

(27447, 40)

## Análisis de datos nulos

In [39]:
verificacionValoresNulos('Dataset combinado', combined_df)


Valores faltantes por columna en Dataset combinado:
Costo Total + IEPS              0
Q                               0
KM RECORRIDO                 7017
FLETE / MANIOBRA             4649
Economico                       0
COSTO TOTAL                     0
Recibe en Pozo/usuario.1     2171
Business Line                   0
Destino/Pozo                    0
HR Llegada a Pozo           10240
COMENTARIOS                 26287
Proveedor                       5
TICKET                       8147
Zona                         3094
Fecha de Servicio               0
Recibe en Pozo/usuario         15
SITE                            0
Sub Business Line               0
Tiempo de Retraso           10932
Gin Number                   4037
Costo TOTAL SIN IEPS            0
Fecha de Solicitud          13989
Hora de Solicitud            9601
Hora requerida                  0
Autorizante                     0
PRECIO POR LT                   4
FLETE                        7005
PERIODO                      

"Comentarios" no se requiere

checar similitud entre Recibe en Pozo/usuario         15 y Recibe en Pozo/usuario.1     2171

"COSTO TOTAL" = "FLETE / MANIOBRA" + "Costo Total + IEPS"

"Cant. Suministrada" * "IEPS x LT" = "Costo IEPS"

"Cant. Suministrada" * "PRECIO POR LT" = "Costo TOTAL SIN IEPS"

"Costo Total + IEPS" = "Costo TOTAL SIN IEPS" + "Costo IEPS"

"FLETE / MANIOBRA", "KM RECORRIDO","FLETE", "COSTO TOTAL","Costo Total + IEPS","Costo TOTAL SIN IEPS", "PRECIO POR LT","Costo IEPS","IEPS x LT","Cant. Suministrada", "Lts. Solicitados", hacen referencia a cantidades, por lo que la presencia de NaN en estas columnas muy probablemente son sinónimos de 0

In [44]:
#Funcion que muestra cuantos valores iguales hay entre los registros de un dataframe y dos columnas
def contar_iguales(df, col1, col2):
    return (df[col1] == df[col2]).sum()




In [None]:
contar_iguales(combined_df, 'Recibe en Pozo/usuario', 'Recibe en Pozo/usuario.1')

np.int64(16351)

In [None]:
#Eliminar las columnas que no son necesarias
combined_df = combined_df.drop(columns=['Recibe en Pozo/usuario.1'])

In [48]:
combined_df = combined_df.drop(columns=['COMENTARIOS'])

In [50]:
combined_df.shape

(27447, 38)

In [51]:
variables_numericas = ["FLETE / MANIOBRA", "KM RECORRIDO","FLETE", "COSTO TOTAL","Costo Total + IEPS","Costo TOTAL SIN IEPS", "PRECIO POR LT","Costo IEPS","IEPS x LT","Cant. Suministrada", "Lts. Solicitados"]

In [52]:
combined_df.head()

Unnamed: 0,Costo Total + IEPS,Q,KM RECORRIDO,FLETE / MANIOBRA,Economico,COSTO TOTAL,Business Line,Destino/Pozo,HR Llegada a Pozo,Proveedor,...,Lts. Solicitados,Cant. Suministrada,Tipo de Unidad,STATUS,Costo IEPS,IEPS x LT,Operador,Eco Unidad Proveedor,FOLIO DORS,Fuera de Tiempo
0,3696.903,Q1,,0.0,2224-VH,3696.903,WCF,ESTACION DIESEL,,TAGAL,...,350,212.1,QUINTA,,0.0,0.0,,,DIE-020493,
1,5734.47,Q1,,0.0,386-PR,5734.47,WCF,ESTACION DIESEL,,TAGAL,...,450,329.0,QUINTA,,0.0,0.0,,,DIE-020494,
2,3660.3,Q1,,0.0,301-VH,3660.3,WCF,ESTACION DIESEL,,TAGAL,...,230,210.0,PORTA SILOS,,0.0,0.0,,,DIE-020495,
3,1948.674,Q1,,0.0,219-VH,1948.674,WCF,ESTACION DIESEL,,TAGAL,...,200,111.8,RECIRCULADOR,,0.0,0.0,,,DIE-020496,
4,8713.257,Q1,,0.0,SPF34313Y0007,8713.257,RPS,ESTACION DIESEL,,TAGAL,...,500,499.9,SPF,,0.0,0.0,,,DIE-020497,


In [54]:
#checar que las variables numéricas son de tipo float
for var in variables_numericas:
    print(f"{var}: {combined_df[var].dtype}")

FLETE / MANIOBRA: float64
KM RECORRIDO: object
FLETE: float64
COSTO TOTAL: float64
Costo Total + IEPS: float64
Costo TOTAL SIN IEPS: float64
PRECIO POR LT: float64
Costo IEPS: float64
IEPS x LT: float64
Cant. Suministrada: float64
Lts. Solicitados: object


In [57]:
# Verificar y procesar las columnas numéricas
for col in variables_numericas:
    if col in combined_df.columns:
        # Reemplazar valores no deseados y convertir a float
        combined_df[col] = combined_df[col].replace([' ', '-', ''], 0)
        combined_df[col] = pd.to_numeric(combined_df[col], errors='coerce').fillna(0)
    else:
        print(f"Advertencia: La columna '{col}' no existe en combined_df.")


In [59]:
for var in variables_numericas:
    print(f"{var}: {combined_df[var].dtype}")

FLETE / MANIOBRA: float64
KM RECORRIDO: float64
FLETE: float64
COSTO TOTAL: float64
Costo Total + IEPS: float64
Costo TOTAL SIN IEPS: float64
PRECIO POR LT: float64
Costo IEPS: float64
IEPS x LT: float64
Cant. Suministrada: float64
Lts. Solicitados: float64


In [60]:
verificacionValoresNulos('Dataset combinado', combined_df)


Valores faltantes por columna en Dataset combinado:
Costo Total + IEPS            0
Q                             0
KM RECORRIDO                  0
FLETE / MANIOBRA              0
Economico                     0
COSTO TOTAL                   0
Business Line                 0
Destino/Pozo                  0
HR Llegada a Pozo         10240
Proveedor                     5
TICKET                     8147
Zona                       3094
Fecha de Servicio             0
Recibe en Pozo/usuario       15
SITE                          0
Sub Business Line             0
Tiempo de Retraso         10932
Gin Number                 4037
Costo TOTAL SIN IEPS          0
Fecha de Solicitud        13989
Hora de Solicitud          9601
Hora requerida                0
Autorizante                   0
PRECIO POR LT                 0
FLETE                         0
PERIODO                       0
Solicita                     14
LOCATION                     25
Lts. Solicitados              0
Cant. Suministrada 

In [64]:
#De las variables que no son numéricas, checar  la cantidad de valores únicos
for col in combined_df.columns:
    if col not in variables_numericas:
        print(f"{col}: {combined_df[col].nunique()} valores únicos")

Q: 4 valores únicos
Economico: 772 valores únicos
Business Line: 15 valores únicos
Destino/Pozo: 579 valores únicos
HR Llegada a Pozo: 701 valores únicos
Proveedor: 6 valores únicos
TICKET: 13599 valores únicos
Zona: 30 valores únicos
Fecha de Servicio: 1464 valores únicos
Recibe en Pozo/usuario: 1180 valores únicos
SITE: 3 valores únicos
Sub Business Line: 34 valores únicos
Tiempo de Retraso: 1189 valores únicos
Gin Number: 826 valores únicos
Fecha de Solicitud: 1392 valores únicos
Hora de Solicitud: 989 valores únicos
Hora requerida: 711 valores únicos
Autorizante: 152 valores únicos
PERIODO: 12 valores únicos
Solicita: 859 valores únicos
LOCATION: 3 valores únicos
Tipo de Unidad: 108 valores únicos
STATUS: 3 valores únicos
Operador: 427 valores únicos
Eco Unidad Proveedor: 270 valores únicos
FOLIO DORS: 19713 valores únicos
Fuera de Tiempo: 2 valores únicos


Tanto GIN como Ticket parecen ser ciertos identificadores, por lo que no se les hará nada.

Por otro lado, a las columnas que les faltan muy pocos datos <100 se les imputará la moda

Practicamente la mitad de los datos de Operador y Eco Unidad Proveedor no se encuentran, sumado a la posible poca relevancia que tengan con el problema se procederán a eliminar.

Zona parece ser una zona que se puede imputar mediante moda tambien

STATUS es una variable un poco más cuidadosa, por el momento se va a dejar así

Solo queda trabajar con las variables que tienen NaN relacionadas con el tiempo *pendiente*

In [None]:
combined_df = combined_df.drop(columns=['Operador', 'Eco Unidad Proveedor'])
combined_df.shape

(27447, 36)

In [66]:
combined_df['Proveedor'].fillna(combined_df['Proveedor'].mode()[0], inplace=True)
combined_df['Recibe en Pozo/usuario'].fillna(combined_df['Recibe en Pozo/usuario'].mode()[0], inplace=True)
combined_df['Solicita'].fillna(combined_df['Solicita'].mode()[0], inplace=True)
combined_df['LOCATION'].fillna(combined_df['LOCATION'].mode()[0], inplace=True)
combined_df['Tipo de Unidad'].fillna(combined_df['Tipo de Unidad'].mode()[0], inplace=True)                   

      

                     
                     

               

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  combined_df['Proveedor'].fillna(combined_df['Proveedor'].mode()[0], inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  combined_df['Recibe en Pozo/usuario'].fillna(combined_df['Recibe en Pozo/usuario'].mode()[0], inplace=True)
The behavior will change in pandas 3.0. Th

In [67]:
verificacionValoresNulos('Dataset combinado', combined_df)


Valores faltantes por columna en Dataset combinado:
Costo Total + IEPS            0
Q                             0
KM RECORRIDO                  0
FLETE / MANIOBRA              0
Economico                     0
COSTO TOTAL                   0
Business Line                 0
Destino/Pozo                  0
HR Llegada a Pozo         10240
Proveedor                     0
TICKET                     8147
Zona                       3094
Fecha de Servicio             0
Recibe en Pozo/usuario        0
SITE                          0
Sub Business Line             0
Tiempo de Retraso         10932
Gin Number                 4037
Costo TOTAL SIN IEPS          0
Fecha de Solicitud        13989
Hora de Solicitud          9601
Hora requerida                0
Autorizante                   0
PRECIO POR LT                 0
FLETE                         0
PERIODO                       0
Solicita                      0
LOCATION                      0
Lts. Solicitados              0
Cant. Suministrada 

In [68]:
#exportar a csv
combined_df.to_csv('dataset_combinado.csv', index=False)

In [69]:
#valores únicos que pueden tomar la variables que no son numéricas
for col in combined_df.columns:
    if col not in variables_numericas:
        print(f"{col}: {combined_df[col].unique()} valores únicos")

Q: ['Q1' 'Q2' 'Q3' 'Q4'] valores únicos
Economico: ['2224-VH' '386-PR' '301-VH' '219-VH' 'SPF34313Y0007' 33018 '2261-VH'
 '2228-VH' '177-VH' '2231-VH' '679-VH' '385-VH' 'AT19C02659' 33045
 'AT18C30553' 'WINGGIS' '486-VH' '667-VH' '650-VH' '129-VH' '2237-VH'
 '2233-VH' '2230-VH' '297-VH' '677-VH' '2225-VH' '467-PR' '127-VH'
 '115-VH' '135-VH' '109-VH' 'CPF37713A0170' '673-VH' '2232-VH' '2291-VH'
 33047 7 '2262-VH' '670-VH' '599-VH' '540-VH' '681-VH' '2240-VH' '2239-VH'
 '511-VH' 5 '380-VH' '465-VH' '2223-VH' '328-VH' '210-VH' '2236-VH'
 '211-VH' '2227-VH' 'TOTE' '680-VH' 'CBF85103Y0152' 33049 '232-VH'
 'GENW648040' '112-VH' '116-VH' 'SPS34318Y0512' '312-VH' '5845-VH'
 '165-VH' 'TANQUE ESTACIONARIO' 'SPF34313Y0008' '304-VH' 'GENERADOR'
 '174-VH' '788-VH' 'TUT-419-13-010' '848400-REY' '848404-REY' '2209-VH'
 '553-VH' '509-VH' 96400 '184-VH' '476-VH' '386-VH' 'CPF37710A0166'
 '297-PR' '2241-VH' '544J' 13 33048 '2235-VH' '502-VH' '5507-VH'
 'CUS81207B0143' 'F40200330' 'CPF37713C0389' '218-V