# Limpieza y transformación de datos

## Preparando el ambiente

### Cargando módulos

In [1]:
# Cargando módulos
# ---------------------------------------------------------------------------------------
# Configuración warnings
# Importando módulo warnings
import warnings

# Ignorar warnings
warnings.filterwarnings("ignore")

# Importando importOrInstall function desde el modulo lib.functChecModule
from lib.functChecModule import importOrInstall

# Use the importOrInstall function para validar si el modulo 'yaml' module se encuentra instalado, y si es necesario lo instala
importOrInstall("yaml")

# Use the importOrInstall function para validar si el modulo 'skimpy' module se encuentra instalado, y si es necesario lo instala
importOrInstall('skimpy')

# Use the importOrInstall function para validar si el modulo 'openpyxl' module se encuentra instalado, y si es necesario lo instala
importOrInstall('openpyxl')


In [2]:
# Manipulando datos
# Importando varios módulos de pandas
from pandas import DataFrame, read_csv, set_option, option_context, to_datetime, Series, Timedelta, merge

# Importando varios módulos de numpy
from numpy import nan, where

# Importando la clase SafeLoader desde el módulo yaml.loader
from yaml.loader import SafeLoader

# Importando los módulos json y yaml
import json
import yaml

# Importando el módulo statistics
import statistics

# Importando la función clean_columns desde el modulo skimpy
from skimpy import clean_columns

# Importando el módulo missingno y asignando un alias msno
import missingno as msno

# Importando el módulo pickle
import pickle

# Importando los módulos os y glob
import os
import glob

# Importando varios módulos de psycopg2
# import psycopg2
# from psycopg2 import connect, extensions, sql

# Importando la función create_engine desde módulo sqlalchemy
# from sqlalchemy import create_engine

# Importando la función haversine desde el módulo haversine
from haversine import haversine

# Importando funciones custom custom desde el módulo lib.functDescriptiveAnalysis 
from lib.functDescriptiveAnalysis import inspectDataFrameDA, countNaNDA

# Importando funciones custom custom desde el módulo lib.functCleanData
from lib.functCleanData import convert_float, whitespaceRemover


## Cargando dataset's

### Dataset: orden de compra (purchase_order)

In [3]:
# Preparando los datos
# ---------------------------------------------------------------------------------------
# Cargando datos de la orden de compra desde el archivo especificado
purchase_order = pickle.load(open('data/output/purchase_order.plk', 'rb'))
# Usamos la función option_context para establecer el número máximo de columnas para mostrar
with option_context("display.max_columns", None):
# Usamos la función de visualización para mostrar las primeras 5 filas de los datos
    display(purchase_order.head(n = 5))

Unnamed: 0,order_id,lat,lng,dow,promised_time,actual_time,on_demand,picker_id,driver_id,store_branch_id,total_minutes,actual_reception_time,promised_delivery_time,total_minutes_td,order_time,model_1_dt_time,model_1_time
0,6abd5e28d01b7c733fe37485294235dc,18.22114,-10.03139,2,13:00:00,12:00:15,False,09bb5bfe76adbb474dddbdd111a51623,09bb5bfe76adbb474dddbdd111a51623,0dc6fb5924a8b917bc641666ed02663c,91.800861,1900-01-01 12:00:15,1900-01-01 13:00:00,0 days 01:31:48.051660,1900-01-01 10:28:26.948340000,0 days 02:31:33.051660,151.550861
1,0d37a1eea001f01b40232ffd496ff663,18.17771,-10.0357,2,13:00:00,10:28:10,False,c4c722114a82fa21654e57e9636d68b0,c4c722114a82fa21654e57e9636d68b0,2bbf833e689d24b697f1f3529c3f3c4b,206.599732,1900-01-01 10:28:10,1900-01-01 13:00:00,0 days 03:26:35.983919999,1900-01-01 07:01:34.016080001,0 days 05:58:25.983919999,358.433065
2,528428e9b9eb5d3bd0dbdd8da692b087,18.26683,-10.03175,2,11:00:00,10:40:50,False,e15c7a67d0ea9a54dffb410bc1d8528b,e15c7a67d0ea9a54dffb410bc1d8528b,8d891dfc0e29d744c15c18adced74a68,93.458001,1900-01-01 10:40:50,1900-01-01 11:00:00,0 days 01:33:27.480060,1900-01-01 09:07:22.519940000,0 days 01:52:37.480060,112.624668
3,d3f7be6d64eae7405b7bf024e04807a2,18.24888,-10.03226,2,10:00:00,9:41:47,False,d1f0bd4b237c1358f09db22076b940e7,d1f0bd4b237c1358f09db22076b940e7,0dc6fb5924a8b917bc641666ed02663c,124.778761,1900-01-01 09:41:47,1900-01-01 10:00:00,0 days 02:04:46.725660,1900-01-01 07:37:00.274340000,0 days 02:22:59.725660,142.995428
4,e0ad6533b6cd9a382ec6c1d473c5036c,18.22911,-10.03226,2,11:00:00,10:07:53,False,06a71e8ab0c6db5ce22a4689fd76a3f4,06a71e8ab0c6db5ce22a4689fd76a3f4,afd0a7b8d546fcc697bb93a5934b65c3,130.321208,1900-01-01 10:07:53,1900-01-01 11:00:00,0 days 02:10:19.272480,1900-01-01 07:57:33.727520000,0 days 03:02:26.272480,182.437875


### Dataset: orden de productos (product_order)

In [4]:
# Cargando datos de pedido de productos desde el archivo especificado
product_order = pickle.load(open('data/output/product_order.plk', 'rb'))
# Usamos la función option_context para establecer el número máximo de columnas para mostrar
with option_context("display.max_columns", None):
# Usamos la función de visualización para mostrar las primeras 5 filas de los datos
    display(product_order.head(n = 5))

Unnamed: 0,order_id,product_id,quantity,quantity_found,buy_unit
0,bdfc44fb525986b7bab8c589fc47e853,ab9757d9892b0e83ab3a1c1af0c84c52,0.75,0.155,KG
1,bdfc44fb525986b7bab8c589fc47e853,f1f042251bf634d44f338fbaf13b16e4,0.3,0.4,KG
2,bdfc44fb525986b7bab8c589fc47e853,0630d47440965509b0b3f80fd1b3578f,1.0,1.0,UN
3,bdfc44fb525986b7bab8c589fc47e853,9dd69b1f300666d5573e3a9934f2e03e,2.0,2.0,UN
4,bdfc44fb525986b7bab8c589fc47e853,3dfcdbe308bde67370649dd875f2507b,1.0,1.0,UN


### Dataset: recolector (shopper)

In [5]:
# Cargando datos de shopper desde el archivo especificado
shopper = pickle.load(open('data/output/shopper.plk', 'rb'))
# Usamos la función option_context para establecer el número máximo de columnas para mostrar
with option_context("display.max_columns", None):
# Usamos la función de visualización para mostrar las primeras 5 filas de los datos
    display(shopper.head(n = 5))

Unnamed: 0,shopper_id,seniority,found_rate,picking_speed,accepted_rate,rating
0,087ab65ceca40dbef697f585dc159d5d,ADVANCED,0.86,1.64,1.0,4.48
1,645973c41314d763b58dc2bceeeeffc9,INTERMEDIATE,0.83,2.83,0.96,4.79
2,82810715fdda44962e7e422015ea1f32,ADVANCED,0.87,1.27,0.88,4.84
3,416aa7dbd5a2f58d7bca96657e8faa1e,INTERMEDIATE,0.88,2.11,1.0,4.79
4,27a3e845a4c3eb7ded4748f84140a843,ADVANCED,0.85,1.5,1.0,4.84


### Dataset: tienda (store)

In [6]:
# Cargando datos de tiendas desde el archivo especificado
store = pickle.load(open('data/output/store.plk', 'rb'))
# Usamos la función option_context para establecer el número máximo de columnas para mostrar
with option_context("display.max_columns", None):
# Usamos la función de visualización para mostrar las primeras 5 filas de los datos
    display(store.head(n = 5))

Unnamed: 0,store_branch_id,store,lat,lng
0,cf0895f1e3beb8164f0a86e6f940ae56,c0b93cf93cf854981b8d6bd849eec4b0,18.1603,-10.02606
1,3ddd4c29cab4178d89d549c6ba65c236,044d56734d20e04984d846dade6d39f3,18.27282,-10.03188
2,e9763f24fd46d0b9e52d423207a87c3c,452ae015bf846e1d2932b7ea15720d64,18.27349,-10.03195
3,49b7d60d6095a9f1129ce798102b62f4,6447951cd071f6f045fd4e6194920926,18.24774,-10.04035
4,8f21cfda17b340aeee062220d0bee8e5,452ae015bf846e1d2932b7ea15720d64,18.20311,-10.02977


## Consolidando dataset

### Generando un dataset con información agregada

In [7]:
# El siguiente código crea un dataframe llamado product_orders a partir de otro dataframe llamado product_order.
# Luego, agrupa los datos del dataframe product_order por el id de orden y aplica una función lambda a cada grupo.
# La función lambda crea una serie que contiene diferentes columnas, que se calculan a  partir de la columna buy_unit 
# y quantity_found del dataframe g. También se hace un reset del índice del dataframe product_orders.
product_orders = DataFrame(product_order.groupby('order_id')
                           .apply(lambda g: Series({
                               'total_product': g.product_id.count(),
                               'real_total_unit': where(g.buy_unit == 'UN', g.quantity_found, 0).sum(),
                               'real_total_kg': where(g.buy_unit == 'KG', g.quantity_found, 0).sum(),
                               'real_without_product': where(g.quantity_found == 0, 1, 0).sum(),
                               'total_unit': where(g.buy_unit == 'UN', g.quantity, 0).sum(),
                               'total_kg': where(g.buy_unit == 'KG', g.quantity, 0).sum()
                           })))
product_orders.reset_index(inplace=True, level=['order_id'])
# Usamos la función option_context para establecer el número máximo de columnas para mostrar
with option_context("display.max_columns", None):
# Usamos la función de visualización para mostrar las primeras 5 filas de los datos
    display(product_orders.head(n = 5))

Unnamed: 0,order_id,total_product,real_total_unit,real_total_kg,real_without_product,total_unit,total_kg
0,001ef94c50c71cb0e674b6293e9b6068,35.0,31.0,3.515,5.0,37.0,3.3
1,001f7583bb106a338d09a12a89e54cbd,5.0,5.0,0.0,0.0,5.0,0.0
2,002b6dcb32fef90ebb1cb691afe6a413,9.0,10.0,0.0,2.0,12.0,0.0
3,002ebc46f3e40c49044aceb8311df432,4.0,3.0,0.6,0.0,3.0,0.6
4,002f97bd7dad0d275d8511436c18b572,11.0,35.0,4.09,1.0,35.0,5.0


### Uniendo los dataset

In [8]:
# El siguiente código en Python crea un dataframe llamado dfResult mediante la función merge(), utilizando dataframes
# previamente creados (purchase_order, store, shopper y product_orders). 
# La función merge() une los datos de los diferentes dataframes en base a las columnas store_branch_id, picker_id y driver_id, respectivamente.
# Además, se utiliza la opción how='left' para indicar que se deben incluir todos los datos del dataframe de la izquierda,
# y se utilizan diferentes sufijos para nombrar las columnas resultantes.
dfResult = merge(purchase_order, store, how='left', left_on = 'store_branch_id', right_on = 'store_branch_id', suffixes = ('_order', '_store'))
dfResult = merge(dfResult, shopper, how='left', left_on = 'picker_id', right_on = 'shopper_id')
dfResult = merge(dfResult, shopper, how='left', left_on = 'driver_id', right_on = 'shopper_id', suffixes = ('_picker', '_driver'))
dfResult = merge(dfResult, product_orders, how='left', left_on = 'order_id', right_on = 'order_id')

#### Inspeccion visual de merge

In [9]:
# Usamos la función option_context para establecer el número máximo de columnas para mostrar
with option_context("display.max_columns", None):
# Usamos la función de visualización para mostrar las primeras 5 filas de los datos
    display(dfResult.head(n = 5))

Unnamed: 0,order_id,lat_order,lng_order,dow,promised_time,actual_time,on_demand,picker_id,driver_id,store_branch_id,total_minutes,actual_reception_time,promised_delivery_time,total_minutes_td,order_time,model_1_dt_time,model_1_time,store,lat_store,lng_store,shopper_id_picker,seniority_picker,found_rate_picker,picking_speed_picker,accepted_rate_picker,rating_picker,shopper_id_driver,seniority_driver,found_rate_driver,picking_speed_driver,accepted_rate_driver,rating_driver,total_product,real_total_unit,real_total_kg,real_without_product,total_unit,total_kg
0,6abd5e28d01b7c733fe37485294235dc,18.22114,-10.03139,2,13:00:00,12:00:15,False,09bb5bfe76adbb474dddbdd111a51623,09bb5bfe76adbb474dddbdd111a51623,0dc6fb5924a8b917bc641666ed02663c,91.800861,1900-01-01 12:00:15,1900-01-01 13:00:00,0 days 01:31:48.051660,1900-01-01 10:28:26.948340000,0 days 02:31:33.051660,151.550861,60e4c4e1c1a8bc79123738227b9d0b08,18.2319,-10.03035,09bb5bfe76adbb474dddbdd111a51623,ADVANCED,0.86,1.56,1.0,4.68,09bb5bfe76adbb474dddbdd111a51623,ADVANCED,0.86,1.56,1.0,4.68,27.0,18.0,6.245,1.0,19.0,5.722
1,0d37a1eea001f01b40232ffd496ff663,18.17771,-10.0357,2,13:00:00,10:28:10,False,c4c722114a82fa21654e57e9636d68b0,c4c722114a82fa21654e57e9636d68b0,2bbf833e689d24b697f1f3529c3f3c4b,206.599732,1900-01-01 10:28:10,1900-01-01 13:00:00,0 days 03:26:35.983919999,1900-01-01 07:01:34.016080001,0 days 05:58:25.983919999,358.433065,387d4a5b65cf4bf00ad805c4b00eed01,18.16396,-10.03289,c4c722114a82fa21654e57e9636d68b0,ADVANCED,0.85,1.14,1.0,4.76,c4c722114a82fa21654e57e9636d68b0,ADVANCED,0.85,1.14,1.0,4.76,103.0,114.0,40.614,20.0,150.0,39.562
2,528428e9b9eb5d3bd0dbdd8da692b087,18.26683,-10.03175,2,11:00:00,10:40:50,False,e15c7a67d0ea9a54dffb410bc1d8528b,e15c7a67d0ea9a54dffb410bc1d8528b,8d891dfc0e29d744c15c18adced74a68,93.458001,1900-01-01 10:40:50,1900-01-01 11:00:00,0 days 01:33:27.480060,1900-01-01 09:07:22.519940000,0 days 01:52:37.480060,112.624668,0fae7b61265bc7ca4ce4d81440b62501,18.24565,-10.03324,e15c7a67d0ea9a54dffb410bc1d8528b,INTERMEDIATE,0.83,2.03,1.0,4.96,e15c7a67d0ea9a54dffb410bc1d8528b,INTERMEDIATE,0.83,2.03,1.0,4.96,6.0,6.0,0.0,0.0,6.0,0.0
3,d3f7be6d64eae7405b7bf024e04807a2,18.24888,-10.03226,2,10:00:00,9:41:47,False,d1f0bd4b237c1358f09db22076b940e7,d1f0bd4b237c1358f09db22076b940e7,0dc6fb5924a8b917bc641666ed02663c,124.778761,1900-01-01 09:41:47,1900-01-01 10:00:00,0 days 02:04:46.725660,1900-01-01 07:37:00.274340000,0 days 02:22:59.725660,142.995428,60e4c4e1c1a8bc79123738227b9d0b08,18.2319,-10.03035,d1f0bd4b237c1358f09db22076b940e7,INTERMEDIATE,0.86,2.06,0.92,4.92,d1f0bd4b237c1358f09db22076b940e7,INTERMEDIATE,0.86,2.06,0.92,4.92,17.0,18.0,19.805,1.0,20.0,18.3
4,e0ad6533b6cd9a382ec6c1d473c5036c,18.22911,-10.03226,2,11:00:00,10:07:53,False,06a71e8ab0c6db5ce22a4689fd76a3f4,06a71e8ab0c6db5ce22a4689fd76a3f4,afd0a7b8d546fcc697bb93a5934b65c3,130.321208,1900-01-01 10:07:53,1900-01-01 11:00:00,0 days 02:10:19.272480,1900-01-01 07:57:33.727520000,0 days 03:02:26.272480,182.437875,452ae015bf846e1d2932b7ea15720d64,18.23159,-10.03145,06a71e8ab0c6db5ce22a4689fd76a3f4,ADVANCED,0.86,1.89,1.0,4.92,06a71e8ab0c6db5ce22a4689fd76a3f4,ADVANCED,0.86,1.89,1.0,4.92,44.0,28.0,11.575,3.0,31.0,7.721


In [10]:
# Realizamos el cálculo de las distancias con la fórmula haversine provista por la librería
dfResult['distancia'] = dfResult.apply(lambda row: haversine((row.lat_order, row.lng_order), (row.lat_store, row.lng_store), unit = 'km'), axis=1)

In [11]:
# Tras el cruce, existen 15 valores que no tienen información de los productos para el pedido. Por ello se borran las filas.
dfResult = dfResult.dropna()

## Guardando dataset

In [12]:
#  La función pickle.dump() permite guardar el dataframe en un archivo en formato plk
pickle.dump(dfResult, open('data/output/dataset_full_data.plk', 'wb'))

In [13]:
 # La función to_csv permite guardar el dataframe en un archivo en formato csv separado por comas
 # Se utiliza la opción index = False para indicar que no se deben incluir los índices en el archivo resultante
dfResult.to_csv('data/output/dataset_full_data.csv', index = False)

In [14]:
 # La función to_excel() permite guardar el dataframe en un archivo en formato xlsx
 # se utiliza la opción index = False para indicar que no se deben incluir los índices en el archivo resultante
dfResult.to_excel('data/output/dataset_full_data.xlsx', index = False)