In [1]:
#Preparamos la importacion de librerias e instalamos las que nos falten
import sys
import subprocess
import pkg_resources

required  = {'numpy', 'pandas', 'sqlalchemy', 'chardet', 'sqlalchemy', 'pathlib', 'datefinder', 'datetime', 'openpyxl'} 
installed = {pkg.key for pkg in pkg_resources.working_set}
missing   = required - installed

if missing:
    subprocess.check_call([sys.executable, '-m', 'pip', 'install', *missing])

In [2]:
#Importamos las librerias luego de la instalacion
import os
import pandas as pd
import numpy as np
import sqlalchemy
import chardet
import sqlalchemy
import pathlib
import datefinder
import datetime

In [3]:
#Generamos una lista con los archivos de la carpeta precio
archivos_precio = []

c = pathlib.Path(r'Precios')

for entrada in c.iterdir():
    if entrada.is_file():
        archivos_precio.append(entrada)

archivos_precio.sort()
print(archivos_precio)

[WindowsPath('Precios/precios_semana_20200413.csv'), WindowsPath('Precios/precios_semana_20200503.json'), WindowsPath('Precios/precios_semana_20200518.txt'), WindowsPath('Precios/precios_semanas_20200419_20200426.xlsx')]


In [7]:
#Removemos la Base de Datos en caso de ya existir
try:
    os.remove('DataBase.db')
except OSError:
    pass

In [8]:
#Creamos un Motor de Base de Datos, en este caso SQLite como archivo .db (Como se nos es requerido)
db_engine = sqlalchemy.create_engine('sqlite:///DataBase.db')

In [7]:
#Insertamos la tabla sucursal en nuestra base de datos
df_sucursal = pd.read_csv(r'Datasets\sucursal.csv').drop_duplicates()
df_sucursal.to_sql('sucursal',db_engine)
print(db_engine.has_table('sucursal'))

Unnamed: 0,sucursal_id,comercioId,banderaId,banderaDescripcion,comercioRazonSocial,provincia,localidad,direccion,lat,lng,sucursalNombre,sucursalTipo
0,1-1-7,1,1,Super MAMI,Dinosaurio S.A.,AR-X,SALSIPUEDES,E53 1011 None,-31.126667,-64.295250,Super Mami 4,Hipermercado
1,10-1-1,10,1,Hipermercado Carrefour,INC S.A.,AR-B,San Isidro,Bernardo De Irigoyen 2647,-34.491345,-58.589025,San Isidro,Hipermercado
2,10-1-10,10,1,Hipermercado Carrefour,INC S.A.,AR-B,Hurlingham,Av. Vergara 1910,-34.620610,-58.633769,Villa Tesei,Hipermercado
3,10-1-11,10,1,Hipermercado Carrefour,INC S.A.,AR-B,Malvinas Argentinas,Av. Arturo Illia 3770,-34.528883,-58.701631,Malvinas Argentinas,Hipermercado
4,10-1-112,10,1,Hipermercado Carrefour,INC S.A.,AR-A,Salta,20 De Febrero 37,-24.789072,-65.413699,Salta,Hipermercado
...,...,...,...,...,...,...,...,...,...,...,...,...
2328,9-3-5277,9,3,Jumbo,Jumbo Retail Argentina S.A.,AR-U,COMODORO RIVADAVIA,Yrigoyen Hipolito 0,-45.873300,-67.493500,Jumbo-Comodoro,Hipermercado
2329,9-3-5626,9,3,Jumbo,Jumbo Retail Argentina S.A.,AR-B,GENERAL PACHECO,Boulogne Sur Mer 1275,-34.474500,-58.625700,Jumbo Pacheco Novo,Hipermercado
2330,9-3-5961,9,3,Jumbo,Jumbo Retail Argentina S.A.,AR-C,CIUDAD AUTONOMA BUENOS AIRES,Avenida Santa Fe 4950,-34.577200,-58.430000,Jumbo Av. Santa Fé,Supermercado
2331,9-3-628,9,3,Jumbo,Jumbo Retail Argentina S.A.,AR-B,SAN FERNANDO,Avenida Del Libertador Gral San Martin 2271,-34.446900,-58.545700,Jumbo San Fernando,Supermercado


In [16]:
#Insertamos la tabla producto en nuestra base de datos
df_producto = pd.read_parquet(r'Datasets\producto.parquet').drop_duplicates()
df_producto.to_sql('producto',db_engine)
print(db_engine.has_table('producto'))

Unnamed: 0,producto_id,marca,nombre,presentacion,categoria1,categoria2,categoria3
0,0000000001663,LA ANÓNIMA,Radicheta Atada La Anonima 1 Un,1.0 un,,,
1,0000000002288,LA ANÓNIMA,Perejil Atado La Anonima 1 Un,1.0 un,,,
2,0000000205870,SIN MARCA,Ojo de Bife 1 Kg,1.0 kg,,,
3,0000000205894,SIN MARCA,Milanesa de Peceto Novillito 1 Kg,1.0 kg,,,
4,0000000205955,SIN MARCA,Chiquizuela Novillito 1 Kg,1.0 kg,,,
...,...,...,...,...,...,...,...
72033,9569753142128,DELI-SITAS,Milhojas Cobertura de Chocolate Blanco Deli-Si...,500.0 gr,,,
72034,9795403001143,MAYO,Mini Pizzetas Mayo 12 Un,12.0 un,,,
72035,9990385651922,DANA,Te Negro en Hebras Lata Dana 50 Gr,50.0 gr,,,
72036,9990385651939,DANA,Te Verde en Hebras Lata Dana 50 Gr,50.0 gr,,,


In [11]:
#Creamos un diccionario para almacenar todos los DataFrames ingestados en precio
precios_dicc = {}

In [12]:

#Iteramos sobre los archivos de la carpeta precios
for file_path in archivos_precio:


    #Definimos si el archivo es CSV o TXT
    if(str(file_path.suffix) in ['.csv','.txt']):
        
        #Detectamos el Encoding
        with open(file_path, 'rb') as f:
            enc = chardet.detect(f.read())
            
        #Abrimos el archivo
        with open(file_path,'r') as file:


            #Detectamos si usar | como separador
            if( str(file.readline()).__contains__('|') ):

                #Definimos el DataFrame con su separador y encoding
                df = pd.read_csv( file_path , sep='|', encoding=enc['encoding'])

                #Normalizamos
                df['producto_id'] = df['producto_id'].apply(lambda x: int(x[-13:]) if(type(x) == str) else x)
                df['precio'] = df['precio'].apply(lambda x: float(x) if(type(x) != str) else np.NaN)
                df['producto_id'] = df['producto_id'].apply(lambda x: str(str(x).zfill(13)))
                df['sucursal_id'] = df['sucursal_id'].apply(lambda x: str(x))

                #Lo asignamos con su fecha en el diccionario
                for date in datefinder.find_dates(str(file_path)):
                    precios_dicc[date.strftime('%Y-%m-%d')] = df
            else:

                #Definimos el DataFrame con su separador y encoding
                df = pd.read_csv( file_path, encoding=enc['encoding'] )

                #Normalizamos
                df['producto_id'] = df['producto_id'].apply(lambda x: int(x[-13:]) if(type(x) == str) else x)
                df['precio'] = df['precio'].apply(lambda x: float(x) if(type(x) != str) else np.NaN)
                df['producto_id'] = df['producto_id'].apply(lambda x: str(str(x).zfill(13)))
                df['sucursal_id'] = df['sucursal_id'].apply(lambda x: str(x))

                #Lo asignamos con su fecha en el diccionario
                for date in datefinder.find_dates(str(file_path)):
                    precios_dicc[date.strftime('%Y-%m-%d')] = df

    #Definimos si el archivo es JSON
    elif(str(file_path.suffix) in ['.json']):

        #Definimos el DataFrame
        df = pd.read_json( file_path)

        #Normalizamos
        df['producto_id'] = df['producto_id'].apply(lambda x: int(x[-13:]) if(type(x) == str) else x)
        df['precio'] = df['precio'].apply(lambda x: float(x) if(type(x) != str) else np.NaN)
        df['producto_id'] = df['producto_id'].apply(lambda x: str(str(x).zfill(13)))
        df['sucursal_id'] = df['sucursal_id'].apply(lambda x: str(x))


        #Lo asignamos con su fecha en el diccionario
        for date in datefinder.find_dates(str(file_path)):
            print(date.strftime('%Y-%m-%d'))
            precios_dicc[date.strftime('%Y-%m-%d')] = df

    #Definimos si el archivo es EXCEL
    elif(str(file_path.suffix) in ['.xlsx','.xls','xlsm','xlsm']):
        xlt = pd.ExcelFile(file_path)

        #Iteramos sobre las hojas
        for hoja in xlt.sheet_names:

            #Definimos el DataFrame
            df = xlt.parse(hoja)

            #Normalizamos
            df['producto_id'] = df['producto_id'].apply(lambda x: int(x[-13:]) if(type(x) == str) else x)
            df['sucursal_id'] = df['sucursal_id'].apply(lambda x: ('{0}-{1}-{2}'.format(x.day,x.month,x.year)) if(type(x) == datetime.datetime) else x)
            df['sucursal_id'] = df['sucursal_id'].apply(lambda x: str(x))
            df['producto_id'] = df['producto_id'].apply(lambda x: str(str(x).zfill(13)))

            #Lo asignamos con su fecha en el diccionario
            for date in datefinder.find_dates(hoja[-9:]+'_'.replace(' ','_')):
                precios_dicc[date.strftime('%Y-%m-%d')] = df

#Reordenamos el Diccionario para que las llaves queden de la fecha mas antigua a la mas reciente
precios_dicc = {key:precios_dicc[key][['sucursal_id','producto_id','precio']] for key in sorted(precios_dicc)}


2020-05-03


In [13]:
#Iteramos sobre los DataFrames normalizados de la Carpeta Precios
for i in range(0,len(list(precios_dicc.keys()))):

    #Si es la primera entrada definimos el DataFrame de Salida, donde recopilaremos todas las combinaciones de Sucursal y Producto
    if i == 0:
        df_output = precios_dicc[list(precios_dicc.keys())[0]][['sucursal_id','producto_id']]

    #Si no es la primera y el DataFrame ya esta Definido concatenamos las combinaciones de Sucursal y Producto
    else:
        df_output = pd.concat([df_output,precios_dicc[list(precios_dicc.keys())[i]][['sucursal_id','producto_id']]])

    
#Limpiamos y Ordenamos
df_output = df_output.drop_duplicates().sort_values(by=['sucursal_id','producto_id']).dropna()

In [14]:
#Combinamos el DataFrame limpio con los precios del primer DataFrame de la carpeta Precios
df_precios = pd.merge(df_output, precios_dicc[list(precios_dicc.keys())[0]],  how='left', left_on=['sucursal_id','producto_id'], right_on = ['sucursal_id','producto_id'])
df_precios

Unnamed: 0,sucursal_id,producto_id,precio
0,1-1-12,00042096276.0,
1,1-1-12,00042126560.0,
2,1-1-12,00042231301.0,
3,1-1-12,00042231486.0,
4,1-1-12,00042231509.0,
...,...,...,...
1629292,,0000000000nan,
1629293,,0000000000nan,20.14
1629294,,0000000000nan,
1629295,,0000000000nan,


In [15]:
#Iteramos del segundo dataframe hasta el ultimo, actualizando los precios, recordar que el ultimo DataFrame tiene la fecha mas reciente
#por lo tanto los precios que ya esten con una fecha anterior se iran sobrescribiendo, y los que no esten se escribiran.
for i in range(1,len(list(precios_dicc.keys()))):
    df_precios.update(pd.merge(df_output, precios_dicc[list(precios_dicc.keys())[i]],  how='left', left_on=['sucursal_id','producto_id'], right_on = ['sucursal_id','producto_id']))

In [16]:
#Vemos que del DataFrame con 1,629,297 solo hay 169,386 nulos, la cantidad es despreciable por lo tanto los dropeamos
df_precios.isna().sum()

sucursal_id         0
producto_id         0
precio         169386
dtype: int64

In [17]:
#Limpiamos otra vez
df_precios = df_precios.drop_duplicates().dropna()

In [18]:
#Generamos un excel con las primeras entradas en la cantidad que nos permite un archivo Excel
df_precios.head(1008576).to_excel('df_precios.xlsx')

In [19]:
#Sacamos el promedio de precios para la sucursal '9-1-688'
df_precios[df_precios['sucursal_id'] == '9-1-688'].mean()

  df_precios[df_precios['sucursal_id'] == '9-1-688'].mean()


precio    269.231229
dtype: float64

In [20]:
df_precios[df_precios['sucursal_id'] == '9-3-5218']

Unnamed: 0,sucursal_id,producto_id,precio
1582221,9-3-5218,0000000000nan,389.99
1582222,9-3-5218,0000000121668,559.99
1582223,9-3-5218,0000000128476,59.99
1582224,9-3-5218,0000000145862,235.00
1582225,9-3-5218,0000000167666,235.00
...,...,...,...
1586348,9-3-5218,8710103566953,40.00
1586349,9-3-5218,8710103566953.0,285.00
1586350,9-3-5218,8710103566977,769.00
1586351,9-3-5218,8710103566977.0,769.00


In [21]:
#Insertamos la tabla precio en nuestra base de datos
df_precios.to_sql('precio',db_engine)
print(db_engine.has_table('precio'))

True


  print(db_engine.has_table('precio'))
