## Dram Data Upload

In this assignment, you'll upload Dram shop data to your GBQ account and run a couple of queries against it. The data for this assignment is in a .zip file called `dram-items.zip` on Moodle (though the underlying file will have a date attached to it). These are item-level reports exported from the point-of-sale system at the Dram shop.

Your goals are to upload these to tables in a GBQ data set. Your tables should have the naming convention `dram_items_YYYYMM` and each table should be a single month. 

I recommend extracting the zip file into the repository into a folder called `dram-items`. Make sure _not_ to commit any big data files to your repo.

Make your data pipeline idempotent, which means you will be checking for the presence of your tables and, if they exist, deleting them before recreating them. 


In [1]:
import os
import re
import datetime 

import pandas as pd
import numpy as np
import pandas_gbq
import janitor

# Do our imports for the code
from google.cloud import bigquery
from google.oauth2 import service_account

### GBQ Set Up

In this next section we connect to our GBQ project and list the data sets inside to test the connection.

In [2]:
# These first two values will be different on your machine. 
service_path = "/Users/chandler/Dropbox/Teaching/"
service_file = 'umt-msba-037daf11ee16.json' # change this to your authentication information  
gbq_proj_id = 'umt-msba' # change this to your project. 

# And this should stay the same. 
private_key =service_path + service_file

In [3]:
# Now we pass in our credentials so that Python has permission to access our project.
credentials = service_account.Credentials.from_service_account_file(service_path + service_file)

In [4]:
# And finally we establish our connection
client = bigquery.Client(credentials = credentials, project=gbq_proj_id)

In [5]:
for item in client.list_datasets() : 
    print(item.full_dataset_id)

umt-msba:dram_shop
umt-msba:transactions
umt-msba:wedge_example
umt-msba:wedge_transactions


### Checking for and deleting monthly tables

We'll get all the tables in our Dram data set that match our pattern, then delete them. We do not want to accidentally delete the item lookup table that we put in this data set in class. 

In [6]:
ym_pattern = re.compile(r"20\d{4}")

In [7]:
dataset_id = "dram_shop"

In [8]:
tables = client.list_tables(dataset_id)  

for table in tables:
    
    if ym_pattern.search(table.table_id) : 
        
        full_name = ".".join([gbq_proj_id,dataset_id,table.table_id])
        client.delete_table(full_name, not_found_ok=True)
        print(f"Deleted {full_name}.")
    
    
    

Deleted umt-msba.dram_shop.dram_items_202010.
Deleted umt-msba.dram_shop.dram_items_202011.
Deleted umt-msba.dram_shop.dram_items_202012.


### Reading in and uploading montly tables

In [9]:
# First, a function to make the year-month from dates. 

def reformat_date(date_string) :
    date_string = datetime.datetime.strptime(date_string,"%Y-%m-%d")
    return(datetime.date.strftime(date_string,"%Y%m"))

assert(reformat_date("2022-09-20")=="202209")


In [43]:
item_files = os.listdir("dram-items")
dollar_fields = ['gross_sales','discounts','net_sales','tax']

for file in item_files : 
    item_year = pd.read_csv("dram-items/" + file)
    item_year = janitor.clean_names(item_year)
    
    item_year['ym'] = item_year['date'].map(reformat_date)

    # clean up the dollar signs
    # found this code here: # https://stackoverflow.com/questions/32464280/converting-currency-with-to-numbers-in-python-pandas
    for field in dollar_fields : 
        item_year[field] = item_year[field].\
            apply(lambda x: x.replace('$','')).\
            apply(lambda x: x.replace(',','')).\
            astype(np.float64)
        
    # Some of the years use sku in an unpredictable way, 
    # so I'm just going to overwrite it. 
    item_year['sku'] = ""

    
    unique_yms = item_year['ym'].unique()
    
    uploads = 0
    
    for ym in unique_yms : 
        for_upload = item_year.query(f"ym == '{ym}'")
        for_upload.drop(labels=['ym'],axis="columns",inplace=True)
        
        table_id = f'dram_shop.dram_items_{ym}'
        pandas_gbq.to_gbq(for_upload, table_id, project_id=gbq_proj_id,if_exists="replace")
        uploads += 1
        
    print(f"Just uploaded {uploads} tables from {file}")
    



  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 4755.45it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 6260.16it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 7810.62it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 5562.74it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 2049.00it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 9686.61it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 11125.47it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 9915.61it/s]
100%|███████████████████████████████████████████| 1/1 [00

Just uploaded 12 tables from items-2020-01-01-2021-01-01.csv


  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 10866.07it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 6213.78it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 7626.01it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 11125.47it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 5315.97it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 5675.65it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 6797.90it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 10979.85it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 2326.29it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 6069.90it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 2357.68it/s]
100%|██████████████████████████████████████

Just uploaded 12 tables from items-2018-01-01-2019-01-01.csv


100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 7681.88it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 6026.30it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 5614.86it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 11096.04it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 4696.87it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 9020.01it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 6061.13it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 8701.88it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 9341.43it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 6061.13it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 10866.07it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 12052.60it/s]


Just uploaded 12 tables from items-2019-01-01-2020-01-01.csv


100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 6105.25it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 5592.41it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 11881.88it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 5584.96it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 10837.99it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 10866.07it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 4975.45it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 9892.23it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 10305.42it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 6017.65it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 4928.68it/s]


Just uploaded 11 tables from items-2015-01-01-2016-01-01.csv


100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 7584.64it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 11125.47it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 11491.24it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 10866.07it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 6132.02it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 10979.85it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 5849.80it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 5915.80it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 11781.75it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 5210.32it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 5159.05it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 8112.77it/s]


Just uploaded 12 tables from items-2017-01-01-2018-01-01.csv


100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 11096.04it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 8128.50it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 5295.84it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 3013.15it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 9892.23it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 10305.42it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 4364.52it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 3844.46it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 9915.61it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 6204.59it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 9000.65it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 10330.80it/s]


Just uploaded 12 tables from items-2016-01-01-2017-01-01.csv


100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 11781.75it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 5915.80it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 4951.95it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 6213.78it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 11491.24it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 9986.44it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 10538.45it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 5489.93it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 5753.50it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 5924.16it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 5882.61it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 8473.34it/s]


Just uploaded 12 tables from items-2021-01-01-2022-01-01.csv


100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 11781.75it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 5178.15it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 6026.30it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 6132.02it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 6105.25it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 4505.16it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 8793.09it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 5882.61it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 11748.75it/s]
100%|██████████████████████████████████████████| 1/1 [00:00<00:00, 10645.44it/s]

Just uploaded 10 tables from items-2022-01-01-2022-10-01.csv



