# Set-up

In [9]:
from google.cloud import bigquery
from google.oauth2 import service_account

import pandas as pd
import pandas_gbq
import os
from datetime import datetime as dt

In [10]:
# Parametros para a criação da tabela
project_id='pos-tech-project'
dataset='pnad'
table_name='pnad-covid'
parametro='append'#'replace'

In [11]:
# Objetivo com as credenciais
credentials = service_account.Credentials.from_service_account_file(
    filename='credentials_gcp_postech_v4.json',
    scopes=['https://www.googleapis.com/auth/bigquery']
)

# Criando o Pandas dataframe

In [12]:
# Lista de CSV's
ls_files_csv = ['dados/'+file for file in os.listdir('dados/') if file.endswith(".csv")]

In [13]:
int(ls_files_csv[0].split('_')[2][:2])

7

In [14]:
## Demanda muita mémoria, a alternativa é carregar um csv por vez no BigQuery
# df = pd.DataFrame([])

# for f in ls_files_csv:
#     print(f"Iniciando o processo do arquivo '{f}':", dt.now())
#     mes = int(f.split('_')[2][:2]) # Extraindo o número do mês do nome do arquivo 
#     df_aux = pd.read_csv(f, sep=',') # Lendo o arquivo
#     df_aux.insert(loc=1, column='mes', value=mes, allow_duplicates=True) # Criando a coluna mes
#     df = pd.concat([df, df_aux]) # Apendando no df 

# Criando tabela no BigQuery

In [15]:
for f in ls_files_csv:
    print(f"Iniciando o processo do arquivo '{f}':", dt.now())
    period = f.split('_')[2][:6] # Extraindo o número do mês do nome do arquivo 
    df_aux = pd.read_csv(f, sep=',') # Lendo o arquivo
    df_aux.insert(loc=1, column='mes', value=int(period[:2]), allow_duplicates=True) # Criando a coluna mes

    # Criando uma tabela no BigQuery a partir de um pandas dataframe
    pandas_gbq.to_gbq(
        dataframe=df_aux,
        destination_table=f"{project_id}.{dataset}.{table_name}-{period}",
        project_id=project_id,
        credentials=credentials,
        if_exists=parametro 
    )

Iniciando o processo do arquivo 'dados/PNAD_COVID_072020.csv': 2024-03-13 20:52:57.623154


Iniciando o processo do arquivo 'dados/PNAD_COVID_062020.csv': 2024-03-13 20:53:35.597736
Iniciando o processo do arquivo 'dados/PNAD_COVID_092020.csv': 2024-03-13 20:54:03.042173
Iniciando o processo do arquivo 'dados/PNAD_COVID_082020.csv': 2024-03-13 20:54:30.945879
Iniciando o processo do arquivo 'dados/PNAD_COVID_052020.csv': 2024-03-13 20:55:05.458895
Iniciando o processo do arquivo 'dados/PNAD_COVID_112020.csv': 2024-03-13 20:55:27.771897
Iniciando o processo do arquivo 'dados/PNAD_COVID_102020.csv': 2024-03-13 20:56:00.078883
