# Carregar no GCP

Esse notebook foi necessário para carregar os dados no Google Cloud Platform, remover informações que não seriam utilizadas na análise via SQL, e por fim puxá-las de volta localmente salvando assim os dados remanescentes em formato csv para melhor manipulação.

## Ingerindo dados de ab_test_ref.csv

In [None]:
import pandas as pd
from sqlalchemy import create_engine

# Caminho do arquivo CSV
csv_file = 'ab_test_ref.csv'

# Dados do banco de dados (substitua com suas credenciais)
db_user = 'postgres'
db_password = '1234'
db_host = '104.154.71.21'  # Pode ser o endereço IP do servidor ou o hostname
db_port = '5432'  # Porta padrão do PostgreSQL
db_name = 'postgres'

# Conectar ao banco de dados no GCP usando psycopg2-binary
connection_string = f'postgresql://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}'
engine = create_engine(connection_string)

# Carregar os dados do CSV
df = pd.read_csv(csv_file)

# Inserir os dados na tabela do PostgreSQL
df.to_sql('ab_test', engine, if_exists='replace', index=False)

print("Dados carregados com sucesso!")




Dados carregados com sucesso!


## Ingerindo dados de order.json

In [6]:
import pandas as pd
from sqlalchemy import create_engine

# Caminho do arquivo JSON
json_file = 'order.json'
checkpoint_file = 'checkpoint.txt'

# Dados do banco de dados (substitua com suas credenciais)
db_user = 'postgres'
db_password = '1234'
db_host = '104.154.71.21'  # Pode ser o endereço IP do servidor ou o hostname
db_port = '5432'  # Porta padrão do PostgreSQL
db_name = 'postgres'

# Conectar ao banco de dados no GCP usando psycopg2-binary
connection_string = f'postgresql://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}'
engine = create_engine(connection_string)

# Definir o tamanho do chunk
chunk_size = 90000  # Ajuste conforme necessário (ex: 10000 linhas por vez)

# Função para verificar o último checkpoint
def get_last_checkpoint():
    try:
        with open(checkpoint_file, 'r') as file:
            last_chunk = int(file.read().strip())
    except FileNotFoundError:
        last_chunk = 0  # Caso não exista, começamos do início
    return last_chunk

# Função para salvar o checkpoint
def save_checkpoint(chunk_index):
    with open(checkpoint_file, 'w') as file:
        file.write(str(chunk_index))

# Lê o arquivo JSON em pedaços (chunks) e insere no banco de dados
# Pular os chunks já processados anteriormente
last_checkpoint = get_last_checkpoint()

# Pular os chunks já carregados
for chunk_index, chunk in enumerate(pd.read_json(json_file, orient='records', lines=True, chunksize=chunk_size), start=1):
    if chunk_index <= last_checkpoint:
        continue  # Pular chunks já processados

    # Inserir os dados no banco de dados
    chunk.to_sql('order', engine, if_exists='append', index=False)

    # Salvar o progresso
    save_checkpoint(chunk_index)
    print(f"Chunk {chunk_index} carregado com sucesso!")

print("Todos os dados foram carregados com sucesso!")


Chunk 1 carregado com sucesso!
Chunk 2 carregado com sucesso!
Chunk 3 carregado com sucesso!
Chunk 4 carregado com sucesso!
Chunk 5 carregado com sucesso!
Chunk 6 carregado com sucesso!
Chunk 7 carregado com sucesso!
Chunk 8 carregado com sucesso!
Chunk 9 carregado com sucesso!
Chunk 10 carregado com sucesso!
Chunk 11 carregado com sucesso!
Chunk 12 carregado com sucesso!
Chunk 13 carregado com sucesso!
Chunk 14 carregado com sucesso!
Chunk 15 carregado com sucesso!
Chunk 16 carregado com sucesso!
Chunk 17 carregado com sucesso!
Chunk 18 carregado com sucesso!
Chunk 19 carregado com sucesso!
Chunk 20 carregado com sucesso!
Chunk 21 carregado com sucesso!
Chunk 22 carregado com sucesso!
Chunk 23 carregado com sucesso!
Chunk 24 carregado com sucesso!
Chunk 25 carregado com sucesso!
Chunk 26 carregado com sucesso!
Chunk 27 carregado com sucesso!
Chunk 28 carregado com sucesso!
Chunk 29 carregado com sucesso!
Chunk 30 carregado com sucesso!
Chunk 31 carregado com sucesso!
Chunk 32 carregad