## Projeto Integrador 4 Base de Vendas

Projeto tem a bases de vendas de e-commerces ou lojas físicas, que serão estruturadas para um data lake e depois um datawarehouse. Usando técnicas cloud(GCP)

#### Instalações de Ferramentas/Bibliotecas necessárias

In [None]:
!pip install google-cloud-bigquery



In [None]:
from google.colab import auth
auth.authenticate_user()
from google.cloud import bigquery
from google.cloud import storage
import pandas as pd
from datetime import datetime
import zipfile
import os
import numpy as np

#### Importando arquivos csv pro colab

In [None]:
# Define os caminhos dos arquivos zipados
zip_file_paths = ['/content/Bases/archive.zip']  # Substitua pelos nomes dos seus arquivos ZIP

# Função para extrair um arquivo ZIP
def extract_zip(zip_path, extract_to='/content/Bases/'):
    with zipfile.ZipFile(zip_path, 'r') as zip_ref:
        zip_ref.extractall(extract_to)

# Extrai cada arquivo ZIP
for zip_file_path in zip_file_paths:
    extract_zip(zip_file_path)

# Verifica o conteúdo do diretório para garantir que os arquivos foram extraídos
os.listdir('/content/Bases/')



['archive.zip', 'data.csv']

#### Conexão

Com GCP

In [None]:
#client = storage.Client()
#bucket = client.bucket('datalake_vendas')
#df_vendas = pd.read_csv('gs://datalake_vendas/dados_brutos/data.csv', encoding='latin-1')


Com Arquivo local Colab

In [None]:
df_vendas = pd.read_csv('/content/Bases/data.csv', encoding='latin-1')

### Trabalhando com a base E-Commerce (data.csv)

Mostrando DF do pandas que importamos da GCS

In [None]:
df_vendas

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
...,...,...,...,...,...,...,...,...
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,12/9/2011 12:50,0.85,12680.0,France
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,12/9/2011 12:50,2.10,12680.0,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,12/9/2011 12:50,4.15,12680.0,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,12/9/2011 12:50,4.15,12680.0,France


In [None]:
df_vendas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  int64  
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      541909 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 33.1+ MB


#### Tratamento da base

Tirando os que tem os preços = 0 e campos nulls

---



In [None]:
df_vendas_tratado = df_vendas[df_vendas.notnull().all(axis=1) & (df_vendas['UnitPrice'] != 0) & (df_vendas['Quantity'] != 0)]

#Visualização
df_vendas_tratado.head(1)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom


In [None]:
colunas_dropadas = ['CustomerID', 'Country']

# Para dropar várias colunas, passe a lista de nomes das colunas e especifique o eixo (axis=1)
df_vendas_tratado = df_vendas_tratado.drop(colunas_dropadas, axis=1)

Renomeando e estruturando a base

In [None]:
novos_nomes = {'InvoiceNo': 'Cod_Fatura', 'StockCode': 'Cod_Estoque', 'Description': 'Produto', 'Quantity':'Quantidade','InvoiceDate':'Data','UnitPrice':'Preco_Unitario'}
df_vendas_tratado = df_vendas_tratado.rename(columns=novos_nomes)

# Exibir o DataFrame com as colunas renomeadas
df_vendas_tratado.head(1)

Unnamed: 0,Cod_Fatura,Cod_Estoque,Produto,Quantidade,Data,Preco_Unitario
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55


Estruturando

In [None]:
# Definir a nova ordem das colunas
nova_ordem = ['Cod_Fatura', 'Cod_Estoque', 'Produto', 'Quantidade','Preco_Unitario','Data']

# Reordenar as colunas do DataFrame
df_vendas_tratado = df_vendas_tratado[nova_ordem]


Tratamento dtypes

In [None]:
#Transformando Numericos
df_vendas_tratado['Cod_Fatura'] = df_vendas_tratado['Cod_Fatura'].astype(str)
df_vendas_tratado['Preco_Unitario'] = df_vendas_tratado['Preco_Unitario'].astype(float)
#Convertendo a coluna para string
df_vendas_tratado['Produto'] = df_vendas_tratado['Produto'].astype(str)

Dropando coluna Cod_Estoque

In [None]:
df_vendas_tratado.drop('Cod_Estoque', axis=1, inplace=True)

Colocando Total Fatura com Quantidade * Preco_Unitario

In [None]:
df_vendas_tratado['Fatura_Total'] = df_vendas_tratado['Quantidade'] * df_vendas_tratado['Preco_Unitario']

Deixa Total Fatura com apenas dois decimais

In [None]:
df_vendas_tratado['Fatura_Total'] = df_vendas_tratado['Fatura_Total'].round(2)

Colocando data no formato (DIA/MES/ANO H:M)

In [None]:
df_vendas_tratado['Data'] = pd.to_datetime(df_vendas_tratado['Data'])

In [None]:
df_vendas_tratado['Data'] = df_vendas_tratado['Data'].dt.strftime('%d/%m/%Y %H:%M')

Tirando dados com quantidade negativa

In [None]:
df_vendas_tratado = df_vendas_tratado[df_vendas_tratado['Quantidade'] >= 0]

In [None]:
df_vendas_tratado.info()

<class 'pandas.core.frame.DataFrame'>
Index: 397884 entries, 0 to 541908
Data columns (total 6 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   Cod_Fatura      397884 non-null  object 
 1   Produto         397884 non-null  object 
 2   Quantidade      397884 non-null  int64  
 3   Preco_Unitario  397884 non-null  float64
 4   Data            397884 non-null  object 
 5   Fatura_Total    397884 non-null  float64
dtypes: float64(2), int64(1), object(3)
memory usage: 21.2+ MB


Visualização Final

In [None]:
df_vendas_tratado

Unnamed: 0,Cod_Fatura,Produto,Quantidade,Preco_Unitario,Data,Fatura_Total
0,536365,WHITE HANGING HEART T-LIGHT HOLDER,6,2.55,01/12/2010 08:26,15.30
1,536365,WHITE METAL LANTERN,6,3.39,01/12/2010 08:26,20.34
2,536365,CREAM CUPID HEARTS COAT HANGER,8,2.75,01/12/2010 08:26,22.00
3,536365,KNITTED UNION FLAG HOT WATER BOTTLE,6,3.39,01/12/2010 08:26,20.34
4,536365,RED WOOLLY HOTTIE WHITE HEART.,6,3.39,01/12/2010 08:26,20.34
...,...,...,...,...,...,...
541904,581587,PACK OF 20 SPACEBOY NAPKINS,12,0.85,09/12/2011 12:50,10.20
541905,581587,CHILDREN'S APRON DOLLY GIRL,6,2.10,09/12/2011 12:50,12.60
541906,581587,CHILDRENS CUTLERY DOLLY GIRL,4,4.15,09/12/2011 12:50,16.60
541907,581587,CHILDRENS CUTLERY CIRCUS PARADE,4,4.15,09/12/2011 12:50,16.60


Importando CSV para GCS

In [None]:
'''from google.colab import auth
auth.authenticate_user()

# Monte o bucket do GCS
from google.cloud import storage
client = storage.Client()
bucket = client.bucket('datalake_vendas')


# Escreva os dados de volta para o GCS
df_vendas_tratado.to_csv('gs://datalake_vendas/dados_tratados/data_tratado.csv',index=False)

Importando para disco local

In [None]:
df_vendas_tratado.to_csv('/content/Bases/data_tratado.csv',index=False)

Exportando para o Big Query

In [None]:
'''from google.cloud import bigquery
import pandas as pd

# ID do projeto
id_projeto = 'ID_PROJETO_GCP

# Crie um cliente BigQuery com o ID do projeto
client = bigquery.Client(project=id_projeto)

# Escolha o nome da tabela permanente no BigQuery
nome_tabela = 'tb_vendas'

# Salve o DataFrame Pandas na tabela permanente no BigQuery (anexar dados)
tabela_ref = client.dataset('db_vendas').table(nome_tabela)
job_config = bigquery.LoadJobConfig(
    write_disposition=bigquery.WriteDisposition.WRITE_APPEND  # Adiciona os dados à tabela existente
)
job = client.load_table_from_dataframe(df_vendas_tratado, tabela_ref, job_config=job_config)
job.result()  # Aguarda a conclusão do carregamento

print(f'DataFrame tratado adicionado à tabela {nome_tabela} no BigQuery.')


DataFrame tratado adicionado à tabela tb_vendas no BigQuery.


Importando do Big Query

In [None]:
''''from google.cloud import bigquery

#ID DO PROJETO
id_projeto = 'ID_PROJETO_GCP'

#Crie um cliente BigQuery com o ID do projeto
client = bigquery.Client(project=id_projeto)

# Escolha um conjunto de dados (substitua "db_vendas" pelo nome do seu conjunto de dados)
dataset_ref = client.dataset('db_vendas')

# Escolha uma tabela (substitua "tb_vendas" pelo nome da sua tabela)
tabela_vendas = dataset_ref.table('tb_vendas')

# Carregue a tabela em um DataFrame do Pandas
tabela = client.get_table(tabela_vendas)
df_vendas_dw = client.list_rows(tabela).to_dataframe()



In [None]:
df_vendas_dw.head(1)

Unnamed: 0,Cod_Fatura,Produto,Quantidade,Preco_Unitario,Data,Pais
0,576083,SET OF 12 FAIRY CAKE BAKING CASES,256,0.83,11/14/2011 8:22,Sweden


### Testes API

Teste com a Random API para trazer mais faturas , salvas no GCS como dados gerados e tratados , utilizando js na parte da randomapi e python na parte do Cloud Functions

In [None]:
'''import requests


url = 'https://randomapi.com/api/z8zovuyu?key=M8R0-L7CV-HYYP-XWDI'
response = requests.get(url)
data = response.json()
results = data.get('results')
df_vendas_random = pd.DataFrame(results)
df_vendas_random


Unnamed: 0,invoiceID,date,country,items,itemsPurchased,card,price
0,6454394,"May 25, 2024 4:25 PM",Guinea-Bissau,PINK FLAMINGO BEACH TOWEL,3,4485-9901-4944-4331,3.69


In [None]:
#Renomeando colunas
'''novos_nomes = {'invoiceID': 'Cod_Fatura', 'date': 'Data', 'items': 'Produto', 'itemsPurchased':'Quantidade','price':'Preco_Unitario','card':'Cartao','country':'Pais'}
df_vendas_random = df_vendas_random.rename(columns=novos_nomes)

In [None]:
# Definir a nova ordem das colunas
nova_ordem = ['Cod_Fatura', 'Produto', 'Quantidade','Preco_Unitario','Data','Pais','Cartao']

# Reordenar as colunas do DataFrame
'''df_vendas_random = df_vendas_random[nova_ordem]

In [None]:
#Dropando coluna cartao
'''df_vendas_random.drop('Cartao', axis=1, inplace=True)

In [None]:
'''df_vendas_random.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1 entries, 0 to 0
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Cod_Fatura      1 non-null      object
 1   Produto         1 non-null      object
 2   Quantidade      1 non-null      int64 
 3   Preco_Unitario  1 non-null      object
 4   Data            1 non-null      object
 5   Pais            1 non-null      object
dtypes: int64(1), object(5)
memory usage: 176.0+ bytes


In [None]:
#Arrumando o formato da Data
'''df_vendas_random['Data'] = pd.to_datetime(df_vendas_random['Data']).dt.strftime('%m/%d/%Y %H:%M')

In [None]:
#Transformando Numericos
'''df_vendas_random['Cod_Fatura'] = df_vendas_random['Cod_Fatura'].astype(str)
df_vendas_random['Preco_Unitario'] = df_vendas_random['Preco_Unitario'].astype(float)


In [None]:
#Convertendo a coluna para string
'''df_vendas_random['Produto'] = df_vendas_random['Produto'].astype(str)

In [None]:
'''df_vendas_random.head(1)

Unnamed: 0,Cod_Fatura,Produto,Quantidade,Preco_Unitario,Data,Pais
0,6454394,PINK FLAMINGO BEACH TOWEL,3,3.69,05/25/2024 16:25,Guinea-Bissau


In [None]:
'''#Colocando no datalake
bucket_name = 'datalake_vendas'
storage_client = storage.Client()
bucket = storage_client.get_bucket(bucket_name)
filename = f'dados_random_tratados.csv'

# Verifica se já existe um arquivo com este nome
blob = bucket.blob('dados_tratados/' + filename)
if blob.exists():
            # Se o arquivo já existir, recupera o DataFrame existente
      existing_df = pd.read_csv(f"gs://{bucket_name}/dados_tratados/{filename}")

            # Concatena o novo DataFrame com o existente
      df_vendas_random = pd.concat([existing_df, df_vendas_random])

        # Salva o DataFrame como CSV no bucket
df_vendas_random.to_csv(f"gs://{bucket_name}/dados_tratados/{filename}", index=False)


### Base Licores

#### Parte Pyspark

In [None]:
#!pip install google-cloud-storage pyspark

In [None]:
'''from pyspark.sql.functions import udf
from pyspark.sql.types import StringType
import requests

# Inicializa a sessão Spark
spark = SparkSession.builder.appName("GetCountryFromLocation").getOrCreate()

# Sua chave API do Google Maps
api_key = "AIzaSyBoXN9Lsinv4_DVDR4hXfRJ7-9ZCXMkats"  # Substitua por sua chave API

# Função UDF para obter o país a partir das coordenadas
import requests

def get_country(location):
    try:
        # Extrai a latitude e longitude da coluna 'location'
        longitude, latitude = map(float, location.strip('POINT ()').split())

        # URL da API do Google Maps para geocodificação reversa
        url = f"https://maps.googleapis.com/maps/api/geocode/json?latlng={latitude},{longitude}&key={api_key}"

        # Faz uma solicitação à API
        response = requests.get(url)

        # Verifica se a solicitação foi bem-sucedida
        if response.status_code == 200:
            # Analisa a resposta JSON
            data = response.json()

            # Verifica se há resultados
            if data.get('results'):
                # Itera pelos resultados para encontrar o país
                for result in data['results']:
                    # Itera pelos componentes de endereço para encontrar o país
                    for component in result.get('address_components', []):
                        if 'country' in component['types']:
                            return component['long_name']

            # Se não encontrou o país nos resultados
            return "País não encontrado"
        else:
            # Se a solicitação falhou
            return "Erro na solicitação à API"
    except Exception as e:
        # Se ocorreu algum erro durante o processamento
        return f"Erro ao processar a localização: {str(e)}"


# Define a UDF
get_country_udf = udf(get_country, StringType())

# Carrega seus dados
df = spark.createDataFrame(
    [
        ("POINT (-93.597011 41.570844)",),
        ("POINT (-43.209375 -22.908448)",),
    ],
    ["location"]
)

# Aplica a UDF à coluna 'location'
df = df.withColumn("country", get_country_udf(df["location"]))

# Exibe o DataFrame resultante
df.show(1)
spark.stop()

Tratamento pyspark Licor, rodado no Dataproc

In [None]:
'''from pyspark.sql import SparkSession
from pyspark.sql.types import StringType
from google.cloud import storage
from pyspark.sql.functions import col, udf
import os
import pandas as pd
from google.cloud import bigquery

# Inicializar cliente do Google Cloud Storage
storage_client = storage.Client()

# Inicializar SparkSession
spark = SparkSession.builder.appName("ETL-licores-orders").getOrCreate()



# Ler o arquivo CSV local
gcs_path = "gs://datalake_vendas/dados_brutos/Liquor_Sales.csv"


# Ler o arquivo CSV do GCS
df_liquor = spark.read.format("csv") \
    .option("header", "true") \
    .load(gcs_path)

# Remove linhas com valores nulos
df_liquor = df_liquor.na.drop()

#Filtra as que tem quantidade negativa
df_liquor = df_liquor.filter(col("Bottles Sold") > 0)

#Filtra a quantidade de dados
df_liquor = df_liquor.limit(50000)


# Seleciona e renomeia as colunas desejadas
df_liquor = df_liquor.select(
    col("Invoice/Item Number").alias("Cod_Fatura"),
    col("Date").alias("Data"),
    col("Store Number").alias("Cod_Dist"),
    col("Item Description").alias("Produto"),
    col("State Bottle Retail").alias("Preco_Unitario"),
    col("Bottles Sold").alias("Quantidade"),
    col("Sale (Dollars)").alias("Fatura_Total")
)

# Ordena as colunas
df_liquor = df_liquor.orderBy(
    "Cod_Fatura",
    "Cod_Dist",
    "Produto",
    "Quantidade",
    "Preco_Unitario",
    "Data",
    "Fatura_Total"
)



# Exibe as primeiras 10 linhas do DataFrame
df_liquor.show(7)
df_liquor = df_liquor.coalesce(1)
# Escreve o DataFrame no GCS
output_path = "gs://datalake_vendas/dados_tratados/Liquor_Sales_Tratado"
temp = 'gs://temp_tb_vendas'
df_liquor.write.mode("append").option("header", "true").csv(output_path)

# ID do projeto
id_projeto = 'central-kit-422716-u9'

# Crie um cliente BigQuery com o ID do projeto
client = bigquery.Client(project=id_projeto)

# Escolha o nome da tabela permanente no BigQuery
nome_tabela = 'tb_vendas'

# Converter DataFrame Spark para DataFrame Pandas
df_liquor_pandas = df_liquor.toPandas()
df_liquor_pandas["Cod_Fatura"] = df_liquor_pandas["Cod_Fatura"].astype(str)
df_liquor_pandas['Produto'] = df_liquor_pandas['Produto'].astype(str)
df_liquor_pandas["Quantidade"] = df_liquor_pandas["Quantidade"].astype(int)
df_liquor_pandas['Preco_Unitario'] = df_liquor_pandas['Preco_Unitario'].astype(float)
df_liquor_pandas['Fatura_Total'] = df_liquor_pandas['Fatura_Total'].astype(float)
df_liquor_pandas['Data'] = pd.to_datetime(df_liquor_pandas['Data']).dt.strftime('%d/%m/%Y %H:%M')

# Salve o DataFrame Pandas na tabela permanente no BigQuery (anexar dados)
tabela_ref = client.dataset('db_vendas').table(nome_tabela)
job_config = bigquery.LoadJobConfig(
    write_disposition=bigquery.WriteDisposition.WRITE_APPEND  # Adiciona os dados à tabela existente
)
job = client.load_table_from_dataframe(df_liquor_pandas, tabela_ref, job_config=job_config)
job.result()  # Aguarda a conclusão do carregamento


# Parar o SparkSession para liberar recursos
spark.stop()




Número de linhas no DataFrame: 19666753
+------------+----------+--------+--------------------+--------------+----------+-----------+
|  Cod_Fatura|      Data|Cod_Loja|             Produto|Preco_Unitario|Quantidade|Preco_Total|
+------------+----------+--------+--------------------+--------------+----------+-----------+
|306831300001|07/30/2012|    3869|Midnight Moon Str...|         15.63|         6|      93.78|
|306831300002|07/30/2012|    3869|Grey Goose Cherry...|         26.96|         2|      53.92|
|306831300003|07/30/2012|    3869|Little Black Dres...|         11.82|         1|      11.82|
|306831300004|07/30/2012|    3869|Absolut Swedish V...|         29.81|         1|      29.81|
|306831300005|07/30/2012|    3869|   Absolut Grapevine|         15.58|         1|      15.58|
|306831300006|07/30/2012|    3869|Absolut Citron (l...|         15.58|         1|      15.58|
|306831300007|07/30/2012|    3869|Skyy Infusions Pi...|         13.51|         1|      13.51|
+------------+------

#### Tratamento Licores Vendas

##### Trazendo dados do Kaggle

In [None]:
!kaggle datasets download -d pigment/big-sales-data

import zipfile
import os

# Descompactar o arquivo ZIP
with zipfile.ZipFile('big-sales-data.zip', 'r') as zip_ref:
    zip_ref.extractall('big-sales-data')

# Listar os arquivos extraídos
os.listdir('big-sales-data')

Dataset URL: https://www.kaggle.com/datasets/pigment/big-sales-data
License(s): unknown
Downloading big-sales-data.zip to /content
100% 2.21G/2.21G [00:32<00:00, 135MB/s]
100% 2.21G/2.21G [00:32<00:00, 73.2MB/s]


['Sales_Data']

##### Carrega a base para o pandas

In [None]:
import pandas as pd
from google.colab import drive
from google.cloud import storage

#Metodo GCP
# Inicializar cliente do Google Cloud Storage
#storage_client = storage.Client()

# Nome do bucket
#bucket_name = "nome_do_seu_bucket"

# Caminho para o arquivo CSV no seu bucket
#blob_path = "gs://datalake_vendas/dados_brutos/Liquor_Sales.csv"

#Caminho CSV LICORES
local_csv_path = "/content/big-sales-data/Sales_Data/Liquor_Sales.csv"

# Baixa o arquivo do bucket para o ambiente Colab
#bucket = storage_client.bucket(bucket_name)
#blob = bucket.blob(blob_path)
#blob.download_to_filename(local_csv_path)

# Define as colunas que serão utilizadas
columns = [
    "Invoice/Item Number",
    "Date",
    "Store Number",
    "Item Description",
    "State Bottle Retail",
    "Bottles Sold",
    "Sale (Dollars)"
]

# Carrega apenas as colunas desejadas do CSV
df_liquor= pd.read_csv(local_csv_path, usecols=columns)

In [None]:
df_liquor.head(3)

Unnamed: 0,Invoice/Item Number,Date,Store Number,Item Description,State Bottle Retail,Bottles Sold,Sale (Dollars)
0,S24127700024,02/19/2015,3678,Uv Blue Raspberry Vodka Mini,7.34,2,14.68
1,S15066200002,10/10/2013,2633,Sabe Premiom Sake Double Barrel,22.49,6,134.94
2,S19323500030,06/03/2014,2607,Paramount White Rum,6.51,12,78.12


#### Começo Tratamento Base Licores Orders

In [None]:
# Remove linhas com valores nulos
df_liquor_ord = df_liquor.dropna(inplace=True)

# Filtra as linhas com quantidade de garrafas vendidas maior que zero
df_liquor_ord = df_liquor[df_liquor["Bottles Sold"] > 0]

# Limita o número de linhas para 50000 (como no código original)
df_liquor_ord = df_liquor_ord.sample(n=50000, random_state=1)

# Converta a coluna 'Data' para o formato desejado
df_liquor_ord['Date'] = pd.to_datetime(df_liquor_ord['Date']).dt.strftime('%d/%m/%Y %H:%M')

# Renomeia as colunas
df_liquor_ord.rename(columns={
    "Invoice/Item Number": "Fatura_Cod",
    "Date": "Data",
    "Item Description": "Produto",
    "State Bottle Retail": "Preco_Unitario",
    "Bottles Sold": "Quantidade",
    "Sale (Dollars)": "Fatura_Total"
}, inplace=True)

# Ordena as colunas
df_liquor_ord = df_liquor_ord[[
    "Fatura_Cod",
    "Produto",
    "Quantidade",
    "Preco_Unitario",
    "Fatura_Total",
    "Data"
]]

# Ordenar as linhas do DataFrame
df_liquor_ord.sort_values(by=[
    "Fatura_Cod",
    "Produto",
    "Quantidade",
    "Preco_Unitario",
    "Fatura_Total",
    "Data"
], inplace=True)

df_liquor_ord.head(1)


Unnamed: 0,Fatura_Cod,Produto,Quantidade,Preco_Unitario,Fatura_Total,Data
5063583,378900033,Christian Bros Brandy,12,7.76,93.12,17/10/2012 00:00


Gerando horarios aleatorios

In [None]:
mask = df_liquor_ord['Data'].str.endswith('00:00')

# Função para gerar horários aleatórios mantendo a data
def gerar_horario_aleatorio(data):
    hora = np.random.randint(0, 24)
    minuto = np.random.randint(0, 60)
    return f"{data[:-5]}{hora:02d}:{minuto:02d}"

# Aplicar a função para gerar horários aleatórios nas datas com hora 00:00
df_liquor_ord.loc[mask, 'Data'] = df_liquor_ord.loc[mask, 'Data'].apply(gerar_horario_aleatorio)

In [None]:
df_liquor_ord.head(1)

Unnamed: 0,Fatura_Cod,Produto,Quantidade,Preco_Unitario,Fatura_Total,Data,Dist_Cod
5063583,378900033,Christian Bros Brandy,12,7.76,93.12,17/10/2012 14:05,3789


##### Salvando


In [None]:
# Escreve o DataFrame tratado em um novo arquivo CSV
#output_path = "gs://datalake_vendas/dados_tratados/Liquor_Sales_Tratado.csv"

#Escreve o df para um diretorio o Colab
output_path = "/content/Bases/Liquor_Sales_Tratado.csv"
df_liquor_ord.to_csv(output_path, index=False)



# ID do projeto
#id_projeto = 'seu_id_projeto'

# Nome da tabela permanente no BigQuery
#nome_tabela = 'tb_vendas'

# Crie um cliente BigQuery com o ID do projeto
#client = bigquery.Client(project=id_projeto)

# Carregue o DataFrame Pandas para a tabela permanente no BigQuery (anexar dados)
#tabela_ref = client.dataset('db_vendas').table(nome_tabela)
#job_config = bigquery.LoadJobConfig(
#    write_disposition=bigquery.WriteDisposition.WRITE_APPEND  # Adiciona os dados à tabela existente
#)
#job = client.load_table_from_dataframe(df_liquor_ord, tabela_ref, job_config=job_config)
#job.result()  # Aguarda a conclusão do carregamento

#### Tratamento Licores Distribuidores

##### Carregando

In [None]:
'''import pandas as pd
from google.colab import drive
from google.cloud import storage


# Inicializar cliente do Google Cloud Storage
#storage_client = storage.Client()


#Caminho CSV LICORES
local_csv_path = "/content/big-sales-data/Sales_Data/Liquor_Sales.csv"
# Define as colunas que serão utilizadas

columns = [
    "Invoice/Item Number",
    "Store Number",
    "Store Name",
    "Address",
    "City",
    "Store Location"
]

# Carrega apenas as colunas desejadas do CSV
df_liquor = pd.read_csv(local_csv_path, usecols=columns)

In [None]:
df_liquor.head(1)

Unnamed: 0,Invoice/Item Number,Store Number,Store Name,Address,City,Store Location
0,S24127700024,3678,"Smoke Shop, The",1918 SE 14TH ST,DES MOINES,POINT (-93.597011 41.570844)


##### Tratamento

In [None]:
'''# Extrair IDs únicos de df_liquor_ord
ids_para_filtrar = df_liquor_ord['Fatura_Cod'].tolist()

# Filtrar os distribuidores (df_liquor_dist) com base nos IDs das ordens
df_liquor_dist = df_liquor[df_liquor['Invoice/Item Number'].isin(ids_para_filtrar)]
df_liquor_dist.drop(columns=["Invoice/Item Number"], inplace=True)


# Renomeia as colunas
df_liquor_dist.rename(columns={
    "Store Number": "Dist_Cod",
    "Store Name": "Dist_Nome",
    "Address": "Dist_Endereco",
    "City": "Dist_Cidade",
    "Store Location": "Dist_Localizacao"
}, inplace=True)

# Ordena as colunas
df_liquor_dist.sort_values(by=[
    "Dist_Cod",
    "Dist_Nome",
    "Dist_Endereco",
    "Dist_Cidade",
    "Dist_Localizacao"
], inplace=True)


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_liquor_dist.drop(columns=["Invoice/Item Number"], inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_liquor_dist.rename(columns={
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_liquor_dist.sort_values(by=[


In [None]:
''''import requests
import pandas as pd

def get_country_geocode_xyz(location):
    try:
        # Verifica se a localização é uma string e não é nula
        if isinstance(location, str) and location.startswith("POINT"):
            longitude, latitude = map(float, location.strip('POINT ()').split())
            url = f"https://geocode.xyz/{latitude},{longitude}?geoit=json"

            response = requests.get(url, timeout=10)

            if response.status_code == 200:
                data = response.json()
                if 'country' in data:
                    return data['country']
                return "Country not found"
            else:
                raise ValueError(f"API request failed (status code {response.status_code})")
        else:
            return "Invalid location format"

    except requests.exceptions.RequestException as e:
        return f"HTTP request failed: {str(e)}"
    except Exception as e:
        return f"Error processing location: {str(e)}"

# Supondo que você tenha um DataFrame `df` com uma coluna `location`
# Aqui está um exemplo de como isso pode ser feito

# Exemplo de DataFrame
data = {
    'location': ["POINT (-92.455796 42.517182)", "POINT (2.294694 48.858093)",'POINT (-92.455796 42.517182)','']  # Nova York, Paris, None, número inválido
}
df9 = pd.DataFrame(data)

# Aplicar a função a cada linha da coluna 'location' e criar uma nova coluna 'country'
df_liquor_dist['Dist_Pais'] = df_liquor_dist['Dist_Localizacao'].apply(lambda loc: get_country_geocode_xyz(loc))

# Exibir o DataFrame atualizado
print(df7)


In [None]:
df7

Unnamed: 0,location,country
0,POINT (-92.455796 42.517182),United States of America
1,POINT (2.294694 48.858093),Country not found


In [None]:
df_liquor_dist.head(3)

Unnamed: 0,Dist_Cod,Dist_Nome,Dist_Endereco,Dist_Cidade,Dist_Localizacao
57816,2106,Hillstreet News and Tobacco,2217 COLLEGE,Cedar Falls,POINT (-92.455796 42.517182)
274496,2106,Hillstreet News and Tobacco,2217 COLLEGE,Cedar Falls,POINT (-92.455796 42.517182)
309580,2106,Hillstreet News and Tobacco,2217 COLLEGE,Cedar Falls,POINT (-92.455796 42.517182)


##### Salvando

###### Metodo GCP

In [None]:

'''# Escreve o DataFrame tratado em um novo arquivo CSV
output_path = "gs://datalake_vendas/dados_tratados/Liquor_Sales_Dist_Tratado.csv"
df_liquor_dist.to_csv(output_path, index=False)



# ID do projeto
id_projeto = 'seu_id_projeto'

# Nome da tabela permanente no BigQuery
nome_tabela = 'tb_distribuidoras'

# Crie um cliente BigQuery com o ID do projeto
client = bigquery.Client(project=id_projeto)

# Carregue o DataFrame Pandas para a tabela permanente no BigQuery (anexar dados)
tabela_ref = client.dataset('db_vendas').table(nome_tabela)
job_config = bigquery.LoadJobConfig(
    write_disposition=bigquery.WriteDisposition.WRITE_APPEND  # Adiciona os dados à tabela existente
)
job = client.load_table_from_dataframe(df_liquor_dist, tabela_ref, job_config=job_config)
job.result()  # Aguarda a conclusão do carregamento

##### Metodo Colab

In [None]:
#Escreve o df para um diretorio o Colab
output_path = "/content/Bases/Liquor_Sales_Distribuidores_Tratado.csv"
df_liquor_dist.to_csv(output_path, index=False)

### Tratamento Clientes e Distribuidora

In [None]:
!pip install kaggle



In [None]:
!kaggle datasets download -d starbucks/store-locations

Dataset URL: https://www.kaggle.com/datasets/starbucks/store-locations
License(s): unknown
Downloading store-locations.zip to /content
  0% 0.00/1.10M [00:00<?, ?B/s]
100% 1.10M/1.10M [00:00<00:00, 131MB/s]


In [None]:
!kaggle datasets download -d sakshigoyal7/credit-card-customers

Dataset URL: https://www.kaggle.com/datasets/sakshigoyal7/credit-card-customers
License(s): CC0-1.0
Downloading credit-card-customers.zip to /content
  0% 0.00/379k [00:00<?, ?B/s]
100% 379k/379k [00:00<00:00, 89.4MB/s]


In [None]:
import zipfile
import os

pasta_raiz = '/content'  # Pasta raiz do Colab
pasta_destino = '/content'  # Pasta de destino para os arquivos descompactados
arquivos_zip = ['credit-card-customers.zip', 'store-locations.zip']  # Lista de arquivos zip

for arquivo_zip in arquivos_zip:
  # Remova a extensão ".zip" do nome do arquivo
  nome_pasta = os.path.splitext(arquivo_zip)[0]

  # Crie o caminho para a pasta descompactada
  pasta_descompactada = os.path.join(pasta_destino, nome_pasta)

  # Verifique se a pasta existe. Se não, crie-a.
  if not os.path.exists(pasta_descompactada):
    os.makedirs(pasta_descompactada)

  # Descompacte o arquivo zip na pasta especificada
  with zipfile.ZipFile(os.path.join(pasta_raiz, arquivo_zip)) as zip_ref:
    zip_ref.extractall(pasta_descompactada)

In [None]:
# Importando a base dos códigos

import pandas as pd

locations = pd.read_csv('/content/store-locations/directory.csv')
customers = pd.read_csv('/content/credit-card-customers/BankChurners.csv')

#### Distribuidores

In [None]:
locations.head(1)

Unnamed: 0,Brand,Store Number,Store Name,Ownership Type,Street Address,City,State/Province,Country,Postcode,Phone Number,Timezone,Longitude,Latitude
0,Starbucks,47370-257954,"Meritxell, 96",Licensed,"Av. Meritxell, 96",Andorra la Vella,7,AD,AD500,376818720,GMT+1:00 Europe/Andorra,1.53,42.51


In [None]:
!pip install pycountry

Collecting pycountry
  Downloading pycountry-24.6.1-py3-none-any.whl (6.3 MB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/6.3 MB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.1/6.3 MB[0m [31m2.5 MB/s[0m eta [36m0:00:03[0m[2K     [91m━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.6/6.3 MB[0m [31m9.1 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.7/6.3 MB[0m [31m26.1 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m6.3/6.3 MB[0m [31m47.7 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.3/6.3 MB[0m [31m37.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pycountry
Successfully installed pycountry-24.6.1


In [None]:
import pandas as pd
import pycountry

# Carregar os dados
# Mapear as siglas dos países para os nomes completos usando a biblioteca pycountry
def get_country_name(code):
    try:
        return pycountry.countries.get(alpha_2=code).name
    except AttributeError:
        return "Country not found"

# Aplicar a função para obter o nome completo do país para cada sigla na coluna 'Country Code'
locations['Pais'] = locations['Country'].apply(get_country_name)


In [None]:
locations.head(5)

Unnamed: 0,Brand,Store Number,Store Name,Ownership Type,Street Address,City,State/Province,Country,Postcode,Phone Number,Timezone,Longitude,Latitude,Pais
0,Starbucks,47370-257954,"Meritxell, 96",Licensed,"Av. Meritxell, 96",Andorra la Vella,7,AD,AD500,376818720.0,GMT+1:00 Europe/Andorra,1.53,42.51,Andorra
1,Starbucks,22331-212325,Ajman Drive Thru,Licensed,"1 Street 69, Al Jarf",Ajman,AJ,AE,,,GMT+04:00 Asia/Dubai,55.47,25.42,United Arab Emirates
2,Starbucks,47089-256771,Dana Mall,Licensed,Sheikh Khalifa Bin Zayed St.,Ajman,AJ,AE,,,GMT+04:00 Asia/Dubai,55.47,25.39,United Arab Emirates
3,Starbucks,22126-218024,Twofour 54,Licensed,Al Salam Street,Abu Dhabi,AZ,AE,,,GMT+04:00 Asia/Dubai,54.38,24.48,United Arab Emirates
4,Starbucks,17127-178586,Al Ain Tower,Licensed,"Khaldiya Area, Abu Dhabi Island",Abu Dhabi,AZ,AE,,,GMT+04:00 Asia/Dubai,54.54,24.51,United Arab Emirates


In [None]:
locations = locations.reindex(columns=['Store Number', 'Store Name', 'Ownership Type', 'Street Address', 'City', 'State/Province', 'Pais', 'Postcode',
       'Phone Number', 'Longitude', 'Latitude'])

In [None]:
locations.rename(columns={'Store Number': 'Dist_Cod', 'Store Name':'Dist_Nome', 'Ownership Type':'Dist_Tipo', 'Street Address':'Dist_Endereco', 'City':'Dist_Cidade',
                          'State/Province':'Dist_Estado', 'Pais':'Dist_Pais', 'Postcode':'Dist_Codigo_postal', 'Phone Number':'Dist_Telefone', 'Longitude':'Dist_Longitude', 'Latitude':'Dist_Latitude'}, inplace=True)

Final

In [None]:
locations.head(10)

Unnamed: 0,Dist_Cod,Dist_Nome,Dist_Tipo,Dist_Endereco,Dist_Cidade,Dist_Estado,Dist_Pais,Dist_Codigo_postal,Dist_Telefone,Dist_Longitude,Dist_Latitude
0,47370-257954,"Meritxell, 96",Licensed,"Av. Meritxell, 96",Andorra la Vella,7,Andorra,AD500,376818720.0,1.53,42.51
1,22331-212325,Ajman Drive Thru,Licensed,"1 Street 69, Al Jarf",Ajman,AJ,United Arab Emirates,,,55.47,25.42
2,47089-256771,Dana Mall,Licensed,Sheikh Khalifa Bin Zayed St.,Ajman,AJ,United Arab Emirates,,,55.47,25.39
3,22126-218024,Twofour 54,Licensed,Al Salam Street,Abu Dhabi,AZ,United Arab Emirates,,,54.38,24.48
4,17127-178586,Al Ain Tower,Licensed,"Khaldiya Area, Abu Dhabi Island",Abu Dhabi,AZ,United Arab Emirates,,,54.54,24.51
5,17688-182164,"Dalma Mall, Ground Floor",Licensed,"Dalma Mall, Mussafah",Abu Dhabi,AZ,United Arab Emirates,,,54.49,24.4
6,18182-182165,"Dalma Mall, Level 1",Licensed,"Dalma Mall, Mussafah",Abu Dhabi,AZ,United Arab Emirates,,,54.49,24.4
7,23359-229184,Debenhams Yas Mall,Licensed,Yas Island,Abu Dhabi,AZ,United Arab Emirates,,,54.61,24.46
8,30781-99022,Khalidiya Street,Licensed,Khalidiya St.,Abu Dhabi,AZ,United Arab Emirates,,26670052.0,55.69,24.19
9,20423-205465,Eastern Mangroves,Licensed,"Al Salam Street, The Mangroves",Abu Dhabi,AZ,United Arab Emirates,,,54.38,24.48


In [None]:
output_path = "/content/Bases/Distribuidores.csv"
locations.to_csv(output_path, index=False)

#### Clientes

In [None]:
customers.head(3)

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Income_Category,Card_Category,Months_on_book,...,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio,Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1,Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2
0,768805383,Existing Customer,45,M,3,High School,Married,$60K - $80K,Blue,39,...,12691.0,777,11914.0,1.335,1144,42,1.625,0.061,9.3e-05,0.99991
1,818770008,Existing Customer,49,F,5,Graduate,Single,Less than $40K,Blue,44,...,8256.0,864,7392.0,1.541,1291,33,3.714,0.105,5.7e-05,0.99994
2,713982108,Existing Customer,51,M,3,Graduate,Married,$80K - $120K,Blue,36,...,3418.0,0,3418.0,2.594,1887,20,2.333,0.0,2.1e-05,0.99998


In [None]:
customers.columns

Index(['CLIENTNUM', 'Attrition_Flag', 'Customer_Age', 'Gender',
       'Dependent_count', 'Education_Level', 'Marital_Status',
       'Income_Category', 'Card_Category', 'Months_on_book',
       'Total_Relationship_Count', 'Months_Inactive_12_mon',
       'Contacts_Count_12_mon', 'Credit_Limit', 'Total_Revolving_Bal',
       'Avg_Open_To_Buy', 'Total_Amt_Chng_Q4_Q1', 'Total_Trans_Amt',
       'Total_Trans_Ct', 'Total_Ct_Chng_Q4_Q1', 'Avg_Utilization_Ratio',
       'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1',
       'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2'],
      dtype='object')

In [None]:
customers = customers.reindex(columns=['CLIENTNUM', 'Attrition_Flag', 'Customer_Age', 'Gender','Dependent_count', 'Education_Level', 'Marital_Status','Card_Category'])
customers.rename(columns={'CLIENTNUM':'Cliente_Cod', 'Attrition_Flag': 'Cliente_Status', 'Customer_Age':'Cliente_Idade', 'Gender':'Cliente_Genero', 'Education_Level':'Cliente_Nivel_Educacao', 'Marital_Status':'Estado_Civil', 'Card_Category': 'Categoria_Cartao'}, inplace=True)
customers.head(1)

Unnamed: 0,Cliente_Cod,Cliente_Status,Cliente_Idade,Cliente_Genero,Dependent_count,Cliente_Nivel_Educacao,Estado_Civil,Categoria_Cartao
0,768805383,Existing Customer,45,M,3,High School,Married,Blue


In [None]:
output_path = "/content/Bases/Clientes.csv"
locations.to_csv(output_path, index=False)

### Random API

#### Carregando

In [None]:
randomapi = pd.read_csv('/content/Bases/dados_tratados_dados_random_tratados.csv')
randomapi.head(1)

Unnamed: 0,Cod_Fatura,Produto,Quantidade,Preco_Unitario,Data,Pais
0,3915803,PORTABLE BLUETOOTH SPEAKER,3,17.99,05/25/2024 16:20,Lao People's Democratic Republic


#### Tratamento

In [None]:
randomapi_tratado = randomapi.drop('Pais', axis=1)

Colocando Fatura_total

In [None]:
randomapi_tratado['Fatura_Total'] = randomapi_tratado['Quantidade'] * randomapi_tratado['Preco_Unitario']
randomapi_tratado['Fatura_Total'] = randomapi_tratado['Fatura_Total'].round(2)

Arrumando ordem Data

In [None]:
randomapi_tratado['Data'] = pd.to_datetime(randomapi_tratado['Data'])
randomapi_tratado['Data'] = randomapi_tratado['Data'].dt.strftime('%d/%m/%Y %H:%M')

Colocando na ordem

In [None]:
nova_ordem = ['Cod_Fatura', 'Produto', 'Quantidade','Preco_Unitario','Fatura_Total','Data']
randomapi_tratado = randomapi_tratado[nova_ordem]

Final

In [None]:
randomapi_tratado.head(1)

Unnamed: 0,Cod_Fatura,Produto,Quantidade,Preco_Unitario,Fatura_Total,Data
0,3915803,PORTABLE BLUETOOTH SPEAKER,3,17.99,53.97,25/05/2024 16:20


Salvando

In [None]:
randomapi_tratado.to_csv('/content/Bases/randomapi_tratado.csv',index=False)

### Colocando ids nas Faturas (E-commerce data.csv)

In [None]:
df_vendas_tratado['Cliente_Cod'] = np.random.choice(customers['Cliente_Cod'], size=len(df_vendas_tratado))
df_vendas_tratado['Dist_Cod'] = np.random.choice(locations['Dist_Cod'], size=len(df_vendas_tratado))

In [None]:
nova_ordem = ['Cod_Fatura', 'Produto', 'Quantidade','Preco_Unitario','Fatura_Total','Data','Cliente_Cod','Dist_Cod']

# Reordenar as colunas do DataFrame
df_vendas_tratado = df_vendas_tratado[nova_ordem]


df_vendas_tratado = df_vendas_tratado.rename(columns={'Cod_Fatura': 'Fatura_Cod'})

#### Final

In [None]:
df_vendas_tratado.head(5)

Unnamed: 0,Cod_Fatura,Produto,Quantidade,Preco_Unitario,Fatura_Total,Data,Cliente_Cod,Dist_Cod
0,536365,WHITE HANGING HEART T-LIGHT HOLDER,6,2.55,15.3,01/12/2010 08:26,711152658,15908-154985
1,536365,WHITE METAL LANTERN,6,3.39,20.34,01/12/2010 08:26,713339283,9323-95841
2,536365,CREAM CUPID HEARTS COAT HANGER,8,2.75,22.0,01/12/2010 08:26,795810633,47949-259684
3,536365,KNITTED UNION FLAG HOT WATER BOTTLE,6,3.39,20.34,01/12/2010 08:26,708596283,28911-248484
4,536365,RED WOOLLY HOTTIE WHITE HEART.,6,3.39,20.34,01/12/2010 08:26,711571383,10262-99008


#### Salvando

In [None]:
df_vendas_tratado.to_csv('/content/Bases/data_tratado_final.csv',index=False)

In [None]:
from google.colab import auth
auth.authenticate_user()

Salando no datalake

In [None]:
# Escreve o DataFrame tratado em um novo arquivo CSV
output_path = "gs://dl_vendas/dados_tratados/data_tratado_final.csv"
df_vendas_tratado.to_csv(output_path, index=False)



# ID do projeto
id_projeto = 'ID_PROJETO_GCP'

# Nome da tabela permanente no BigQuery
nome_tabela = 'tb_vendas'

# Crie um cliente BigQuery com o ID do projeto
client = bigquery.Client(project=id_projeto)

# Carregue o DataFrame Pandas para a tabela permanente no BigQuery (anexar dados)
tabela_ref = client.dataset('db_vendas').table(nome_tabela)
job_config = bigquery.LoadJobConfig(
    write_disposition=bigquery.WriteDisposition.WRITE_APPEND  # Adiciona os dados à tabela existente
)
job = client.load_table_from_dataframe(df_vendas_tratado, tabela_ref, job_config=job_config)
job.result()  # Aguarda a conclusão do carregamento

### Colocando Clientes nas Faturas (Licores data.csv)

In [None]:
df_liquor_ord['Cliente_Cod'] = np.random.choice(customers['Cliente_Cod'], size=len(df_liquor_ord))
df_liquor_ord['Dist_Cod'] = np.random.choice(locations['Dist_Cod'], size=len(df_liquor_ord))

In [None]:
nova_ordem = ['Fatura_Cod', 'Produto', 'Quantidade','Preco_Unitario','Fatura_Total','Data','Cliente_Cod','Dist_Cod']

# Reordenar as colunas do DataFrame
df_liquor_ord = df_liquor_ord[nova_ordem]

In [None]:
df_liquor_ord.head(1)

Unnamed: 0,Fatura_Cod,Produto,Quantidade,Preco_Unitario,Fatura_Total,Data,Cliente_Cod,Dist_Cod
5063583,378900033,Christian Bros Brandy,12,7.76,93.12,17/10/2012 00:00,710363433,3789


##### Salvando

In [None]:
df_liquor_ord.to_csv('/content/Bases/Liquor_Sales_Final.csv',index=False)

In [None]:
# Escreve o DataFrame tratado em um novo arquivo CSV
output_path = "gs://dl_vendas/dados_tratados/Liquor_Sales_Tratado.csv"
df_liquor_ord.to_csv(output_path, index=False)



# ID do projeto
id_projeto = 'galvanized-sled-425803-b5'

# Nome da tabela permanente no BigQuery
nome_tabela = 'tb_vendas'

# Crie um cliente BigQuery com o ID do projeto
client = bigquery.Client(project=id_projeto)

# Carregue o DataFrame Pandas para a tabela permanente no BigQuery (anexar dados)
tabela_ref = client.dataset('db_vendas').table(nome_tabela)
job_config = bigquery.LoadJobConfig(
    write_disposition=bigquery.WriteDisposition.WRITE_APPEND  # Adiciona os dados à tabela existente
)
job = client.load_table_from_dataframe(df_liquor_ord, tabela_ref, job_config=job_config)
job.result()  # Aguarda a conclusão do carregamento

Colocando IDS na random API

In [None]:
randomapi_tratado['Cliente_Cod'] = np.random.choice(customers['Cliente_Cod'], size=len(randomapi_tratado))
randomapi_tratado['Dist_Cod'] = np.random.choice(locations['Dist_Cod'], size=len(randomapi_tratado))

In [None]:
nova_ordem = ['Cod_Fatura', 'Produto', 'Quantidade','Preco_Unitario','Fatura_Total','Data','Cliente_Cod','Dist_Cod']

# Reordenar as colunas do DataFrame
randomapi_tratado = df_vendas_tratado[nova_ordem]

In [None]:
randomapi_tratado['Fatura_Cod'] = randomapi_tratado['Fatura_Cod'].astype(str)

In [None]:
randomapi_tratado['Data'] = pd.to_datetime(randomapi_tratado['Data'])

In [None]:
randomapi_tratado['Data'] = randomapi_tratado['Data'].dt.strftime('%d/%m/%Y %H:%M')

In [None]:
randomapi_tratado.head(5)

Unnamed: 0,Cod_Fatura,Produto,Quantidade,Preco_Unitario,Fatura_Total,Data,Cliente_Cod,Dist_Cod
0,3915803,PORTABLE BLUETOOTH SPEAKER,3,17.99,53.97,25/05/2024 16:20,710792733,33356-29455
1,3915803,PORTABLE BLUETOOTH SPEAKER,3,17.99,53.97,25/05/2024 16:20,716277558,9861-96968
2,6454394,PINK FLAMINGO BEACH TOWEL,3,3.69,11.07,25/05/2024 16:25,714377058,31257-105667
3,5634635,DIY CANDLE MAKING KIT,3,5.2,15.6,25/05/2024 17:04,715047333,50743-276164
4,2260769,SPICED TEA MIX,2,0.99,1.98,25/05/2024 17:11,719353158,27287-246947


In [None]:
randomapi_tratado.to_csv('/content/Bases/randomapi_tratado_final.csv',index=False)

In [None]:
# Escreve o DataFrame tratado em um novo arquivo CSV
output_path = "gs://dl_vendas/dados_tratados/randomapi_tratado.csv"
randomapi_tratado.to_csv(output_path, index=False)



# ID do projeto
id_projeto = 'ID_PROJETO_GCP'

# Nome da tabela permanente no BigQuery
nome_tabela = 'tb_vendas'

# Crie um cliente BigQuery com o ID do projeto
client = bigquery.Client(project=id_projeto)

# Carregue o DataFrame Pandas para a tabela permanente no BigQuery (anexar dados)
tabela_ref = client.dataset('db_vendas').table(nome_tabela)
job_config = bigquery.LoadJobConfig(
    write_disposition=bigquery.WriteDisposition.WRITE_APPEND  # Adiciona os dados à tabela existente
)
job = client.load_table_from_dataframe(randomapi_tratado, tabela_ref, job_config=job_config)
job.result()  # Aguarda a conclusão do carregamento