Instalação das bibliotecas

In [None]:
# Instalar pandas
!pip install pandas



 Importe a biblioteca

In [None]:
import pandas as pd

Definir a URL e fazer a requisição

In [None]:
# URL da página da Wikipédia
url = 'https://pt.wikipedia.org/wiki/Fortune_Global_500'

# Usar pandas para ler todas as tabelas na página
try:
    tabelas_html = pd.read_html(url)

    # A tabela com as empresas é a segunda na página (índice 1).
    # Você pode verificar isso inspecionando a página.
    df_concorrentes = tabelas_html[1]

    print('Web scraping realizado com sucesso!')
    print('\nPrimeiras 5 linhas da tabela de concorrentes:')
    print(df_concorrentes.head())

except Exception as e:
    print(f"Ocorreu um erro ao tentar realizar o web scraping: {e}")
    print("Verifique a URL e sua conexão com a internet.")

Web scraping realizado com sucesso!

Primeiras 5 linhas da tabela de concorrentes:
   Classificação            País  Companhias
0              1  Estados Unidos         128
1              2           China          98
2              3           Japão          54
3              4          França          31
4              5     Reino Unido          29


Salvar o arquivo

In [None]:
df_concorrentes.to_csv('concorrentes.csv', index=False)

Encontrar e extrair a tabela desejada

In [None]:
# ===============================================
# Passo de Web Scraping usando BeautifulSoup
# ===============================================

# 1. Instalar as bibliotecas (se necessário)
!pip install requests beautifulsoup4 pandas

# 2. Importar as bibliotecas
import requests
from bs4 import BeautifulSoup
import pandas as pd

# 3. Definir a URL
url = 'https://pt.wikipedia.org/wiki/Fortune_Global_500'

# 4. Fazer a requisição HTTP para obter o conteúdo da página
try:
    response = requests.get(url)
    response.raise_for_status() # Lança um erro para status de erro (4xx ou 5xx)

    # 5. Criar um objeto BeautifulSoup para analisar o HTML
    soup = BeautifulSoup(response.content, 'html.parser')

    # 6. Encontrar a tabela desejada (por classe ou outro identificador)
    # A classe 'wikitable' é um bom identificador na Wikipedia
    tabelas_wikitable = soup.find_all('table', {'class': 'wikitable'})

    # Vamos assumir que a tabela que queremos é a segunda da página (índice 1)
    tabela_empresas = tabelas_wikitable[1]

    # 7. Extrair os dados da tabela e criar um DataFrame
    # Este é um método simplificado para demonstrar o processo
    dados_empresas = []
    for row in tabela_empresas.find_all('tr'):
        cols = row.find_all(['th', 'td'])
        cols = [ele.text.strip() for ele in cols]
        dados_empresas.append(cols)

    # 8. Criar o DataFrame
    # A primeira linha é o cabeçalho
    headers = dados_empresas[0]
    df_concorrentes = pd.DataFrame(dados_empresas[1:], columns=headers)

    print('Web scraping realizado com sucesso!')
    print('\nPrimeiras 5 linhas da tabela de concorrentes:')
    print(df_concorrentes.head())

except requests.exceptions.RequestException as e:
    print(f"Ocorreu um erro na requisição: {e}")

except Exception as e:
    print(f"Ocorreu um erro no web scraping: {e}")

Web scraping realizado com sucesso!

Primeiras 5 linhas da tabela de concorrentes:
  Classificação            País Companhias
0             1  Estados Unidos        128
1             2           China         98
2             3           Japão         54
3             4          França         31
4             5     Reino Unido         29


Criar um DataFrame com os dados

In [None]:
# Criar o DataFrame
df_multinacionais = pd.DataFrame(dados_empresas, columns=headers)

# Exibir as primeiras linhas do DataFrame para verificar o resultado
print(df_multinacionais.head())

   Classificação            País  Companhias
0  Classificação            País  Companhias
1              1  Estados Unidos         128
2              2           China          98
3              3           Japão          54
4              4          França          31


Passo 2: Extrair e carregar dados de concorrentes

In [None]:
# URL de exportação da sua planilha de concorrentes como CSV
url_concorrentes = 'https://docs.google.com/spreadsheets/d/e/2PACX-1vRbKOAov8N5kL7rhk5xb6so7_fb9mYw-Y4gDwbY2vRb_1VN1y2uVz1h_yqPxLR3gO_1GRvLiQzIY9at/pub?output=csv'

try:
    df_concorrentes = pd.read_csv(url_concorrentes)
    print("\nDataFrame de concorrentes carregado com sucesso:")
    print(df_concorrentes.head())

except Exception as e:
    print(f"\nOcorreu um erro ao ler a planilha online: {e}")
    print("Verifique se o URL está correto e se a planilha está pública.")


DataFrame de concorrentes carregado com sucesso:
   row_id         category sub_category      segment  region  country state  \
0   43411  office supplies          art  home office  africa  nigeria  abia   
1   41699  office supplies      storage     consumer  africa  nigeria  abia   
2   41698  office supplies          art     consumer  africa  nigeria  abia   
3   41700  office supplies    envelopes     consumer  africa  nigeria  abia   
4   48201  office supplies          art     consumer  africa  nigeria  abia   

  city  market market2  ...                          product_name  order_date  \
0  aba  africa  africa  ...  Boston Pencil Sharpener, Water Color  16/04/2011   
1  aba  africa  africa  ...                 Smead Box, Industrial  04/09/2012   
2  aba  africa  africa  ...       Binney & Smith Pens, Easy-Erase  04/09/2012   
3  aba  africa  africa  ...          Jiffy Mailers, Security-Tint  04/09/2012   
4  aba  africa  africa  ...           Boston Markers, Water Color  13/

Passo 1.1: Limpeza e Transformação em df_superstore

In [None]:
# 1. Padronizar nomes de colunas (se necessário)
df_concorrentes.columns = [col.lower().replace(' ', '_') for col in df_concorrentes.columns]

# 2. Converter tipos de dados
# Datas
df_concorrentes['order_date'] = pd.to_datetime(df_concorrentes['order_date'])
df_concorrentes['ship_date'] = pd.to_datetime(df_concorrentes['ship_date'])

# Numéricos
df_concorrentes['sales'] = pd.to_numeric(df_concorrentes['sales'], errors='coerce')
df_concorrentes['discount'] = pd.to_numeric(df_concorrentes['discount'], errors='coerce')
df_concorrentes['profit'] = pd.to_numeric(df_concorrentes['profit'], errors='coerce')
df_concorrentes['shipping_cost'] = pd.to_numeric(df_concorrentes['shipping_cost'], errors='coerce')
df_concorrentes['quantity'] = pd.to_numeric(df_concorrentes['quantity'], errors='coerce').astype('Int64')
df_concorrentes['year'] = pd.to_numeric(df_concorrentes['year'], errors='coerce').astype('Int64')
df_concorrentes['weeknum'] = pd.to_numeric(df_concorrentes['weeknum'], errors='coerce').astype('Int64')

# 3. Padronizar strings
colunas_texto = ['category', 'city', 'country', 'customer_id', 'customer_name', 'market',
                 'order_id', 'order_priority', 'product_id', 'product_name', 'region',
                 'segment', 'ship_mode', 'state', 'sub_category', 'market2']
for col in colunas_texto:
    df_concorrentes[col] = df_concorrentes[col].str.lower()

print("\nTransformação de df_concorrentes concluída!")
print(df_concorrentes.info())


Transformação de df_concorrentes concluída!
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 26 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   row_id          500 non-null    int64         
 1   category        500 non-null    object        
 2   sub_category    500 non-null    object        
 3   segment         500 non-null    object        
 4   region          500 non-null    object        
 5   country         500 non-null    object        
 6   state           500 non-null    object        
 7   city            500 non-null    object        
 8   market          500 non-null    object        
 9   market2         500 non-null    object        
 10  order_priority  500 non-null    object        
 11  ship_mode       500 non-null    object        
 12  customer_id     500 non-null    object        
 13  customer_name   500 non-null    object        
 14  order_id     

  df_concorrentes['order_date'] = pd.to_datetime(df_concorrentes['order_date'])
  df_concorrentes['ship_date'] = pd.to_datetime(df_concorrentes['ship_date'])


Passo 2.1: Limpeza e Transformação em df_concorrentes

In [None]:
# 1. Padronizar nomes das colunas
# Supondo que as colunas sejam: 'Rank', 'Company', 'Country', 'Industry', 'Revenue', etc.
df_concorrentes.columns = [col.lower().replace(' ', '_') for col in df_concorrentes.columns]

# 2. Padronizar strings para facilitar análises futuras
colunas_texto_concorrentes = ['company', 'country', 'industry'] # Ajuste com base nas suas colunas
for col in colunas_texto_concorrentes:
    if col in df_concorrentes.columns:
        df_concorrentes[col] = df_concorrentes[col].str.lower()

print("\nTransformação de df_concorrentes concluída!")
print(df_concorrentes.head())


Transformação de df_concorrentes concluída!
   row_id         category sub_category      segment  region  country state  \
0   43411  office supplies          art  home office  africa  nigeria  abia   
1   41699  office supplies      storage     consumer  africa  nigeria  abia   
2   41698  office supplies          art     consumer  africa  nigeria  abia   
3   41700  office supplies    envelopes     consumer  africa  nigeria  abia   
4   48201  office supplies          art     consumer  africa  nigeria  abia   

  city  market market2  ...                          product_name order_date  \
0  aba  africa  africa  ...  boston pencil sharpener, water color 2011-04-16   
1  aba  africa  africa  ...                 smead box, industrial 2012-09-04   
2  aba  africa  africa  ...       binney & smith pens, easy-erase 2012-09-04   
3  aba  africa  africa  ...          jiffy mailers, security-tint 2012-09-04   
4  aba  africa  africa  ...           boston markers, water color 2012-09-13   


Passo: Criar a dimensão de Localização

In [None]:
import pandas as pd
import numpy as np
import hashlib
from google.colab import auth
from google.cloud import bigquery
import pandas_gbq

# ===============================================
# EXTRAÇÃO: Carregar os dados
# ===============================================
try:
    df_superstore = pd.read_csv('superstore.csv', encoding='utf-8')
    print("Arquivo superstore.csv carregado com sucesso!")
except FileNotFoundError:
    print("Erro: O arquivo 'superstore.csv' não foi encontrado. Por favor, faça o upload do arquivo.")
    df_superstore = pd.DataFrame() # DataFrame vazio para evitar erros

url_concorrentes = 'https://docs.google.com/spreadsheets/d/e/2PACX-1vRbKOAov8N5kL7rhk5xb6so7_fb9mYw-Y4gDwbY2vRb_1VN1y2uVz1h_yqPxLR3gO_1GRvLiQzIY9at/pub?output=csv'
try:
    df_concorrentes = pd.read_csv(url_concorrentes)
    print("\nDataFrame de concorrentes carregado com sucesso!")
except Exception as e:
    print(f"\nOcorreu um erro ao ler a planilha online: {e}")
    df_concorrentes = pd.DataFrame()

# ===============================================
# TRANSFORMAÇÃO: Modelagem Dimensional Star Schema
# ===============================================
if not df_superstore.empty:
    # Padronizar nomes de colunas e converter tipos
    df_superstore.columns = [col.lower().replace(' ', '_') for col in df_superstore.columns]

    # Correção do aviso de data
    df_superstore['order_date'] = pd.to_datetime(df_superstore['order_date'], format='%d/%m/%Y', errors='coerce')
    df_superstore['ship_date'] = pd.to_datetime(df_superstore['ship_date'], format='%d/%m/%Y', errors='coerce')

    # Função para gerar chaves substitutas de forma consistente
    def generate_surrogate_key(df, columns):
        df['join_key'] = df[columns].astype(str).sum(axis=1)
        df['surrogate_key'] = df['join_key'].apply(lambda x: hashlib.sha256(x.encode()).hexdigest())
        df.drop(columns=['join_key'], inplace=True)
        return df

    # 1. Criar a dimensão de Localização (dim_location)
    dim_location_df = df_superstore[['country', 'state', 'city', 'region', 'market', 'market2']].drop_duplicates().reset_index(drop=True)
    dim_location_df = generate_surrogate_key(dim_location_df, ['country', 'state', 'city', 'region', 'market', 'market2'])
    dim_location_df.rename(columns={'surrogate_key': 'location_id'}, inplace=True)
    print("\nDimensão de Localização criada com sucesso!")

    # 2. Criar a dimensão de Clientes (dim_customer)
    dim_customer_df = df_superstore[['customer_id', 'customer_name', 'segment']].drop_duplicates().reset_index(drop=True)
    dim_customer_df.rename(columns={'customer_id': 'customer_natural_key'}, inplace=True)
    dim_customer_df['customer_id'] = generate_surrogate_key(dim_customer_df, ['customer_natural_key'])['surrogate_key']
    print("Dimensão de Clientes criada com sucesso!")

    # 3. Criar a dimensão de Produtos (dim_product)
    dim_product_df = df_superstore[['product_id', 'product_name', 'category', 'sub_category']].drop_duplicates().reset_index(drop=True)
    dim_product_df.rename(columns={'product_id': 'product_natural_key'}, inplace=True)
    dim_product_df['product_id'] = generate_surrogate_key(dim_product_df, ['product_natural_key'])['surrogate_key']
    print("Dimensão de Produtos criada com sucesso!")

    # 4. Criar a dimensão de Pedidos (dim_order)
    dim_order_df = df_superstore[['order_id', 'ship_mode', 'order_priority']].drop_duplicates(subset=['order_id']).reset_index(drop=True)
    dim_order_df.rename(columns={'order_id': 'order_natural_key'}, inplace=True)
    dim_order_df['order_id'] = generate_surrogate_key(dim_order_df, ['order_natural_key'])['surrogate_key']
    print("Dimensão de Pedidos criada com sucesso!")

    # 5. Criar a Tabela de Fatos (fact_sales)
    df_temp = pd.merge(df_superstore, dim_location_df, on=['country', 'state', 'city', 'region', 'market', 'market2'], how='left')
    df_temp['customer_id_surrogate'] = df_temp['customer_id'].map(dim_customer_df.set_index('customer_natural_key')['customer_id'])
    df_temp['product_id_surrogate'] = df_temp['product_id'].map(dim_product_df.set_index('product_natural_key')['product_id'])
    df_temp['order_id_surrogate'] = df_temp['order_id'].map(dim_order_df.set_index('order_natural_key')['order_id'])

    fact_sales_df = df_temp[[
        'order_date',
        'ship_date',
        'sales',
        'profit',
        'quantity',
        'discount',
        'shipping_cost',
        'customer_id_surrogate',
        'product_id_surrogate',
        'order_id_surrogate',
        'location_id',
    ]].copy()

    fact_sales_df.rename(columns={
        'customer_id_surrogate': 'customer_id',
        'product_id_surrogate': 'product_id',
        'order_id_surrogate': 'order_id'
    }, inplace=True)

    print("\nModelo Star Schema criado com sucesso! As tabelas de dimensão e fatos estão prontas.")

# ===============================================
# TRANSFORMAÇÃO: Concorrentes
# ===============================================
if not df_concorrentes.empty:
    df_concorrentes.columns = [col.lower().replace(' ', '_') for col in df_concorrentes.columns]
    print("\nDataFrame de concorrentes padronizado.")
    df_concorrentes['concorrente_id'] = df_concorrentes.index + 1
    print("\nDimensão de Concorrentes criada com sucesso!")

# ===============================================
# CARREGAMENTO (LOAD) para o BigQuery
# Descomente e substitua o 'seu-id-do-projeto'
# ===============================================
# auth.authenticate_user()
# projeto_id = 'seu-id-do-projeto'
# print("\nIniciando o carregamento para o BigQuery...")

# if not fact_sales_df.empty:
#     pandas_gbq.to_gbq(fact_sales_df, f'{projeto_id}.superstore.fact_sales', project_id=projeto_id, if_exists='replace')
#     print("Tabela fact_sales carregada.")

# if not dim_location_df.empty:
#     pandas_gbq.to_gbq(dim_location_df, f'{projeto_id}.superstore.dim_location', project_id=projeto_id, if_exists='replace')
#     print("Tabela dim_location carregada.")

# if not dim_customer_df.empty:
#     pandas_gbq.to_gbq(dim_customer_df, f'{projeto_id}.superstore.dim_customer', project_id=projeto_id, if_exists='replace')
#     print("Tabela dim_customer carregada.")

# if not dim_product_df.empty:
#     pandas_gbq.to_gbq(dim_product_df, f'{projeto_id}.superstore.dim_product', project_id=projeto_id, if_exists='replace')
#     print("Tabela dim_product carregada.")

# if not dim_order_df.empty:
#     pandas_gbq.to_gbq(dim_order_df, f'{projeto_id}.superstore.dim_order', project_id=projeto_id, if_exists='replace')
#     print("Tabela dim_order carregada.")

# if not df_concorrentes.empty:
#     pandas_gbq.to_gbq(df_concorrentes, f'{projeto_id}.superstore.dim_concorrentes', project_id=projeto_id, if_exists='replace')
#     print("Tabela dim_concorrentes carregada.")

Arquivo superstore.csv carregado com sucesso!

DataFrame de concorrentes carregado com sucesso!

Dimensão de Localização criada com sucesso!
Dimensão de Clientes criada com sucesso!
Dimensão de Produtos criada com sucesso!
Dimensão de Pedidos criada com sucesso!

Modelo Star Schema criado com sucesso! As tabelas de dimensão e fatos estão prontas.

DataFrame de concorrentes padronizado.

Dimensão de Concorrentes criada com sucesso!


Passo 3: Carregamento (Load) para o BigQuery

In [None]:
import pandas as pd
from google.colab import auth
from google.cloud import bigquery

# ===============================================
# Passo 1: Extração e Transformação em df_superstore
# ===============================================
# Carregar o arquivo CSV (substitua 'superstore.csv' pelo seu arquivo se necessário)
# df_superstore = pd.read_csv('superstore.csv')

# Para este exemplo, vamos supor que o arquivo já está carregado
# Se você tiver o arquivo, use a linha acima.
# Para o nosso exemplo, vamos criar um DataFrame fictício
data = {'col1': [1, 2, 3], 'col2': ['a', 'b', 'c']}
df_superstore = pd.DataFrame(data)


# 1. Padronizar nomes de colunas (se necessário)
df_superstore.columns = [col.lower().replace(' ', '_') for col in df_superstore.columns]

# ... Adicione aqui todas as suas transformações para df_superstore ...

print("DataFrame de superstore pronto para o carregamento.")

# ===============================================
# Passo 2: Extração e Transformação em df_concorrentes
# ===============================================
# URL de exportação da sua planilha de concorrentes como CSV
url_concorrentes = 'https://docs.google.com/spreadsheets/d/e/2PACX-1vRbKOAov8N5kL7rhk5xb6so7_fb9mYw-Y4gDwbY2vRb_1VN1y2uVz1h_yqPxLR3gO_1GRvLiQzIY9at/pub?output=csv'

try:
    df_concorrentes = pd.read_csv(url_concorrentes)
    df_concorrentes.columns = [col.lower().replace(' ', '_') for col in df_concorrentes.columns]
    # ... Adicione aqui suas transformações para df_concorrentes ...
    print("DataFrame de concorrentes pronto para o carregamento.")

except Exception as e:
    print(f"\nOcorreu um erro ao ler a planilha online: {e}")
    df_concorrentes = pd.DataFrame() # Cria um DataFrame vazio para evitar erro no passo de carga

# ===============================================
# Passo 3: Carregamento (Load) para o BigQuery
# ===============================================

# 1. Instalar a biblioteca do BigQuery (se necessário)
!pip install --upgrade pandas-gbq google-cloud-bigquery

# 2. Autenticação no Google Colab
auth.authenticate_user()

# 3. Importar a biblioteca do BigQuery e o pandas
from google.cloud import bigquery

# Substitua pelo ID do seu projeto no Google Cloud
projeto_id = 'estrutura-de-dados-1'

# Criar um cliente BigQuery
client = bigquery.Client(project=projeto_id)

# 4. Carregar o DataFrame de vendas (superstore) para o BigQuery
tabela_destino_superstore = f'{projeto_id}.superstore.superstore_clean_py'

df_superstore.to_gbq(
    destination_table=tabela_destino_superstore,
    project_id=projeto_id,
    if_exists='replace'
)
print(f"DataFrame de vendas carregado para a tabela: {tabela_destino_superstore}")


# 5. Carregar o DataFrame de concorrentes para o BigQuery (se não estiver vazio)
if not df_concorrentes.empty:
    tabela_destino_concorrentes = f'{projeto_id}.superstore.dim_concorrentes_py'

    df_concorrentes.to_gbq(
        destination_table=tabela_destino_concorrentes,
        project_id=projeto_id,
        if_exists='replace'
    )
    print(f"DataFrame de concorrentes carregado para a tabela: {tabela_destino_concorrentes}")
else:
    print("DataFrame de concorrentes está vazio, não será carregado.")

DataFrame de superstore pronto para o carregamento.
DataFrame de concorrentes pronto para o carregamento.


  df_superstore.to_gbq(
100%|██████████| 1/1 [00:00<00:00, 1723.92it/s]
  df_concorrentes.to_gbq(


DataFrame de vendas carregado para a tabela: estrutura-de-dados-1.superstore.superstore_clean_py


100%|██████████| 1/1 [00:00<00:00, 2003.97it/s]

DataFrame de concorrentes carregado para a tabela: estrutura-de-dados-1.superstore.dim_concorrentes_py





In [None]:
# ===============================================
# CARREGAMENTO (LOAD) para o BigQuery
# ===============================================
# A autenticação agora será feita através da variável de ambiente
# GOOGLE_APPLICATION_CREDENTIALS. A linha abaixo não é mais necessária.
# auth.authenticate_user()

# Insira o ID do seu projeto no Google Cloud
projeto_id = 'estrutura-de-dados-1'
dataset_id = 'superstore'

print("\nIniciando o carregamento para o BigQuery...")

if 'fact_sales_df' in locals() and not fact_sales_df.empty:
    pandas_gbq.to_gbq(fact_sales_df, f'{projeto_id}.{dataset_id}.fact_sales', project_id=projeto_id, if_exists='replace')
    print("Tabela fact_sales carregada.")

if 'dim_location_df' in locals() and not dim_location_df.empty:
    pandas_gbq.to_gbq(dim_location_df, f'{projeto_id}.{dataset_id}.dim_location', project_id=projeto_id, if_exists='replace')
    print("Tabela dim_location carregada.")

if 'dim_customer_df' in locals() and not dim_customer_df.empty:
    pandas_gbq.to_gbq(dim_customer_df, f'{projeto_id}.{dataset_id}.dim_customer', project_id=projeto_id, if_exists='replace')
    print("Tabela dim_customer carregada.")

if 'dim_product_df' in locals() and not dim_product_df.empty:
    pandas_gbq.to_gbq(dim_product_df, f'{projeto_id}.{dataset_id}.dim_product', project_id=projeto_id, if_exists='replace')
    print("Tabela dim_product carregada.")

if 'dim_order_df' in locals() and not dim_order_df.empty:
    pandas_gbq.to_gbq(dim_order_df, f'{projeto_id}.{dataset_id}.dim_order', project_id=projeto_id, if_exists='replace')
    print("Tabela dim_order carregada.")

if 'df_concorrentes' in locals() and not df_concorrentes.empty:
    pandas_gbq.to_gbq(df_concorrentes, f'{projeto_id}.{dataset_id}.dim_concorrentes', project_id=projeto_id, if_exists='replace')
    print("Tabela dim_concorrentes carregada.")


Iniciando o carregamento para o BigQuery...


100%|██████████| 1/1 [00:00<00:00, 3761.71it/s]


Tabela fact_sales carregada.


100%|██████████| 1/1 [00:00<00:00, 2639.59it/s]


Tabela dim_location carregada.


100%|██████████| 1/1 [00:00<00:00, 2081.54it/s]


Tabela dim_customer carregada.


100%|██████████| 1/1 [00:00<00:00, 8811.56it/s]


Tabela dim_product carregada.


100%|██████████| 1/1 [00:00<00:00, 4173.44it/s]


Tabela dim_order carregada.


100%|██████████| 1/1 [00:00<00:00, 9597.95it/s]

Tabela dim_concorrentes carregada.



