# **Projeto Prático - Entrega Final**
---
**G14: Marketwatch - Data Warehouse para investidores**

## Integrantes
- Guilherme Brante Cavequia
- Nicolas Benitz
- Pedro Henrique Bianco Schneider

---

# **DEFINIÇÃO DO PROBLEMA**
---
Cada vez mais, o mundo está testemunhando um aumento significativo no número de jovens investidores. Em diversos países, as bolsas de valores têm registrado um crescimento expressivo de novos participantes, especialmente na faixa etária entre 18 e 30 anos, segundo a Funds Society, impulsionado pelo maior acesso à informação, a popularização de aplicativos financeiros como Robinhood, eToro, Nubank, e pela busca de alternativas de investimento além das opções tradicionais, como poupanças e depósitos bancários. Esse fenômeno é reflexo de uma geração mais conectada e interessada em tomar controle de suas finanças, aproveitando a acessibilidade oferecida pelas plataformas digitais e a democratização de ferramentas de investimento em escala global.

Com esse aumento, surge um novo desafio: a quantidade massiva de ações e informações disponíveis no mercado financeiro brasileiro e global, como pode ser observado no [Marketwatch](https://www.marketwatch.com/investing/index/comp?mod=u.s-market-data) (website para investidores no qual fornece dados do mercado financeiro). Por isso, a solução seria a criação de um Data Warehouse para jovens investidores, trazendo assim centralização das Informações, um histórico consolidado e mais acessibilidade.

Para organizar e estruturar o Data Warehouse começamos com a análise para o que seria dimensão, métrica, e o que seria fato, primeiramente, tem-se que ter em mente que a bolsa de valores é um ambiente onde investidores compram e vendem ativos, utilizando diversos parâmetros para avaliar o mercado e tomar decisões informadas.

Os índices, como o NASDAQ Composite Index nos EUA, funcionam como termômetros do mercado, refletindo o desempenho de um grupo de ações representativo. Cada ação é identificada por um código único, como Apple Inc para a Apple, e possui informações essenciais para análise, como o preço de abertura, que indica o valor inicial negociado no início do pregão, e o preço de fechamento, que reflete o último valor negociado no dia.

Durante o pregão, a ação atinge variações entre o teto de preço, que é o maior valor alcançado, e o piso de preço, que é o menor valor registrado, enquanto o volume negociado indica a quantidade total de ativos transacionados, revelando a liquidez e o interesse do mercado naquela ação. Todos esses elementos estão interligados e ajudam a formar um panorama completo sobre o comportamento dos ativos e do mercado como um todo.

---

# **PROJETO DO DW**
---

Definições do projeto, como a descrição das tabelas e seus tipos, imagem da modelagem do DW, hierarquia utilizada no projeto e sua imagem.

### **Descrição das tabelas e seus tipos**
[Imagem da modelagem do DW](https://drive.google.com/file/d/1ahiUyaOXBG8yHkAQrl6REpV6e2PEX4q2/view?usp=drive_link)

1. **Dimensao_Tempo**

  1.1.id_tempo  
    - **Tipo**: int **pk**  
    - **Descrição**: Identificador único e artificial  

  1.2. data  
    - **Tipo**: date  
    - **Descrição**: Data em que ocorreu o evento  

  1.3. dia  
    - **Tipo**: int  
    - **Descrição**: Inteiro do dia. Vai até 31  

  1.4. mes  
    - **Tipo**: int  
    - **Descrição**: Inteiro do mês. Vai até 12  

  1.5. ano  
    - **Tipo**: int  
    - **Descrição**: Inteiro do ano. Não tem limite  

  1.6. dia_semana  
    - **Tipo**: int  
    - **Descrição**: Dia da semana. Vai de 1 até 7  
--

2. **Dimensao_Bolsa**

  2.1. id_bolsa  
    - **Tipo**: int **pk**  
    - **Descrição**: Identificador único e artificial  

  2.2. bolsa  
    - **Tipo**: varchar(255)  
    - **Descrição**: Bolsa que pertence a um país  

  2.3. pais  
    - **Tipo**: varchar(255)  
    - **Descrição**: País em que a bolsa se encontra, pertence a uma região  

  2.4. regiao  
    - **Tipo**: varchar(255)  
    - **Descrição**: Nome da região de localização da bolsa. Um país se encontra dentro de uma região  

--

3. **Dimensao_Acao**

  3.1. id_acao  
    - **Tipo**: int **pk**  
    - **Descrição**: Identificador único e artificial  

  3.2. fk_setor  
    - **Tipo**: int **fk**  
    - **Descrição**: Uma ação pertence a um setor. Portanto, esta fk aponta para o setor ao qual uma ação pertence  

  3.3. nome_acao  
    - **Tipo**: varchar(255)  
    - **Descrição**: Nome da ação  

  3.4. sigla_acao  
    - **Tipo**: varchar(20)  
    - **Descrição**: Sigla da ação  

  3.5. fk_bolsa  
    - **Tipo**: int **fk**  
    - **Descrição**: Uma ação pode estar em uma ou mais bolsas. Esta fk aponta para o conjunto de uma ou mais bolsas aos quais esta ação pertence  

--

4. **Dimensao_Setor**

  4.1. id_setor  
    - **Tipo**: int **pk**  
    - **Descrição**: Chave única artificial  

  4.2. nome_setor  
    - **Tipo**: varchar(255)  
    - **Descrição**: Nome de um setor específico em que uma ou mais ações pertencem  

--

5. **Fato_Valor_Diario**

  5.1. fk_tempo  
    - **Tipo**: int **fk pk**  
    - **Descrição**: Informações sobre o dia em que ocorreu o evento  

  5.2. fk_acao  
    - **Tipo**: int **fk pk**  
    - **Descrição**: Informações sobre a ação  

  5.3. open  
    - **Tipo**: float  
    - **Descrição**: Valor de abertura no dia  

  5.4. high  
    - **Tipo**: float  
    - **Descrição**: Valor máximo que atingiu no dia  

  5.5. low  
    - **Tipo**: float  
    - **Descrição**: Valor mínimo que atingiu no dia  

  5.6. close  
    - **Tipo**: float  
    - **Descrição**: Valor de fechamento no dia  

  5.7. volume  
    - **Tipo**: int  
    - **Descrição**: Quantidade de ações negociadas  

--

6. **Fato_Valor_Mensal**

  6.1. fk_acao  
    - **Tipo**: int **fk pk**  
    - **Descrição**: Informações sobre a ação  

  6.2. fk_tempo  
    - **Tipo**: int **fk pk**  
    - **Descrição**: Informações sobre o mês em que ocorreu o evento  

  6.3. open  
    - **Tipo**: float  
    - **Descrição**: Valor de abertura  

  6.4. high  
    - **Tipo**: float  
    - **Descrição**: Valor máximo que atingiu no mês  

  6.5. low  
    - **Tipo**: float  
    - **Descrição**: Valor mínimo que atingiu no mês  

  6.6. close  
    - **Tipo**: float  
    - **Descrição**: Valor de fechamento no mês  

  6.7. volume  
    - **Tipo**: int  
    - **Descrição**: Quantidade de ações negociadas no mês

--

### **Hierarquia**
[Imagem da hierarquia presente no DW](https://drive.google.com/file/d/1FUaqzZcI-CK0x1YTAvq11Yl7fDN4CXnT/view?usp=drive_link)

---

# **Criação do DW (DDL)**
---

Para criar o Data Warehouse utilizamos Postgres. Fizemos um documento `.sql`, que contém o DDL do banco de dados, que define a sua estrutura. O [arquivo DDL encontra-se no Github](https://github.com/BRAN2K/ntbd-marketwatch-scraper/blob/main/ddl-dw-marketwatch.sql).

Para criar o banco de dados, no que se diz a instância dele, utilizamos um `docker-compose.yml`, para que seja mais fácil de manter versão do Postgres utilizada, e para facilitar a instalação. O [arquivo também encontra-se no Github](https://github.com/BRAN2K/ntbd-marketwatch-scraper/blob/main/docker-compose.yml).

---

# **Limpeza, Padronização ou Transformação**
---
Antes de implementarmos de fato o ETL, pensamos em algumas tarefas que provavelmente precisariam serem efetuadas para que os dados ficassem adequados ao formato da modelagem do DW, ou seja, transformações da etapa `T`, de `Transformation`.

- **Operação 1:**
Para sabermos o dia_da_semana, será necessário rodar um script para calcular este valor.

- **Operação 2:**
Será necessário realizar um split na data para identificar o dia, mês e ano. Pois o site só informa a data completa, ex. “17/09/2003”.

- **Operação 3:**
Será necessário agrupar os dados que estão organizados diariamente, para inseri-los mensalmente na tabela fato mensal.

- **Operação 4:**
Transformar os valores monetários (open, close, high, low) para float.

- **Operação 5:**
O atributo região será sintetizado artificialmente através de um de-para dos países com os respectivos continentes.

- **Operação 6:**
O volume no site é escrito na forma americana, em que as casas dos milhares é separado por vírgula (eg. 5,613,109). Precisaremos ler este valor como inteiro para inserir no banco de dados.

---

# **INICIO DO ETL**
---

# **Web Scraper (`E` = `Extract`)**
---

[Endereço para visualizar o código no Github](https://github.com/BRAN2K/ntbd-marketwatch-scraper/blob/main/scraper.js)

A escolha de desenvolver essa versão final do scraper como um script JavaScript injetado diretamente no console do navegador se deve única e exclusivamente às robustas restrições anti-scraping implementadas pelo Marketwatch. Em especial, o site utiliza soluções como o DataDome – um mecanismo de proteção que dificulta métodos tradicionais de extração via bibliotecas Python (como requests, BeautifulSoup, Selenium ou CloudScraper). Essas proteções bloqueiam ou forçam erros (como o HTTP 401) quando tentamos acessar os dados fora do ambiente renderizado de um navegador real.

A solução apresentada funciona porque é executada diretamente no navegador, que já passou pelo processo de verificação do DataDome e demais mecanismos anti-scraping. Dessa forma, o script tem acesso ao DOM já renderizado, com todos os dados e interações processadas, permitindo extrair os links, informações e montar as URLs corretas para download dos dados históricos em CSV.

**Como Fazer a Solução Rodar**
1. Acessar a Página de Interesse: Abra o navegador e vá para a página de um país no Marketwatch, por exemplo:  
   [https://www.marketwatch.com/tools/markets/stocks/country/brazil](https://www.marketwatch.com/tools/markets/stocks/country/brazil)  
2. Abrir o Console do Navegador: Pressione as teclas (F12 ou Ctrl+Shift+I) para abrir as Ferramentas de Desenvolvedor. Navegue até a aba “Console”.  
3. Injetar o Código: Copie e cole o script completo que será apresentado abaixo no console e pressione Enter. O script vai ler os dados da página, montar as URLs para baixar os CSVs dos dados históricos de 2024 para cada ação e ainda extrair informações adicionais (Name, Exchange, Sector, Ticker e CountryCode).  
4. Download do CSV Completo: Ao final da execução, um link para download será automaticamente criado e acionado, permitindo que você baixe um arquivo CSV completo com todos os dados extraídos.

**Visão Geral de Como o Script Funciona**:

* Captura dos Dados Existentes: O script começa selecionando todas as linhas da tabela que contém os dados dos ativos usando um seletor específico (`#marketsindex table tbody tr`). Cada linha contém informações como o Nome da ação, a Exchange e o Setor.  
* Extração dos Detalhes: De cada linha, o script extrai:    
  * O link que leva à página da ação (usado para pegar o ticker e o country code).    
  * As informações de Name, Exchange e Sector.    
* Montagem das URLs para Download: Usando o ticker, o country code e parâmetros fixos (para o período de 2024), o script cria uma URL específica para baixar os dados históricos (CSV) de cada ação.  
* Recolhimento dos Dados CSV: Para cada ação, o script utiliza a função `fetch` para solicitar o CSV a partir da URL montada. O conteúdo CSV de cada ação é capturado e, em cada linha (exceto o cabeçalho), são acrescentadas as colunas com os dados extraídos (Ticker, CountryCode, Name, Exchange, Sector).  
* Junção e Geração do Arquivo Final: Todos os CSVs são então concatenados – mantendo o cabeçalho apenas do primeiro CSV – formando um arquivo único. Esse arquivo é preparado como um "Blob" (um objeto de dados) e um link de download é criado e automaticamente acionado.


# `T` = `Transformation` / `L` = `Load`
---
Etapa de transformação e carregamento para o DW. Aqui realizamos a implementação das últimas duas etapas do fluxo do `ETL`. Esta seção está combinada em uma, pois fizemos de modo que, a partir dos dados extraídos, realizamos o `Extract` e o `Load` por tabela do BD, sendo primeiro as dimensões e depois as tabelas fato.

Esse código, atualmente está configurado para carregar os dados em um DW hospedado online, porém também é possível carrega-los em um DW local. Todas as instruções para fazer isto, estão documentadas ao longo do código.

In [None]:
# Instala as dependências do projeto se necessário
%pip install pandas
%pip install psycopg2
%pip install sqlite3
%pip install glob
%pip install os
%pip install re

In [None]:
# Permite que o Colab acesse o csv de cada um dos países que estão dentro do drive compartilhado (apenas para rodar online)
# Se for rodar localmente não execute esse bloco, baixe os CSVs que estão no drive e adicione em uma pasta local, como é mostrado alguns blocos a frente
from google.colab import drive
drive.mount('/content/drive/')

In [3]:
# Ignora warnings para uma saída mais limpa
import warnings
warnings.filterwarnings('ignore')

In [4]:
# Importações
from datetime import datetime, timedelta
import pandas as pd
import psycopg2
import sqlite3
import glob
import os
import re

In [5]:
# Concatena cada um dos CSVs em um único dataframe
def read_all_csv():
  path = './countries/*' # Path para rodar local
  # path = '/content/drive/Shareddrives/Projeto NTBD /Scrapper/country_csvs/*' # Path para rodar no Colab
  all_files = glob.glob(path)

  li = []

  for filename in all_files:
      print(filename)
      df = pd.read_csv(filename, index_col=None, header=0)
      df["pais"] = filename.split("/")[-1].split(".")[0]
      li.append(df)

  frame = pd.concat(li, axis=0, ignore_index=True)

  return frame

In [6]:
# Recupera os CSVs e os coloca em um Dataframe fonte
dataframe_fonte = read_all_csv()
dataframe_fonte.head()

./countries/chile.csv


Unnamed: 0,Date,Open,High,Low,Close,Volume,Ticker,CountryCode,Name,Exchange,Sector,pais
0,12/30/2024,52.32,52.32,52.32,52.32,26837,CUPRUM,cl,A.F.P. Cuprum S.A. (CUPRUM),XSGO,INVESTMENT ADVISORS,chile
1,12/27/2024,52.8,52.8,52.8,52.32,123844,CUPRUM,cl,A.F.P. Cuprum S.A. (CUPRUM),XSGO,INVESTMENT ADVISORS,chile
2,12/26/2024,51.0,52.8,51.0,52.32,33107,CUPRUM,cl,A.F.P. Cuprum S.A. (CUPRUM),XSGO,INVESTMENT ADVISORS,chile
3,12/24/2024,55.0,55.0,55.0,55.0,96548,CUPRUM,cl,A.F.P. Cuprum S.A. (CUPRUM),XSGO,INVESTMENT ADVISORS,chile
4,12/23/2024,55.8,55.8,55.0,55.0,236623,CUPRUM,cl,A.F.P. Cuprum S.A. (CUPRUM),XSGO,INVESTMENT ADVISORS,chile


In [7]:
def insert_data(nome_tabela, dataframe):

        if "index" in dataframe.columns:
          del dataframe["index"]

        # Conexão com bd online
        """conexao = psycopg2.connect(
            host="ep-floral-king-a5d2uevb-pooler.us-east-2.aws.neon.tech",
            user="neondb_owner",
            password="npg_q0XVFlpQKH7o",
            dbname="neondb",
            port=5432
        )"""

        # Conexão com bd local (Rodar em um ambiente local, como Jupyter)
        conexao = psycopg2.connect(
            host="localhost",
            user="market",
            password="watch",
            dbname="dw-martketwatch",
            port=5433
        )

        cursor = conexao.cursor()

        colunas = ", ".join(dataframe.columns)
        placeholders = ", ".join(["%s" for _ in dataframe.columns])
        sql = f"INSERT INTO {nome_tabela} ({colunas}) VALUES ({placeholders})"

        valores = [tuple(row) for row in dataframe.itertuples(index=False, name=None)]

        cursor.executemany(sql, valores)

        conexao.commit()

In [8]:
# Transformation - Dimensao_Tempo

# Definir colunas
columns = ["id_tempo", "data", "dia", "mes", "ano", "dia_semana"]

# Criar um dataframe com as colunas da Dimensao_Tempo
df_tempo = pd.DataFrame(columns=columns)

data_inicial = datetime.strptime("01/01/2023", "%d/%m/%Y")


# Popular com os dados do csv
for index in range(3*365):
  data = (data_inicial + timedelta(days=index)).date()
  dia = data.day
  mes = data.month
  ano = data.year
  dia_semana = data.weekday()

  df_tempo = pd.concat([
                df_tempo,
                pd.DataFrame([{"id_tempo": None, "data": data, "dia": dia, "mes": mes, "ano": ano, "dia_semana": dia_semana}], columns=columns)]
           ).reset_index(drop=True)

# Tirar valores duplicados
df_tempo = df_tempo.drop_duplicates(subset=["data"])
df_tempo.reset_index(inplace=True)

# Preencher id artificial
for index in range(df_tempo.shape[0]):
  df_tempo["id_tempo"][index] = index + 1

df_tempo.head()

Unnamed: 0,index,id_tempo,data,dia,mes,ano,dia_semana
0,0,1,2023-01-01,1,1,2023,6
1,1,2,2023-01-02,2,1,2023,0
2,2,3,2023-01-03,3,1,2023,1
3,3,4,2023-01-04,4,1,2023,2
4,4,5,2023-01-05,5,1,2023,3


In [9]:
# Load - Criar SQL para inserir no BD
insert_data("Dimensao_Tempo", df_tempo)

In [10]:
# Transformation - Dimensao_Setor

# Definir colunas
columns = ["id_setor", "nome_setor"]

# Criar um dataframe com as colunas da Dimensao_Tempo
df_setor = pd.DataFrame(columns=columns)

# Popular com os dados do csv
for index in range(dataframe_fonte.shape[0]):
  df_setor = pd.concat([
                df_setor,
                pd.DataFrame([{"id_setor": None, "nome_setor": dataframe_fonte["Sector"][index]}], columns=columns)]
           ).reset_index(drop=True)

# Tirar valores duplicados
df_setor = df_setor.drop_duplicates(subset=["nome_setor"])
df_setor.reset_index(inplace=True)

# Preencher id artificial
for index in range(df_setor.shape[0]):
  df_setor["id_setor"][index] = index + 1

df_setor = pd.concat([
                df_setor,
                pd.DataFrame([{"id_setor": 0, "nome_setor": "Sem setor"}], columns=columns)]
           ).reset_index(drop=True)

del df_setor["index"]

df_setor.head()

Unnamed: 0,id_setor,nome_setor
0,1,INVESTMENT ADVISORS
1,2,FINANCE COMPANIES
2,3,WATER UTILITIES
3,4,WIRED TELECOMMUNICATIONS SERVICES
4,5,INTERNET/ONLINE


In [11]:
# Load - Criar SQL para inserir no BD
insert_data("Dimensao_Setor", df_setor)

In [12]:
depara_pais_regiao = {
    "chile": "América do Sul",
    "china": "Ásia",
    "Colômbia": "América do Sul",
    "República Tcheca": "Europa",
    "Dinamarca": "Europa",
    "Alemanha": "Europa",
    "Hong Kong": "Ásia",
    "Hungria": "Europa",
    "Índia": "Ásia",
    "Indonésia": "Ásia",
    "Irlanda": "Europa",
    "Israel": "Oriente Médio",
    "Itália": "Europa",
    "Japão": "Ásia",
    "Malásia": "Ásia",
    "México": "América do Norte",
    "Países Baixos": "Europa",
    "new_zealand": "Oceania",
    "Noruega": "Europa",
    "Filipinas": "Ásia",
    "Polônia": "Europa",
    "Portugal": "Europa",
    "Singapura": "Ásia",
    "south_africa": "África",
    "Coreia do Sul": "Ásia",
    "spain": "Europa",
    "Suécia": "Europa",
    "Suíça": "Europa",
    "Taiwan": "Ásia",
    "Tailândia": "Ásia",
    "Turquia": "Europa",
    "Reino Unido": "Europa",
    "Estados Unidos": "América do Norte",
    "Vietnã": "Ásia",
    "Austrália": "Oceania",
    "Brasil": "América do Sul",
    "Canadá": "América do Norte",
    "França": "Europa",
    "Rússia": "Europa",
    "Emirados Árabes Unidos": "Ásia",
    "Argentina": "América do Sul",
    "Argélia": "África",
    "Bélgica": "Europa",
}


In [13]:
# Transformation - Dimensao_Bolsa

# Definir colunas
columns = ["id_bolsa", "bolsa", "pais", "regiao"]

# Criar um dataframe com as colunas da Dimensao_Tempo
df_bolsa = pd.DataFrame(columns=columns)

# Popular com os dados do csv
for index in range(dataframe_fonte.shape[0]):

  df_bolsa = pd.concat([
                df_bolsa,
                pd.DataFrame([{"id_bolsa": None, "bolsa": dataframe_fonte["Exchange"][index], "pais": dataframe_fonte["pais"][index], "regiao": depara_pais_regiao[dataframe_fonte["pais"][index]]}], columns=columns)]
           ).reset_index(drop=True)

# Tirar valores duplicados
df_bolsa = df_bolsa.drop_duplicates(subset="bolsa")
df_bolsa.reset_index(inplace=True)

# Preencher id artificial
for index in range(df_bolsa.shape[0]):
  df_bolsa["id_bolsa"][index] = index + 1

df_bolsa.head()

Unnamed: 0,index,id_bolsa,bolsa,pais,regiao
0,0,1,XSGO,chile,América do Sul


In [14]:
# Load - Criar SQL para inserir no BD
insert_data("Dimensao_Bolsa", df_bolsa)

In [15]:
# Transformation - Dimensao_Acao

# Definir colunas
columns = ["id_acao", "fk_setor", "nome_acao", "sigla_acao", "fk_bolsa"]

# Criar um dataframe com as colunas da Dimensao_Tempo
df_acao = pd.DataFrame(columns=columns)

# Regex
regex_sigla = r"(?<=\()(.*?)(?=\))"
regex_nome = r"(.*?)(?=\()"

# Popular com os dados do csv
for index in range(dataframe_fonte.shape[0]):

  # Pegar id_setor no df_setor
  try:
    fk_setor = df_setor[df_setor['nome_setor'] == dataframe_fonte["Sector"][index]]["id_setor"].iloc[0]
  except:
    fk_setor = 0
  fk_bolsa = df_bolsa[df_bolsa['bolsa'] == dataframe_fonte["Exchange"][index]]["id_bolsa"].iloc[0]
  nome = re.search(regex_nome, dataframe_fonte["Name"][index])[0]
  sigla = re.search(regex_sigla, dataframe_fonte["Name"][index])[0]

  df_acao = pd.concat([
                df_acao,
                pd.DataFrame([{"id_acao": None, "fk_setor": fk_setor, "nome_acao": nome, "sigla_acao": sigla, "fk_bolsa": fk_bolsa}], columns=columns)]
           ).reset_index(drop=True)

# Tirar valores duplicados
df_acao = df_acao.drop_duplicates(subset="sigla_acao")
df_acao.reset_index(inplace=True)

# Preencher id artificial
for index in range(df_acao.shape[0]):
  df_acao["id_acao"][index] = index + 1

df_acao.head()

Unnamed: 0,index,id_acao,fk_setor,nome_acao,sigla_acao,fk_bolsa
0,0,1,1,A.F.P. Cuprum S.A.,CUPRUM,1
1,243,2,1,A.F.P. Habitat S.A.,HABITAT,1
2,490,3,1,A.F.P. Planvital S.A.,PLANVITAL,1
3,738,4,1,A.F.P. ProVida S.A.,PROVIDA,1
4,982,5,2,Administradora Americana de Inversiones S.A.,AAISA,1


In [16]:
# Load - Criar SQL para inserir no BD
insert_data("Dimensao_Acao", df_acao)

In [17]:
# Transformation - Fato_Valor_Diario

# Definir colunas
columns = ["fk_tempo", "fk_acao", "open", "high", "low", "close", "volume"]

# Criar um dataframe com as colunas da Dimensao_Tempo
df_fato_diario = pd.DataFrame(columns=columns)

# Regex
regex_sigla = r"(?<=\()(.*?)(?=\))"

# Popular com os dados do csv
for index in range(dataframe_fonte.shape[0]):

  # Pegar id_setor no df_setor
  fk_tempo = df_tempo[df_tempo["data"] == datetime.strptime(dataframe_fonte["Date"][index], "%m/%d/%Y").date()]["id_tempo"].iloc[0]

  sigla = re.search(regex_sigla, dataframe_fonte["Name"][index])[0]
  fk_acao = df_acao[df_acao['sigla_acao'] == sigla]["id_acao"].iloc[0]

  df_fato_diario = pd.concat([
                df_fato_diario,
                pd.DataFrame([{"fk_tempo": fk_tempo, "fk_acao": fk_acao, "open": float(dataframe_fonte["Open"][index].replace(",", "")), "high": float(dataframe_fonte["High"][index].replace(",", "")), "low": float(dataframe_fonte["Low"][index].replace(",", "")), "close": float(dataframe_fonte["Close"][index].replace(",", "")), "volume": int(dataframe_fonte["Volume"][index].replace(",", ""))}], columns=columns)]
           ).reset_index(drop=True)

df_fato_diario.reset_index(inplace=True)

df_fato_diario.head()

Unnamed: 0,index,fk_tempo,fk_acao,open,high,low,close,volume
0,0,730,1,52.32,52.32,52.32,52.32,26837
1,1,727,1,52.8,52.8,52.8,52.32,123844
2,2,726,1,51.0,52.8,51.0,52.32,33107
3,3,724,1,55.0,55.0,55.0,55.0,96548
4,4,723,1,55.8,55.8,55.0,55.0,236623


In [18]:
# Load - Criar SQL para inserir no BD
insert_data("Fato_Valor_Diario", df_fato_diario)

In [19]:
# Transformation - Fato_Valor_Mensal

# Definir colunas
columns = ["fk_tempo", "fk_acao", "open", "high", "low", "close", "volume"]

# Criar um dataframe com as colunas da Dimensao_Tempo
df_fato_mensal = pd.DataFrame(columns=columns)

# Popular com os dados do csv
for index in range(dataframe_fonte.shape[0]):

  # Pegar id_setor no df_setor
  fk_tempo = df_tempo[df_tempo["data"] == datetime.strptime(dataframe_fonte["Date"][index], "%m/%d/%Y").replace(day=1).date()]["id_tempo"].iloc[0]

  df_fato_mensal = pd.concat([
                df_fato_mensal,
                pd.DataFrame([{"fk_tempo": fk_tempo, "fk_acao": df_fato_diario["fk_acao"][index], "open": float(dataframe_fonte["Open"][index].replace(",", "")), "high": float(dataframe_fonte["High"][index].replace(",", "")), "low": float(dataframe_fonte["Low"][index].replace(",", "")), "close": float(dataframe_fonte["Close"][index].replace(",", "")), "volume": int(dataframe_fonte["Volume"][index].replace(",", ""))}], columns=columns)]
           ).reset_index(drop=True)

df_fato_mensal = df_fato_mensal.groupby(["fk_acao", "fk_tempo"], as_index=False)[["open", "high", "low", "close", "volume"]].mean()

df_fato_mensal.reset_index(inplace=True)

df_fato_mensal.head()

Unnamed: 0,index,fk_acao,fk_tempo,open,high,low,close,volume
0,0,1,366,49.298571,50.129524,49.045714,49.874762,79371.761905
1,1,1,397,47.955882,48.052941,47.817059,47.882941,59931.647059
2,2,1,426,51.5035,51.7675,51.327,51.614,51952.7
3,3,1,457,49.364091,49.730909,49.264545,49.475455,129719.181818
4,4,1,487,50.278095,50.436667,49.912857,50.109524,176972.047619


In [20]:
# Load - Criar SQL para inserir no BD
insert_data("Fato_Valor_Mensal", df_fato_mensal)