# Web Scraping de Cota√ß√µes das A√ß√µes Brasileiras  

### Este c√≥digo realiza **web scraping** para obter os valores de cota√ß√£o das **cinco principais a√ß√µes brasileiras** listadas no site **Investing**.  

### üìå Fluxo do C√≥digo  

1. **Automa√ß√£o do Navegador** ‚Üí Utiliza a biblioteca **Selenium** para acessar o site e navegar at√© as p√°ginas das a√ß√µes.  
2. **Extra√ß√£o de Dados** ‚Üí Captura tabelas de cota√ß√µes usando **BeautifulSoup**.  
3. **Tratamento dos Dados** ‚Üí Usa **Pandas** para limpar e formatar os dados, convertendo datas e valores num√©ricos.  
4. **Armazenamento** ‚Üí Salva os dados em um arquivo CSV.  
5. **Dashboard** ‚Üí Os dados ser√£o exibidos posteriormente em um dashboard usando **Streamlit**.  

‚ö† **Observa√ß√£o:** O c√≥digo foi executado com sucesso em **12/02/2025**. Caso o **DOM do Investing** seja alterado, pode ser necess√°rio atualizar os seletores para garantir o funcionamento.  


In [1]:
# Importa√ß√£o das bibliotecas necess√°rias

import selenium  # Biblioteca para automa√ß√£o de navegadores.
import pandas as pd  # Biblioteca para manipula√ß√£o de dados em DataFrames (Tabelas).

# Importa√ß√£o dos m√≥dulos do Selenium
from selenium import webdriver  # Permite controlar um navegador via c√≥digo.
from selenium.webdriver.chrome.service import Service  # Garante a inicializa√ß√£o do ChromeDriver.
from selenium.webdriver.common.by import By  # Fornece m√©todos para localizar elementos na p√°gina.
from selenium.webdriver.support.ui import WebDriverWait  # Permite aguardar a presen√ßa de elementos na p√°gina para prosseguir com a execu√ß√£o do c√≥digo.
from selenium.webdriver.support import expected_conditions as EC  # Define condi√ß√µes de espera para elementos.

# Biblioteca BeautifulSoup para an√°lise e extra√ß√£o de dados de HTML.
from bs4 import BeautifulSoup  

# M√≥dulo time para pausas no c√≥digo (evita bloqueios por solicita√ß√µes excessivas).
import time  

# Biblioteca datetime para manipula√ß√£o de datas e hor√°rios.
from datetime import datetime  

# Biblioteca locale para configura√ß√£o regional (idioma, formata√ß√£o de n√∫meros e datas).
import locale  

# Biblioteca os para intera√ß√µes com o sistema operacional (como manipula√ß√£o de arquivos e diret√≥rios).
import os  

# Define o locale para portugu√™s do Brasil.
locale.setlocale(locale.LC_TIME, "pt_BR.UTF-8")

'pt_BR.UTF-8'

In [2]:
# Cria um objeto Service. Ele √© necess√°rio para gerenciar o processo do driver do Chrome.
service = Service()

# Cria um objeto ChromeOptions, que permite configurar v√°rias op√ß√µes do navegador Chrome.
options = webdriver.ChromeOptions()

# Inicializa o WebDriver do Chrome com as op√ß√µes configuradas e o servi√ßo.
# Isso abre o navegador Chrome controlado pelo Selenium.
driver = webdriver.Chrome(service=service, options=options)

# Define a URL que voc√™ deseja acessar com o navegador, nesse exemplo, o Investing.
url = 'https://br.investing.com/indices/brazil-indices'

# Faz com que o driver abra a p√°gina da URL especificada.
driver.get(url)

# Maximiza a janela do navegador para tela cheia.
driver.maximize_window()

# Tenta encontrar o elemento de fechar a pop-up de login, caso n√£o encontre (o elemento n√£o apareceu), proseegue com a execu√ß√£o
try:
    # Fecha a pop-up de cadastro que aparece ao acessar o Investing.
    closePopUp = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CLASS_NAME, 'float-end')))
    closePopUp.click()
    
except:
    pass

In [3]:
# Define uma vari√°vel tableList como uma lista vazia. Essa lista vai armazenar o HTML da tabela capturada.
tableList = []

# Capta todos os elementos de tag <a> no intervalo entre 444 e 449 no HTML da p√°gina e os armazena na lista elements.
# Isso seleciona uma faixa espec√≠fica de links na p√°gina.
elements = driver.find_elements(By.TAG_NAME, 'a')[444:449]

# Define uma vari√°vel elementName como uma lista vazia. Essa lista vai armazenar os nomes dos elementos capturados.
elementName = []

# Cria um la√ßo de repeti√ß√£o para iterar sobre os elementos da lista elements.
for i, element in enumerate(elements):

    try:

        # Clica no elemento atual da lista elements.
        elements[i].click()

        # Espera at√© que o elemento de "historic" esteja presente e clica nele. Este √© um link de navega√ß√£o.
        historic = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((
                By.XPATH, f'//*[@id="__next"]/div[2]/div[2]/div[2]/div[1]/nav/div[2]/ul/li[3]/a')))

        historic.click()

        # Espera at√© que o elemento de "date" (data) esteja vis√≠vel e clica nele.
        date = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((
                By.XPATH, '//*[@id="__next"]/div[2]/div[2]/div[2]/div[1]/div[2]/div[2]/div[2]/div[2]')))
        
        date.click()

        # Captura o campo de entrada (input) e interage com ele.
        inputElement = driver.find_elements(By.TAG_NAME, 'input')[1]  # Seleciona o segundo campo <input>
        inputElement.click()  # Clica no campo de input
        inputElement.clear()  # Limpa o valor do campo de input
        inputElement.send_keys('020012020')  # Preenche o campo de input com a data espec√≠fica (01/01/2020)

        # Espera at√© que o bot√£o de "apply" esteja presente e clica nele.
        apply = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((
                By.XPATH, f'//*[@id="__next"]/div[2]/div[2]/div[2]/div[1]/div[2]/div[2]/div[2]/div[3]/div[2]')))
        
        apply.click()

        # Aguarda 2 segundos para garantir que a p√°gina seja atualizada.
        time.sleep(2)
        
        # Captura a tabela na p√°gina ap√≥s a a√ß√£o e a armazena em tableList.
        table = driver.find_element(By.XPATH, '//*[@id="__next"]/div[2]/div[2]/div[2]/div[1]/div[2]/div[3]/table')
        tableList.append(table.get_attribute('outerHTML'))  # Adiciona o HTML da tabela √† lista tableList

        # Aguarda 2 segundos antes de voltar para a p√°gina anterior.
        time.sleep(2)

        # Volta para a p√°gina anterior (duas vezes).
        driver.back()
        driver.back()

        # Aguarda 2 segundos ap√≥s as navega√ß√µes.
        time.sleep(2)
        
        # Recarrega os elementos da lista elements, para garantir que a sele√ß√£o est√° atualizada.
        elements = driver.find_elements(By.TAG_NAME, 'a')[444:449]
        
        # Imprime uma mensagem informando que os dados foram capturados com sucesso.
        print(f'Dados da {elements[i].text} captados com sucesso!')
        
        # Adiciona o nome do elemento (text) √† lista elementName.
        elementName.append(elements[i].text)
        
        # Aguarda 2 segundos antes de continuar para o pr√≥ximo loop.
        time.sleep(2)
    
    except Exception as e:
        # Em caso de erro, imprime uma mensagem de erro.
        print(f'Erro na capta√ß√£o de dados do item {i} da tabela!')


Dados da Ibovespa captados com sucesso!
Dados da IBrX 50 captados com sucesso!
Dados da IBrX 100 captados com sucesso!
Dados da Brasil Amplo IBrA captados com sucesso!
Dados da MidLarge Cap MLCX captados com sucesso!


In [None]:
# Define um cabe√ßalho para as colunas do DataFrame que ser√° gerado. Esse cabe√ßalho corresponde aos dados que esperamos extrair da tabela.
headers = ['data', 'ultimo', 'abertura', 'maxima', 'minima', 'volume', 'variacao', 'acao']
# Cria uma lista vazia para armazenar as linhas de dados extra√≠das da tabela.
tableDb = []
# Inicia um loop para iterar sobre cada tabela armazenada na lista 'tableList'.
for index, tableData in enumerate(tableList):

    # Utiliza BeautifulSoup para analisar o HTML de cada tabela, permitindo a extra√ß√£o dos dados.
    soup = BeautifulSoup(tableData, 'html.parser')
    
    # Encontra todas as linhas da tabela (tr) no HTML da tabela.
    tableRows = soup.find_all('tr')
    

    # Itera sobre cada linha da tabela.
    for i, row in enumerate(tableRows):
        rowData = []  # Cria uma lista para armazenar os dados da linha atual.
        
        # Encontra todas as c√©lulas da linha (th e td), que cont√™m os dados.
        cells = row.find_all(['th', 'td'])
        
        # Itera sobre cada c√©lula e adiciona o conte√∫do (texto) da c√©lula √† lista de dados da linha.
        for c, cell in enumerate(cells):
            rowData.append(cell.get_text(strip=True))  # 'strip=True' remove espa√ßos em branco extras.
        
        if i == 0:
            # Se for a primeira itera√ß√£o da tabela correspondente a√ß√£o, a primeira linha ser√° gravada com o t√≠tulo do cabe√ßalho
            rowData.append('acao')
        else:
            # Se n√£o adiciona o nome do elemento (nome da a√ß√£o vindo da lista elementName) ao final dos dados da linha.
            rowData.append(elementName[index])
        
        # Adiciona a linha com os dados extra√≠dos √† lista 'tableDb'.
        tableDb.append(rowData)

# Verifica se a tabela cont√©m dados antes de prosseguir.
if tableDb:

    # Converte a lista 'tableDb' em um DataFrame do pandas, usando o cabe√ßalho definido anteriormente.
    df = pd.DataFrame(tableDb, columns=headers).drop_duplicates()  # Remove as linhas duplicadas, no caso, as que cont√©m o cabe√ßalho da tabela HTML.
    df = df[1:] # Remove a primeira linha
    # Converte a coluna 'data' para o formato de data, substituindo pontos por barras.
    df['data'] = df['data'].str.replace('.', '/')
    df['data'] = pd.to_datetime(df['data'], format='%d/%m/%Y')

    # Extra√ß√£o do m√™s e o ano da coluna 'data'.
    df['mes'] = df['data'].dt.strftime('%b')
    df['ano'] = df['data'].dt.strftime('%Y')

    # Remove o s√≠mbolo de porcentagem da coluna 'variacao' e converte os valores para um formato num√©rico.
    df['variacao'] = df['variacao'].str.replace('%', '')
    
    # Para as colunas num√©ricas ('ultimo', 'abertura', 'maxima', 'minima', 'variacao'), realiza o seguinte:
    for column in ['ultimo', 'abertura', 'maxima', 'minima', 'variacao']:
        df[column] = df[column].str.replace('.', '', regex=False)  # Remove os pontos (caso existam como separadores de milhar).
        df[column] = df[column].str.replace(',', '.', regex=False)  # Substitui v√≠rgulas por pontos (caso existam como separadores decimais).
        df[column] = pd.to_numeric(df[column])  # Converte os valores para num√©rico.

    # Converte a coluna 'variacao' de percentual para um n√∫mero decimal (dividindo por 100).
    df['variacao'] = df['variacao'] / 100

    # Remove a coluna 'volume', pois n√£o √© necess√°ria para an√°lise.
    df = df.drop(columns=['volume'])
# Salva os dados extra√≠dos e processados em um arquivo CSV (sem os √≠ndices das linhas) chamado 'Dados Investing.csv', usando ponto e v√≠rgula como separador.
df.to_csv('DadosInvesting.csv', sep=',', index=False)
