# Introdução

A obtenção de dados em formato CSV por meio de páginas web representa uma etapa crucial em projetos que demandam informações estruturadas para análises e tomada de decisão. Quando tais dados estão disponíveis apenas em plataformas online, sem acesso direto por APIs, técnicas de **web scraping** emergem como soluções eficazes para sua extração.

Neste contexto, a biblioteca **Selenium** é amplamente utilizada devido à sua capacidade de simular ações humanas em navegadores, como cliques, preenchimento de formulários e navegação entre páginas. Essa funcionalidade torna o Selenium uma ferramenta ideal para processos que envolvam múltiplas interações e a execução de etapas necessárias para acessar arquivos CSV disponibilizados online.

O presente trabalho tem como foco o uso do Selenium para automatizar o processo de download de arquivos CSV a partir de páginas web que demandam interações sequenciais. A abordagem contempla:

- **Preparação do ambiente e configuração do Selenium:** Estabelecendo os recursos necessários para o funcionamento da automação.
- **Identificação e manipulação de elementos web:** Técnicas para localizar e interagir com componentes como botões de download, menus suspensos e caixas de seleção.
- **Automatização do fluxo de extração:** Implementação de um processo iterativo e eficiente para acessar e baixar os arquivos CSV desejados.
- **Organização dos arquivos baixados:** Estratégias para sistematizar o armazenamento e facilitar o uso dos dados em etapas posteriores.

A relevância deste estudo está na aplicação prática do Selenium para superar barreiras frequentemente impostas por páginas dinâmicas ou interativas, oferecendo um método eficiente para a coleta de grandes volumes de dados. O trabalho, além de abordar aspectos técnicos, também enfatiza boas práticas no desenvolvimento de fluxos automatizados de web scraping.

Com esta abordagem, espera-se fornecer aos leitores uma visão clara das etapas necessárias para realizar o download automatizado de arquivos CSV, contribuindo para a execução de projetos baseados em dados extraídos da web de forma acessível e sistemática.


## Bibliotecas Utilizadas

Para a execução do projeto, utilizamos um conjunto de bibliotecas que oferecem suporte às funcionalidades necessárias, com destaque para a automação de navegadores, manipulação de dados e organização do fluxo de trabalho. Abaixo estão as bibliotecas empregadas e suas respectivas finalidades:

---

### **1. Selenium**
- **Descrição:** Biblioteca principal para automação de navegadores. Utilizada para realizar o web scraping, permitindo interações dinâmicas com páginas web.
- **Instalação:**
  ```bash
  pip install selenium

### **2. Pandas**
- **Descrição:** Biblioteca para manipulação e análise de dados, amplamente utilizada no processamento de informações estruturadas.
- **Instalação:**
  ```bash
  import pandas as pd


In [37]:
!python -m pip install --upgrade pip
!pip install -q selenium



In [40]:
import pandas as pd
import os
import csv

In [39]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

## Funções Selenium:
---
### **1. `Service()`**
- **Função:** Inicializa um objeto `Service`, que gerencia o processo do ChromeDriver.
- **Uso:** O `Service` é utilizado para fornecer o caminho para o driver do Chrome, necessário para que o Selenium possa controlar o navegador.

---
### **2. `webdriver.ChromeOptions()`**
- **Função:** Cria um objeto `ChromeOptions`, que permite configurar opções adicionais para o navegador Chrome, como abrir em modo headless (sem interface gráfica), desabilitar extensões, entre outras.
- **Uso:** As opções são passadas ao `webdriver.Chrome()` para customizar o comportamento do navegador durante a automação.

---
### **3. `webdriver.Chrome()`**
- **Função:** Inicializa o driver do Chrome, utilizando o `Service` e as `options` configuradas.
- **Uso:** A linha cria uma instância do navegador Chrome com as configurações personalizadas (como o caminho do ChromeDriver e as opções de configuração do navegador).

---
### **4. `find_element()` e `find_elements()`**
- **Descrição:** São funções utilizadas para localizar elementos no DOM da página.
- **Diferencial:**
  - `find_element`: Retorna o primeiro elemento correspondente ao critério de busca.
  - `find_elements`: Retorna uma lista com todos os elementos correspondentes ao critério de busca.
- **Aplicações:** Localizar botões, campos de texto, links e outros componentes da página.
- **Exemplo:**
  ```python
  driver.find_element(By.ID, "submit-button")
  driver.find_elements(By.CLASS_NAME, "result-item

---
### **5. `get()`**
- **Descrição:** O método `get()` é utilizado para navegar até uma URL específica no navegador automatizado, carregando a página solicitada.
- **Uso:** Serve para acessar uma página web. O Selenium abrirá o navegador e aguardará até que a página seja completamente carregada antes de prosseguir com outras ações.
- **Sintaxe:**
  ```python
  driver.get("URL")

---
### **6. `click()`**
- **Descrição:** O método `click()` é utilizado para simular o clique de um usuário em um elemento da página, como um botão ou link.
- **Uso:** Permite interagir com elementos clicáveis na página, acionando eventos como submissões de formulários, navegação entre páginas ou ativação de menus.
- **Sintaxe:**
  ```python
  elemento.click()

In [80]:
service = Service()

options = webdriver.ChromeOptions()

driver = webdriver.Chrome(service=service, options=options)

## Funções Def

---

### Indicadores CSV

In [88]:
## 1_ baixar os indicadores
baixar_indicadores(todas) ## coloque a lista desejada

In [89]:
## 2_ Renomeia os indicadores
renomear_indicadores(todas) ## coloque a lista desejada

### Def indicadores

In [57]:
##Renomeando CSV de Indicadores
def renomear_indicadores(x):
    caminho = r'C:\Users\Caio Tascano\Downloads'  # Caminho da pasta

    # Nome do arquivo original
    arquivo_original = 'indicadores.csv'
    novo_nome = x[0] + '_indicadores.csv'

    caminho_antigo = os.path.join(caminho, arquivo_original)
    caminho_novo = os.path.join(caminho, novo_nome)

    os.rename(caminho_antigo, caminho_novo)

    # Iterando sobre a lista x
    for i in range(1, len(x)):
        # Nome do arquivo com base no índice
        arquivo = f'indicadores ({i}).csv'  # Nome do arquivo original
        
        # Novo nome baseado na lista
        novo_nome = x[i] + '_indicadores.csv'  # Novo nome da lista
        
        # Caminho completo dos arquivos antigos e novos
        caminho_antigo = os.path.join(caminho, arquivo)
        caminho_novo = os.path.join(caminho, novo_nome)
        
        # Renomeando o arquivo
        os.rename(caminho_antigo, caminho_novo)

##Baixando CSV de Indicadores
def baixar_indicadores(x):
    for codigos in x:
        url = f'https://www.dadosdemercado.com.br/acoes/{codigos}' ## url da página
        driver.get(url)
        botao_csv = driver.find_elements(By.XPATH, "//span[text()='Baixar em .csv']") ## Guardando localizando dos botões da página 
        botao_csv[0].click()

---

### Resultados CSV

In [86]:
## 1_ baixar os resultados
baixar_resultados(todas) ## coloque a lista desejada

In [87]:
## 2_ Renomeia os resultados
renomear_resultados(todas) ## coloque a lista desejada

### Def resultados

In [62]:
##Renomeando CSV de Indicadores
def renomear_resultados(x):
    caminho = r'C:\Users\Caio Tascano\Downloads'  # Caminho da pasta

    # Nome do arquivo original
    arquivo_original = 'resultados.csv'
    novo_nome = x[0] + '_resultados.csv'

    caminho_antigo = os.path.join(caminho, arquivo_original)
    caminho_novo = os.path.join(caminho, novo_nome)

    os.rename(caminho_antigo, caminho_novo)

    # Iterando sobre a lista x
    for i in range(1, len(x)):
        # Nome do arquivo com base no índice
        arquivo = f'resultados ({i}).csv'  # Nome do arquivo original
        
        # Novo nome baseado na lista
        novo_nome = x[i] + '_resultados.csv'  # Novo nome da lista
        
        # Caminho completo dos arquivos antigos e novos
        caminho_antigo = os.path.join(caminho, arquivo)
        caminho_novo = os.path.join(caminho, novo_nome)
        
        # Renomeando o arquivo
        os.rename(caminho_antigo, caminho_novo)

##Baixando CSV de Indicadores
def baixar_resultados(x):
    for codigos in x:
        url = f'https://www.dadosdemercado.com.br/acoes/{codigos}' ## url da página
        driver.get(url)
        botao_csv = driver.find_elements(By.XPATH, "//span[text()='Baixar em .csv']") ## Guardando localizando dos botões da página 
        botao_csv[2].click()

---

### Dividendos CSV

In [None]:
baixar_dividendos(todas)

### Def dividendos

In [52]:
def baixar_dividendos(x):
    for codigo in x:
        url = f'https://www.dadosdemercado.com.br/acoes/{codigo}/dividendos' ## url da página
        driver.get(url)

        # Localize a tabela que contém o <th>Ano</th> na primeira célula
        table = driver.find_element(By.XPATH, '//table[thead//th[text()="Ano"]]')

        # Localize todas as linhas da tabela (excluindo o cabeçalho)
        rows = table.find_elements(By.XPATH, './/tr')

        # Lista para armazenar os dados da tabela
        tabela_dados = []

        # Itere pelas linhas e extraia as células (elementos <td>)
        for row in rows:
            cells = row.find_elements(By.TAG_NAME, 'td')
            
            # Verifique se há 4 células (ano, dividendos, cotação, DY)
            if len(cells) == 4:
                year = cells[0].text
                dividend = cells[1].text
                price = cells[2].text
                dy = cells[3].text
                
                # Armazenar os valores em um dicionário
                linha_dados = {
                    "Ano": year,
                    "Dividendos": dividend,
                    "Cotação": price,
                    "DY": dy
                }
                
                # Adicionar o dicionário à lista
                tabela_dados.append(linha_dados)

            ## Salva como CSV na pasta
            # Caminho da pasta onde o arquivo será salvo
            caminho_pasta = r'C:\Users\Caio Tascano\Desktop\git_hub\estudo_acoes\dividendos_empresas'

            # Nome do arquivo CSV
            nome_arquivo = f"{codigo}.csv"

            # Caminho completo do arquivo CSV
            caminho_arquivo = os.path.join(caminho_pasta, nome_arquivo)

            # Cabeçalhos para o CSV
            cabecalhos = ["Ano", "Dividendos", "Cotação", "DY"]

            # Abrir o arquivo para escrever
            with open(caminho_arquivo, mode='w', newline='', encoding='utf-8') as file:
                writer = csv.DictWriter(file, fieldnames=cabecalhos)
                
                # Escrever o cabeçalho
                writer.writeheader()
                
                # Escrever os dados da tabela
                writer.writerows(tabela_dados)

            print(f"Arquivo CSV salvo em: {caminho_arquivo}")

In [30]:
tabela_dados

[{'Ano': '2025',
  'Dividendos': '7,902438',
  'Cotação': 'R$\u202f36,68',
  'DY': '21,54%'},
 {'Ano': '2024',
  'Dividendos': '7,902438',
  'Cotação': 'R$\u202f36,19',
  'DY': '21,84%'},
 {'Ano': '2023',
  'Dividendos': '7,328299',
  'Cotação': 'R$\u202f37,24',
  'DY': '19,68%'},
 {'Ano': '2022',
  'Dividendos': '16,778586',
  'Cotação': 'R$\u202f24,50',
  'DY': '68,48%'},
 {'Ano': '2021',
  'Dividendos': '5,653232',
  'Cotação': 'R$\u202f28,45',
  'DY': '19,87%'},
 {'Ano': '2020',
  'Dividendos': '0,000449',
  'Cotação': 'R$\u202f28,34',
  'DY': '0,00%'},
 {'Ano': '2019',
  'Dividendos': '0,641436',
  'Cotação': 'R$\u202f30,18',
  'DY': '2,13%'},
 {'Ano': '2018',
  'Dividendos': '0,200000',
  'Cotação': 'R$\u202f22,68',
  'DY': '0,88%'},
 {'Ano': '2014',
  'Dividendos': '1,027970',
  'Cotação': 'R$\u202f10,02',
  'DY': '10,26%'},
 {'Ano': '2012',
  'Dividendos': '0,527100',
  'Cotação': 'R$\u202f19,52',
  'DY': '2,70%'},
 {'Ano': '2011',
  'Dividendos': '0,876900',
  'Cotação': 'R$\u

Unnamed: 0,Ano,Dividendos,Cotação,DY


---

## Listas com códigos das empresas:

In [106]:
## variavel com todas as listas de códigos
todas = acoes_ifnc + acoes_iee + acoes_saneamento + acoes_imat + acoes_agro

### IFNC: Empresas financeiras 

In [70]:
## lista criada pela IA Gemini -Financeiras
acoes_ifnc = [
    "ABCB4",  # Banco ABC Brasil
    "B3SA3",  # B3
    "BBAS3",  # Banco do Brasil
    "BBDC3",  # Bradesco
    "BBDC4",  # Bradesco
    "BBSE3",  # BB Seguridade
    "BMGB4",  # Banco BMG
    "BPAC11", # BTG Pactual
    "BPAN4",  # Banco Pan
    "BRSR6", # Banrisul
    "ITSA4",  # Itaúsa
    "ITUB3",  # Itaú Unibanco
    "ITUB4",  # Itaú Unibanco
    "SANB11", # Santander Brasil
    "PSSA3", # Porto Seguro
    "CIEL3", # Cielo - *Pode ou não estar presente, verificar atualização*
    "IRBR3", # IRB Brasil RE - *Pode ou não estar presente, verificar atualização*
]

### IEE: Empresas do setor eletrico

In [71]:
acoes_iee = [
    "AURE3",  # Auren Energia
    "CEEB3", # CEEE-GT
    "CEEB5", # CEEE-GT
    "CLSC3",  # Celesc
    "CMIG3",  # Cemig
    "CMIG4",  # Cemig
    "CPFE3",  # CPFL Energia
    "CPLE3",  # Copel
    "CPLE6",  # Copel
    "EGIE3",  # Engie Brasil
    "ELET3",  # Eletrobras
    "ELET6",  # Eletrobras
    "ENBR3",  # Energias do Brasil (EDP Brasil)
    "EQTL3",  # Equatorial Energia
    "NEOE3", # Neoenergia
    "TAEE3", # Taesa
    "TAEE4", # Taesa
    "TAEE11" # Taesa
]

### Saneamento: Empresas do setor de saneamento

In [82]:
acoes_saneamento = [
    "SBSP3",  # Sabesp
    "SAPR3",  # Sanepar
    "SAPR4",  # Sanepar
    "SAPR11", # Sanepar
    "CSMG3",  # Copasa
    "AMBP3",  # Ambipar
    "CASN3" # Casan
]

### IMAT - Empresa do setor de materiais

In [73]:
acoes_imat = [
    "BRAP3", # BRADESPAR ON
    "BRAP4", # BRADESPAR PN
    "BRKM5", # BRASKEM PNA
    "CSNA3", # CSN ON
    "GGBR4", # GERDAU PN
    "GOAU4", # GERDAU MET PN
    "KLBN11", # KLABIN S/A UNT
    "USIM5", # USIMINAS PNA
    "VALE3", # VALE ON
]

### Setor Agro

In [74]:
acoes_agro = [
    "AGRO3", # BrasilAgro
    "SLCE3", # SLC Agrícola
    "SMTO3", # São Martinho
    "RAIZ4", # Raízen
    "BEEF3", # Minerva Foods
    "JBSS3", # JBS
    "MRFG3", # Marfrig Global Foods
    "BRFS3", # BRF
    "TTEN3", # 3tentos Agroindustrial
]

---

## Tratando os dados

### Limpando CSV dos indicadores e guardando em dicionário (df_indicadore)

In [226]:
## DataFrame de df_indicadores
df_indicadores = dict()

# Iterar sobre todos os códigos de ações
for cod_ind in todas:
    # Caminho do arquivo CSV para cada código
    arquivo_csv = f'C:\\Users\\Caio Tascano\\Desktop\\git_hub\\estudo_acoes\\indicadores_empresas\\{cod_ind}_indicadores.csv'

    # Ler o arquivo CSV
    df = pd.read_csv(arquivo_csv)

    # Aplicar a limpeza nas células de string
    df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str) else x)

    df_indicadores[cod_ind] = df

  df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str) else x)
  df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str) else x)
  df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str) else x)
  df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str) else x)
  df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str) else x)
  df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str) else x)
  df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str) else x)
  df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str) else x)
  df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str) else x)
  df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str

### Limpando CSV dos resultados e guardando em dicionário (df_resultados)

In [227]:
## DataFrame de df_resultados
df_resultados = dict()

# Iterar sobre todos os códigos de ações
for cod_ind in todas:
    # Caminho do arquivo CSV para cada código
    arquivo_csv = f'C:\\Users\\Caio Tascano\\Desktop\\git_hub\\estudo_acoes\\resultados_empresas\\{cod_ind}_resultados.csv'

    # Ler o arquivo CSV
    df = pd.read_csv(arquivo_csv)

    # Aplicar a limpeza nas células de string
    df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str) else x)

    df_resultados[cod_ind] = df

  df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str) else x)
  df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str) else x)
  df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str) else x)
  df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str) else x)
  df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str) else x)
  df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str) else x)
  df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str) else x)
  df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str) else x)
  df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str) else x)
  df = df.applymap(lambda x: str(x).replace('\n', '').replace(' ', '') if isinstance(x, str

---

### Substituindo em todos o valores ',' por '.'

In [228]:
## Aplicando looping no dicionário junto com o applymap para substituir . e ,
for chave_res in df_resultados:
    df_resultados[chave_res] = df_resultados[chave_res].applymap(lambda x: str(x).replace('.', '').replace(',', '.'))

for chave_ind in df_indicadores:
    df_indicadores[chave_ind] = df_indicadores[chave_ind].applymap(lambda x: str(x).replace('.', '').replace(',', '.'))

  df_resultados[chave_res] = df_resultados[chave_res].applymap(lambda x: str(x).replace('.', '').replace(',', '.'))
  df_indicadores[chave_ind] = df_indicadores[chave_ind].applymap(lambda x: str(x).replace('.', '').replace(',', '.'))


In [238]:
## Transformando o valores com M em milhões
df_resultados['AGRO3'] = df_resultados['AGRO3'].applymap(lambda x: str(x).replace('il', ''))

  df_resultados['AGRO3'] = df_resultados['AGRO3'].applymap(lambda x: str(x).replace('il', ''))


In [254]:
df_resultados['AGRO3'].T.iloc[2].apply(lambda x: float(str(x)))

0     506.04
1    -226.57
2     279.47
3     -38.15
4     241.32
5     -36.65
6     204.67
7      28.18
8     232.85
9       0.00
10    232.85
11      0.00
12      0.00
Name: 2T2024, dtype: float64

In [241]:
type(df_resultados['AGRO3'].iloc[0,5])

str

In [158]:
def converter_para_float(valor):
    if isinstance(valor, str):
        # Remove o ponto (.) de milhar e substitui a vírgula (,) por ponto (.)
        valor = valor.replace('.', '').replace(',', '.')
        return float(valor)
    return valor

Remoção do Sufixo:

A função verifica se o valor contém o sufixo "mi".
Se sim, remove o sufixo e o espaço invisível ( ).
Substituição de Vírgula por Ponto:

A vírgula é substituída por um ponto para converter o número corretamente.
Multiplicação por 1 Milhão:

O número limpo é convertido para um float e multiplicado por 1 milhão.

In [None]:
def tratar_milhoes(valor):
    if isinstance(valor, str) and 'mi' in valor:
        # Remover sufixo e espaço invisível, substituir vírgula por ponto
        valor = valor.replace('mi', '').replace(' ', '').replace(',', '.')
        return float(valor) * 1_000_000
    return valor