# Introdução

A obtenção de dados em formato CSV por meio de páginas web representa uma etapa crucial em projetos que demandam informações estruturadas para análises e tomada de decisão. Quando tais dados estão disponíveis apenas em plataformas online, sem acesso direto por APIs, técnicas de **web scraping** emergem como soluções eficazes para sua extração.

Neste contexto, a biblioteca **Selenium** é amplamente utilizada devido à sua capacidade de simular ações humanas em navegadores, como cliques, preenchimento de formulários e navegação entre páginas. Essa funcionalidade torna o Selenium uma ferramenta ideal para processos que envolvam múltiplas interações e a execução de etapas necessárias para acessar arquivos CSV disponibilizados online.

O presente trabalho tem como foco o uso do Selenium para automatizar o processo de download de arquivos CSV a partir de páginas web que demandam interações sequenciais. A abordagem contempla:

- **Preparação do ambiente e configuração do Selenium:** Estabelecendo os recursos necessários para o funcionamento da automação.
- **Identificação e manipulação de elementos web:** Técnicas para localizar e interagir com componentes como botões de download, menus suspensos e caixas de seleção.
- **Automatização do fluxo de extração:** Implementação de um processo iterativo e eficiente para acessar e baixar os arquivos CSV desejados.
- **Organização dos arquivos baixados:** Estratégias para sistematizar o armazenamento e facilitar o uso dos dados em etapas posteriores.

A relevância deste estudo está na aplicação prática do Selenium para superar barreiras frequentemente impostas por páginas dinâmicas ou interativas, oferecendo um método eficiente para a coleta de grandes volumes de dados. O trabalho, além de abordar aspectos técnicos, também enfatiza boas práticas no desenvolvimento de fluxos automatizados de web scraping.

Com esta abordagem, espera-se fornecer aos leitores uma visão clara das etapas necessárias para realizar o download automatizado de arquivos CSV, contribuindo para a execução de projetos baseados em dados extraídos da web de forma acessível e sistemática.


## Bibliotecas Utilizadas

Para a execução do projeto, utilizamos um conjunto de bibliotecas que oferecem suporte às funcionalidades necessárias, com destaque para a automação de navegadores, manipulação de dados e organização do fluxo de trabalho. Abaixo estão as bibliotecas empregadas e suas respectivas finalidades:

---

### **1. Selenium**
- **Descrição:** Biblioteca principal para automação de navegadores. Utilizada para realizar o web scraping, permitindo interações dinâmicas com páginas web.
- **Instalação:**
  ```bash
  pip install selenium

### **2. Pandas**
- **Descrição:** Biblioteca para manipulação e análise de dados, amplamente utilizada no processamento de informações estruturadas.
- **Instalação:**
  ```bash
  import pandas as pd


In [1]:
!python -m pip install --upgrade pip
!pip install -q selenium



In [2]:
import pandas as pd
import numpy as np
import os

In [3]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

## Funções Selenium:
---
### **1. `Service()`**
- **Função:** Inicializa um objeto `Service`, que gerencia o processo do ChromeDriver.
- **Uso:** O `Service` é utilizado para fornecer o caminho para o driver do Chrome, necessário para que o Selenium possa controlar o navegador.

---
### **2. `webdriver.ChromeOptions()`**
- **Função:** Cria um objeto `ChromeOptions`, que permite configurar opções adicionais para o navegador Chrome, como abrir em modo headless (sem interface gráfica), desabilitar extensões, entre outras.
- **Uso:** As opções são passadas ao `webdriver.Chrome()` para customizar o comportamento do navegador durante a automação.

---
### **3. `webdriver.Chrome()`**
- **Função:** Inicializa o driver do Chrome, utilizando o `Service` e as `options` configuradas.
- **Uso:** A linha cria uma instância do navegador Chrome com as configurações personalizadas (como o caminho do ChromeDriver e as opções de configuração do navegador).

---
### **4. `find_element()` e `find_elements()`**
- **Descrição:** São funções utilizadas para localizar elementos no DOM da página.
- **Diferencial:**
  - `find_element`: Retorna o primeiro elemento correspondente ao critério de busca.
  - `find_elements`: Retorna uma lista com todos os elementos correspondentes ao critério de busca.
- **Aplicações:** Localizar botões, campos de texto, links e outros componentes da página.
- **Exemplo:**
  ```python
  driver.find_element(By.ID, "submit-button")
  driver.find_elements(By.CLASS_NAME, "result-item

---
### **5. `get()`**
- **Descrição:** O método `get()` é utilizado para navegar até uma URL específica no navegador automatizado, carregando a página solicitada.
- **Uso:** Serve para acessar uma página web. O Selenium abrirá o navegador e aguardará até que a página seja completamente carregada antes de prosseguir com outras ações.
- **Sintaxe:**
  ```python
  driver.get("URL")

---
### **6. `click()`**
- **Descrição:** O método `click()` é utilizado para simular o clique de um usuário em um elemento da página, como um botão ou link.
- **Uso:** Permite interagir com elementos clicáveis na página, acionando eventos como submissões de formulários, navegação entre páginas ou ativação de menus.
- **Sintaxe:**
  ```python
  elemento.click()

In [90]:
service = Service()

options = webdriver.ChromeOptions()

driver = webdriver.Chrome(service=service, options=options)

## Funções Def

---

### Indicadores CSV

In [139]:
## 1_ baixar os indicadores
baixar_indicadores(acoes_ifnc) ## coloque a lista desejada

In [140]:
## 2_ Renomeia os indicadores
renomear_indicadores(acoes_ifnc) ## coloque a lista desejada

### Def indicadores

In [138]:
##Renomeando CSV de Indicadores
def renomear_indicadores(x):
    caminho = r'C:\Users\Caio Tascano\Downloads'  # Caminho da pasta

    # Nome do arquivo original
    arquivo_original = 'indicadores.csv'
    novo_nome = x[0] + '_indicadores.csv'

    caminho_antigo = os.path.join(caminho, arquivo_original)
    caminho_novo = os.path.join(caminho, novo_nome)

    os.rename(caminho_antigo, caminho_novo)

    # Iterando sobre a lista x
    for i in range(1, len(x)):
        # Nome do arquivo com base no índice
        arquivo = f'indicadores ({i}).csv'  # Nome do arquivo original
        
        # Novo nome baseado na lista
        novo_nome = x[i] + '_indicadores.csv'  # Novo nome da lista
        
        # Caminho completo dos arquivos antigos e novos
        caminho_antigo = os.path.join(caminho, arquivo)
        caminho_novo = os.path.join(caminho, novo_nome)
        
        # Renomeando o arquivo
        os.rename(caminho_antigo, caminho_novo)

##Baixando CSV de Indicadores
def baixar_indicadores(x):
    for codigos in x:
        url = f'https://www.dadosdemercado.com.br/acoes/{codigos}' ## url da página
        driver.get(url)
        botao_csv = driver.find_elements(By.XPATH, "//span[text()='Baixar em .csv']") ## Guardando localizando dos botões da página 
        botao_csv[0].click()

---

### Resultados CSV

In [152]:
## 1_ baixar os resultados
baixar_resultados(acoes_ifnc) ## coloque a lista desejada

In [153]:
## 2_ Renomeia os resultados
renomear_resultados(acoes_ifnc) ## coloque a lista desejada

### Def resultados

In [150]:
##Renomeando CSV de Indicadores
def renomear_resultados(x):
    caminho = r'C:\Users\Caio Tascano\Downloads'  # Caminho da pasta

    # Nome do arquivo original
    arquivo_original = 'resultados.csv'
    novo_nome = x[0] + '_resultados.csv'

    caminho_antigo = os.path.join(caminho, arquivo_original)
    caminho_novo = os.path.join(caminho, novo_nome)

    os.rename(caminho_antigo, caminho_novo)

    # Iterando sobre a lista x
    for i in range(1, len(x)):
        # Nome do arquivo com base no índice
        arquivo = f'resultados ({i}).csv'  # Nome do arquivo original
        
        # Novo nome baseado na lista
        novo_nome = x[i] + '_resultados.csv'  # Novo nome da lista
        
        # Caminho completo dos arquivos antigos e novos
        caminho_antigo = os.path.join(caminho, arquivo)
        caminho_novo = os.path.join(caminho, novo_nome)
        
        # Renomeando o arquivo
        os.rename(caminho_antigo, caminho_novo)

##Baixando CSV de Indicadores
def baixar_resultados(x):
    for codigos in x:
        url = f'https://www.dadosdemercado.com.br/acoes/{codigos}' ## url da página
        driver.get(url)
        botao_csv = driver.find_elements(By.XPATH, "//span[text()='Baixar em .csv']") ## Guardando localizando dos botões da página 
        botao_csv[2].click()

---

### Dividendos CSV

In [None]:
## 1_ baixar os dividendos
baixar_dividendos(acoes_ifnc) ## coloque a lista desejada

In [None]:
## 2_ Renomeia os resultados
renomear_resultados(acoes_ifnc) ## coloque a lista desejada

### Def dividendos

In [None]:
##Renomeando CSV de Indicadores
def renomear_resultados(x):
    caminho = r'C:\Users\Caio Tascano\Downloads'  # Caminho da pasta

    # Nome do arquivo original
    arquivo_original = 'resultados.csv'
    novo_nome = x[0] + '_resultados.csv'

    caminho_antigo = os.path.join(caminho, arquivo_original)
    caminho_novo = os.path.join(caminho, novo_nome)

    os.rename(caminho_antigo, caminho_novo)

    # Iterando sobre a lista x
    for i in range(1, len(x)):
        # Nome do arquivo com base no índice
        arquivo = f'resultados ({i}).csv'  # Nome do arquivo original
        
        # Novo nome baseado na lista
        novo_nome = x[i] + '_resultados.csv'  # Novo nome da lista
        
        # Caminho completo dos arquivos antigos e novos
        caminho_antigo = os.path.join(caminho, arquivo)
        caminho_novo = os.path.join(caminho, novo_nome)
        
        # Renomeando o arquivo
        os.rename(caminho_antigo, caminho_novo)

##Baixando CSV de Indicadores
def baixar_resultados(x):
    for codigos in x:
        url = f'https://www.dadosdemercado.com.br/acoes/{codigos}/dividendos' ## url da página
        driver.get(url)
        botao_csv = driver.find_elements(By.XPATH, "//span[text()='Baixar em .csv']") ## Guardando localizando dos botões da página 
        botao_csv[2].click()

## Listas com códigos das empresas:

---

In [10]:
## Todas os códigos
todos_codigos = acoes_ifnc + acoes_iee + acoes_saneamento + acoes_imat + acoes_imat + acoes_agro

### IFNC: Empresas financeiras 

In [4]:
## lista criada pela IA Gemini -Financeiras
acoes_ifnc = [
    "ABCB4",  # Banco ABC Brasil
    "B3SA3",  # B3
    "BBAS3",  # Banco do Brasil
    "BBDC3",  # Bradesco
    "BBDC4",  # Bradesco
    "BBSE3",  # BB Seguridade
    "BMGB4",  # Banco BMG
    "BPAC11", # BTG Pactual
    "BPAN4",  # Banco Pan
    "BRSR6", # Banrisul
    "ITSA4",  # Itaúsa
    "ITUB3",  # Itaú Unibanco
    "ITUB4",  # Itaú Unibanco
    "SANB11", # Santander Brasil
    "PSSA3", # Porto Seguro
    "CIEL3", # Cielo - *Pode ou não estar presente, verificar atualização*
    "IRBR3", # IRB Brasil RE - *Pode ou não estar presente, verificar atualização*
]

### IEE: Empresas do setor eletrico

In [5]:
acoes_iee = [
    "AURE3",  # Auren Energia
    "CEEB3", # CEEE-GT
    "CEEB5", # CEEE-GT
    "CLSC3",  # Celesc
    "CMIG3",  # Cemig
    "CMIG4",  # Cemig
    "CPFE3",  # CPFL Energia
    "CPLE3",  # Copel
    "CPLE6",  # Copel
    "EGIE3",  # Engie Brasil
    "ELET3",  # Eletrobras
    "ELET6",  # Eletrobras
    "ENBR3",  # Energias do Brasil (EDP Brasil)
    "EQTL3",  # Equatorial Energia
    "NEOE3", # Neoenergia
    "TAEE3", # Taesa
    "TAEE4", # Taesa
    "TAEE11" # Taesa
]

### Saneamento: Empresas do setor de saneamento

In [6]:
acoes_saneamento = [
    "SBSP3",  # Sabesp
    "SAPR3",  # Sanepar
    "SAPR4",  # Sanepar
    "SAPR11", # Sanepar
    "CSMG3",  # Copasa
    "AMBP3",  # Ambipar
    "CASN3" # Casan
]

### IMAT - Empresa do setor de materiais

In [7]:
acoes_imat = [
    "BRAP3", # BRADESPAR ON
    "BRAP4", # BRADESPAR PN
    "BRKM5", # BRASKEM PNA
    "CSNA3", # CSN ON
    "GGBR4", # GERDAU PN
    "GOAU4", # GERDAU MET PN
    "KLBN11", # KLABIN S/A UNT
    "USIM5", # USIMINAS PNA
    "VALE3", # VALE ON
]

### Setor Agro

In [9]:
acoes_agro = [
    "AGRO3", # BrasilAgro
    "SLCE3", # SLC Agrícola
    "SMTO3", # São Martinho
    "RAIZ4", # Raízen
    "BEEF3", # Minerva Foods
    "JBSS3", # JBS
    "MRFG3", # Marfrig Global Foods
    "BRFS3", # BRF
    "TTEN3", # 3tentos Agroindustrial
]

# Tratando Dados

---

## Limpando indicadores

In [None]:
## Caminho salvar
caminho_destino= 'C:\\Users\\Caio Tascano\\Desktop\\git_hub\\estudo_acoes\\dados_tratados\\indicadores'

## Criando DataFrame
df_indicadores = pd.DataFrame()

## Looping para acessar arquivos e criar variaveis
for csv in todos_codigos:
    ## Definido caminho no computador
    caminho_csv = f'C:\\Users\\Caio Tascano\\Desktop\\git_hub\\estudo_acoes\\indicadores_empresas\\{csv}_indicadores.csv'

    df_temp = pd.read_csv(caminho_csv)

    # Remove espaços em branco
    df_temp = df_temp.applymap(
        lambda x: x.strip() if isinstance(x, str) else x
    )

    # Retira pontos de milhares e substitui vírgulas por pontos
    df_temp = df_temp.applymap(
        lambda x: x.replace('.', '').replace(',', '.') if isinstance(x, str) else x
    )

    # Substitui '--%' e '--' por ''
    df_temp = df_temp.applymap(
        lambda x: x.replace('--%', '').replace('--', '') if isinstance(x, str) else x
    )

    # Retira 'mi' e multiplica por 1_000_000
    df_temp = df_temp.applymap(
        lambda x: float(x.replace('mi', '').strip()) * 1_000_000 if isinstance(x, str) and 'mi' in x else x
    )

    # Retira '%' e divide por 100
    df_temp = df_temp.applymap(
        lambda x: float(x.replace('%', '').strip()) / 100 if isinstance(x, str) and '%' in x else x
    )

    ## Variaveis globais EX: AGRO3_indicadores
    globals()[csv + '_indicadores'] = df_temp ## globals() Atribui variáveis ao espaço global. Dessa forma, cada CSV será carregado em uma variável separada, com o nome da variável sendo o nome do arquivo CSV.

    ## Salvando o DataFrame tratado no destino
    caminho_saida = f'{caminho_destino}\\{csv}_indicadores_tratados.csv'
    df_temp.to_csv(caminho_saida, index=False)  # Salva sem o índice adicional no CSV


## Limpando Resultados

In [None]:
## Caminho salvar
caminho_destino = 'C:\\Users\\Caio Tascano\\Desktop\\git_hub\\estudo_acoes\\dados_tratados\\resultados'

for csv in todos_codigos:
    ## Definido caminho no computador
    caminho_csv = f'C:\\Users\\Caio Tascano\\Desktop\\git_hub\\estudo_acoes\\resultados_empresas\\{csv}_resultados.csv'

    df_temp = pd.read_csv(caminho_csv)

    # Remove espaços em branco
    df_temp = df_temp.applymap(
        lambda x: x.strip() if isinstance(x, str) else x
    )

        # Retira pontos de milhares e substitui vírgulas por pontos
    df_temp = df_temp.applymap(
        lambda x: x.replace('.', '').replace(',', '.') if isinstance(x, str) else x
    )

        # Substitui '--%' e '--' por ''
    df_temp = df_temp.applymap(
        lambda x: x.replace('--%', '').replace('--', '') if isinstance(x, str) else x
    )

    # Retira 'Mil' e multiplica por 1_000
    df_temp = df_temp.applymap(
        lambda x: float(x.replace('Mil', '').strip()) * 1_000 if isinstance(x, str) and 'Mil' in x else x
    )

    # Retira 'M' e multiplica por 1_000_000
    df_temp = df_temp.applymap(
        lambda x: float(x.replace('M', '').strip()) * 1_000_000 if isinstance(x, str) and 'M' in x else x
    )

    # Retira 'B' e multiplica por 1_000_000
    df_temp = df_temp.applymap(
        lambda x: float(x.replace(' B', '').strip()) * 1_000_000_000 if isinstance(x, str) and ' B' in x else x
    )

    ## Variaveis globais EX: AGRO3_indicadores
    globals()[csv + '_resultados'] = df_temp ## globals() Atribui variáveis ao espaço global. Dessa forma, cada CSV será carregado em uma variável separada, com o nome da variável sendo o nome do arquivo CSV.

    ## Salvando o DataFrame tratado no destino
    caminho_saida = f'{caminho_destino}\\{csv}_resultados_tratados.csv'
    df_temp.to_csv(caminho_saida, index=False)  # Salva sem o índice adicional no CSV

---

# Estudos de Indicadores

---

### 9. **PEG Multianual**

#### Descrição
Utiliza o crescimento médio de lucros ao longo de vários anos para suavizar variações de curto prazo, proporcionando uma análise mais estável do potencial da empresa.

#### Fórmula
\[
PL / CARG
\]

- **P/L:** Relação entre o preço da ação e o lucro por ação.
- **CAGR (Taxa de Crescimento Composta Anual):** Taxa média de crescimento anual dos lucros ao longo de um período (geralmente 3 a 5 anos).

#### Quando Usar
- Empresas com resultados voláteis, mas que apresentam um crescimento consistente ao longo do tempo.
- Setores em que os lucros podem flutuar no curto prazo devido a fatores externos, como commodities ou tecnologia.

#### Vantagens
- Suaviza a volatilidade de curto prazo, dando uma visão mais clara do crescimento sustentável.
- Útil para identificar empresas que conseguem crescer mesmo em períodos de adversidade.

#### Limitações
- Depende da disponibilidade de dados históricos confiáveis.
- Pode não capturar mudanças recentes na trajetória de crescimento da empresa.

#### Exemplo Prático
Imagine uma empresa com:
- **P/L:** 20
- **CAGR dos Lucros (últimos 5 anos):** 10%

O PEG Multianual seria:
\[
PEG_{\text{multianual}} = \frac{20}{10} = 2
\]

- Um PEG Multianual acima de 1 sugere que o preço da ação pode estar elevado em relação ao seu crescimento médio.
