<a href="https://colab.research.google.com/github/pedrolosch2001/Proj_Quant_Econdata_2024.1/blob/main/Trabalho_INF.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Web scraping em Python
### INF1515 - Análise de dados para Economia
 Philippe Bernardes Lebailly - 2310423  
 Pedro Vieira Maciel Cardozo Lösch - 2311109  

---

<br/>

## Introdução
Nos últimos anos, a disponibilidade de APIs aumentou significativamente, facilitando o acesso a dados estruturados de diversas fontes. No entanto, ainda é muito comum nos depararmos com dados que estão disponíveis apenas em sites, sem uma API correspondente para acessá-los de maneira eficiente. Nessas situações, o web scraping se torna uma ferramenta essencial.

O web scraping é a prática de extrair dados de sites de forma automatizada, transformando dados não estruturados ou semi-estruturados em informações úteis para análise. Isso é particularmente importante na economia, onde a disponibilidade e a análise de dados atualizados podem fornecer insights valiosos sobre tendências de mercado, comportamento do consumidor, e outros indicadores econômicos.

Neste trabalho, vamos explorar o web scraping como uma técnica fundamental para coleta de dados na web, estruturando a apresentação em três partes principais.  

 Na primeira parte, abordaremos a estrutura dos sites, explicando o funcionamento do código HTML e sua ligação com arquivos CSS e JavaScript. A segunda parte será dedicada à introdução dos pacotes Selenium e BeautifulSoup, que são amplamente utilizados para automação de navegação e extração de dados na web. Finalmente, na terceira parte, apresentaremos dois exemplos práticos de web scraping: coleta de preços na Amazon e extração da tabela de juros do swap DI-PRE no site da B3.

Ao final deste trabalho, espera-se que o leitor desenvolva uma compreensão básica sobre como funciona o web scraping, as ferramentas disponíveis para realizá-lo, e como aplicá-lo em situações práticas para obter dados valiosos de forma eficiente.

# 1 - A estrutura de um site

## Introdução ao HTML   

### História
O HTML - *HyperText Markup Language* - é uma linguagem de marcação utilizada na construção de páginas da web. Foi desenvolvida originalmente pelo físico britânico Tim Berners-Lee, em 1989, no CERN (Organização Europeia para a Pesquisa Nuclear), para facilitar a comunicação e disseminação de pesquisas entre ele e sua equipe. A primeira versão foi lançada em 1991, apresentando regras sintáticas simples e flexíveis.

Com o passar dos anos, novas versões da tecnologia foram desenvolvidas, tornando a sintaxe da linguagem mais estruturada e rigorosa à medida que se tornava cada vez mais implementada em publicações na internet. Nos anos 2000, o HTML tornou-se uma norma internacional para a criação de websites, padronizado pelo W3C (World Wide Web Consortium).

Hoje em dia, qualquer página que acessamos na internet possui um código HTML. A versão mais recente é o HTML5, lançada em 2014, que trouxe várias melhorias significativas, incluindo novos elementos, atributos, e comportamentos, além de suporte aprimorado para multimídia e gráficos sem a necessidade de plugins adicionais.

&nbsp;

### Tags
O HTML é composto por elementos marcadores, chamados *tags*, que são palavras entre os sinais `<` `>`. Os marcadores são o comando de formatação da linguagem.  
Cada tag pode conter atributos, valores e filhos (outra tag ou um texto).  
Veja o exemplo de um elemento html simples:  
```
<br>
```  
A tag acima é utilizada para indicar quebra de linha (em inglês, *break row*) e não possui atributos, valores e nem  filhos. É uma prática comum escrever elementos desse tipo com uma barra ao final, indicando fechamento: `<br/>`. Entretanto, para tags simples, como essa, isso é opcional.   
O exemplo abaixo mostra uma tag mais complexa, com atributos, valores e filhos:  
```
<a href="https://www.youtube.com/" target="_self"> <p>Youtube</p> </a>
```  
- `<p>` é um marcador que define um parágrafo.
- `<a>` é um marcador que define um *hyperlink* para outra página.  
- `href` é o atributo da tag `<a>` que define a *url* a qual o link faz referência. Cada tag possui atributos específicos.
- `target` é o atributo que define como a hiperligação será aberta. O argumento `"_self"` define que o link será aberto na mesma guia da página atual.  
- `/` é o elemento de fechamento.  

Perceba que as tags `<a>` e `<p>` possuem filhos - o texto "Youtube" está **dentro** de `<p>`, que por sua vez está **dentro** de `<a>`-  e marcadores de fechamento correspondentes: `</a>` e `</p>`. Isso é necessário porque as tags servem para formatar uma porção do documento, e, assim, precisamos indicar exatamente o início e o fim do conteúdo que receberá essa formatação específica.  
Se fosse aberto em um site da internet, o código acima apareceria da seguinte forma:  

---
<a href="https://www.youtube.com/" target="_self"> <p>Youtube</p> </a>  

---
&nbsp;

### Estrutura básica  
Um documento HTML básico é estruturado da seguinte forma:
```
<!DOCTYPE html>
<html lang="pt-br">
<head>
    <meta charset="utf-8"/>
    <title>Título da Página</title>
    <link rel="stylesheet" type="text/css" href="estilo.css"/>
    <script type="text/javascript" src="funcoes.js"></script>
</head>

<body>
  <div class="section">
    <h1 id="titulo-principal">Bem-vindo ao HTML</h1>
    <p>Este é um parágrafo de exemplo. Repare que, como estamos em um <span class="italico">Jupyter notebook</span>, a tag <code> &lt;title&gt; </code> apareceu junto ao conteúdo da página, mas normalmente ela apareceria apenas na barra de navegação do navegador.
    </p>
    <a href="https://www.econ.puc-rio.br/" target="_self"> <p>Exemplo de link</p> </a>
    </div>
</body>
</html>

```

Elementos Comuns  
- `<!DOCTYPE html>`: Declaração que define o tipo de documento e a versão do HTML.  
- `<html>`: Elemento raiz que contém todo o conteúdo da página. O atributo `lang` especifica o idioma do documento. `"pt-br"` define-o como português brasileiro.
- `<head>`: Contém metadados sobre o documento, como o título, links para CSS, scripts, etc.  
- `<body>`: Contém todo o conteúdo visível da página, como textos, imagens, links, etc.  
- `<h1>` a `<h6>`: Tags de cabeçalho, usadas para títulos e subtítulos, com `<h1>` sendo o mais importante e `<h6>` o menos.      
- `<div>`: Define uma divisão ou seção de um documento. É utilizada para agrupar blocos de conteúdo, facilitando a aplicação de estilos com CSS e manipulação com JavaScript.  
- `<span>`: elemento genérico que não representa nada por natureza. É útil para agrupar elementos para fins de estilo, usando os atributos `class`e `id`. Falaremos mais sobre adiante.

Evidentemente, a grande maioria dos sites possuem códigos bem maiores dos que o apresentado aqui. Se o documento HTML acima fosse acessado na internet, ele seria interpretado pelo navegador do usuário e geraria a seguinte formatação:  

&nbsp;

---
<!DOCTYPE html>
<html lang="pt-br">
<head>
    <meta charset="utf-8"/>
    <title>Título da Página</title>
    <link rel="stylesheet" type="text/css" href="estilo.css"/>
    <script type="text/javascript" src="funcoes.js"></script>
</head>

<body>
  <div class="section">
    <h1 id="titulo-principal">Bem-vindo ao HTML</h1>
    <p>Este é um parágrafo de exemplo. Repare que, como estamos em um <span class="italico" style="font-style:italic;">Jupyter notebook</span>, a tag <code>&lt;title&gt;</code> apareceu junto ao conteúdo da página, mas normalmente ela apareceria apenas na barra de navegação do navegador.</p>
    <a href="https://www.econ.puc-rio.br/" target="_self"> <p>Exemplo de link</p> </a>
    </div>
</body>
</html>  

---  

&nbsp;

### A seção **head**
A tag `<head>` contém apenas os parâmetros operacionais do site, ou seja, informações que ajudam a definir a estrutura e o comportamento da página, mas que não são exibidas diretamente ao usuário. Ela inclui metadados, links para arquivos de estilo CSS, scripts JavaScript, e outras configurações importantes.  
Examinemos mais cuidadosamente esse componente do HTML:
```
<head>
    <meta charset="utf-8"/>
    <title>Título da Página</title>
    <link rel="stylesheet" type="text/css" href="estilo.css"/>
    <script type="text/javascript" src="funcoes.js"></script>
</head>`
```  
- `<meta>`: Fornece metadados sobre o documento, como o conjunto de caracteres utilizado (charset="UTF-8"), que é crucial para garantir a correta exibição de caracteres especiais.  
- `<title>`: Define o título da página, que aparece na aba do navegador. Esse título também é usado pelos motores de busca para exibir a página nos resultados de busca.  
- `<link>`: Relaciona o documento HTML com recursos externos, como arquivos CSS. O exemplo acima (`<link rel="stylesheet" type="text/css" href="estilo.css">`) carrega um arquivo CSS que define os estilos visuais da página.  
- `<script>`: Importa arquivos JavaScript que adicionam interatividade e comportamento dinâmico à página.  

Os atributos `href` na tag `<link>` e  `src` na tag `<script>` fazem referência aos documentos CSS e Javascript que também compõem a página da web, respectivamente. No exemplo acima, *estilo.css* é o documento CSS e *funcoes.js* o documento Javascript.

&nbsp;

### A relação do HTML com o CSS e o Javascript
O trio *HTML*, *CSS* e *Javascript* forma a base das páginas na internet, cada um desempenhando um papel único no desenvolvimentos dos sites.
**CSS** (*Cascading Style Sheets*) e **JavaScript** são as tecnologias fundamentais para o design e a funcionalidade de páginas web. Eles são frequentemente utilizados para identificar e manipular elementos HTML através dos atributos `class` e `id`.  

O CSS é utilizado para estilizar elementos HTML, adicionando cores, fontes, espaçamento, diferentes tamanhos de fonte e disposições dos conteúdos na página. Veja um exemplo de documento *CSS* :

*CSS*
```
body {
    color: rgba(0,0,0,1);  
    font-family: Arial, sans-serif;  
    text-align: justify;
    text-indent: 50px;
}
header#cabecalho {
    border-bottom: 1px #606060 solid;
    height: 150px;
    background: url("../_imagens/glass-logo-peq.jpg") no-repeat 0px 80px;
}
 img.img-dir {
            display: block;
            float: right;
            margin-left: 5px;
        }
```

&nbsp;

O Javascript, por outro lado, é uma linguagem de **programação**  utilizada para manipular elementos HTML dinamicamente, acrescentando interatividade ao site. Abaixo é apresentado um exemplo de código *Javascript*:

*JavaScript*
```
document.getElementById('changeText').addEventListener('click', function() {
    document.getElementById('intro').textContent = 'Texto alterado!';
});
```

&nbsp;

Não é necessário ter conhecimento profundo de CSS e JavaScript para fazer web scraping. O que nos interessa aqui é a forma como essas duas tecnologias se relacionam com o HTML.

Enquanto é fácil diferenciar tags como `<h1>` e `<p>` devido às suas funções distintas, um mesmo documento HTML pode conter dezenas das mesmas tags. Como um desenvolvedor diferenciaria uma tag `<p>` das outras para customizar um parágrafo específico de maneira distinta?   
A resposta está nos atributos `class` e `id`.

&nbsp;

### O atributo *Class*
- `class` permite que você atribua uma ou mais classes a um elemento HTML. Classes são usadas para aplicar os estilos CSS e selecionar elementos com JavaScript.  
```
<div class="container">
    <p class="text">Este é um parágrafo.</p>
    <p class="text">Este é outro parágrafo.</p>
</div>
```
No exemplo acima, ambos os parágrafos compartilham a classe `text`, permitindo que sejam estilizados da mesma maneira usando o CSS:
```
.text {
    color: blue;
    font-size: 16px;
}
```
O ponto antes de *text* no CSS indica que estamos tratando de uma class.  

Imagine que você queira coletar preços de produtos no site de uma varejista. Geralmente, os preços dos produtos costumam ter todos a mesma formatação. É provável, portanto, que compartilhem o mesmo atributo `class`.

&nbsp;

### O atributo *id*
- `id` é utilizado para identificar um único elemento de forma única dentro do documento HTML. Diferente do class, o `id` deve ser único em toda a página.  
```
<div id="header">
    <h1>Título Principal</h1>
</div>
```
Neste exemplo, o id *header* identifica de forma única o contêiner do título principal. Um estilo CSS específico pode ser aplicado apenas a esse elemento:
```
#header {
    background-color: #f0f0f0;
    padding: 20px;
}
```
A cerquilha antes de *header* no CSS indica que estamos tratando de um id.

Um mesmo elemento HTML pode ter, simultaneamente, uma `class` e um `id`:  

```
<img class="foto-produto" id="iphone" src="iphone10.jpg"/>
```
&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; A tag `<img>` insere uma imagem na página.  

&nbsp;


#### Relevância para Web Scraping
Entender a estrutura do HTML e como o CSS e o JavaScript interagem com ele é crucial para o web scraping. Os atributos `class`  e `id` são especialmente úteis para identificar e extrair informações específicas de um site. Ferramentas de web scraping, como BeautifulSoup e Selenium, utilizam esses atributos para localizar elementos de interesse no código HTML.  

<br>
<br>

### A seção **body**
Todo o conteúdo de um website que é exibido ao usuário está dentro da tag `<body>`, de modo que essa seção do código HTML será o objeto de nossa atenção a partir de agora.  
Antes de programarmos nosso primeiro scraper, é útil conhecer mais algumas tags com as quais nos depararemos em muitos sites, especialmente no contexto da Economia.  

<br>

#### **Listas**  


- `<ul>`: Define uma lista não ordenada (*unordered list*). Possui como filhos as tags `<li>`, que conterão os itens da lista (*list items*).  
Exemplo de lista não ordenada em HTML:  
```
<ul>
    <li>Banana</li>
    <li>Maçã</li>
    <li>Pera</li>
</ul>
```
Quando interpretado pelo navegador, o código acima é exibido da seguinte forma:  
---
<ul>
    <li>Banana</li>
    <li>Maçã</li>
    <li>Pera</li>
</ul>

---
Por padrão, a lista é exibida usando pontos, mas, através do atributo `type` ou usando CSS, é possível usar inúmeras figuras, até mesmo emojis.  

<br>

- `<ol>`: Define uma lista ordenada com números (*ordered list*). Também possui como filhos as tags `<li>`.  
Exemplo:  
```
<ol>
    <li>Banana</li>
    <li>Maçã</li>
    <li>Pera</li>
</ol>
```
Exibição:  
---
<ol>
    <li>Banana</li>
    <li>Maçã</li>
    <li>Pera</li>
</ol>

---

<br>

#### **Tabelas**  
Muitos dados são exibidos através de tabelas. A estrutura básica de tabelas em HTML é apresentada abaixo:  
```
<table>
    <tr>
        <th>Coluna 1</th>
        <th>Coluna 2</th>
    </tr>
    <tr>
        <td>Dados 1</td>
        <td>Dados 2</td>
    </tr>
    <tr>
        <td>Dados 3</td>
        <td>Dados 4</td>
    </tr>
</table>
```  
- `<table>`: Elemento que encapsula toda a tabela.  
- `<tr>`: Cada instância dessa tag representa uma linha da tabela (*table row*). Todas as células de dados e cabeçalhos são colocados dentro desse elemento.  
- `<th>`: Representa uma célula de cabeçalho (*table header*).
- `<td>`: Representa uma célula de dados (*table data*). As células de dados contém o conteúdo real da tabela e estão localizadas dentro de uma linha `<tr>`.  

Exibição:  

---
<table border="1">
    <tr>
        <th>Coluna 1</th>
        <th>Coluna 2</th>
    </tr>
    <tr>
        <td>Dados 1</td>
        <td>Dados 2</td>
    </tr>
    <tr>
        <td>Dados 3</td>
        <td>Dados 4</td>
    </tr>
</table>

---
<br/>

É possível criar tabelas mais complexas usando as tags `<thead>`, `<tbody>` e `<tfoot>` para definir seções específicas da tabela:  

```
<table border="1">
    <thead>
        <tr>
            <th>Nome</th>
            <th>Idade</th>
            <th>Profissão</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>João</td>
            <td>30</td>
            <td>Engenheiro</td>
        </tr>
        <tr>
            <td>Maria</td>
            <td>25</td>
            <td>Designer</td>
        </tr>
        <tr>
            <td>Carlos</td>
            <td>28</td>
            <td>Programador</td>
        </tr>
    </tbody>
    <tfoot>
        <tr>
            <td colspan="3">Total de registros: 3</td>
        </tr>
    </tfoot>
</table>
```

- `<thead>`: Define a seção de cabeçalho da tabela.  
- `<tbody>`: Define o corpo principal da tabela que contém as linhas de dados.  
- `<tfoot>`: Define o rodapé da tabela, útil para somas e totais.  
- O atributo *border* em `<table>` define uma borda ao redor da tabela e de suas células.   

<br/>

Exibição:

---
<table>
    <thead>
        <tr>
            <th>Nome</th>
            <th>Idade</th>
            <th>Profissão</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>João</td>
            <td>30</td>
            <td>Engenheiro</td>
        </tr>
        <tr>
            <td>Maria</td>
            <td>25</td>
            <td>Designer</td>
        </tr>
        <tr>
            <td>Carlos</td>
            <td>28</td>
            <td>Programador</td>
        </tr>
    </tbody>
    <tfoot>
        <tr>
            <td colspan="3">Total de registros: 3</td>
        </tr>
    </tfoot>
</table>

---
<br/>

Nas exibições apresentadas, ambas as tabelas parecem quase iguais, apesar de terem códigos bem distintos. Isso acontece pois o Jupyter Notebook tem uma maneira específica de interpretar códigos HTML que não suporta alguns recursos diretos da linguagem. Entretanto, em páginas reais da web, tabelas são exibidas de inúmeras maneiras, podendo ser customizadas com CSS e interativas com JavaScript.  

<br/>

#### **Iframes**
O elemento `<iframe>` (abreviação de Inline Frame) é usado para incorporar outro documento HTML dentro da página atual. Ele permite que você insira conteúdo de outra página web, como uma página externa ou outro documento do mesmo site, dentro de um quadro específico na página atual.  


Quando um iframe é usado, ele cria uma janela dentro da página principal, através da qual o conteúdo de outra URL é exibido. Este conteúdo pode ser qualquer coisa que uma página web normal possa conter, incluindo texto, imagens, vídeos, e até mesmo outros iframes.  

Muitas vezes, o conteúdo exibido de um site está em um iframe que pode ser imperceptível ao usuário.  

Sua estrutura básica é exibida abaixo:  
```
<body>
    <h1>Exemplo de Incorporação de Iframe</h1>
    <iframe src="https://www.youtube.com/" width="600" height="400" frameborder="1" scrolling="auto"></iframe>
</body>
```  
- O atributo `src` referencia a *url* do site que será exibido no iframe.
- `width` e `height` especificam a altura e largura da janela do iframe; `frameborder` define se a janela do iframe terá uma borda.  
- `scrolling` controla a exibição das barras de rolagem na janela do iframe.  

Apresentamos essa estrutura HTML aqui pois, quando tratamos de web scraping, iframes podem representar desafios adicionais, visto que se referem a uma *url* distinta e, portanto, a um código HTML diferente. Abordaremos mais sobre o tema na parte 3 do trabalho, em um exemplo prático.

<br/>

### Alguns complementos

<br/>
<h4 id="xpath-css-selector"><strong>XPath</strong></h4>

<p>XPath (<i>XML Path Language</i>) é uma linguagem usada para navegar e selecionar nós em documentos XML. No contexto do Selenium, XPath é utilizado para encontrar elementos em uma página HTML. Ele permite selecionar elementos com base em uma variedade de critérios, como estrutura de hierarquia, atributos e <strong>conteúdo de texto</strong>.</p>

<p><strong>Exemplos de XPath:</strong></p>
<ul>
  <li><code>//div</code>: Seleciona todos os elementos &lt;div&gt; na página.</li>
  <li><code>//input[@type='submit']</code>: Seleciona todos os elementos &lt;input&gt; cujo atributo <code>type</code> é <code>submit</code>.</li>
  <li><code>//div[@class='header']/span</code>: Seleciona um <code>&lt;span&gt;</code> dentro de um <code>&lt;div&gt;</code> com a classe <code>header</code>.</li>
  <li><code>//button[text()='Submit']</code>: Seleciona o elemento cujo texto é <code>Submit</code>.</li>
</ul>

<br/>
<h4 id="xpath-css-selector"><strong>CSS Selector</strong></h4>

<p>CSS Selectors são padrões utilizados na web para selecionar e aplicar estilos a elementos HTML. No Selenium, eles são usados para localizar elementos na página. CSS Selectors permitem selecionar elementos com base em IDs, classes, atributos e estrutura hierárquica.</p>

<p><strong>Exemplos de CSS Selectors:</strong></p>
<ul>
  <li><code>#submit-button</code>: Seleciona o elemento com o ID <code>submit-button</code>.</li>
  <li><code>.header</code>: Seleciona todos os elementos com a classe <code>header</code>.</li>
  <li><code>input[type='submit']</code>: Seleciona o elemento &lt;input&gt; cujo atributo <code>type</code> é <code>submit</code>.</li>
  <li><code>div.header > span</code>: Seleciona um <code>&lt;span&gt;</code> dentro de um <code>&lt;div&gt;</code> com a classe <code>header</code>.</li>
</ul>

<br/>

<h4>Vantagens e Desvantagens</h4>

##### **XPath**
<p>Vantagens:</p>
<ul>
  <li>Pode navegar tanto para frente quanto para trás na estrutura do documento (de pai para filho e de filho para pai).</li>
  <li>Oferece maior flexibilidade e poder na seleção de elementos complexos.</li>
</ul>


<p>Desvantagens:</p>
<ul>
  <li>Pode ser mais lento e menos eficiente em comparação com CSS Selectors.</li>
  <li>A sintaxe pode ser mais complexa e difícil de ler.</li>
</ul>

<br/>

<h5><strong>CSS Selector</strong></h5>
<p>Vantagens:</p>
<ul>
  <li>Geralmente mais rápido e eficiente do que XPath, especialmente em navegadores modernos.</li>
  <li>Sintaxe mais simples e legível.</li>
  <li>Suporte direto de todos os navegadores modernos.</li>
</ul>

<p>Desvantagens:</p>
<ul>
  <li>Não pode navegar para trás na estrutura do documento (somente de pai para filho).</li>
</ul>


#2- Selenium

## Introdução ao Selenium

### O que é o Selenium?
Selenium é, primeiramente, um conjunto de ferramentas projetado para automatizar tarefas web-based. Ele é utilizado para testar aplicações web, realizando interações como um usuário real faria, mas de forma automatizada. Sendo assim, é útil para tarefas como *web scraping* e automação de tarefas repetitivas em navegadores.

&nbsp;

### História do Selenium
O Selenium foi desenvolvido em 2004 por Jason Higgins, enquanto trabalhava na ThoughtWorks, em Chicago. Inicialmente foi pensado para ser uma ferramenta para testar aplicações web de forma automática. O nome Selenium surgiu como uma brincadeira em referência ao mercúrio (Mercury), uma ferramenta de teste da época, já que o selênio (Selenium) é um elemento químico que é um antídoto para o mercúrio.

O Selenium ganhou apelo imediato devido a sua natureza intuitiva e com feedbacks visuais, além do seu alto potencial de se tornar uma ferramenta de teste reutilizável para diversas aplicações.

Em seu core, o Selenium é uma ferramenta do JavaScript, mas quando foi tomada a decisão de tornar o Selenium "open source", também foi definida uma forma de utilizar o Selenium através de diversas linguagens, inclusive Python.

Ao longo de sua história, o Selenium foi utilizado para diversos projetos comerciais (inclusive se tornando um projeto "secreto" do Google, quando Jason Huggins deixou a Thoughtworks para entrar pra equipe), provando sua robustez e vasto arsenal de capacidades.

Ao mesmo tempo, foi desenvolvido paralelamente na Thoughtworks o WebDriver, que não dependia do JavaScript, mas de um cliente criado para cada navegador e feito do zero.

Mais sobre a história do Selenium pode ser explorada acessando a página oficial do <a href="https://www.selenium.dev/" target="_self"> <p>Selenium</p> </a>
<a href="https://www.selenium.dev/history/" target="_self"> <p>História Selenium</p> </a>

&nbsp;

## As divisões do Selenium
Quando o projeto cresceu, se dividiu em vários componentes principais, com aplicabilidades diferentes:

<h3>Componentes Principais do Selenium</h3>

<h4>1. Selenium IDE</h4>
<p>Uma extensão para os navegadores Firefox e Chrome que permite gravar e reproduzir testes de forma simples. Ideal para iniciantes em automação de testes. o Selenium IDE facilita a criação rápida de scripts de teste sem necessidade de programação.</p>

<h4>2. Selenium RC (Remote Control)</h4>
<p>Permitia escrever testes em várias linguagens de programação, mas foi descontinuado em favor do WebDriver. O Selenium RC era a ferramenta principal antes da introdução do WebDriver, oferecendo flexibilidade de linguagem, mas com uma arquitetura mais complexa.</p>

<h4>3. Selenium WebDriver</h4>
<p>Uma reformulação do Selenium RC, fornece uma interface mais simples e direta para interagir com o navegador. O WebDriver permite a automação precisa e robusta de interações com páginas web, suportando múltiplos navegadores e plataformas.</p>

<h4>4. Selenium Grid</h4>
<p>Permite executar testes em múltiplos ambientes (navegadores e máquinas) em paralelo. O Selenium Grid é ideal para testes em larga escala, permitindo a distribuição de testes através de várias máquinas e navegadores simultaneamente, aumentando a eficiência e a cobertura dos testes.</p>

&nbsp;

## Utilização
Para utilizar o Selenium com Python, primeiro é necessário seguir alguns passos básicos, incluindo a instalação do pacote e configuração de drivers para o navegador.

&nbsp;

---
<h4>1. Instalar o Selenium</h4>
<p>Primeiramente, você precisa instalar o pacote Selenium. Isso pode ser feito facilmente usando o <code>pip</code> ou o <code>conda</code>. Abra o terminal ou o prompt de comando e execute o seguinte comando:</p>
<pre><code>pip install selenium</code></pre>
ou, caso esteja usando o Anaconda,
<pre><code>conda install selenium</code></pre>

&nbsp;

<h4>2. Instalar o Driver do Navegador</h4>
<p>O Selenium se conecta com os navegadores através de drivers específicos. É necessário baixar e configurar o driver correspondente ao navegador que deseja utilizar na automação.</p>
<p>Aqui estão os links para os drivers de alguns dos navegadores mais comuns:</p>
<ul>
  <li><a href="https://sites.google.com/a/chromium.org/chromedriver/">ChromeDriver</a></li>
  <li><a href="https://github.com/mozilla/geckodriver/releases">GeckoDriver (Firefox)</a></li>
  <li><a href="https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/">EdgeDriver</a></li>
  <li>Safari: O Safari WebDriver vem embutido no Safari, mas precisa ser habilitado nas Preferências de Desenvolvedor.</li>
</ul>
<p>Depois de baixar o driver, certifique-se de que ele esteja no seu PATH ou forneça o caminho completo ao inicializar o WebDriver.</p>
<p>Alternativamente, é possível usar o pacote webdriver_manager para instalar automaticamente os drivers atualizados no seu computador.
</p>
<p>Lembrando que é necessário utilizar os drivers referentes ao navegador que será utilizado para o webscraping, ou seja, não é possível utilizar o webdriver no Edge tendo apenas os drivers do Chrome instalados.</p>

In [None]:
!pip install selenium
!pip install webdriver_manager

# Instalando os drivers através do pacote webdriver_manager
from selenium import webdriver as wbd
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service

# Tente obter a versão do navegador Chrome instalada
try:
    chrome_driver_path = ChromeDriverManager().install()
except Exception as e:
    print(f"Erro ao instalar o ChromeDriver: {e}")
    raise

# Inicia o serviço do ChromeDriver com o caminho do driver baixado
try:
    servico = Service(chrome_driver_path)
except Exception as e:
    print(f"Erro ao iniciar o serviço do ChromeDriver: {e}")
    raise

# Cria uma instância do navegador Chrome usando o `webdriver` e o serviço do ChromeDriver criado anteriormente
try:
    navegador = wbd.Chrome(service=servico)
    print("Navegador iniciado com sucesso.")
except Exception as e:
    print(f"Erro ao iniciar o navegador Chrome: {e}")
    raise



Erro ao instalar o ChromeDriver: 'NoneType' object has no attribute 'split'


AttributeError: 'NoneType' object has no attribute 'split'

<h4>3. Escrever o Código em Python</h4>
<p>Agora com o Selenium instalado e o driver configurado, podemos começar a escrever scripts de automação utilizando o python em qualquer IDE.

&nbsp;

<h4>4. Considerações Adicionais</h4>
<ul>
  <li><strong>Esperas Implícitas e Explícitas:</strong> É importante gerenciar tempos de espera ao interagir com elementos na página. O Selenium oferece dois tipos de esperas: implícitas (<code>implicitly_wait</code>) e explícitas (<code>WebDriverWait</code>). Essas esperas ajudam a garantir que os elementos estejam disponíveis antes de interagir com eles.</li>
  <li><strong>Manter Drivers Atualizados:</strong> Navegadores são frequentemente atualizados, o que pode causar incompatibilidades com drivers antigos. Sempre mantenha seus drivers atualizados para evitar problemas.</li>
  <li><strong>Manuseio de Exceções:</strong> Ao escrever scripts de automação, é crucial lidar com exceções, como <code>NoSuchElementException</code> ou <code>TimeoutException</code>, para tornar seu código mais robusto.</li>
</ul>

---

&nbsp;


## Principais Funções do Selenium para Python
Essas são algumas das principais funções e métodos disponíveis no pacote Selenium para Python, que é normalmente utilizado através do módulo "selenium.webdriver":

&nbsp;

---
<h4>1. Instanciar o WebDriver: </h4>
<ul>
  <li><code>webdriver.Chrome()</code>: Inicia uma nova instância do navegador Chrome.</li>
  <li><code>webdriver.Firefox()</code>: Inicia uma nova instância do navegador Firefox.</li>
  <li><code>webdriver.Edge()</code>: Inicia uma nova instância do navegador Edge.</li>
  <li><code>webdriver.Safari()</code>: Inicia uma nova instância do navegador Safari.</li>
</ul>

&nbsp;

<h4>2. Navegar para uma URL</h3>
<ul>
  <li><code>driver.get(url)</code>: Navega para a URL especificada.</li>
</ul>

&nbsp;

<h4>3. Encontrar Elementos</h4>
<ul>
  <li><code>driver.find_element_by_id(id)</code>: Encontra um único elemento pelo seu ID.</li>
  <li><code>driver.find_element_by_name(name)</code>: Encontra um único elemento pelo seu nome.</li>
  <li><code>driver.find_element_by_xpath(xpath)</code>: Encontra um único elemento pelo seu XPath.</li>
  <li><code>driver.find_element_by_css_selector(css_selector)</code>: Encontra um único elemento pelo seu seletor CSS.</li>
  Para saber mais sobre XPath e CSS Selectors, consulte a <a href="#xpath-css-selector">explicação sobre XPath e CSS Selectors</a>.
  <li><code>driver.find_element_by_class_name(class_name)</code>: Encontra um único elemento pela sua classe.</li>
  <li><code>driver.find_element_by_tag_name(tag_name)</code>: Encontra um único elemento pelo seu nome de tag.</li>
  <li>Métodos equivalentes <code>find_elements_by_*</code> para encontrar múltiplos elementos.</li>
</ul>

&nbsp;

<h4>4. Interagir com Elementos</h4>
<ul>
  <li><code>element.click()</code>: Clica no elemento.</li>
  <li><code>element.send_keys(keys)</code>: Envia teclas para o elemento (como preenchimento de formulários).</li>
  <li><code>element.clear()</code>: Limpa o conteúdo de um campo de entrada.</li>
  <li><code>element.submit()</code>: Submete um formulário.</li>
</ul>

&nbsp;

<h4>5. Obter Informações dos Elementos</h4>
<ul>
  <li><code>element.text</code>: Obtém o texto contido no elemento.</li>
  <li><code>element.get_attribute(attribute_name)</code>: Obtém o valor de um atributo do elemento.</li>
</ul>

&nbsp;

<h4>6. Controle de Navegação</h4>
<ul>
  <li><code>driver.back()</code>: Navega para a página anterior.</li>
  <li><code>driver.forward()</code>: Navega para a próxima página.</li>
  <li><code>driver.refresh()</code>: Atualiza a página atual.</li>
</ul>

&nbsp;

<h4>7. Gerenciar Janelas e Frames</h4>
<ul>
  <li><code>driver.switch_to.window(window_handle)</code>: Muda para a janela especificada.</li>
  <li><code>driver.switch_to.frame(frame_reference)</code>: Muda para o frame especificado.</li>
</ul>

&nbsp;

<h4>8. Gerenciar Tempo de Espera</h4>
<ul>
  <li><code>driver.implicitly_wait(time)</code>: Define um tempo de espera implícito para a localização de elementos.</li>
  <li><code>webdriver.support.ui.WebDriverWait(driver, timeout)</code>: Define uma espera explícita para condições específicas.</li>
</ul>

&nbsp;

<h4>9. Fechar o Navegador</h4>
<ul>
  <li><code>driver.close()</code>: Fecha a janela atual.</li>
  <li><code>driver.quit()</code>: Fecha todas as janelas e encerra o WebDriver.</li>
</ul>


# 3 - Exemplos práticos

## Exemplo 1: Uso básico do Selenium com Python

In [3]:
# Caso não tenha o Selenium instalado:
!pip install selenium
!apt-get update
!apt install chromium-chromedriver

# Importando métodos a serem utilizados
# `webdriver` é a interface do Selenium para controlar navegadores da web.
from selenium import webdriver

# `By` é um conjunto de estratégias de localização para encontrar elementos em uma página.
from selenium.webdriver.common.by import By

# `Keys` fornece teclas que podem ser usadas para enviar teclas do teclado para elementos.
from selenium.webdriver.common.keys import Keys

# `time` permite adicionar pausas ao nosso script para esperar ações ou carregamentos.
import time

# webdriver_manager permite manusear os drivers de navegador sem precisar instala-los manualmente.
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service

# Tente obter a versão do navegador Chrome instalada
try:
    chrome_driver_path = ChromeDriverManager().install()
except Exception as e:
    print(f"Erro ao instalar o ChromeDriver: {e}")
    raise

# Inicia o serviço do ChromeDriver com o caminho do driver baixado
try:
    servico = Service(chrome_driver_path)
except Exception as e:
    print(f"Erro ao iniciar o serviço do ChromeDriver: {e}")
    raise

# Tratamento de exceções
try:
    # Iniciar o WebDriver (por exemplo, Chrome)
    # Cria uma nova instância do navegador Chrome.
    driver = webdriver.Chrome(service=servico)

    # Navegar para uma URL
    # Usando o WebDriver para abrir a página do Google.
    driver.get("https://www.google.com")

    # Encontrar o campo de busca pelo nome
    # Localiza o campo de busca do Google usando o nome do elemento HTML ('q').
    search_box = driver.find_element(By.NAME, "q")

    # Digitar uma consulta no campo de busca
    # Envia o texto "Selenium Python" para o campo de busca localizado.
    search_box.send_keys("Selenium Python")

    # Submeter a consulta
    # Simula o pressionamento da tecla 'Enter' para submeter a busca.
    search_box.send_keys(Keys.RETURN)

    # Esperar alguns segundos para ver os resultados
    # Aguarda 5 segundos para garantir que a página de resultados de busca carregue.
    time.sleep(5)

except Exception as e:
    # Se ocorrer qualquer exceção durante o bloco try, capture-a aqui.
    print(f"Ocorreu um erro: {e}")

finally:
    # Fechar o navegador, mesmo se ocorrer uma exceção.
    if 'driver' in locals():
        driver.quit()

Hit:1 http://archive.ubuntu.com/ubuntu jammy InRelease
Get:2 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [128 kB]
Hit:3 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
Hit:4 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease
Get:5 http://security.ubuntu.com/ubuntu jammy-security InRelease [129 kB]
Hit:6 http://archive.ubuntu.com/ubuntu jammy-backports InRelease
Hit:7 https://ppa.launchpadcontent.net/c2d4u.team/c2d4u4.0+/ubuntu jammy InRelease
Hit:8 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease
Hit:9 https://ppa.launchpadcontent.net/graphics-drivers/ppa/ubuntu jammy InRelease
Hit:10 https://ppa.launchpadcontent.net/ubuntugis/ppa/ubuntu jammy InRelease
Fetched 257 kB in 1s (180 kB/s)
Reading package lists... Done
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
chromium-chromedriver is already the newest version (1:85.0.4183.83-0ubuntu2.22.04.1).
0

ModuleNotFoundError: No module named 'webdriver_manager'

<body>
    <h2>Resumo do Código</h2>
    <p>Este código faz o seguinte:</p>
    <ul>
        <li><strong>1. Importação de Módulos Necessários</strong>:
            <ul>
                <li><code>webdriver</code>: para controlar o navegador da web.</li>
                <li><code>By</code>: para localizar elementos na página.</li>
                <li><code>Keys</code>: para simular pressionamentos de teclas.</li>
                <li><code>time</code>: para adicionar atrasos no script.</li>
            </ul>
        </li>
        <li><strong>2. Inicia o Navegador Chrome</strong>:
            <ul>
                <li>Cria uma instância do navegador Chrome usando o WebDriver do Selenium.</li>
            </ul>
        </li>
        <li><strong>3. Navega para a Página do Google</strong>:
            <ul>
                <li>Utiliza o WebDriver para abrir a página principal do Google.</li>
            </ul>
        </li>
        <li><strong>4. Realiza uma Busca no Google</strong>:
            <ul>
                <li>Localiza o campo de busca pelo nome do elemento HTML.</li>
                <li>Digita "Selenium Python" no campo de busca.</li>
                <li>Simula o pressionamento da tecla 'Enter' para iniciar a busca.</li>
            </ul>
        </li>
        <li><strong>5. Espera para Ver os Resultados</strong>:
            <ul>
                <li>Aguarda 5 segundos para garantir que a página de resultados seja carregada.</li>
            </ul>
        </li>
        <li><strong>6. Fecha o Navegador</strong>:
            <ul>
                <li>Fecha a instância do navegador e encerra a sessão do WebDriver.</li>
            </ul>
        </li>
    </ul>
    <h3>Considerações Adicionais</h3>
    <ul>
        <li><strong>Usando WebDriver</strong>: Este exemplo usa o Chrome WebDriver, mas pode ser adaptado para outros navegadores, como Firefox ou Edge, alterando a linha <code>driver = webdriver.Chrome()</code> para o WebDriver correspondente.</li>
        <li><strong>Gerenciamento de Tempo</strong>: A função <code>time.sleep(5)</code> é usada para esperar os resultados carregarem, mas em um script mais robusto, você pode usar esperas explícitas ou implícitas do Selenium para lidar com tempos de carregamento variáveis. Por exemplo:
        <code>driver.implicitly_wait(10)</code></li>
        <li><strong>Fechando o Navegador</strong>: Sempre feche a instância do navegador com <code>driver.quit()</code> para liberar recursos do sistema.</li>
        <li><strong>Tratamento de Exceções:</strong>
          <ul>
                <li><code>try:</code> Este bloco tenta executar o código principal, onde podem ocorrer exceções.</li>
                <li><code>except Exception as e:</code> Captura qualquer exceção do tipo `Exception` que ocorrer durante o `try`.</li>
                <li><code>finally:</code> Executa código independentemente de exceções terem sido lançadas ou não.</li>
                <li>Note que ao utilizarmos try e except, o código pode capturas as exceções ocorridas durante o try e seu conteúdo será impresso na linha: <code>print(f"Ocorreu um erro: {e}")</code>
                <li>o bloco finally tem sua execução garantida, independentemente de ter ocorrido ou não uma exceção durante a execução do código. Nesse script ele garante que o navegador seja fechado após a execução do script, liberando recursos do sistema: <code>driver.quit()</code></li>
</body>
</html>

<br>

## Exemplo 2: Buscando "Selenium Python" no Google

In [None]:
!pip install webdriver_manager

# Importando métodos a serem utilizados
# `webdriver` é a interface do Selenium para controlar navegadores da web.
from selenium import webdriver

# `By` é um conjunto de estratégias de localização para encontrar elementos em uma página.
from selenium.webdriver.common.by import By

# `Keys` fornece teclas que podem ser usadas para enviar teclas do teclado para elementos.
from selenium.webdriver.common.keys import Keys

# `time` permite adicionar pausas ao nosso script para esperar ações ou carregamentos.
import time

# Configura opções do Chrome
options = webdriver.ChromeOptions()
# options.add_argument('--headless')  # Executa o Chrome em modo headless (sem abrir uma janela)
options.add_argument('--no-sandbox')  # Necessário para executar em alguns ambientes
options.binary_location = '/usr/bin/chromium-browser'  # Caminho para o executável do navegador Chromium

# Tratamento de exceções
try:
    # Iniciar o WebDriver (por exemplo, Chrome)
    # Cria uma nova instância do navegador Chrome usando o WebDriver do Selenium.
    driver = webdriver.Chrome('chromedriver')

    # Navegar para uma URL
    # Usando o WebDriver para abrir a página do Google.
    driver.get("https://www.google.com")

    # Encontrar o campo de busca pelo nome
    # Localiza o campo de busca do Google usando o nome do elemento HTML ('q').
    search_box = driver.find_element(By.NAME, "q")

    # Digitar uma consulta no campo de busca
    # Envia o texto "Selenium Python" para o campo de busca localizado.
    search_box.send_keys("Selenium Python")

    # Submeter a consulta
    # Simula o pressionamento da tecla 'Enter' para submeter a busca.
    search_box.send_keys(Keys.RETURN)

    # Esperar alguns segundos para ver os resultados
    # Aguarda 5 segundos para garantir que a página de resultados de busca carregue.
    time.sleep(5)

except Exception as e:
    # Se ocorrer qualquer exceção durante o bloco try, capture-a aqui.
    print(f"Ocorreu um erro: {e}")

finally:
    # Fechar o navegador, mesmo se ocorrer uma exceção.
    if 'driver' in locals():
        driver.quit()

Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/pip/_vendor/pkg_resources/__init__.py", line 3108, in _dep_map
    return self.__dep_map
  File "/usr/local/lib/python3.10/dist-packages/pip/_vendor/pkg_resources/__init__.py", line 2901, in __getattr__
    raise AttributeError(attr)
AttributeError: _DistInfoDistribution__dep_map

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/pip/_internal/cli/base_command.py", line 169, in exc_logging_wrapper
    status = run_func(*args)
  File "/usr/local/lib/python3.10/dist-packages/pip/_internal/cli/req_command.py", line 242, in wrapper
    return func(self, options, args)
  File "/usr/local/lib/python3.10/dist-packages/pip/_internal/commands/install.py", line 441, in run
    conflicts = self._determine_conflicts(to_install)
  File "/usr/local/lib/python3.10/dist-packages/pip/_internal/commands/install.py", line 

AttributeError: 'str' object has no attribute 'capabilities'

<html lang="pt-BR">
<body>
    <h2>Resumo do Código</h2>
    <p>Este código faz o seguinte:</p>
    <ul>
        <li><strong>1. Importação de Módulos Necessários</strong>:
            <ul>
                <li><code>webdriver</code>: para controlar o navegador da web.</li>
                <li><code>By</code>: para localizar elementos na página.</li>
                <li><code>Keys</code>: para simular pressionamentos de teclas.</li>
                <li><code>time</code>: para adicionar atrasos no script.</li>
            </ul>
        </li>
        <li><strong>2. Configuração das Opções do Chrome</strong>:
            <ul>
                <li><code>webdriver.ChromeOptions()</code>: configura opções específicas para o navegador Chrome, como modo headless e a localização do navegador Chromium.</li>
                <li><code>--no-sandbox</code>: necessário para executar em alguns ambientes.</li>
                <li><code>binary_location</code>: define o caminho para o executável do navegador Chromium.</li>
            </ul>
        </li>
        <li><strong>3. Inicia o Navegador Chrome</strong>:
            <ul>
                <li>Cria uma instância do navegador Chrome usando o WebDriver do Selenium.</li>
            </ul>
        </li>
        <li><strong>4. Navega para a Página do Google</strong>:
            <ul>
                <li>Utiliza o WebDriver para abrir a página principal do Google.</li>
            </ul>
        </li>
        <li><strong>5. Realiza uma Busca no Google</strong>:
            <ul>
                <li>Localiza o campo de busca pelo nome do elemento HTML.</li>
                <li>Digita "Selenium Python" no campo de busca.</li>
                <li>Simula o pressionamento da tecla 'Enter' para iniciar a busca.</li>
            </ul>
        </li>
        <li><strong>6. Espera para Ver os Resultados</strong>:
            <ul>
                <li>Aguarda 5 segundos para garantir que a página de resultados seja carregada.</li>
            </ul>
        </li>
        <li><strong>7. Fecha o Navegador</strong>:
            <ul>
                <li>Fecha a instância do navegador e encerra a sessão do WebDriver.</li>
            </ul>
        </li>

  </br>
  
  ## Exemplo 3: Webscraping da B3

In [6]:
!pip install webdriver_manager

# Importando bibliotecas necessárias
import pandas as pd  # Para manipulação de dados em formato de DataFrame
from selenium import webdriver  # Para automatização de navegação web
from selenium.webdriver.common.by import By  # Para localização de elementos por diferentes estratégias
from selenium.webdriver.common.keys import Keys  # Para simulação de pressionamento de teclas
from selenium.common import exceptions as exc  # Para tratamento de exceções específicas do Selenium
import time  # Para pausas no script
from datetime import date  # Para obtenção da data atual
import os  # Para manipulação de diretórios e caminhos
import sys  # Para adicionar caminhos ao PATH do sistema
import openpyxl as oxl  # Para salvar dados em arquivos Excel
import matplotlib.pyplot as plt  # Para geração de gráficos
from webdriver_manager.chrome import ChromeDriverManager # Manager dos drivers do navegador
from selenium.webdriver.chrome.service import Service

# Tente obter a versão do navegador Chrome instalada
try:
    chrome_driver_path = ChromeDriverManager().install()
except Exception as e:
    print(f"Erro ao instalar o ChromeDriver: {e}")
    raise

# Inicia o serviço do ChromeDriver com o caminho do driver baixado
try:
    servico = Service(chrome_driver_path)
except Exception as e:
    print(f"Erro ao iniciar o serviço do ChromeDriver: {e}")
    raise

# Cria uma instância do navegador Chrome usando o `webdriver` e o serviço do ChromeDriver criado anteriormente
try:
    navegador = wbd.Chrome(service=servico)
    print("Navegador iniciado com sucesso.")
except Exception as e:
    print(f"Erro ao iniciar o navegador Chrome: {e}")
    raise

# URL da página da B3
url = "https://www.b3.com.br/pt_br/market-data-e-indices/servicos-de-dados/market-data/consultas/mercado-de-derivativos/precos-referenciais/taxas-referenciais-bm-fbovespa/"

try:
    # Tentar acessar a URL
    driver.get(url)
except exc.WebDriverException:
    print("Erro: URL não encontrada.")  # Tratar exceção se a URL não puder ser acessada

# Aguardar página carregar
time.sleep(2)

# Mudar o contexto para o iframe da página
iframe = driver.find_element(By.TAG_NAME, "iframe")
driver.switch_to.frame(iframe)

# Encontrar o campo de data e inserir a data desejada
try:
    campo_data = driver.find_element(By.ID, "Data")
except exc.NoSuchElementException:
    print("Erro: ID do campo de data não encontrado.")

# Limpar o campo de data
campo_data.clear()

# Obter a data atual
data_hoje =  date.today().strftime("%d/%m/%Y")

# Enviar a data desejada para o campo
campo_data.send_keys("05/06/2024")
campo_data.send_keys(Keys.RETURN)

# Aguardar página carregar
time.sleep(2)

# Clicar no botão OK
try:
    botao_OK = driver.find_element(By.XPATH, "//button[text()='OK']")
except exc.NoSuchElementException:
    print("Erro: botão OK não encontrado com o XPath.")
else:
    botao_OK.click()

# Encontrar a tabela principal
try:
    tabela = driver.find_element(By.ID, "tb_principal1")
except exc.NoSuchElementException:
    print("Erro: tabela principal não encontrada.")

# Extrair dados das linhas da tabela
linhas = tabela.find_elements(By.TAG_NAME, "tr")

# Listas para armazenar os dados
coluna_vertices = []
coluna_252 = []
coluna_360 = []

# Percorrer as linhas da tabela e coletar os dados das colunas
for linha in linhas:
    colunas = linha.find_elements(By.TAG_NAME, "td")

    n = len(colunas)
    for i in range(n):
        if i == 0:
            coluna_vertices.append(int(colunas[i].text))  # Vertices (primeira coluna)
        elif i == 1:
            coluna_252.append(float(colunas[i].text))  # Juros com prazo de 252 dias úteis (segunda coluna)
        elif i == 2:
            coluna_360.append(float(colunas[i].text))  # Juros com prazo de 360 dias corridos (terceira coluna)

# Criar DataFrame com os dados coletados
juros_di_pre = pd.DataFrame({"Vertice": coluna_vertices, "prazo_252": coluna_252, "prazo_360": coluna_360})

# Salvar DataFrame em um arquivo Excel
juros_di_pre.to_excel("D:\\Folders\\PUC-RIO\\2024.1\\analise-dados\\TRABALHO-G2\\exemplo-swap-di-pre\\juros_di_pre.xlsx", index=False)

# Gerar gráfico da Estrutura a Termo das Taxas de Juros - Swap DI-Pré
plt.plot(juros_di_pre['Vertice'], juros_di_pre['prazo_252'], label='Juros para 252 dias')

# Adicionar rótulos e título ao gráfico
plt.xlabel('Prazo (dias)')
plt.ylabel('Taxa de juros (%)')
plt.title(f'Estrutura a termo das taxas de juros - Swap DI-Pré\n{data_hoje}')
plt.legend()

# Ajustar os rótulos dos eixos
plt.xticks(juros_di_pre['Vertice'][::10], rotation=45)
plt.yticks(juros_di_pre['prazo_252'][::10], rotation=45)
plt.ylim(juros_di_pre['prazo_252'].min() - 0.01, juros_di_pre['prazo_252'].max() + 0.01)

# Ajustar layout do gráfico para melhor visualização
plt.tight_layout()

# Salvar imagem do gráfico
plt.savefig("grafico-swap-di-pre.jpg")

# Exibir o gráfico
plt.show()

Erro ao instalar o ChromeDriver: 'NoneType' object has no attribute 'split'


AttributeError: 'NoneType' object has no attribute 'split'

<h3><strong>Resumo do Código:</strong></h3>
<ul>
        <li><strong>Automação de Navegação Web:</strong> Utiliza o Selenium para acessar a página da B3 e interagir com elementos da interface.</li>
        <li><strong>Extração de Dados:</strong> Extrai dados de uma tabela contendo taxas de juros para diferentes prazos.</li>
        <li><strong>Manipulação de Dados com Pandas:</strong> Utiliza Pandas para armazenar os dados extraídos em um DataFrame.</li>
        <li><strong>Visualização de Dados:</strong> Gera um gráfico da Estrutura a Termo das Taxas de Juros - Swap DI-Pré.</li>
        <li><strong>Exportação de Dados:</strong> Salva os dados extraídos em um arquivo Excel e o gráfico gerado como imagem.</li>
</ul>

<h3>Tecnologias Utilizadas:</h3>
<ul>
        <li><strong>Selenium:</strong> Para automação de navegação web.</li>
        <li><strong>Pandas:</strong> Para manipulação e análise de dados.</li>
        <li><strong>Matplotlib:</strong> Para geração de gráficos.</li>
        <li><strong>Openpyxl:</strong> Para salvar dados em arquivo Excel.</li>
</ul>