# Web scrapping com python 

In [49]:
import requests
import pandas as pd
import csv
from bs4 import BeautifulSoup

url = 'https://www.fundsexplorer.com.br/ranking'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 OPR/112.0.0.0'
}
requisicao = requests.get(url, headers=headers)
extracao = BeautifulSoup(requisicao.text, 'html.parser')

## Extraindo

In [64]:
arquivo = 'fiis.csv'

csv_writer = csv.writer(open(arquivo, 'w'))

table = extracao.find('table')

for tr in extracao.find_all('tr'):
    data = []
    for th in tr.find_all('th'):
        data.append(th.text)
        
    if data: 
        print("interting headers : {}".format(','.join(data)))
        csv_writer.writerow(data)
        continue
        
    for td in tr.find_all('td'):
        data.append(td.text)
    if(data):
        print("interting Table Data : {}".format(','.join(data)))
        csv_writer.writerow(data)



interting headers : Fundos,Setor,Preço Atual (R$),Liquidez Diária (R$),P/VP,Último Dividendo,Dividend Yield,DY (3M) Acumulado,DY (6M) Acumulado,DY (12M) Acumulado,DY (3M) média,DY (6M) média,DY (12M) média,DY Ano,Variação Preço,Rentab. Período,Rentab. Acumulada,Patrimônio Líquido,VPA,P/VPA,DY Patrimonial,Variação Patrimonial,Rentab. Patr. Período,Rentab. Patr. Acumulada,Quant. Ativos,Volatilidade,Num. Cotistas,Tax. Gestão,Tax. Performance,Tax. Administração
<td class="skeleton-td"></td>
<td class="skeleton-td"></td>
<td class="skeleton-td"></td>
<td class="skeleton-td"></td>
<td class="skeleton-td"></td>
<td class="skeleton-td"></td>
<td class="skeleton-td"></td>
<td class="skeleton-td"></td>
<td class="skeleton-td"></td>
<td class="skeleton-td"></td>
<td class="skeleton-td"></td>
<td class="skeleton-td"></td>
<td class="skeleton-td"></td>
<td class="skeleton-td"></td>
<td class="skeleton-td"></td>
<td class="skeleton-td"></td>
<td class="skeleton-td"></td>
<td class="skeleton-td"></td

# Importa todas as bibliotecas necessárias 

In [1]:
import pandas as pd
import csv
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

## Configurando o google chrome

* service = Service(): Cria uma instância da classe Service, que é usada para controlar a inicialização do Chrome WebDriver (o componente que permite interagir com o navegador Chrome).

* options = webdriver.ChromeOptions(): Cria uma instância de ChromeOptions, usada para definir várias preferências e configurações para o navegador Chrome. Por exemplo, você pode adicionar extensões, iniciar o navegador em modo headless, etc.

* driver = webdriver.Chrome(service=service, options=options): Inicializa o navegador Chrome utilizando o WebDriver, com as configurações e o serviço definidos anteriormente. O driver é o objeto que permitirá controlar o navegador para realizar ações como navegar em páginas, clicar em botões, preencher formulários, entre outros.

Essencialmente, esse código configura e inicia uma instância do Chrome para automação de tarefas via Selenium.

In [11]:
# A classe Service é usada para iniciar uma instância do Chrome WebDriver
service = Service()

# webdriver.ChromeOptions é usado para definir a preferência para o brower do Chrome
options = webdriver.ChromeOptions()

# Inicia-se a instância do Chrome WebDriver com as definidas 'options' e 'service'
driver = webdriver.Chrome(service=service, options=options)

## Informar qual site será consultado

* url = 'https://www.fundsexplorer.com.br/ranking': Define a URL da página da web que você deseja acessar. Neste caso, é a página de ranking do site Funds Explorer, que fornece informações sobre fundos imobiliários.

* driver.get(url): Usa a instância do Chrome WebDriver (chamada de driver) para navegar até a URL especificada. O navegador vai abrir a página web do link indicado e ficar pronto para interagir com ela, como coletar dados, clicar em elementos, etc.

In [12]:
url = 'https://www.fundsexplorer.com.br/ranking'

driver.get(url)

## Pegar os dados e gravar em um arquivo csv

O código acessa uma página web contendo uma tabela, extrai os cabeçalhos e dados da tabela, e escreve essas informações em um arquivo CSV (fiis.csv). Ele usa o Selenium para encontrar os elementos da tabela e o módulo csv para salvar os dados no formato CSV.

* arquivo = 'fiis.csv': Define o nome do arquivo CSV que será criado para armazenar os dados.

* csv_writer = csv.writer(open(arquivo, 'w')): Cria um objeto csv_writer, que será usado para escrever dados no arquivo CSV (fiis.csv). O arquivo é aberto no modo de escrita ('w'), o que significa que se ele já existir, será sobrescrito.

* table = driver.find_elements(By.TAG_NAME, 'tr'): Usa o Selenium para encontrar todos os elementos da página web que possuem a tag <tr> (linhas da tabela). Cada linha da tabela será tratada individualmente.

* tableHeader = driver.find_elements(By.TAG_NAME, 'th'): Localiza todos os elementos com a tag <th>, que geralmente correspondem aos cabeçalhos das colunas da tabela.

* tableData = driver.find_elements(By.TAG_NAME, 'td'): Localiza todos os elementos com a tag <td>, que são as células de dados das linhas da tabela.

* with open(arquivo, 'w', newline='', encoding='utf-8') as file:: Abre o arquivo fiis.csv no modo de escrita ('w'), garantindo que ele será fechado corretamente após a escrita, com a opção newline='' para evitar linhas em branco extras e encoding='utf-8' para suportar caracteres especiais.

* csv_writer = csv.writer(file): Cria o objeto csv_writer associado ao arquivo CSV para começar a escrever dados no arquivo.

* headers = []: Inicializa uma lista vazia que irá armazenar os cabeçalhos da tabela.

* for th in table[0].find_elements(By.TAG_NAME, 'th'):: Itera sobre os cabeçalhos da primeira linha da tabela (index 0) e adiciona o texto de cada <th> (cabeçalho) à lista headers.

* if headers:: Se a lista headers contiver dados, o bloco seguinte será executado.

* csv_writer.writerow(headers): Escreve a linha de cabeçalhos no arquivo CSV.

* for tr in table[1:]:: Itera sobre as demais linhas da tabela (a partir da segunda linha), ignorando a primeira linha que contém os cabeçalhos.

* data = []: Inicializa uma lista vazia que irá armazenar os dados de cada linha.

* for td in tr.find_elements(By.TAG_NAME, 'td'):: Para cada célula de dado <td> dentro da linha atual, o texto é extraído e adicionado à lista data.

* if data:: Se a lista data contiver dados, o bloco seguinte será executado.

* csv_writer.writerow(data): Escreve a linha de dados no arquivo CSV.

In [13]:
arquivo = 'fiis.csv'

csv_writer = csv.writer(open(arquivo, 'w'))

table = driver.find_elements(By.TAG_NAME, 'tr')
tableHeader = driver.find_elements(By.TAG_NAME, 'th')
tableData = driver.find_elements(By.TAG_NAME, 'td')

with open(arquivo, 'w', newline='', encoding='utf-8') as file:
    csv_writer = csv.writer(file)
    
    # Localizar os elementos da tabela
    table = driver.find_elements(By.TAG_NAME, 'tr')

    # Extrair e escrever os cabeçalhos
    headers = []
    for th in table[0].find_elements(By.TAG_NAME, 'th'):
        headers.append(th.text)
    if headers:
        print("Inserindo cabeçalhos: {}".format(','.join(headers)))
        csv_writer.writerow(headers)  # Escrever cabeçalhos no CSV

    # Extrair e escrever os dados das linhas
    for tr in table[1:]:  # Pular a primeira linha (cabeçalhos)
        data = []
        for td in tr.find_elements(By.TAG_NAME, 'td'):
            data.append(td.text)
        if data:
            print("Inserindo dados da tabela: {}".format(','.join(data)))
            csv_writer.writerow(data)  # Escrever os dados no CSV


Inserindo cabeçalhos: FUNDOS,SETOR,PREÇO ATUAL (R$),LIQUIDEZ DIÁRIA (R$),P/VP,ÚLTIMO DIVIDENDO,DIVIDEND YIELD,DY (3M) ACUMULADO,DY (6M) ACUMULADO,DY (12M) ACUMULADO,DY (3M) MÉDIA,DY (6M) MÉDIA,DY (12M) MÉDIA,DY ANO,VARIAÇÃO PREÇO,RENTAB. PERÍODO,RENTAB. ACUMULADA,PATRIMÔNIO LÍQUIDO,VPA,P/VPA,DY PATRIMONIAL,VARIAÇÃO PATRIMONIAL,RENTAB. PATR. PERÍODO,RENTAB. PATR. ACUMULADA,QUANT. ATIVOS,VOLATILIDADE,NUM. COTISTAS,TAX. GESTÃO,TAX. PERFORMANCE,TAX. ADMINISTRAÇÃO
Inserindo dados da tabela: AAGR11,INDEFINIDO,98,00,3.368,39,N/A,1,12,1,16 %,3,46 %,7,11 %,8,08 %,1,15 %,1,19 %,1,35 %,8,08 %,-0,80 %,0,35 %,13,37 %,N/A,N/A,N/A,N/A,N/A,N/A,N/A,0,70,44,0,N/A,N/A,N/A
Inserindo dados da tabela: AAZQ11,INDEFINIDO,7,92,663.646,48,0,91,0,10,1,19 %,3,92 %,7,77 %,15,78 %,1,31 %,1,30 %,1,32 %,11,78 %,2,31 %,3,53 %,0,77 %,208.872.390,55,8,70,0,91,1,09 %,0,00 %,0,00 %,0,00 %,0,17,38,29.430,N/A,N/A,N/A
Inserindo dados da tabela: ABCP11,SHOPPINGS,71,60,52.692,74,0,70,0,62,0,85 %,2,30 %,4,31 %,9,68 %,0,77 %,0,7