##### Instalando/atualizando o Selenium

In [9]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

servico = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=servico)

##### Importando as bibliotecas

In [10]:
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
import pandas as pd
import pyautogui as pag
import openpyxl
import time

##### Criando as funções

In [11]:
def extracao_texto (xpath): # Função para extrair do site informação de texto
    try:
        texto = driver.find_element(By.XPATH, xpath).text
    except:
        texto = ''
    return texto

def extracao_numero (xpath): # Função para extrair do site informação de número decimal
    try:
        numero = float(driver.find_element(By.XPATH, xpath).text.replace('.', '').replace(',', '.'))
    except:
        numero = ''
    return numero

def extracao_porcentagem (xpath): # Função para extrair do site informação de porcentagem
    try:
        porcentagem = float(driver.find_element(By.XPATH, xpath).text.replace('.', '').replace(',', '.').replace('%', '')) / 100
    except:
        porcentagem = ''
    return porcentagem

##### Iniciando o navegador

In [12]:
# Criando as variáveis
site_statusinvest = r'https://statusinvest.com.br/acoes'
caminho_projeto = r'C:\000 - Arquivos\Educação\Habilidades e Treinamentos\Hashtag Treinamentos\Python\Projetos Finais\python_projeto_final_2_web_scraping_selenium'

acoes = [] # Criando uma lista vazia onde serão armazenadas as ações que serão adicionadas na base de dados

driver.get (site_statusinvest) # Abrindo o site no navegador

for numero in range(1,7): # Criando uma estrutura de repetição para extrair as ações que serão adicionadas a base de dados
    xpath = f'//*[@id="main-2"]/section[3]/div/div[3]/div[2]/table/tbody/tr[{numero}]/td[1]/a/div[2]/h4/strong' # Armazenando o xpath do elemento HTML onde estão as ações
    acao = driver.find_element(By.XPATH, xpath).text.casefold() # Armazenando a ação em uma variável e convertendo o texto para minúsculo
    acoes.append(acao) # Adicionando a ação a lista de ações
    print(acao)
print(acoes)

base_dados = [] # Criando uma lista vazia para armazenar os dados extraídos dos site

try: # Criando um tratamento de erro ao extrair as informações das ações no site

    for acao in acoes: # Criando uma estrutura de repetição para entrar no site de cada ação e extrair seus dados
        
        driver.get(f'{site_statusinvest}/{acao}') # Navegando para a página da ação
        
        acao = {
            'Empresa': extracao_texto('//*[@id="main-header"]/div[2]/div/div[1]/h1/small').title(),
            'Ticker': acao.upper(),
            'Valor Atual': extracao_numero('//*[@id="main-2"]/div[2]/div/div[1]/div/div[1]/div/div[1]/strong'),
            'Min 52 Semanas': extracao_numero('//*[@id="main-2"]/div[2]/div/div[1]/div/div[2]/div/div[1]/strong'),
            'Max 52 Semanas': extracao_numero('//*[@id="main-2"]/div[2]/div/div[1]/div/div[3]/div/div[1]/strong'),
            'Dividend Yield': extracao_porcentagem('//*[@id="main-2"]/div[2]/div/div[1]/div/div[4]/div/div[1]/strong'),
            'Valorizacao 12 Meses': extracao_porcentagem('//*[@id="main-2"]/div[2]/div/div[1]/div/div[5]/div/div[1]/strong'),
            'P/L': extracao_numero('//*[@id="indicators-section"]/div[2]/div/div[1]/div/div[2]/div/div/strong'),
            'Margem Bruta': extracao_porcentagem('//*[@id="indicators-section"]/div[2]/div/div[3]/div/div[1]/div/div/strong'),
            'Margem Líquida': extracao_porcentagem('//*[@id="indicators-section"]/div[2]/div/div[3]/div/div[4]/div/div/strong'),
            'ROE': extracao_porcentagem('//*[@id="indicators-section"]/div[2]/div/div[4]/div/div[1]/div/div/strong'),
            'ROIC': extracao_porcentagem('//*[@id="indicators-section"]/div[2]/div/div[4]/div/div[3]/div/div/strong'),
            'CAGR Receitas 5 Anos': extracao_porcentagem('//*[@id="indicators-section"]/div[2]/div/div[5]/div/div[1]/div/div/strong'),
            'CAGR Lucros 5 Anos': extracao_porcentagem('//*[@id="indicators-section"]/div[2]/div/div[5]/div/div[2]/div/div/strong'),
            'Patrimônio Líquido': extracao_numero('//*[@id="company-section"]/div[1]/div/div[2]/div[1]/div/div/strong'),
            'Valor de Mercado': extracao_numero('//*[@id="company-section"]/div[1]/div/div[2]/div[7]/div/div/strong'),
            'Setor': extracao_texto('//*[@id="company-section"]/div[1]/div/div[3]/div/div[1]/div/div/div/a/strong'),
            'Subsetor': extracao_texto('//*[@id="company-section"]/div[1]/div/div[3]/div/div[2]/div/div/div/a/strong'),
            'Segmento': extracao_texto('//*[@id="company-section"]/div[1]/div/div[3]/div/div[3]/div/div/div/a/strong')
        } # Criando um dicionário com os dados extraídos do site
    
        base_dados.append(acao) # Adicionando o dicionário com os dados da ação a lista criada anteriormente

    # Criando um DataFrame com os dados extraídos
    df = pd.DataFrame(base_dados)

    # Salve o DataFrame em um novo arquivo Excel
    df.to_excel(
         rf'{caminho_projeto}\data\base_dados.xlsx',
         index=False,
         sheet_name='Base de Dados'
    )

    print("Base de dados criada com sucesso!")

    pag.alert( # Exibindo uma Msgbox informando que o script foi concluído com sucesso
        title='Extração realizada com sucesso', 
        text='Base de dados criada com sucesso!', 
        button='OK'
    )
    
except Exception as erro:
        
        pag.alert( # Exibindo uma Msgbox informando que o script foi concluído com sucesso
            title='Erro ao extrair os dados', 
            text=f'Erro ao recuperar informações do site.\n\nMensagem de erro: {erro}', 
            button='OK'
        )

bbse3
leve3
cury3
plpl3
odpv3
egie3
['bbse3', 'leve3', 'cury3', 'plpl3', 'odpv3', 'egie3']
Base de dados criada com sucesso!
