# üåê Scraping de Dados de Not√≠cias Financeiras com Selenium

Este notebook tem como objetivo **extrair dados de not√≠cias financeiras** do site Investing.com utilizando a biblioteca Selenium. O processo inclui a extra√ß√£o de elementos HTML atrav√©s de seletores CSS e tags, e a captura de conte√∫do relevante para an√°lise posterior.

1. **Configura√ß√£o do Selenium**: Configura√ß√£o do driver do Chrome para intera√ß√£o com a p√°gina web.
2. **Extra√ß√£o de Dados**:
   - Atrav√©s de **tags HTML**: Extra√ß√£o de todos os elementos de uma tag espec√≠fica.
   - Atrav√©s de **seletor CSS incremental**: Extra√ß√£o de elementos que seguem um padr√£o incremental no nome do seletor CSS.
   - Captura de conte√∫do de elementos espec√≠ficos na p√°gina, como not√≠cias financeiras.

üöÄ **Objetivo final**: Obter e organizar dados de not√≠cias financeiras para an√°lise ou modelagem posterior.

In [1]:
# !python -m pip install selenium

In [2]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By

In [3]:
driver = webdriver.Chrome()

driver.get("https://www.investing.com/")
# print(driver.title)

In [4]:
def print_all_elements_by_tag(tag_name: str):
    """
    Extrai e imprime o texto de todos os elementos de uma p√°gina que possuem a tag especificada.

    Args:
        tag_name (str): Nome da tag HTML a ser buscada (por exemplo, 'div', 'p', 'span').

    Retorna:
        None: A fun√ß√£o apenas imprime os textos dos elementos encontrados.

    Exemplo de uso:
        print_all_elements_by_tag('p')  # Imprime o texto de todos os elementos <p> na p√°gina.
    """
    elem = driver.find_elements(By.TAG_NAME, tag_name)

    for e in elem:
        text = e.text
        if text:
            print(text)

In [5]:
def get_elements_by_tag(driver_, parent_element, tag_type: str):
    """
    Extrai o texto de elementos filhos de uma tag espec√≠fica dentro de um elemento pai.

    Args:
        driver_ (WebDriver): Inst√¢ncia do WebDriver.
        parent_element (WebElement): O elemento pai onde a busca pelos filhos ser√° realizada.
        tag_type (str): Nome da tag HTML dos elementos filhos a serem encontrados (por exemplo, 'a', 'div').

    Retorna:
        list: Uma lista contendo os textos dos elementos filhos encontrados e, se existirem, suas sublistas de filhos.

    Exemplo de uso:
        get_elements_by_tag(driver, parent_element, 'div')  # Extrai os textos de todas as divs dentro de parent_element.
    """
    elements = []
    
    # Encontre todos os elementos filhos do tipo especificado dentro do elemento pai
    child_elements = parent_element.find_elements(By.TAG_NAME, tag_type)
    
    for element in child_elements:
        # Capture o conte√∫do (texto) do elemento
        element_content = element.text
        
        # Verifique se o elemento atual tem filhos do mesmo tipo
        child_structure = get_elements_by_tag(driver_, element, tag_type)
        
        # Se houver filhos, adicione-os como sublista; caso contr√°rio, adicione apenas o conte√∫do
        if child_structure:
            elements.append([element_content, child_structure])
        else:
            elements.append(element_content)
    
    return elements

In [6]:
def get_elements_by_incremental_css_name(css_selector_template: str, start: int, end: int):
    """
    Extrai o texto de elementos na p√°gina com um seletor CSS incremental, baseado em um template de seletor.

    Args:
        css_selector_template (str): Template do seletor CSS com um espa√ßo reservado para um n√∫mero (por exemplo, '[data-test="homepage-news-list-item-{}"]').
        start (int): N√∫mero inicial para come√ßar a busca.
        end (int): N√∫mero final para terminar a busca.

    Retorna:
        list: Uma lista contendo os textos dos elementos encontrados dentro do intervalo especificado.

    Exemplo de uso:
        get_elements_by_incremental_css_name('[data-test="homepage-news-list-item-{}"]', 1, 3)  # Extrai os textos dos elementos 1, 2 e 3.
    """
    # Array para armazenar os textos dos elementos
    elements_texts = []

    # Iterar sobre o intervalo de n√∫meros (start at√© end)
    for i in range(start, end + 1):
        # Criar o seletor CSS com o n√∫mero atual
        css_selector = css_selector_template.format(i)
        try:
            # Tentar encontrar o elemento
            element = driver.find_element(By.CSS_SELECTOR, css_selector)
            # Adicionar o texto do elemento ao array
            elements_texts.append(element.text)
        except:
            # Se o elemento n√£o for encontrado, ignorar e continuar
            print(f"Elemento {css_selector} n√£o encontrado.")
    
    return elements_texts

In [7]:
element = driver.find_element(By.CSS_SELECTOR, '[data-test="homepage-news-main-item-content"]')
element.text

'China wants to make a deal ‚Äôvery badly‚Äô, says Trump\nInvesting.com -- During a recent White House event, President Donald Trump made several noteworthy announcements. He revealed that Washington D.C. will host the 2027 NFL draft and he expressed intent to aid the film industry, which he claimed is being ‚Äôdecimated‚Äô by other countries. The President, w...'

In [8]:
elements_texts = get_elements_by_incremental_css_name('[data-test="homepage-news-list-item-{}"]', 1, 3)
elements_texts

['Ford shares fall as tariff concerns overshadow earnings beat',
 'Partner News\nActTrader at 25: A Legacy Platform with the Craftsmanship of a Watchmaker and the Energy of a Startup',
 'Dollar slides against peers, weighed down by fresh tariff worries']