# üìà Scraping de Not√≠cias sobre A√ß√µes do site Investing.com com Selenium e Pandas

Este script realiza a coleta de not√≠cias sobre a√ß√µes, utilizando **Selenium** para navegar na p√°gina Investing.com e capturar dados din√¢micos. Os dados extra√≠dos s√£o processados com **Pandas** e salvos em um arquivo **CSV** para an√°lise posterior.

### Funcionalidade:
- **Inicia o WebDriver**: Configura e executa o navegador em modo headless.
- **Captura de Not√≠cias**: Coleta not√≠cias da p√°gina de not√≠cias do mercado de a√ß√µes no site "Investing.com".
- **Extra√ß√£o de Dados**: Extrai informa√ß√µes de cada not√≠cia, como t√≠tulo, descri√ß√£o e data de publica√ß√£o.
- **Convers√£o de Tempo**: Converte as informa√ß√µes de tempo relativo (ex: "5 minutos atr√°s") para um timestamp absoluto.
- **Armazenamento**: Organiza as not√≠cias extra√≠das em um DataFrame do Pandas e as salva em um arquivo CSV.

üöÄ **Objetivo**: Automatizar o processo de extra√ß√£o de not√≠cias financeiras e facilitar a an√°lise dos dados.

In [1]:
# !pip install selenium pandas

In [2]:
import os
import re
import time
import pandas as pd
import textwrap
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
from datetime import datetime
import undetected_chromedriver as uc

In [3]:
def convert_time_to_timestamp(time_text):
    """
    Converte uma string de tempo relativo (ex: "7 minutes ago", "2 hours ago") para um timestamp absoluto.
    """
    time_text = time_text.lower()
    try:
        if 'minute' in time_text:
            minutes_ago = int(time_text.split()[0])
            return datetime.now() - pd.to_timedelta(minutes_ago, unit='m')
        elif 'hour' in time_text:
            hours_ago = int(time_text.split()[0])
            return datetime.now() - pd.to_timedelta(hours_ago, unit='h')
        else:
            return pd.to_datetime(time_text)
    except:
        return None  # Em caso de erro, retorna None

1. Iniciar ferramenta de web scraping (Selenium)

In [4]:
def start_driver(headless=True, visible=False):
    """
    Inicia o WebDriver do Chrome com prote√ß√£o contra detec√ß√£o de bots (Cloudflare).

    Args:
        headless (bool): Se True, roda em modo headless (sem interface gr√°fica).
        visible (bool): Se True, abre janela gr√°fica para inspe√ß√£o.

    Retorna:
        uc.Chrome: Inst√¢ncia do driver Chrome com camuflagem.
    """
    options = uc.ChromeOptions()

    # Define o modo de exibi√ß√£o
    if headless and not visible:
        options.add_argument("--headless=new")  # 'new' para melhor compatibilidade
    options.add_argument("--no-sandbox")
    options.add_argument("--disable-dev-shm-usage")
    options.add_argument("--disable-blink-features=AutomationControlled")

    # Define o user-agent (ajuda a parecer um navegador real)
    options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0 Safari/537.36")

    # Tamanho da janela
    if visible:
        options.add_argument("--window-size=1920,1080")

    # Cria o driver com detec√ß√£o ofuscada
    driver = uc.Chrome(options=options)

    return driver

driver = start_driver(headless=False, visible=True)

2. Carregar a p√°gina de not√≠cias do Investing.com

In [5]:
def load_page(driver, url: str, delay: float = 5.0):
    """
    Carrega uma p√°gina e aguarda o carregamento completo.

    Args:
        driver (webdriver.Chrome): Inst√¢ncia do WebDriver.
        url (str): URL a ser carregada.
        delay (float): Segundos para aguardar ap√≥s o carregamento.

    Returns:
        None
    """
    driver.get(url)
    time.sleep(delay)

load_page(driver, "https://www.investing.com/news/stock-market-news")

3. Obter o nome das classes dos elementos html do site que cont√©m as not√≠cias

Obs: Para essa etapa √© necess√°rio inspecionar o elemento html do site, e extrair um trexo no nome da classe que contem a not√≠cia

In [6]:
def get_class_counts(driver, substring: str):
    """
    Filtra classes de elementos cujo nome contenha a substring, imprime √≠ndice e retorna a lista.

    Args:
        driver (webdriver.Chrome): Inst√¢ncia do WebDriver com p√°gina carregada.
        substring (str): Substring a buscar nos nomes de classe.

    Returns:
        list[str]: Lista de nomes de classes que cont√™m a substring.
    """
    # Encontra elementos que tenham a substring em seu atributo class
    elements = driver.find_elements(By.CSS_SELECTOR, f"[class*='{substring}']")
    class_set = set()
    for el in elements:
        class_attr = el.get_attribute('class') or ''
        for cls in class_attr.split():
            if substring in cls:
                class_set.add(cls)

    filtered = list(class_set)
    for i, cls in enumerate(filtered):
        print(f"{i} - Classe: {cls}")
    return filtered

class_list = get_class_counts(driver, 'news-analysis-v2')

0 - Classe: news-analysis-v2_content__z0iLP
1 - Classe: news-analysis-v2_articles-container__3fFL8
2 - Classe: news-analysis-v2_info-item__dOLsl
3 - Classe: news-analysis-v2_article__wW0pT


4. Obter os textos dos elementos html referenciado pelo nome da classe

In [12]:
def get_texts_by_class(driver, class_name: str):
    """
    Retorna textos de todos os elementos que contenham a classe especificada,
    ignorando linhas que sejam apenas n√∫meros, bullet points ou vazias.

    Args:
        driver (webdriver.Chrome): Inst√¢ncia do WebDriver com p√°gina carregada.
        class_name (str): Nome da classe CSS a ser buscada.

    Returns:
        list[str]: Lista de textos v√°lidos dos elementos encontrados.
    """
    selector = f"[class~='{class_name}']"
    elements = driver.find_elements(By.CSS_SELECTOR, selector)
    texts = []

    for el in elements:
        text = el.text.strip()
        print(f"[DEBUG] Capturado: '{text}'") 
        # Ignora se for vazio
        if not text:
            continue
        # Ignora se for apenas n√∫mero
        if re.fullmatch(r'\d+', text):
            continue
        # Ignora se for bullet point
        if text in ['‚Ä¢', '¬∑', '‚óè', '‚ó¶', '-', '‚Äì']:
            continue
        texts.append(text)

    return texts

headlines = get_texts_by_class(driver, class_list[3])

for line in headlines:
    print(line)

[DEBUG] Capturado: 'Republicans split on US credit downgrade as party‚Äôs tax bill lingers
By Bo Erickson WASHINGTON (Reuters) -Moody‚Äôs downgrade of the U.S. sovereign credit rating has elicited mixed responses among...
By
Reuters
‚Ä¢
35 minutes ago'
[DEBUG] Capturado: 'Trump tells Walmart to ‚Äôeat the tariffs‚Äô instead of raising prices
By Jasper Ward WASHINGTON (Reuters) -U.S. President Donald Trump said on Saturday that Walmart (N:WMT) should "eat the tariffs"...
By
Reuters
‚Ä¢
1 hour ago
‚Ä¢
8'
[DEBUG] Capturado: 'Moody‚Äôs cuts America‚Äôs pristine credit rating, citing rising debt
By Davide Barbuscia and Pushkala Aripaka (Reuters) -Moody‚Äôs downgraded the U.S. sovereign credit rating on Friday due to concerns...
By
Reuters
‚Ä¢
3 hours ago
‚Ä¢
19'
[DEBUG] Capturado: ''
[DEBUG] Capturado: ''
[DEBUG] Capturado: ''
[DEBUG] Capturado: ''
[DEBUG] Capturado: ''
[DEBUG] Capturado: ''
[DEBUG] Capturado: ''
[DEBUG] Capturado: ''
[DEBUG] Capturado: ''
[DEBUG] Capturado: ''
[DEBUG] Capt

5. Obter os textos relevantes para a classifica√ß√£o do sentimento, como o t√≠tulo, a descri√ß√£o da not√≠cia e a data que ela foi postada

Obs: **An√°lise** a linhas da lista obtida anteriormente e **ajuste** os parametros de acordo para a leitura correta

In [None]:
def convert_time_to_timestamp(time_text):
    """
    Converte uma string de tempo relativo (ex: "7 minutes ago", "2 hours ago") para um timestamp absoluto.
    """
    time_text = time_text.lower()
    try:
        if 'minute' in time_text:
            minutes_ago = int(time_text.split()[0])
            return datetime.now() - pd.to_timedelta(minutes_ago, unit='m')
        elif 'hour' in time_text:
            hours_ago = int(time_text.split()[0])
            return datetime.now() - pd.to_timedelta(hours_ago, unit='h')
        else:
            return pd.to_datetime(time_text)
    except:
        return None  # Em caso de erro, retorna None

def parse_news_items(headlines: list[str], start_line: int, end_line: int, lines_per_news: int = 2,
                     titulo_offset: int = 0, descricao_offset: int = 1, data_offset: int | None = None) -> list[dict]:
    """
    Remove os 'start_line' primeiros e 'end_line' √∫ltimos elementos da lista e agrupa de n em n, extraindo t√≠tulo, descri√ß√£o e data.

    Args:
        headlines (list[str]): Lista de textos capturados pelo get_texts_by_class.
        start_line (int): Quantos itens remover do in√≠cio.
        end_line (int): Quantos itens remover do final.
        lines_per_news (int): Tamanho do agrupamento (padr√£o 2 = t√≠tulo + descri√ß√£o).
        titulo_offset (int): √çndice relativo dentro do grupo para o t√≠tulo.
        descricao_offset (int): √çndice relativo dentro do grupo para a descri√ß√£o.
        data_offset (int | None): √çndice relativo dentro do grupo para a data. Se None, a data n√£o ser√° extra√≠da.

    Returns:
        list[dict]: Lista de dicion√°rios com 'titulo', 'descricao' e 'data' (se dispon√≠vel).
    """
    trimmed = headlines[start_line:len(headlines) - end_line]
    noticias = []

    for i in range(0, len(trimmed) - (lines_per_news - 1), lines_per_news):
        grupo = trimmed[i:i + lines_per_news]
        if len(grupo) == lines_per_news:
            try:
                titulo = grupo[titulo_offset].strip()
                descricao = grupo[descricao_offset].strip()
                data = None

                if data_offset is not None and 0 <= data_offset < len(grupo):
                    raw_data = grupo[data_offset].strip()
                    data = convert_time_to_timestamp(raw_data)

                noticias.append({
                    "titulo": titulo,
                    "descricao": descricao,
                    "data": data
                })
            except IndexError:
                continue  # pula grupos mal formados

    return noticias

news = parse_news_items(headlines, start_line=0, end_line=0, lines_per_news=3, title_offset=0, description_offset=1)
news

[{'titulo': 'Republicans split on US credit downgrade as party‚Äôs tax bill lingers\nBy Bo Erickson WASHINGTON (Reuters) -Moody‚Äôs downgrade of the U.S. sovereign credit rating has elicited mixed responses among...\nBy\nReuters\n‚Ä¢\n13 minutes ago',
  'descricao': 'Trump tells Walmart to ‚Äôeat the tariffs‚Äô instead of raising prices\nBy Jasper Ward WASHINGTON (Reuters) -U.S. President Donald Trump said on Saturday that Walmart (N:WMT) should "eat the tariffs"...\nBy\nReuters\n‚Ä¢\n1 hour ago\n‚Ä¢\n8',
  'data': None}]

In [10]:
def extract_text_string(html_string, keyword, start_char, end_char, division_index: int=1):
    """
    Extrai um trecho de texto de uma string HTML com base em uma palavra-chave e os caracteres delimitadores.

    Args:
        html_string (str): A string HTML de onde extrair o texto.
        keyword (str): Palavra-chave para localizar o ponto de extra√ß√£o.
        start_char (str): Caractere de in√≠cio do trecho a ser extra√≠do.
        end_char (str): Caractere de fim do trecho a ser extra√≠do.
        division_index (int, opcional): √çndice para dividir a string HTML (padr√£o √© 1).

    Retorna:
        str: O texto extra√≠do, ou None se a extra√ß√£o falhar.
    """
    try:
        # Divide o HTML pela palavra-chave
        parts = html_string.split(keyword)
        # print(f"Parts[1] ({len(parts)}) :", parts[1])
        
        # Verifica se a palavra-chave est√° no HTML
        if len(parts) < 2:
            print(f'({len(parts)})\n\n({keyword})\n{parts}\n\n')
            return None
        
        # Pega a segunda parte da divis√£o
        text_part = parts[division_index]
        
        # Encontra o √≠ndice do caractere inicial
        start_index = text_part.find(start_char)
        
        # Verifica se o caractere inicial foi encontrado
        if start_index == -1:
            return None
        
        # Ajusta o √≠ndice inicial para come√ßar ap√≥s o caractere inicial
        start_index += len(start_char)
        
        # Encontra o √≠ndice do caractere final a partir do √≠ndice inicial
        end_index = text_part.find(end_char, start_index)
        
        # Verifica se o caractere final foi encontrado
        if end_index == -1:
            return None
        
        # Extrai o texto entre o caractere inicial e o caractere final
        extracted_text = text_part[start_index:end_index]
        
        return extracted_text.strip()
    except Exception as e:
        print(f"Erro ao extrair texto: {e}")
        return None

In [11]:
# Fun√ß√£o para extrair dados de um item de not√≠cia
def extract_news_item_data(item):
    """
    Extrai dados (link, t√≠tulo, descri√ß√£o, data de publica√ß√£o) de um item de not√≠cia.

    Args:
        item (str): String HTML representando um item de not√≠cia.

    Retorna:
        dict: Dicion√°rio contendo 'Link', 'Title', 'Description' e 'PublishDate'.
    """
    # print(f'Item:\n\n{textwrap.indent(item.get_attribute("innerHTML"), prefix='    ')}\n\n')
    try:        
        # Extraindo o link do artigo
        link = extract_text_string(item, "article-title-link", 'href="', '"', division_index=0)
        print(f'Article Link: {link}')

        # Extraindo o t√≠tulo do artigo
        title = extract_text_string(item, "article-title-link", ">", "<")
        print(f'Article Title: {title}')

        # Extraindo a descri√ß√£o do artigo
        description = extract_text_string(item, "article-description", ">", "<")
        print(f'Article Description: {description}')

        # Extraindo a data de publica√ß√£o
        publish_date = extract_text_string(item, "article-publish-date", 'datetime="', '"')
        print(f'Publish Date: {publish_date}')

        return {
            'Link': link,
            'Title': title,
            'Description': description,
            'PublishDate': publish_date
        }
    except Exception as e:
        print(f"Erro ao processar item: {e}")
        return None

In [12]:
# Fun√ß√£o para extrair os dados das not√≠cias
def extract_news_data(news_items):
    """
    Extrai dados de uma lista de itens de not√≠cias e os organiza em um DataFrame.

    Args:
        news_items (list): Lista de strings HTML contendo os itens de not√≠cias.

    Retorna:
        pd.DataFrame: DataFrame contendo os dados extra√≠dos (link, t√≠tulo, descri√ß√£o, data de publica√ß√£o).
    """
    # Lista para armazenar os dados
    news_data = []

    # Itera sobre os itens de not√≠cias
    for item in news_items:
        if item.startswith('<li class="list_list__item__dwS6E !mt-0 border-t'):
            news_item_data = extract_news_item_data(item)
            if news_item_data:
                news_data.append(news_item_data)

    # Cria um DataFrame com os dados extra√≠dos
    news_df = pd.DataFrame(news_data)

    return news_df

news_df = extract_news_data(news_items)
news_df.to_csv('news_data.csv', index=False)
print("Dados salvos em 'news_data.csv'")

Dados salvos em 'news_data.csv'


In [13]:
def scrape_and_save_news():
    """
    Fun√ß√£o principal que executa o scraping das not√≠cias, processa os dados e os salva em um arquivo CSV.

    Salva os dados em 'news_data.csv', adicionando dados se o arquivo j√° existir.
    """
    driver = start_driver()
    news_df = extract_news_data(driver)
    driver.quit()  # Fecha o navegador
    
    # Verifica se o arquivo j√° existe
    file_exists = os.path.isfile('news_data.csv')
    
    # Salva o DataFrame em um arquivo CSV, adicionando dados se o arquivo j√° existir
    news_df.to_csv('news_data.csv', mode='a', header=not file_exists, index=False)
    print("Dados adicionados em 'news_data.csv'")
    
# Chama a fun√ß√£o principal
# scrape_and_save_news()