Dia 05/07/2024
Utilizando Python para extrair textos de site

Codigo 1:

In [None]:
import requests
from bs4 import BeautifulSoup

# URL do site
url = 'https://onsafety.com.br/pgr/'

# Headers para imitar uma requisição de navegador
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

# Realizar a requisição HTTP com headers
response = requests.get(url, headers=headers)

# Verificar se a requisição foi bem-sucedida
if response.status_code == 200:
    # Parsear o conteúdo HTML
    soup = BeautifulSoup(response.content, 'html.parser')

    # Extrair todos os textos do site
    textos = soup.get_text()

    # Exibir o texto extraído
    print(textos)
else:
    print("Erro ao acessar a página:", response.status_code)


Codigo 2: Implementando planilha para salvar os dados

In [4]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import os

# URL do site
url = 'https://onsafety.com.br/pgr/'

# Headers para imitar uma requisição de navegador
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

# Realizar a requisição HTTP com headers
response = requests.get(url, headers=headers)

# Verificar se a requisição foi bem-sucedida
if response.status_code == 200:
    # Parsear o conteúdo HTML
    soup = BeautifulSoup(response.content, 'html.parser')

    # Encontrar todos os elementos de título e conteúdo
    titulos = soup.find_all(class_='elementor-image-box-title')
    conteudos = soup.find_all(class_='elementor-image-box-description')

    # Extrair textos e armazenar em listas
    lista_titulos = [titulo.get_text(strip=True) for titulo in titulos]
    lista_conteudos = [conteudo.get_text(strip=True) for conteudo in conteudos]

    # Criar DataFrame
    df = pd.DataFrame({'TITULO': lista_titulos, 'CONTEUDO': lista_conteudos})

    # Caminho para a pasta de Downloads
    caminho_planilha = os.path.join(os.path.expanduser('~'), 'Downloads', 'Extracao_PGR.xlsx')
    df.to_excel(caminho_planilha, index=False)

    print("Planilha criada e salva em:", caminho_planilha)
else:
    print("Erro ao acessar a página:", response.status_code)


Planilha criada e salva em: C:\Users\MuriloFarias\Downloads\Extracao_PGR.xlsx


Codigo 3: Modificando para ler um arquivo, identifcar os sites depois salvar em outro arquivo

Explicação Geral
Importações: Importa as bibliotecas necessárias para fazer requisições HTTP (requests), parsear HTML (BeautifulSoup), manipular dados (pandas), e lidar com caminhos de arquivos (os).

Função extrair_dados_site(url):

Requisição HTTP: Faz uma requisição ao site especificado usando um cabeçalho de user-agent para evitar bloqueios por bots.
Parsing HTML: Utiliza BeautifulSoup para fazer o parsing do conteúdo HTML retornado.
Extração de Dados: Encontra todos os elementos HTML com as classes específicas para títulos e conteúdos, extrai o texto desses elementos e retorna duas listas contendo os títulos e os conteúdos.
Carregar Dados da Planilha:

Caminho da Planilha: Define o caminho da planilha de entrada no diretório Downloads.
Leitura da Planilha: Lê a planilha na aba 'Sites' para obter a lista de URLs dos sites.
Criar e Salvar a Nova Planilha:

Definição do Caminho de Saída: Define o caminho da nova planilha onde os resultados serão salvos.
Iteração sobre os Sites: Para cada URL na coluna 'Sites' da planilha:
Extrai títulos e conteúdos usando a função extrair_dados_site.
Cria um DataFrame com os dados extraídos.
Define o nome da aba baseado na URL do site.
Escreve o DataFrame em uma nova aba da planilha de saída.
Finalização: Após iterar sobre todos os sites, salva a planilha de saída e imprime uma mensagem de confirmação.

Este script automatiza a tarefa de extrair e organizar dados de diversos sites em uma única planilha, facilitando a análise e a comparação dos dados extraídos.

In [5]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import os

# Função para extrair dados de um site
def extrair_dados_site(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    response = requests.get(url, headers=headers)  # Faz a requisição HTTP para o site com cabeçalho de user-agent
    if response.status_code == 200:  # Verifica se a requisição foi bem-sucedida
        soup = BeautifulSoup(response.content, 'html.parser')  # Faz o parsing do HTML do site
        titulos = soup.find_all(class_='elementor-image-box-title')  # Encontra todos os elementos com a classe 'elementor-image-box-title'
        conteudos = soup.find_all(class_='elementor-image-box-description')  # Encontra todos os elementos com a classe 'elementor-image-box-description'
        lista_titulos = [titulo.get_text(strip=True) for titulo in titulos]  # Extrai o texto de cada título e remove espaços em branco extras
        lista_conteudos = [conteudo.get_text(strip=True) for conteudo in conteudos]  # Extrai o texto de cada conteúdo e remove espaços em branco extras
        return lista_titulos, lista_conteudos  # Retorna listas de títulos e conteúdos
    else:
        print(f"Erro ao acessar a página {url}: {response.status_code}")  # Imprime um erro se a requisição não foi bem-sucedida
        return [], []  # Retorna listas vazias em caso de erro

# Carregar dados da planilha
caminho_planilha = os.path.join(os.path.expanduser('~'), 'Downloads', 'Buscar_Dados.xlsx')  # Define o caminho da planilha de entrada
df_sites = pd.read_excel(caminho_planilha, sheet_name='Sites')  # Lê a planilha de entrada na aba 'Sites'

# Criar um novo arquivo Excel para salvar os resultados
caminho_resultados = os.path.join(os.path.expanduser('~'), 'Downloads', 'Resultados_Sites.xlsx')  # Define o caminho da planilha de saída
with pd.ExcelWriter(caminho_resultados, engine='openpyxl') as writer:  # Abre um objeto ExcelWriter para escrever a nova planilha
    for site in df_sites['Sites'].dropna():  # Itera sobre cada site na coluna 'Sites', ignorando valores nulos
        titulos, conteudos = extrair_dados_site(site)  # Extrai os títulos e conteúdos do site atual
        if titulos and conteudos:  # Verifica se foram encontrados títulos e conteúdos
            df_site = pd.DataFrame({'TITULO': titulos, 'CONTEUDO': conteudos})  # Cria um DataFrame com os títulos e conteúdos
            nome_aba = site.split('/')[-2] if site.split('/')[-1] == '' else site.split('/')[-1]  # Define o nome da aba com base na URL
            df_site.to_excel(writer, sheet_name=nome_aba, index=False)  # Escreve o DataFrame na aba correspondente

print("Planilha com os resultados criada e salva em:", caminho_resultados)  # Imprime uma mensagem confirmando a criação da planilha


Planilha com os resultados criada e salva em: C:\Users\MuriloFarias\Downloads\Resultados_Sites.xlsx
