In [10]:
# Importando bibliotecas
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import os
import pandas as pd
import numpy as np  
import time


In [9]:
# Defina o número de linhas a serem puladas, incluindo o cabeçalho
linhas_para_pular = 3

# Lê o arquivo CSV pulando as linhas iniciais
df = pd.read_csv('202310COOPERATIVAS.CSV', delimiter=';', skiprows=linhas_para_pular, encoding='ISO-8859-1')

# Exibe as primeiras linhas do DataFrame
df.head()

# Filtra as linhas onde o valor da coluna "NOME_INSTITUICAO" contém a string "Sicredi" (ignorando maiúsculas e minúsculas) e remove duplicatas
cooperativas_sicredi = df[df['NOME_INSTITUICAO'].str.contains('Sicredi', case=False)].drop_duplicates(subset=['NOME_INSTITUICAO'])

# Configurações do perfil do Chrome para aceitar cookies automaticamente e abrir uma janela anônima
chrome_options = Options()
chrome_options.add_argument("--enable-automation")
chrome_options.add_argument("--start-maximized")
chrome_options.add_argument("--disable-extensions")
chrome_options.add_argument("--disable-popup-blocking")
chrome_options.add_argument("--incognito")  # Abrir janela anônima

# Habilitar o gerenciamento de cookies no perfil
chrome_options.add_argument("--enable-blink-features=AutomaticCookieManagementEnabled")

# Caminho para o perfil do Chrome (você pode alterar este caminho conforme necessário)
chrome_options.add_argument("--user-data-dir=/path/to/your/chrome/profile")

# Inicializar o driver do Chrome com as configurações do perfil
driver = webdriver.Chrome(options=chrome_options)

# Defina o número de segundos de atraso entre cada busca
atraso_entre_buscas = 3  # Altere conforme necessário

try:
    urls = []  # Lista para armazenar as URLs encontradas

    # Iterar sobre as informações da coluna NOME_INSTITUICAO de cooperativas_sicredi
    for index, row in cooperativas_sicredi.iterrows():
        # Abrir uma nova janela anônima para cada iteração
        driver.execute_script("window.open('about:blank', 'tab" + str(index) + "');")
        driver.switch_to.window("tab" + str(index))

        # Abrir a página de busca
        driver.get("https://www.sicredi.com.br/site/busca-resultado/")

        # Obter o valor da coluna "NOME_INSTITUICAO" atual
        search_query = row['NOME_INSTITUICAO']

        # Esperar até que o campo de busca esteja disponível
        search_box = WebDriverWait(driver, 3).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, ".blocoFormulario input.inputGeral"))
        )

        # Limpar o campo de busca
        search_box.clear()

        # Preencher o campo de busca com o valor atual da coluna
        search_box.send_keys(search_query)
        search_box.send_keys(Keys.RETURN)

        # Esperar até que o contêiner de resultados da busca esteja presente
        WebDriverWait(driver, 3).until(
            EC.presence_of_element_located((By.CLASS_NAME, "gs-webResult.gs-result"))
        )

        # Obter o HTML da página após a busca
        page_source = driver.page_source

        # Parse HTML content using BeautifulSoup
        soup = BeautifulSoup(page_source, 'html.parser')

        # Find the first search result element
        first_search_result = soup.find("div", class_="gs-webResult gs-result")

        # Extract the URL from the first search result element
        if first_search_result:
            url_element = first_search_result.find("a", class_="gs-title")
            if url_element:
                result_url = url_element.get("href")
                print(f"URL para '{search_query}': {result_url}")
                urls.append(result_url)
        else:
            print(f"Nenhuma URL encontrada para '{search_query}'")

        # Adicionar um atraso antes da próxima busca
        time.sleep(atraso_entre_buscas)

    # Adicionar a lista de URLs como uma nova coluna no DataFrame, preenchendo com None para buscas sem resultado
    cooperativas_sicredi['URL'] = urls + [None] * (len(cooperativas_sicredi) - len(urls))

    # Salvar o DataFrame em um arquivo CSV
    cooperativas_sicredi.to_csv('df_sicredi_com_url.csv', index=False)

finally:
    # Fechar o navegador
    driver.quit()


WebDriverException: Message: unknown error: cannot create default profile directory
Stacktrace:
#0 0x60ef00adcd93 <unknown>
#1 0x60ef007c0337 <unknown>
#2 0x60ef007f8dbc <unknown>
#3 0x60ef007f3085 <unknown>
#4 0x60ef007f0765 <unknown>
#5 0x60ef0083ab7c <unknown>
#6 0x60ef0082e1e3 <unknown>
#7 0x60ef007fe135 <unknown>
#8 0x60ef007ff13e <unknown>
#9 0x60ef00aa0e4b <unknown>
#10 0x60ef00aa4dfa <unknown>
#11 0x60ef00a8d6d5 <unknown>
#12 0x60ef00aa5a6f <unknown>
#13 0x60ef00a7169f <unknown>
#14 0x60ef00aca098 <unknown>
#15 0x60ef00aca262 <unknown>
#16 0x60ef00adbf34 <unknown>
#17 0x7f5fae694ac3 <unknown>


In [7]:
# Adicionar uma segunda coluna chamada 'URL_Documentos' com as URLs modificadas
cooperativas_sicredi['URL_Documentos'] = cooperativas_sicredi['URL'].apply(lambda url: url + 'documentos-e-relatorios/' if url else None)

# Salvar o DataFrame em um arquivo CSV
cooperativas_sicredi.to_csv('df_sicredi_com_url.csv', index=False)

In [9]:

# Caminho para o arquivo CSV gerado Manualmente depois dos filtros e limpeza.
caminho_arquivo = 'MANUAL_df_sicredi_com_url.csv'

# Carregar o arquivo CSV em um DataFrame
df = pd.read_csv(caminho_arquivo)

# Iterar sobre as linhas do DataFrame
for indice, linha in df.iterrows():
    nome_instituicao = linha['NOME_INSTITUICAO']
    # Remover caracteres inválidos para nome de pasta
    nome_instituicao = nome_instituicao.replace('/', '_')
    nome_instituicao = nome_instituicao.replace(':', '_')
    nome_instituicao = nome_instituicao.replace('*', '_')
    nome_instituicao = nome_instituicao.replace('?', '_')
    # Criar a pasta se ainda não existir
    if not os.path.exists(nome_instituicao):
        os.makedirs(nome_instituicao)


In [11]:
# Iterar sobre as linhas do DataFrame
for indice, linha in df.iterrows():
    nome_instituicao = linha['NOME_INSTITUICAO']
    url_documentos = linha['URL_Documentos']
    
    if url_documentos and url_documentos != 'none':  # Verificar se a URL não está vazia ou igual a 'none'
        # Remover caracteres inválidos para nome de pasta
        nome_instituicao = nome_instituicao.replace('/', '_')
        nome_instituicao = nome_instituicao.replace(':', '_')
        nome_instituicao = nome_instituicao.replace('*', '_')
        nome_instituicao = nome_instituicao.replace('?', '_')
        
        # Criar a pasta se ainda não existir
        pasta_destino = nome_instituicao
        if not os.path.exists(pasta_destino):
            os.makedirs(pasta_destino)
        
        # Fazer scraping da página de documentos
        resposta = requests.get(url_documentos)
        soup = BeautifulSoup(resposta.content, 'html.parser')
        
        # Encontrar todos os links para os documentos
        links_documentos = soup.find_all('a', class_='btn-download-file')
        
        # Iterar sobre os links
        for link in links_documentos:
            url_documento = link['href']
            # Verificar se o documento é de 2022 ou 2023
            if '2022' in url_documento or '2023' in url_documento:
                # Baixar o arquivo
                baixar_arquivo(url_documento, pasta_destino)

