### Ideia de análise

A Fenabrave divulga mensalmente dados de carros transacionados no mercado - tanto novos quanto seminovos/usados. Os dados de Seminovos e Usados têm início a partir de 2005, de forma mensal e os relatórios são arquivos .pdf com 8 páginas. A ideia aqui é ter um código de extração para o download desses arquivos e o tratamento do pdf usando PyMuPDF pra extrair as tabelas do documento: tanto o total transacionado entre os tipos de veículos, bem como os modelos de automóveis e comerciais leves que compõem o Top 50 dos mais vendidos (última página)

### Pacotes

In [None]:
# !pip install selenium
# !pip install webdriver-manager
# !apt-get update
# !apt install chromium-chromedriver
# !pip install oauth2client
# !pip install webdriver-manager

In [17]:
import os
from selenium import webdriver
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.options import Options
import requests
import time
from datetime import datetime
import pandas as pd
from oauth2client.service_account import ServiceAccountCredentials
from selenium.webdriver.support.ui import WebDriverWait 
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from urllib.parse import urlparse

### Scraping

In [18]:
path = '/Users/lucasmoreira/Documents/pessoal/chromedriver_mac64'
path_data = os.path.join(path, 'chromedriver')

### Seminovos e Usados

In [None]:
# Coleta dados da página inicial
chrome_options = webdriver.ChromeOptions()
prefs = {
    "plugins.always_open_pdf_externally": True,  # não abre o PDF, força download
    "download.prompt_for_download": False,
    "download.directory_upgrade": True
}
chrome_options.add_experimental_option("prefs", prefs)
driver = webdriver.Chrome(options=chrome_options)

fenabrave = 'https://www.fenabrave.org.br/Portal/Conteudo/SemiNovoseUsados'
driver.get(fenabrave)
time.sleep(3)

pdf_links_originais = []

for i in (range(2, 18)):
    try:
        link_element = driver.find_element(By.XPATH, f'/html/body/div[3]/div/div[{i}]/div/p[3]/a')
        pdf_url = link_element.get_attribute('href')
        if pdf_url and pdf_url.lower().endswith('.pdf'):
            pdf_links_originais.append(pdf_url)
    except:
        print(f'Erro no arquivo {i}')
driver.quit()


# Extrair nomes limpos
names = [url.split('files/')[-1] for url in pdf_links_originais]

# Construir novas URLs com HTTPS
pdf_links = [f'https://www.fenabrave.org.br/portal/files/{name}' for name in names]

# Criar pasta para os downloads
pasta_downloads = "/Users/lucasmoreira/Documents/code/downloads_fenabrave"

# Headers e contadores
headers = {'User-Agent': 'Mozilla/5.0'}
sucessos, erros, ja_existem = 0, 0, 0

print(f"Iniciando download de {len(pdf_links)} arquivos...")

# Download
for i, url in enumerate(pdf_links, 1):
    filename = os.path.basename(urlparse(url).path)
    filepath = os.path.join(pasta_downloads, filename)

    # Mensagem de status
    status = ""

    if os.path.exists(filepath):
        ja_existem += 1
        status = "Já existia"
    else:
        try:
            response = requests.get(url, headers=headers, timeout=30)
            response.raise_for_status()

            with open(filepath, "wb") as f:
                f.write(response.content)

            sucessos += 1
            status = "Sucesso"

        except Exception:
            erros += 1
            status = "Erro"

        time.sleep(0.5)

    print(f"[{i}/{len(pdf_links)}] {filename}: {status}")

# Status
print(f"Total Sucesso: {sucessos}")
print(f"Total Histórico: {ja_existem}")
print(f"Total Erro: {erros}")
print(f"Total Processado: {len(pdf_links)}")

In [None]:
# Coleta dados históricos (2005-2023)
chrome_options = webdriver.ChromeOptions()
prefs = {
    "plugins.always_open_pdf_externally": True,  # não abre o PDF, força download
    "download.prompt_for_download": False,
    "download.directory_upgrade": True
}
chrome_options.add_experimental_option("prefs", prefs)
driver = webdriver.Chrome(options=chrome_options)

fenabrave = 'https://www.fenabrave.org.br/Portal/Conteudo/SemiNovoseUsados'
driver.get(fenabrave)
time.sleep(3)

pdf_links_originais = []

for i in range(1, 19): 
    try:
        driver.find_element(By.XPATH, '//*[@id="textBusca"]').click()
        option = driver.find_element(By.XPATH, f'//*[@id="textBusca"]/option[{i}]')
        option.click()
        ano = option.text.strip()
        
        time.sleep(2)
        driver.find_element(By.XPATH, '/html/body/div[3]/div/div[19]/div/div[2]/button').click()

        time.sleep(3)
        # Percorre as divs de 13 (jan) até 2 (dez) com mapeamento do mês
        for b, mes in zip(range(13, 1, -1), range(1, 13)):
            try:
                link_element = driver.find_element(By.XPATH, f'//*[@id="maisEmplacamentos"]/div[{b}]/div/p[3]/a')
                pdf_url = link_element.get_attribute('href')
                if pdf_url and pdf_url.lower().endswith('.pdf'):
                    pdf_links_originais.append(pdf_url)
            except Exception as e:
                print(f"Mês {mes} (div {b}) não encontrado: {e}")
                
        print(f"Links obtidos até o momento: {len(pdf_links_originais)}")

    except Exception as e:
        print(f"Erro ao processar {i}: {e}")

driver.quit()


# Extrair nomes limpos
names = [url.split('files/')[-1] for url in pdf_links_originais]

# Construir novas URLs com HTTPS
pdf_links = [f'https://www.fenabrave.org.br/portal/files/{name}' for name in names]

# Criar pasta para os downloads
pasta_downloads = "/Users/lucasmoreira/Documents/code/downloads_fenabrave"

# Headers e contadores
headers = {'User-Agent': 'Mozilla/5.0'}
sucessos, erros, ja_existem = 0, 0, 0

print(f"Iniciando download de {len(pdf_links)} arquivos...")

# Download
for i, url in enumerate(pdf_links, 1):
    filename = os.path.basename(urlparse(url).path)
    filepath = os.path.join(pasta_downloads, filename)

    # Mensagem de status
    status = ""

    if os.path.exists(filepath):
        ja_existem += 1
        status = "Já existia"
    else:
        try:
            response = requests.get(url, headers=headers, timeout=30)
            response.raise_for_status()

            with open(filepath, "wb") as f:
                f.write(response.content)

            sucessos += 1
            status = "Sucesso"

        except Exception:
            erros += 1
            status = "Erro"

        time.sleep(0.5)

    print(f"[{i}/{len(pdf_links)}] {filename}: {status}")

# Relatório final
print(f"Total Sucesso: {sucessos}")
print(f"Total Histórico: {ja_existem}")
print(f"Total Erro: {erros}")
print(f"Total Processado: {len(pdf_links)}")

### Novos

In [None]:
#Novos
url = "https://www.fenabrave.org.br/portalv2/Conteudo/Emplacamentos"
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

pdf_links_novos = []
for link in soup.find_all('a', class_="btn btn-info btn-block"):
    pdf_links_novos.append(link['href'])
    
# Extrair nomes limpos
names_new = [url.split('files/')[-1] for url in pdf_links_novos]

# Construir novas URLs com HTTPS
# <a class="btn btn-info btn-block" href="https://www.fenabrave.org.br/portal/files/2025_04_02.pdf" target="_blank">Download</a>

pdf_links = [f'https://www.fenabrave.org.br/portal/files/{name}' for name in names_new]

# Criar pasta para os downloads
pasta_downloads = "/Users/lucasmoreira/Documents/code/downloads_fenabrave_novos"

# Headers e contadores
headers = {'User-Agent': 'Mozilla/5.0'}
sucessos, erros, ja_existem = 0, 0, 0

print(f"Iniciando download de {len(pdf_links)} arquivos...")

# Download
for i, url in enumerate(pdf_links, 1):
    filename = os.path.basename(urlparse(url).path)
    filepath = os.path.join(pasta_downloads, filename)

    # Mensagem de status
    status = ""

    if os.path.exists(filepath):
        ja_existem += 1
        status = "Já existia"
    else:
        try:
            response = requests.get(url, headers=headers, timeout=30)
            response.raise_for_status()

            with open(filepath, "wb") as f:
                f.write(response.content)

            sucessos += 1
            status = "Sucesso"

        except Exception:
            erros += 1
            status = "Erro"

        time.sleep(0.5)

    print(f"[{i}/{len(pdf_links)}] {filename}: {status}")

# Status
print(f"Total Sucesso: {sucessos}")
print(f"Total Histórico: {ja_existem}")
print(f"Total Erro: {erros}")
print(f"Total Processado: {len(pdf_links)}")

In [28]:
# Coleta dados históricos (2005-2023)
chrome_options = webdriver.ChromeOptions()
prefs = {
    "plugins.always_open_pdf_externally": True,  # não abre o PDF, força download
    "download.prompt_for_download": False,
    "download.directory_upgrade": True
}
chrome_options.add_experimental_option("prefs", prefs)
driver = webdriver.Chrome(options=chrome_options)
fenabrave = 'https://www.fenabrave.org.br/portalv2/Conteudo/Emplacamentos'
driver.get(fenabrave)
time.sleep(5)


pdf_links_emplacamentos = []

for i in range(2, 23): 
    try:
        driver.find_element(By.XPATH, '/html/body/div[1]/section/div/div[7]/div/div[1]/select').click()
        option = driver.find_element(By.XPATH, f'/html/body/div[1]/section/div/div[7]/div/div[1]/select/option[{i}]')
        option.click()
        ano = option.text.strip()
        
        time.sleep(2)
        driver.find_element(By.XPATH, '/html/body/div[1]/section/div/div[7]/div/div[3]/button').click()

        time.sleep(3)
        # Percorre as divs de 13 (jan) até 2 (dez) com mapeamento do mês
        for b, mes in zip(range(1,13), range(1, 13)):
            try:
                link_element = driver.find_element(By.XPATH, f'//*[@id="appendBuscarMaisAnos2"]/div[{b}]/div/a[2]')
                pdf_url = link_element.get_attribute('href')
                if pdf_url and pdf_url.lower().endswith('.pdf'):
                    pdf_links_emplacamentos.append(pdf_url)
            except Exception as e:
                print(f"Mês {mes} (div {b}) não encontrado: {e}")
                
        print(f"Links obtidos até o momento: {len(pdf_links_emplacamentos)}")

    except Exception as e:
        print(f"Erro ao processar {i}: {e}")

driver.quit()

pasta_downloads = "/Users/lucasmoreira/Documents/code/downloads_fenabrave_novos"

# Extrair nomes limpos
names_new = [url.split('files/')[-1] for url in pdf_links_emplacamentos]

# Construir novas URLs com HTTPS
pdf_links = [f'https://www.fenabrave.org.br/portal/files/{name}' for name in names_new]

# Headers e contadores
headers = {'User-Agent': 'Mozilla/5.0'}
sucessos, erros, ja_existem = 0, 0, 0

print(f"Iniciando download de {len(pdf_links)} arquivos...")

# Download
for i, url in enumerate(pdf_links, 1):
    filename = os.path.basename(urlparse(url).path)
    filepath = os.path.join(pasta_downloads, filename)

    # Mensagem de status
    status = ""

    if os.path.exists(filepath):
        ja_existem += 1
        status = "Já existia"
    else:
        try:
            response = requests.get(url, headers=headers, timeout=30)
            response.raise_for_status()

            with open(filepath, "wb") as f:
                f.write(response.content)

            sucessos += 1
            status = "Sucesso"

        except Exception:
            erros += 1
            status = "Erro"

        time.sleep(0.5)

    print(f"[{i}/{len(pdf_links)}] {filename}: {status}")

# Relatório final
print(f"Total Sucesso: {sucessos}")
print(f"Total Histórico: {ja_existem}")
print(f"Total Erro: {erros}")
print(f"Total Processado: {len(pdf_links)}")

Links obtidos até o momento: 12
Links obtidos até o momento: 24
Links obtidos até o momento: 36
Links obtidos até o momento: 48
Links obtidos até o momento: 60
Links obtidos até o momento: 72
Links obtidos até o momento: 84
Links obtidos até o momento: 96
Links obtidos até o momento: 108
Links obtidos até o momento: 120
Links obtidos até o momento: 132
Links obtidos até o momento: 144
Links obtidos até o momento: 156
Links obtidos até o momento: 168
Links obtidos até o momento: 180
Links obtidos até o momento: 192
Links obtidos até o momento: 204
Links obtidos até o momento: 216
Links obtidos até o momento: 228
Links obtidos até o momento: 240
Links obtidos até o momento: 252
Iniciando download de 252 arquivos...
[1/252] 2023_12_2.pdf: Erro
[2/252] 2023_11_2.pdf: Sucesso
[3/252] 2023_10_2.pdf: Sucesso
[4/252] 2023_09_2.pdf: Sucesso
[5/252] 2023_08_2.pdf: Sucesso
[6/252] 2023_07_2.pdf: Sucesso
[7/252] 2023_06_2.pdf: Sucesso
[8/252] 2023_05_2.pdf: Sucesso
[9/252] 2023_04_2.pdf: Sucesso
[