# 07 - Coleta de Dados do Reclame Aqui

Este notebook apresenta duas formas de coletar dados do Reclame Aqui para o TCC:

- **Opção A**: Scraping automático usando `requests` e `BeautifulSoup`.
- **Opção B**: Importação de um CSV manual, exportado previamente pelo pesquisador.

A saída final será um DataFrame padronizado com as colunas:

`data, marca, modelo, texto, status`

In [None]:
# Instalar dependências (caso necessário)
!pip install requests beautifulsoup4 pandas --quiet

## Opção A – Scraping Automático

⚠️ **Aviso**: O site Reclame Aqui pode bloquear acessos automatizados. Use esta abordagem apenas para fins acadêmicos, em volume limitado.

Aqui um exemplo simples para coletar títulos de reclamações de uma página da Hyundai:

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from datetime import datetime

url = "https://www.reclameaqui.com.br/empresa/hyundai-motor-brasil/"
html = requests.get(url).text
soup = BeautifulSoup(html, "html.parser")

# Exemplo: pegar títulos de reclamações (simples)
titulos = [t.get_text(strip=True) for t in soup.find_all("h4")]

df_scraping = pd.DataFrame({
    "data": [datetime.today().strftime("%Y-%m-%d")] * len(titulos),
    "marca": ["Hyundai"] * len(titulos),
    "modelo": ["HB20"] * len(titulos),
    "texto": titulos,
    "status": ["Desconhecido"] * len(titulos)
})

df_scraping.head()

## Opção B – Importação de CSV Manual

Se preferir exportar manualmente as reclamações (copiando para uma planilha e salvando em CSV), basta usar este trecho de código:


In [None]:
# Substitua pelo caminho do seu CSV
csv_path = "reclameaqui_carros.csv"

try:
    df_manual = pd.read_csv(csv_path)
    print("Pré-visualização dos dados carregados:")
    display(df_manual.head())
except FileNotFoundError:
    print("⚠️ Arquivo CSV não encontrado. Salve o arquivo e atualize o caminho em 'csv_path'.")

## Padronização Final

Independente da opção escolhida, padronizamos o DataFrame final com as colunas necessárias:
- `data`
- `marca`
- `modelo`
- `texto`
- `status`

In [None]:
# Se veio do scraping
if 'df_scraping' in locals():
    df_final = df_scraping.copy()
elif 'df_manual' in locals():
    df_final = df_manual.copy()
else:
    df_final = pd.DataFrame(columns=["data", "marca", "modelo", "texto", "status"])

print("DataFrame padronizado:")
display(df_final.head())

## Próximos passos

- Expandir scraping para coletar mais detalhes (data real da reclamação, status resolvido/não resolvido, etc.).
- Usar CSV manual para complementar caso o scraping seja limitado.
- Integrar este DataFrame ao pipeline de pré-processamento de sentimentos.
- Armazenar no banco de dados (PostgreSQL) junto com os demais datasets (TweetEval e Twitter).