# üìÑ Coletor de Not√≠cias NSC - Santa Catarina

## üìÖ Descri√ß√£o

Script automatizado para coleta de not√≠cias relacionadas a eventos clim√°ticos em **Santa Catarina**, diretamente do portal **NDMais**. Utiliza **Selenium** com o navegador **Brave**, e faz parsing do HTML via **BeautifulSoup**.

Ideal para monitoramento de not√≠cias sobre chuvas, enchentes, ciclones e outros eventos extremos no estado.

---

## üõ†Ô∏è Requisitos

* Python 3.x
* Bibliotecas Python:

  * `selenium`
  * `pandas`
  * `tqdm`
  * `wget`
  * `beautifulsoup4`
  * `openpyxl`

O script verifica e instala automaticamente os pacotes acima, se necess√°rio.

---

## üöÄ Como Usar

1. Clone o reposit√≥rio e execute o script principal:

```bash
jupyter notebook
```

2. Ao ser perguntado:

```bash
Deseja rodar prepara√ß√£o de ambiente (RECOMENDADO PARA PRIMEIRA VEZ): [sim/n√£o]
```

Digite `sim` na primeira execu√ß√£o para:

* Instalar depend√™ncias
* Baixar o ChromeDriver
* Baixar o navegador Chrome (vers√£o para automa√ß√£o)

3. O script iniciar√° a coleta de not√≠cias automaticamente.

---

## üîß Funcionalidades

* Verifica√ß√£o e instala√ß√£o autom√°tica de bibliotecas e drivers
* Download do Chrome e do ChromeDriver para automa√ß√£o
* Coleta de not√≠cias por m√∫ltiplos termos e tags
* Filtragem de not√≠cias com base em Santa Catarina
* Rein√≠cio autom√°tico do navegador em caso de falha
* Backup cont√≠nuo durante a coleta (a cada 10 p√°ginas)
* Armazenamento dos dados em Excel, com remo√ß√£o de duplicatas

---

## üìÉ Estrutura dos Dados

Cada not√≠cia coletada possui:

* `title`: T√≠tulo da not√≠cia
* `link`: URL completa
* `data`: Data de publica√ß√£o
* `tag`: Palavra-chave que originou a busca (removida no Excel final)

---

## üìÅ Diret√≥rios Esperados

```plaintext
.
‚îú‚îÄ‚îÄ chromedriver/          # Gerado automaticamente
‚îú‚îÄ‚îÄ chrome/                # Chrome para automa√ß√£o (gerado automaticamente)
‚îú‚îÄ‚îÄ planilhas/
‚îÇ   ‚îú‚îÄ‚îÄ cidade_sc1.xlsx    # Lista de munic√≠pios catarinenses (necess√°rio)
‚îÇ   ‚îî‚îÄ‚îÄ noticias.xlsx      # Planilha gerada com as not√≠cias filtradas
```

---

## üß† L√≥gica de Funcionamento

* As not√≠cias s√£o buscadas por meio de navega√ß√£o automatizada por tags (termos de busca)
* A cada 10 p√°ginas visitadas, o progresso √© salvo
* A fun√ß√£o `SCfilter()` verifica se a not√≠cia est√° relacionada ao estado de SC com base em:

  * Termos como "sc", "santa catarina"
  * Nome dos munic√≠pios encontrados na planilha `cidade_sc1.xlsx`
* Not√≠cias duplicadas s√£o removidas antes de salvar em Excel

---

## üìà Termos de Busca Utilizados

```python
{
  "chuvas": 52,
  "chuva em sc": 35,
  "chuvas em sc": 60,
  "chuva": 395,
  "chuva forte": 5,
  "chuvarada": 11,
  "temporal": 109,
  "tempestade": 21,
  "ciclone": 32,
  "ciclone bomba": 5,
  "ciclone extratropical": 6,
  "previsao do tempo": 708,
  "frente fria": 9,
  "enchente": 92,
  "enchentes": 22,
  "alagamento": 61,
  "alagamentos": 20,
  "deslizamento": 36,
  "deslizamentos": 9,
  "deslizamento de terra": 5
}
```

Esses termos s√£o convertidos para o formato URL (espa√ßos viram hifens `-`).

---

## üß™ Ambiente Controlado

A prepara√ß√£o autom√°tica realiza as seguintes a√ß√µes:

* Instala e atualiza bibliotecas essenciais via `pip`
* Verifica presen√ßa do Chrome e ChromeDriver e baixa automaticamente, se necess√°rio
* Usa uma vers√£o espec√≠fica e port√°til do Chrome (modo headless ativado)

---

## üéì Licen√ßa

Este projeto √© de uso livre para fins educacionais, de pesquisa e jornalismo de dados.

---


In [None]:
try:
    from bs4 import BeautifulSoup
    from selenium import webdriver

    from selenium.webdriver.common.by import By
    from selenium.webdriver.support.wait import WebDriverWait
    from selenium.webdriver.support import expected_conditions as EC
    from selenium.webdriver.chrome.service import Service

    import pandas as pd

    if input("Deseja rodar prepara√ß√£o de ambiente (RECOMENDADO PARA PRIMEIRA VEZ): [sim/n√£o]") in ["sim", "Sim", "S", "s"]:
        raise Exception("Prepara√ß√£o de ambiente solicitada")
except:
    print("Configurando ambiente")
    
    import os
    import subprocess
    
    print("Checking for not installed packages...")
    
    result = subprocess.run(["pip", "list"], stdout=subprocess.PIPE, text=True)

    if not all([lib in result.stdout for lib in ["selenium","wget","pandas","openpyxl", "beautifulsoup4"]]):
        print("Installing packages...")
        os.system("pip install --upgrade selenium wget pandas openpyxl beautifulsoup4")
    
    print("All packages are installed!")
    
    
    print("Checking for outdated packages...")
    result = subprocess.run(["pip", "list", "--outdated"], stdout=subprocess.PIPE, text=True)
    
    if any([lib in result.stdout for lib in ["selenium","wget","pandas","openpyxl", "beautifulsoup4"]]):
        print("Updating packages...")
        os.system("pip install --upgrade selenium wget pandas openpyxl beautifulsoup4")

    print("All packages are updated!")
    
    import wget
    import zipfile
    
    if "chromedriver" not in os.listdir():
        print("Downloading chromedriver")
        filename = wget.download("https://storage.googleapis.com/chrome-for-testing-public/134.0.6998.165/win64/chromedriver-win64.zip")
        with zipfile.ZipFile(f"./{filename}", 'r') as zip_ref:
            zip_ref.extractall("./chromedriver")
    else:
        print("Chromedriver found!")
    
    if "chrome" not in os.listdir():
        print("Downloading chrome")
        filename = wget.download("https://storage.googleapis.com/chrome-for-testing-public/134.0.6998.165/win64/chrome-win64.zip")
        with zipfile.ZipFile(f"./{filename}", 'r') as zip_ref:
            zip_ref.extractall("./chrome")
    else:
        print("Chrome found!")


    from selenium import webdriver
    from selenium.webdriver.support.wait import WebDriverWait
    from selenium.webdriver.support import expected_conditions as EC
    from selenium.webdriver.chrome.service import Service

    import pandas as pd

options = webdriver.ChromeOptions()

options.binary_location = "./chrome/chrome-win64/chrome.exe"

driverpath = Service("./chromedriver/chromedriver-win64/chromedriver.exe")

options.add_argument('--headless=new')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')  # Evita problemas de mem√≥ria compartilhada
options.add_argument('--disable-web-security')
options.add_argument('--disable-site-isolation-trials')
options.add_argument('--ignore-certificate-errors')
options.add_argument('--allow-running-insecure-content')
options.add_argument('--disable-notifications')

options.page_load_strategy = 'eager'

driver = webdriver.Chrome(service=driverpath, options=options)

def articleFormatter(article, tag): 
    return {
        "title": article.find("h3").text.strip(),
        "link": article.find("a").get_attribute_list("href")[0],
        "data": article.find("div", class_="date").text.strip(),
        "tag": tag
    }

def SCfilter(article):
    cidades_sc1 = pd.read_excel('./planilhas/cidade_sc1.xlsx')
    
    for key in [" sc ", "santa catarina", " sc", "sc "]:
        if key in article["title"].lower():
            return True
        
        
    for key in ["-sc-", "santa-catarina", "-sc", "sc-"]:
        if key in article["link"].split("/")[-1].lower():
            return True

    for cidade in cidades_sc1["MUNICIPIO"]:
        if cidade.lower() in article["title"].lower() or cidade.lower() in article["link"].split("/")[-1].lower():
            return True

    return False

def getNewsByTags(tags):
    global driver
    allNews = []

    pageCounter = 0
    for tag in tags.keys():
        for page in range(tags[tag]):
            if pageCounter % 10 == 0:
                print(f"\nPlanilha salva com {len(allNews)} not√≠cias para backup...")
                storeAsExcel(allNews)
                print("Salvo\n")
            
            acessed = False
            
            while not acessed:
                try:
                    driver.get(f"https://www.nsctotal.com.br/tag/{tag}?page={page}")
                    acessed = True
                except:
                    print("Erro ao acessar a p√°gina, reiniciando navegador...")
                    driver.quit()
                    driver = webdriver.Chrome(service=driverpath, options=options)
    
            try:
                WebDriverWait(driver, 10).until( EC.presence_of_element_located( (By.CLASS_NAME, "date") ) )
                driver.implicitly_wait(5)
            except:
                continue            
            
            soup = BeautifulSoup(driver.page_source, 'html.parser')

            news = soup.find_all('div', class_='featured-news-thumb')
            
            parsedNews = [articleFormatter(article, tag) for article in news]

            parsedNews = list(filter(SCfilter, parsedNews))
            
            allNews += parsedNews
            print(f"\nNoticias coletadas: {len(parsedNews)}\nTag: {tag}\nP√°gina:{page}\nTotal: {len(allNews)}\n")

            pageCounter += 1
        
        
            
    return allNews

def storeAsExcel(data):
    rows = list(map(lambda article: article.values(), data))
    df = pd.DataFrame(rows, columns=["title", "link", "data", "tag"])
    
    print(f"N√∫mero de noticias com duplicados: {len(df)}")
    
    df = df.drop("tag", axis=1)
    df = df.drop_duplicates()
    
    print(f"N√∫mero de noticias sem duplicados: {len(df)}")
    
    df.to_excel("./planilhas/noticias.xlsx", index=False)
    

searchReference = {
    "chuvas": 52,
    "chuva em sc": 35,
    "chuvas em sc": 60,
    "chuva": 395,
    "chuva forte": 5,
    "chuvarada": 11,
    "temporal": 109,
    "tempestade": 21,
    "ciclone": 32,
    "ciclone bomba": 5,
    "ciclone extratropical": 6,
    "previsao do tempo": 708,
    "frente fria": 9,
    "enchente": 92,
    "enchentes": 22,
    "alagamento": 61,
    "alagamentos": 20,
    "deslizamento": 36,
    "deslizamentos": 9,
    "deslizamento de terra": 5
}

searchReference = {tag.replace(" ", "-"): searchReference[tag] for tag in searchReference}

data = getNewsByTags(searchReference)

print(data)

storeAsExcel(data)