## NDMAIS

---

# üìÑ **Documenta√ß√£o do Script de Coleta de Not√≠cias NDMais com Selenium e BeautifulSoup**

## üßæ **Descri√ß√£o Geral**

Este script automatiza o processo de busca, extra√ß√£o, filtragem e armazenamento de not√≠cias relacionadas a eventos clim√°ticos em Santa Catarina, extra√≠das do site **NDMais**. Ele utiliza os navegadores **Brave** e **ChromeDriver** por meio do **Selenium**, com suporte √† an√°lise do conte√∫do via **BeautifulSoup**.

---

## ‚öôÔ∏è **Pr√©-requisitos**

* Python 3.x
* Depend√™ncias:

  * `selenium`
  * `wget`
  * `pandas`
  * `openpyxl`
  * `beautifulsoup4`
  * `tqdm`

---

## üß∞ **Funcionamento do Script**

### üèÅ 1. **Prepara√ß√£o do Ambiente**

* Ao rodar o script pela primeira vez, o usu√°rio pode optar por rodar a "prepara√ß√£o de ambiente".
* Caso n√£o haja bibliotecas instaladas ou estejam desatualizadas, o script as instalar√°/atualizar√° automaticamente.
* Faz download do Brave e do ChromeDriver, caso ainda n√£o estejam presentes na pasta.

### üîç 2. **Configura√ß√£o do WebDriver**

* Configura√ß√µes espec√≠ficas do **ChromeOptions** para o navegador Brave.
* Utiliza o `--no-sandbox`, `--disable-notifications`, entre outros, para evitar falhas de seguran√ßa e melhorar performance.

---

## üîß **Fun√ß√µes e L√≥gicas**

### ### `articleFormatter(article, tag, progress_bar=None)`

* Formata os dados brutos da not√≠cia em um dicion√°rio com:

  * `title`, `link`, `data` e `tag`.
* Atualiza uma barra de progresso, se fornecida.

---

### `SCfilter(article)`

* Filtra not√≠cias relacionadas ao estado de **Santa Catarina (SC)**:

  * Busca por palavras-chave e siglas no t√≠tulo e na URL.
  * Verifica tamb√©m por nomes de munic√≠pios a partir de uma planilha (`cidade_sc1.xlsx`).

---

### `getNewsByTags(tags)`

* Percorre as tags de busca para extrair not√≠cias do site NDMais.
* Etapas:

  * Acessa a URL de pesquisa.
  * Realiza scroll e clica em "Veja Mais" at√© o carregamento total.
  * Usa BeautifulSoup para capturar o conte√∫do HTML.
  * Formata as not√≠cias com `articleFormatter`.
  * Filtra com `SCfilter`.
  * Salva um backup em Excel ap√≥s cada tag processada.
* Retorna uma lista de dicion√°rios com as not√≠cias v√°lidas.

---

### `storeAsExcel(data)`

* Armazena as not√≠cias coletadas em uma planilha Excel:

  * Remove duplicatas.
  * Salva em `./planilhas/noticias.xlsx`.

---

## üîç **Tags de Pesquisa Utilizadas**

Conjunto de termos relacionados a chuvas e eventos clim√°ticos em SC:

```python
{
    "chuvas", "chuva em sc", "chuvas em sc", "chuva", "chuva forte",
    "chuvarada", "temporal", "tempestade", "ciclone", "ciclone bomba",
    "ciclone extratropical", "previs√£o do tempo", "frente fria",
    "enchente", "enchentes", "alagamento", "alagamentos",
    "deslizamento", "deslizamentos", "deslizamento de terra"
}
```

Essas palavras s√£o convertidas para strings de busca no formato de URL (`+` no lugar dos espa√ßos).

---

## üñ•Ô∏è **Execu√ß√£o Final**

```python
data = getNewsByTags(searchReference)
storeAsExcel(data)
```

* Coleta todas as not√≠cias relevantes para cada termo.
* Filtra e salva os resultados em Excel.
* Exibe os dados no terminal.

---

## üìÅ **Estrutura Esperada de Diret√≥rios**

```
.
‚îú‚îÄ‚îÄ chromedriver/
‚îú‚îÄ‚îÄ brave/
‚îú‚îÄ‚îÄ planilhas/
‚îÇ   ‚îú‚îÄ‚îÄ cidade_sc1.xlsx
‚îÇ   ‚îî‚îÄ‚îÄ noticias.xlsx (gerado)
‚îú‚îÄ‚îÄ script.py
```

---

## ‚ö†Ô∏è **Observa√ß√µes**

* **Robustez**: o script reinicia o navegador automaticamente caso ocorra erro de carregamento da p√°gina.
* **Melhorias Futuras**:

  * Tornar o elemento "Veja Mais" mais robusto √† falhas de clique.
  * Adicionar logs estruturados.
  * Parametriza√ß√£o via linha de comando ou config file.

---



In [None]:
from tqdm import tqdm
try:
    from bs4 import BeautifulSoup
    from selenium import webdriver

    from selenium.webdriver.common.by import By
    from selenium.webdriver.support.wait import WebDriverWait
    from selenium.webdriver.support import expected_conditions as EC
    from selenium.webdriver.chrome.service import Service
    from selenium.webdriver.common.action_chains import ActionChains

    import pandas as pd
    import time


    if input("Deseja rodar prepara√ß√£o de ambiente (RECOMENDADO PARA PRIMEIRA VEZ): [sim/n√£o]") in ["sim", "Sim", "S", "s"]:
        raise Exception("Prepara√ß√£o de ambiente solicitada")
except:
    print("Configurando ambiente")
    
    import os
    import subprocess
    
    print("Checking for not installed packages...")
    
    result = subprocess.run(["pip", "list"], stdout=subprocess.PIPE, text=True)

    if not all([lib in result.stdout for lib in ["selenium","wget","pandas","openpyxl", "beautifulsoup4"]]):
        print("Installing packages...")
        os.system("pip install --upgrade selenium wget pandas openpyxl beautifulsoup4")
    
    print("All packages are installed!")
    
    
    print("Checking for outdated packages...")
    result = subprocess.run(["pip", "list", "--outdated"], stdout=subprocess.PIPE, text=True)
    
    if any([lib in result.stdout for lib in ["selenium","wget","pandas","openpyxl", "beautifulsoup4"]]):
        print("Updating packages...")
        os.system("pip install --upgrade selenium wget pandas openpyxl beautifulsoup4")

    print("All packages are updated!")
    
    import wget
    import zipfile
    
    if "chromedriver" not in os.listdir():
        print("Downloading chromedriver")
        filename = wget.download("https://storage.googleapis.com/chrome-for-testing-public/134.0.6998.165/win64/chromedriver-win64.zip")
        with zipfile.ZipFile(f"./{filename}", 'r') as zip_ref:
            zip_ref.extractall("./chromedriver")
    else:
        print("Chromedriver found!")
    
    if "brave" not in os.listdir():
        print("Downloading brave")
        filename = wget.download("https://github.com/brave/brave-browser/releases/download/v1.76.82/brave-v1.76.82-win32-x64.zip")
        with zipfile.ZipFile(f"./{filename}", 'r') as zip_ref:
            zip_ref.extractall("./brave")
    else:
        print("Brave found!")


    from selenium import webdriver
    from selenium.webdriver.support.wait import WebDriverWait
    from selenium.webdriver.support import expected_conditions as EC
    from selenium.webdriver.chrome.service import Service

    import pandas as pd

options = webdriver.ChromeOptions()

options.binary_location = "./brave/brave.exe"

driverpath = Service("./chromedriver/chromedriver-win64/chromedriver.exe")

# options.add_argument('--headless=new')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')  # Evita problemas de mem√≥ria compartilhada
options.add_argument('--disable-web-security')
options.add_argument('--disable-site-isolation-trials')
options.add_argument('--ignore-certificate-errors')
options.add_argument('--allow-running-insecure-content')
options.add_argument('--disable-notifications')

options.page_load_strategy = 'eager'

driver = webdriver.Chrome(service=driverpath, options=options)

def articleFormatter(article, tag, progress_bar=None): 
    progress_bar.update(1)
    return {
        "title": article.find("a").get_attribute_list("title")[0].strip(),
        "link": article.find("a").get_attribute_list("href")[0],
        "data": article.find("time").get_attribute_list("title")[0].strip(),
        "tag": tag
    }

def SCfilter(article):
    cidades_sc1 = pd.read_excel('./planilhas/cidade_sc1.xlsx')
    
    for key in [" sc ", "santa catarina", " sc", "sc "]:
        if key in article["title"].lower():
            return True
        
        
    for key in ["-sc-", "santa-catarina", "-sc", "sc-"]:
        if key in article["link"].split("/")[-1].lower():
            return True

    for cidade in cidades_sc1["MUNICIPIO"]:
        if cidade.lower() in article["title"].lower() or cidade.lower() in article["link"].split("/")[-1].lower():
            return True

    return False

def getNewsByTags(tags):
    global driver
    allNews = []

    for tag in tags:
        
        acessed = False
        
        while not acessed:
            try:
                driver.get(f"https://ndmais.com.br/?s={tag}")
                acessed = True
            except:
                print("Erro ao acessar a p√°gina, reiniciando navegador...")
                driver.quit()
                driver = webdriver.Chrome(service=driverpath, options=options)

        WebDriverWait(driver, 10).until( EC.presence_of_element_located( (By.CLASS_NAME, "title-text")))


        while True:
            try:
                ActionChains(driver).scroll_by_amount(0, 10000).perform()
                
                time.sleep(1)
                
                WebDriverWait(driver, 10).until( EC.presence_of_element_located( (By.CSS_SELECTOR, "a[title=\"Veja Mais\"]") ) )
                                
                driver.find_element(By.CSS_SELECTOR, "a[title=\"Veja Mais\"]").click()

                WebDriverWait(driver, 10).until_not( EC.visibility_of_element_located( (By.CSS_SELECTOR, "i[class=\"button-icon fas fa-spin fa-sync nd-fa-loaded\"]") ) )

            except Exception as e:
                print(e)
                print(f"Page {tag} carregada completamente")
                break            
        
        soup = BeautifulSoup(driver.page_source, 'html.parser')

        news = soup.find_all('div', class_='site-card-content')

        
        progress_bar = tqdm(total=len(news), desc=f"Formatando not√≠cias com a tag {tag}", unit="not√≠cias")
        parsedNews = [articleFormatter(article, tag, progress_bar) for article in news]

        print("Not√≠cias formatadas!")

        print(f"Filtrando not√≠cias com a tag {tag}...")
        parsedNews = list(filter(SCfilter, parsedNews))
                
        print("Not√≠cias Filtradas!")
        
        allNews += parsedNews


        print(f"\nPlanilha salva com {len(allNews)} not√≠cias para backup...")
        storeAsExcel(allNews)
        print("Salvo\n")
            
        print(f"\nNoticias coletadas: {len(parsedNews)}\nTag: {tag}\nTotal: {len(allNews)}\n")
        
            
    return allNews

def storeAsExcel(data):
    rows = list(map(lambda article: article.values(), data))
    df = pd.DataFrame(rows, columns=["title", "link", "data", "tag"])
    
    print(f"N√∫mero de noticias com duplicados: {len(df)}")
    
    df = df.drop("tag", axis=1)
    df = df.drop_duplicates()
    
    print(f"N√∫mero de noticias sem duplicados: {len(df)}")
    
    df.to_excel("./planilhas/noticias.xlsx", index=False)
    

searchReference = [
    "chuvas",
    "chuva em sc",
    "chuvas em sc",
    "chuva",
    "chuva forte",
    "chuvarada",
    "temporal",
    "tempestade",
    "ciclone",
    "ciclone bomba",
    "ciclone extratropical",
    "previs√£o do tempo",
    "frente fria",
    "enchente",
    "enchentes",
    "alagamento",
    "alagamentos",
    "deslizamento",
    "deslizamentos",
    "deslizamento de terra"
]

searchReference = list(map(lambda x: x.replace(" ", "+"), searchReference))

data = getNewsByTags(searchReference)

print(data)

storeAsExcel(data)