# Crawler de notícias da ufsj

## Importações e Variaveis Globais

In [1]:
import re
import json
import scrapy
import pandas as pd
import scrapy.crawler as crawler
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
from multiprocessing import Process, Queue

## Auxiliares

In [2]:
# Realiza a multipla execução de spiders pelo scrapy
# https://stackoverflow.com/questions/41495052/scrapy-reactor-not-restartable
def run_spider(spider):
    def f(q):
        try:
            process = CrawlerProcess(get_project_settings())
            process.crawl(spider)
            process.start()
            q.put(None)
        except Exception as e:
            q.put(e)

    q = Queue()
    p = Process(target=f, args=(q,))
    p.start()
    p.join()


## Crawler usando o Scrapy

### Capturando as Metainformações da Noticia

#### Spider para Data, Título e URL 

In [3]:
class NoticiasSpider(scrapy.Spider):
    name = 'noticias'

    def start_requests(self):
        urls = []
        
        metadata_ufsj = open('metadata_noticias.json','w')
        metadata_ufsj.write('[')
        metadata_ufsj.close()
        
        for i in range (0,14):
            urls.append('https://www.ufsj.edu.br/mais_noticias.php?pagina={}'.format(i+1))
            
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse, encoding='utf-8')

    def parse(self, response):
        #Realizando a escrita dos resultados em arquivo
        metadata_ufsj = open('metadata_noticias.json','a')
        metadata_ufsj.write(json.dumps({
            "noticia_data" : response.css("#home-subbox-bottom-noticias ul li span::text").getall(),
            "noticia_titulo" : response.css("#home-subbox-bottom-noticias ul li a::text").getall(),
            "noticia_url" : response.css("#home-subbox-bottom-noticias ul li a::attr(href)").getall(),
        }))
        metadata_ufsj.write(', ')
        metadata_ufsj.close()
        

#### Chamado de execução para o crawler

In [4]:
%%capture
run_spider(NoticiasSpider)
metadata_ufsj = open('metadata_noticias.json','a')
metadata_ufsj.write('{}]')
metadata_ufsj.close()

#### Geração do Dataframe para o Spider NoticiasSpider

In [5]:
# Realizando a leitura dos metadados das notícias
df = pd.read_json('metadata_noticias.json')[0:-1]

# Planificando o dataframe
total = []
for k, v in enumerate(df.values):
    df_aux = pd.DataFrame({'noticia_data':v[0], 'noticia_titulo':v[1], 'noticia_url':v[2]})
    total.append(df_aux)
df = pd.concat(total, ignore_index=True)

# Ajustando os dados gerados
df["noticia_data"] = df["noticia_data"].str[0:-1]
df['noticia_url'] = df['noticia_url'].apply(lambda x: 'https://www.ufsj.edu.br/' + x)

---

### Capturando o Corpo da Notícia

#### Spider para o corpo da noticia

In [6]:
class NoticiasBodySpider(scrapy.Spider):
    name = "noticias_body"
    
    def start_requests(self):
        urls = df['noticia_url']
            
        print(len(urls))
            
        data_ufsj = open('data_noticias.json','w')
        data_ufsj.write('[')
        data_ufsj.close()
        
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse, encoding='utf-8')

    def parse(self, response):
        noticia_titulo = response.css("#home-subbox-bottom-noticias").xpath("./span").get()
        noticia_corpo  = response.css("#home-subbox-bottom-noticias").xpath("./div").get()
        rem_html_tags = '<[^>]*>\s*Voltar\s*<[^>]*>|<[^>]*>'
        
        data_ufsj = open('data_noticias.json','a')
        
        json_resultante = json.dumps({
            "noticia_url" : response.request.url,
            "noticia_titulo" : re.sub(rem_html_tags, '', noticia_titulo).strip(),
            "noticia_corpo" : re.sub(rem_html_tags, '', noticia_corpo).strip(),
        }, indent=4)
        
        data_ufsj.write(json_resultante)
        data_ufsj.write(', ')
        data_ufsj.close()
        

#### Chamado de execução para o crawler

In [7]:
%%capture
run_spider(NoticiasBodySpider)
data_ufsj = open('data_noticias.json','a')
data_ufsj.write('{}]')
data_ufsj.close()

In [8]:
# Realizando a leitura dos dados das notícias, como o corpo
df_body = pd.read_json('data_noticias.json')[0:-1]

In [9]:
# Aglutinando os dois df's gerados (metadados e corpo da notícia)
df_completo = pd.merge(df,df_body[['noticia_url', 'noticia_corpo']],on='noticia_url')

#### Realizando retoques finais

In [10]:
# Removendo arquivos auxiliares
! rm data_noticias.json metadata_noticias.json

In [11]:
# Salvando a base final completa em csv, separador é o '\t'
df_completo.to_csv('noticias_ufsj.csv', sep='\t', encoding='utf-8')