# Crawler de notícias da ufsj

## Importações e Variaveis Globais

In [1]:
import re
import json
import scrapy
import pandas as pd
import scrapy.crawler as crawler
from bs4 import BeautifulSoup as bs
from scrapy.crawler import CrawlerProcess
from multiprocessing import Process, Queue
from scrapy.utils.project import get_project_settings
import datetime
import MySQLdb

credential = open('credential.txt','r')

credential = credential.read().split('\n')
bd_credentials = {
    'user': credential[0],
    'pwd': credential[1]
}

## Auxiliares

In [2]:
# Realiza a multipla execução de spiders pelo scrapy
# https://stackoverflow.com/questions/41495052/scrapy-reactor-not-restartable
def run_spider(spider):
    def f(q):
        try:
            process = CrawlerProcess(get_project_settings())
            process.crawl(spider)
            process.start()
            q.put(None)
        except Exception as e:
            q.put(e)

    q = Queue()
    p = Process(target=f, args=(q,))
    p.start()
    p.join()


## Crawler usando o Scrapy

### Capturando as Metainformações da Noticia

#### Spider para Data, Título e URL 

In [3]:
class NoticiasSpider(scrapy.Spider):
    name = 'noticias'

    def start_requests(self):
        urls = []
        
        metadata_ufsj = open('metadata_noticias.json','w')
        metadata_ufsj.write('[')
        metadata_ufsj.close()
        
        for i in range (0,14):
            urls.append('https://www.ufsj.edu.br/mais_noticias.php?pagina={}'.format(i+1))
            
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse, encoding='utf-8')

    def parse(self, response):
        #Realizando a escrita dos resultados em arquivo
        path = "#home-subbox-bottom-noticias ul li "
        metadata_ufsj = open('metadata_noticias.json','a')
        metadata_ufsj.write(json.dumps({
            "noticia_data" : response.css(path + "span::text").getall(),
            "noticia_titulo" : response.css(path + "a").getall(),
            "noticia_url" : response.css(path + "a::attr(href)").getall(),
        }))
        metadata_ufsj.write(', ')
        metadata_ufsj.close()
        

#### Chamado de execução para o crawler

In [9]:
%%capture
run_spider(NoticiasSpider)
metadata_ufsj = open('metadata_noticias.json','a')
metadata_ufsj.write('{}]')
metadata_ufsj.close()

AttributeError: Can't pickle local object 'run_spider.<locals>.f'

#### Geração do Dataframe para o Spider NoticiasSpider

In [5]:
# Realizando a leitura dos metadados das notícias
df = pd.read_json('metadata_noticias.json')[0:-1]

# Planificando o dataframe
total = []
for k, v in enumerate(df.values):
    df_aux = pd.DataFrame(
        {
            'noticia_data':v[0], 
            'noticia_titulo':v[1], 
            'noticia_url':v[2]
        })
     
    total.append(df_aux)
df = pd.concat(total, ignore_index=True)

# Ajustando os dados gerados
df["noticia_data"] = df["noticia_data"].str[0:-1]
df['noticia_url'] = df['noticia_url'].apply(lambda x: 'https://www.ufsj.edu.br/' + x)
for k,v in enumerate(df['noticia_titulo']):
    soup = bs(v, "html.parser")
    df['noticia_titulo'][k] = "".join(soup.findAll(text=True))

ValueError: Expected object or value

---

### Capturando o Corpo da Notícia

#### Spider para o corpo da noticia

In [None]:
class NoticiasBodySpider(scrapy.Spider):
    name = "noticias_body"
    
    def start_requests(self):
        urls = df['noticia_url']
            
        print(len(urls))
            
        data_ufsj = open('data_noticias.json','w')
        data_ufsj.write('[')
        data_ufsj.close()
        
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse, encoding='utf-8')

    def parse(self, response):
        noticia_titulo = response.css("#home-subbox-bottom-noticias").xpath("./span").get()
        noticia_corpo  = response.css("#home-subbox-bottom-noticias").xpath("./div").get()
        rem_html_tags = '<[^>]*>\s*Voltar\s*<[^>]*>|<[^>]*>'
        
        data_ufsj = open('data_noticias.json','a')
        
        json_resultante = json.dumps({
            "noticia_url" : response.request.url,
            "noticia_titulo" : re.sub(rem_html_tags, '', noticia_titulo).strip(),
            "noticia_corpo" : re.sub(rem_html_tags, '', noticia_corpo).strip(),
        }, indent=4)
        
        data_ufsj.write(json_resultante)
        data_ufsj.write(', ')
        data_ufsj.close()
        

#### Chamado de execução para o crawler

In [None]:
%%capture
run_spider(NoticiasBodySpider)
data_ufsj = open('data_noticias.json','a')
data_ufsj.write('{}]')
data_ufsj.close()

In [None]:
# Realizando a leitura dos dados das notícias, como o corpo
df_body = pd.read_json('data_noticias.json')[0:-1]

In [None]:
# Aglutinando os dois df's gerados (metadados e corpo da notícia)
df_completo = pd.merge(df,df_body[['noticia_url', 'noticia_corpo']],on='noticia_url')

#### Realizando retoques finais

In [None]:
# Removendo arquivos auxiliares
! rm data_noticias.json metadata_noticias.json

In [None]:
# Salvando a base final completa em csv, separador é o '\t'
df_completo.to_csv('noticias_ufsj.csv', sep='\t', encoding='utf-8')

#### Insere os dados tratados no banco

In [6]:
df = pd.read_csv('noticias_ufsj.csv', sep='\t')

In [7]:
df

Unnamed: 0.1,Unnamed: 0,noticia_data,noticia_titulo,noticia_url,noticia_corpo
0,0,01/04/2019,Aula inaugural de Psicologia aborda gênero e s...,https://www.ufsj.edu.br/noticias_ler.php?codig...,"""Entre ofensivas e resistências: a diversidade..."
1,1,01/04/2019,PSICOLOGIA NA ESCOLA PÚBLICA,https://www.ufsj.edu.br/noticias_ler.php?codig...,O Serviço de Psicologia Aplicada (SPA) da UFSJ...
2,2,29/03/2019,Processo de Avaliação Socioeconômica: inscriçõ...,https://www.ufsj.edu.br/noticias_ler.php?codig...,A Pró-Reitoria de Assuntos Estudantis (Proae) ...
3,3,29/03/2019,As mulheres na extensão da UFSJ: Cibele Aparec...,https://www.ufsj.edu.br/noticias_ler.php?codig...,A Assessoria de Comunicação e o Setor de Apoio...
4,4,29/03/2019,Universidades Federais: patrimônio dos brasile...,https://www.ufsj.edu.br/noticias_ler.php?codig...,"Artistas, escritores, jornalistas, atletas e o..."
5,5,28/03/2019,Estudo desenvolvido pela UFSJ busca facilitar ...,https://www.ufsj.edu.br/noticias_ler.php?codig...,O desenvolvimento de novas estruturas de conve...
6,6,27/03/2019,Evento da Central de Empresas Juniores da UFSJ...,https://www.ufsj.edu.br/noticias_ler.php?codig...,A Central de Empresas Juniores da UFSJ (Cenje)...
7,7,27/03/2019,Abertas inscrições para mobilidade acadêmica n...,https://www.ufsj.edu.br/noticias_ler.php?codig...,A Assessoria para Assuntos Internacionais da U...
8,8,27/03/2019,Reitor da UFSJ participa de debate sobre comun...,https://www.ufsj.edu.br/noticias_ler.php?codig...,O reitor da Universidade Federal de São João d...
9,9,26/03/2019,"""Lançamento de Livros"" do Inverno Cultural ter...",https://www.ufsj.edu.br/noticias_ler.php?codig...,A solenidade de “Lançamento de Livros” do 31º ...


In [2]:
def parse_date(df):
    date_list = []
    
    for k,v in enumerate(df['noticia_data']):
        
        day, month, year = v.split('/')        
        date_list.append('{}-{}-{}'.format(year,month,day).replace(' ',''))
        
    df['data'] = date_list
    
parse_date(df)

In [34]:
drop = 0
for i, new in enumerate(news):
    ##find id from boletim
    con = MySQLdb.connect('localhost', bd_credentials['user'], bd_credentials['pwd'])
    con.select_db('doug_db')
    con.set_character_set('utf8')

    cursor = con.cursor()
    data_upload = df.data[i]
    disponivel_em = df['noticia_url'][i]

    print(disponivel_em)
    titulo = df['noticia_titulo'][i]
    corpo = new
    user_id = None
    sqlInsertString = "INSERT into doug_server_app_noticia(data_upload, disponivel_em, corpo, user_id, boletim_fk_id, titulo) VALUES('{}', '{}', '{}', {}, {}, '{}')".format(
                        data_upload, disponivel_em, corpo, 'NULL', 'NULL', titulo)
    try:
        a = cursor.execute(sqlInsertString)
    except:
        df.drop(df.index[i])
        drop += 1
    con.commit()
    con.close()

https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7445
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7444
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7443
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7442
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7441
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7440
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7439
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7438
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7437
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7436
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7435
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7434
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7433
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7432
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7431
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7430
https://www.ufsj.edu.br/

https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7124
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7123
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7122
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7121
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7120
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7118
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7117
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7116
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7115
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7114
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7113
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7112
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7111
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7110
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7109
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7108
https://www.ufsj.edu.br/

https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7015
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7014
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7013
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7012
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7011
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7010
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7009
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7008
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7007
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7006
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7005
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7004
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7003
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7002
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7001
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7000
https://www.ufsj.edu.br/

https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=6910
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=6909
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=6908
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=6907
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=6906
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=6905
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=6904
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=6903
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=6902
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=6901
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=6900
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=6899
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=6898
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=6897
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=6896
https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=6895
https://www.ufsj.edu.br/

KeyError: 560

In [31]:
df['noticia_url'][0]

'https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7445'