# Coletando notícias do G1

### Codigo que realiza a importação de noticias no site G1

### Instalação do pacote Selenium

In [None]:
!pip install selenium

### Importação das Bibliotecas

In [3]:
from bs4 import BeautifulSoup
import time
from selenium import webdriver
import requests
import csv

In [11]:
## access given link and return corresponding new
def access_link(link):
    texto = ''
    page = requests.get(link)
    soup = BeautifulSoup(page.content, 'html.parser')
    paragrafos = soup.find_all(class_="content-text__container")
    for par in paragrafos:
        texto = texto + '\n' + par.getText()
    title = soup.find(class_="content-head__title")
    return title.getText(), texto

links = ['https://g1.globo.com/rj/rio-de-janeiro/noticia/2018/08/11/paciente-e-atingida-por-bala-perdida-dentro-de-hospital-em-niteroi-rj.ghtml',
        'https://g1.globo.com/economia/noticia/2018/08/11/crise-faz-crescer-diferenca-salarial-por-anos-de-estudo.ghtml',
        'https://g1.globo.com/ciencia-e-saude/noticia/2018/08/11/nasa-lanca-missao-para-tocar-o-sol-com-nave-hiper-resistente-ao-calor-e-a-radiacao.ghtml',
        'https://g1.globo.com/mundo/noticia/2018/08/11/sobe-o-numero-de-mortos-em-terremoto-na-indonesia.ghtml',
        'https://g1.globo.com/pop-arte/noticia/2018/08/11/semana-pop-g1-explica-trama-que-chocou-internet-mudanca-no-oscar-volta-de-simaria-e-mais-assista.ghtml',
        'https://g1.globo.com/pr/parana/noticia/2018/08/10/mpf-denuncia-os-ex-ministros-guido-mantega-e-antonio-palocci.ghtml']

news_data = []
for link in links:
    title, texto = access_link(link)
    news_data.append({'title': title, 'content': texto})

for news in news_data:
    print(news['title'], '\n\n', news['content'], '\n\n\n')

Paciente é atingida por bala perdida dentro de hospital em Niterói, RJ 

 
 Uma mulher foi atingida por uma bala perdida dentro de um dos maiores hospitais de Niterói, na Região Metropolitana do Rio, na madrugada deste sábado (11). De acordo com informações da Polícia Civil, a mulher de 61 anos, que estava internada no último andar do Hospital Santa Martha, no bairro Santa Rosa, foi atingida no rosto. 
 A paciente estava internada da unidade particular há 18 dias para ser submetida a uma cirurgia de vesícula. De acordo com o filho da vítima, a mãe estava internada para fazer diversos exames pré-operatórios. 
 "Ontem teve muito tiro, barulho de baile, fogos, tudo misturado. De repente, um estouro bem forte, cada vez mais perto e eu fui para o corredor do hospital. A nossa janela do quarto é virada para o morro. Quando eu chego no corredor do hospital, tinha uma moça sentada no chão chorando. Eu perguntei para ela o que aconteceu, abaixei, abracei ela e ela só falava: ‘minha mãe, minha m

## Calculando estatísticas básicas de cada notícia coletada (news_data)

#### Importando os pacotes

In [5]:
import sys
import json
import nltk
#nltk.download('stopwords')
#nltk.download('punkt')

In [None]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\marcellosd.ACS\AppData\Roaming\nltk_data...


#### Configurando as Stops Words

In [12]:
stop_words = nltk.corpus.stopwords.words('portuguese') + [
    '.',
    ',',
    '--',
    '\'s',
    '?',
    ')',
    '(',
    ':',
    '\'',
    '\'re',
    '"',
    '-',
    '}',
    '{',
    ]

for news in news_data:
    sentences = nltk.tokenize.sent_tokenize(news['content'])

    words = [w.lower() for sentence in sentences for w in
             nltk.tokenize.word_tokenize(sentence)]

    fdist = nltk.FreqDist(words)

    # Basic stats

    num_words = sum([i[1] for i in fdist.items()])
    num_unique_words = len(fdist.keys())

    # Hapaxes are words that appear only once

    num_hapaxes = len(fdist.hapaxes())

    top_10_words_sans_stop_words = [w for w in fdist.items() if w[0]
                                    not in stop_words][:10]

    print(news['title'])
    print('\tNum Sentences:'.ljust(25), len(sentences))
    print('\tNum Words:'.ljust(25), num_words)
    print('\tNum Unique Words:'.ljust(25), num_unique_words)
    print('\tNum Hapaxes:'.ljust(25), num_hapaxes)
    print('\tTop 10 Most Frequent Words (sans stop words):\n\t\t', \
            '\n\t\t'.join(['%s (%s)'
            % (w[0], w[1]) for w in top_10_words_sans_stop_words]))
    print()

Paciente é atingida por bala perdida dentro de hospital em Niterói, RJ
	Num Sentences:           14
	Num Words:               317
	Num Unique Words:        160
	Num Hapaxes:             118
	Top 10 Most Frequent Words (sans stop words):
		 mulher (3)
		atingida (2)
		bala (1)
		perdida (1)
		dentro (2)
		maiores (1)
		hospitais (1)
		niterói (2)
		região (1)
		metropolitana (1)

Crise faz crescer diferença salarial por anos de estudo
	Num Sentences:           42
	Num Words:               1043
	Num Unique Words:        383
	Num Hapaxes:             252
	Top 10 Most Frequent Words (sans stop words):
		 ter (1)
		diploma (1)
		curso (2)
		superior (6)
		é (9)
		garantia (1)
		emprego (5)
		coloca (1)
		trabalhador (3)
		vantagem (1)

Sobe o número de mortos em terremoto na Indonésia
	Num Sentences:           20
	Num Words:               463
	Num Unique Words:        224
	Num Hapaxes:             156
	Top 10 Most Frequent Words (sans stop words):
		 balanço (2)
		mortos (3)
		terremoto (7)

## Sumarizando as notícias coletadas

##### Importação dos pacotes

In [7]:
import sys
import json
import nltk
import numpy

In [13]:
N = 100  # Number of words to consider
CLUSTER_THRESHOLD = 5  # Distance between words to consider
TOP_SENTENCES = 5  # Number of sentences to return for a "top n" summary

# Approach taken from "The Automatic Creation of Literature Abstracts" by H.P. Luhn

def _score_sentences(sentences, important_words):
    scores = []
    sentence_idx = -1

    for s in [nltk.tokenize.word_tokenize(s) for s in sentences]:

        sentence_idx += 1
        word_idx = []

        # For each word in the word list...
        for w in important_words:
            try:
                # Compute an index for where any important words occur in the sentence

                word_idx.append(s.index(w))
            except (ValueError) as e: # w not in this particular sentence
                pass

        word_idx.sort()

        # It is possible that some sentences may not contain any important words at all
        if len(word_idx)== 0: continue

        # Using the word index, compute clusters by using a max distance threshold
        # for any two consecutive words

        clusters = []
        cluster = [word_idx[0]]
        i = 1
        while i < len(word_idx):
            if word_idx[i] - word_idx[i - 1] < CLUSTER_THRESHOLD:
                cluster.append(word_idx[i])
            else:
                clusters.append(cluster[:])
                cluster = [word_idx[i]]
            i += 1
        clusters.append(cluster)

        # Score each cluster. The max score for any given cluster is the score 
        # for the sentence

        max_cluster_score = 0
        for c in clusters:
            significant_words_in_cluster = len(c)
            total_words_in_cluster = c[-1] - c[0] + 1
            score = 1.0 * significant_words_in_cluster \
                * significant_words_in_cluster / total_words_in_cluster

            if score > max_cluster_score:
                max_cluster_score = score

        scores.append((sentence_idx, score))

    return scores

def summarize(txt):
    sentences = [s for s in nltk.tokenize.sent_tokenize(txt)]
    normalized_sentences = [s.lower() for s in sentences]

    words = [w.lower() for sentence in normalized_sentences for w in
             nltk.tokenize.word_tokenize(sentence)]

    fdist = nltk.FreqDist(words)

    top_n_words = [w[0] for w in fdist.items() 
            if w[0] not in nltk.corpus.stopwords.words('portuguese')][:N]

    scored_sentences = _score_sentences(normalized_sentences, top_n_words)

    # Summaization Approach 1:
    # Filter out non-significant sentences by using the average score plus a
    # fraction of the std dev as a filter

    avg = numpy.mean([s[1] for s in scored_sentences])
    std = numpy.std([s[1] for s in scored_sentences])
    mean_scored = [(sent_idx, score) for (sent_idx, score) in scored_sentences
                   if score > avg + 0.5 * std]

    # Summarization Approach 2:
    # Another approach would be to return only the top N ranked sentences

    top_n_scored = sorted(scored_sentences, key=lambda s: s[1])[-TOP_SENTENCES:]
    top_n_scored = sorted(top_n_scored, key=lambda s: s[0])

    # Decorate the post object with summaries

    return dict(top_n_summary=[sentences[idx] for (idx, score) in top_n_scored],
                mean_scored_summary=[sentences[idx] for (idx, score) in mean_scored])


if __name__ == '__main__':

    # Load in output from blogs_and_nlp__get_feed.py

    #BLOG_DATA = sys.argv[1]
    #blog_data = json.loads(open(BLOG_DATA).read())
    
    for post in news_data:
       
        post.update(summarize(post['content']))

        print(post['title'])
        print('-' * len(post['title']))
        print()
        print('-------------')
        print('Top N Summary')
        print('-------------')
        print(' '.join(post['top_n_summary']))
        print()
        print('-------------------')
        print('Mean Scored Summary')
        print('-------------------')
        print(' '.join(post['mean_scored_summary']))
        print()

Paciente é atingida por bala perdida dentro de hospital em Niterói, RJ
----------------------------------------------------------------------

-------------
Top N Summary
-------------

 Uma mulher foi atingida por uma bala perdida dentro de um dos maiores hospitais de Niterói, na Região Metropolitana do Rio, na madrugada deste sábado (11). De acordo com informações da Polícia Civil, a mulher de 61 anos, que estava internada no último andar do Hospital Santa Martha, no bairro Santa Rosa, foi atingida no rosto. A paciente estava internada da unidade particular há 18 dias para ser submetida a uma cirurgia de vesícula. De acordo com o filho da vítima, a mãe estava internada para fazer diversos exames pré-operatórios. "Ontem teve muito tiro, barulho de baile, fogos, tudo misturado.

-------------------
Mean Scored Summary
-------------------

 Uma mulher foi atingida por uma bala perdida dentro de um dos maiores hospitais de Niterói, na Região Metropolitana do Rio, na madrugada deste sábad

### Visualização HTML da sumarização

In [None]:
import os
import sys
import json
import nltk
import numpy

HTML_TEMPLATE = """<html>
    <head>
        <title>%s</title>
        <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"/>
    </head>
    <body>%s</body>
</html>"""

if __name__ == '__main__':

    # Marked up version can be written out to disk

    if not os.path.isdir('out/summarize'):
        os.makedirs('out/summarize')

    for post in news_data:
       
        post.update(summarize(post['content']))

        for summary_type in ['top_n_summary', 'mean_scored_summary']:
            post[summary_type + '_marked_up'] = '<p>%s</p>' % (post['content'], )
            for s in post[summary_type]:
                post[summary_type + '_marked_up'] = \
                post[summary_type + '_marked_up'].replace(s, '<strong>%s</strong>' % (s, ))

            filename = post['title'] + '.summary.' + summary_type + '.html'
            f = open(os.path.join('out', 'summarize', filename), 'w')
            html = HTML_TEMPLATE % (post['title'] + ' Summary', post[summary_type + '_marked_up'],)
            f.write(str(html.encode('utf-8')))
            f.write(html)
            f.close()

            print("Data written to", f.name)