## Pegando informações do site TNH1

In [1]:
import requests
import bs4

In [2]:
# pegando informações do site 
def scrapin(site):
    res = requests.get('{}'.format(site))
    soup = bs4.BeautifulSoup(res.text,'lxml')
    return soup

In [3]:
# conectando ao site
# Noitica Lula
site1 = 'https://www.tnh1.com.br/noticia/nid/preso-ha-1-ano-lula-tem-rotina-com-tv-advogados-e-videos-de-reunioes-do-pt/'
# Noticia Rio São Francisco
site2 = 'https://www.tnh1.com.br/noticia/nid/mpf-obtem-liminar-contra-chesf-por-surgimento-de-mancha-no-rio-sao-francisco/'
# Noticia 150 anos da morte de Kardec
site3 = 'https://www.tnh1.com.br/noticia/nid/espiritismo-marca-150-anos-da-morte-de-kardec-diante-de-momento-chave/'

# jogando na funcao para fascilitar a manipulacao
dados = scrapin(site2)
print("site conectado")


site conectado


## Tratando os dados da materia

In [4]:
texto = ""
for d in dados.find_all('p',"bodytext"):
    texto += "\n" +d.get_text()
print(texto)


A Justiça Federal atendeu a pedidos de liminar feitos pelo Ministério Público Federal (MPF) e proibiu que a Companhia Hidrelétrica do São Francisco (Chesf) realize novo deplecionamento (redução de vazão) em qualquer reservatório integrante do Complexo Hidrelétrico de Paulo Afonso e da UHE Xingó, sem a observância de todas as condicionantes e/ou exigências estabelecidas em autorização ambiental concedida pelo IBAMA.
A decisão foi da juíza federal Camila Monteiro Pullin, em resposta a ação civil pública ajuizada pelo MPF contra a Chesf em razão de manchas escuras que apareçam no Rio São Francisco, no ano de 2015, que levou ao desabastecimento de pelo menos sete municípios alagoanos, atingindo mais de 100 mil pessoas.
A Justiça atendeu ainda ao pedido do MPF de pena de multa, por cada novo episódio, no valor de mais de R$ 6 milhões, correspondente a dez vezes o valor da multa aplicada pelo IMA/AL quando da ocorrência de 2015, sem prejuízo da reparação pelos danos ambientais materiais e m

## Processo de Analise de texto

In [5]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import sent_tokenize

# dividindo em sentenças e depois em palavras
sentencas = sent_tokenize(texto)
palavras = word_tokenize(texto.lower())

In [6]:
# mostrar como ficou
sentencas

['\nA Justiça Federal atendeu a pedidos de liminar feitos pelo Ministério Público Federal (MPF) e proibiu que a\xa0Companhia Hidrelétrica do São Francisco (Chesf) realize novo deplecionamento (redução de vazão) em qualquer reservatório integrante do Complexo Hidrelétrico de Paulo Afonso e da UHE Xingó, sem a observância de todas as condicionantes e/ou exigências estabelecidas em autorização ambiental concedida pelo IBAMA.',
 'A decisão foi da juíza federal Camila Monteiro Pullin, em resposta a ação civil pública ajuizada pelo MPF contra a Chesf\xa0em razão de manchas escuras que apareçam no Rio São Francisco, no ano de 2015, que levou ao desabastecimento de\xa0pelo menos\xa0sete municípios alagoanos, atingindo mais de 100 mil pessoas.',
 'A Justiça\xa0atendeu ainda ao pedido do MPF de pena de multa, por cada novo episódio, no valor de mais de R$ 6 milhões, correspondente a dez vezes o valor da multa aplicada pelo IMA/AL quando da ocorrência de 2015, sem prejuízo da reparação pelos dano

## Retirando as stopwords da lista de palavras

In [7]:
from nltk.corpus import stopwords
from string import punctuation

stopwords = set(stopwords.words('portuguese') + list(punctuation))
palavras_sem_stopwords = [palavra for palavra in palavras if palavra not in stopwords]

In [8]:
palavras_sem_stopwords

['justiça',
 'federal',
 'atendeu',
 'pedidos',
 'liminar',
 'feitos',
 'ministério',
 'público',
 'federal',
 'mpf',
 'proibiu',
 'companhia',
 'hidrelétrica',
 'francisco',
 'chesf',
 'realize',
 'novo',
 'deplecionamento',
 'redução',
 'vazão',
 'qualquer',
 'reservatório',
 'integrante',
 'complexo',
 'hidrelétrico',
 'paulo',
 'afonso',
 'uhe',
 'xingó',
 'observância',
 'todas',
 'condicionantes',
 'e/ou',
 'exigências',
 'estabelecidas',
 'autorização',
 'ambiental',
 'concedida',
 'ibama',
 'decisão',
 'juíza',
 'federal',
 'camila',
 'monteiro',
 'pullin',
 'resposta',
 'ação',
 'civil',
 'pública',
 'ajuizada',
 'mpf',
 'contra',
 'chesf',
 'razão',
 'manchas',
 'escuras',
 'apareçam',
 'rio',
 'francisco',
 'ano',
 '2015',
 'levou',
 'desabastecimento',
 'menos',
 'sete',
 'municípios',
 'alagoanos',
 'atingindo',
 '100',
 'mil',
 'pessoas',
 'justiça',
 'atendeu',
 'ainda',
 'pedido',
 'mpf',
 'pena',
 'multa',
 'cada',
 'novo',
 'episódio',
 'valor',
 'r',
 '6',
 'milhões'

## Palavras mais importantes

In [9]:
from nltk.probability import FreqDist

frequencia = FreqDist(palavras_sem_stopwords)

In [10]:
frequencia

FreqDist({'mpf': 8, 'federal': 6, 'francisco': 6, 'chesf': 5, 'rio': 5, 'justiça': 4, 'ambientais': 4, 'novo': 3, 'municípios': 3, 'mancha': 3, ...})

## Sentenças mais importantes

In [11]:
from collections import defaultdict
# cria um score com base nas palavras importantes que aparece dentro delas
# defaultdict adiciona a chave quando a pesquisa da keyerror
sentencas_importantes = defaultdict(int)

In [12]:
sentencas_importantes

defaultdict(int, {})

### Percorrendo as sentencas e coletar as estatisticas de cada uma

In [13]:
for i, sentenca in enumerate(sentencas):
    for palavra in word_tokenize(sentenca.lower()):
        if palavra in frequencia:
            sentencas_importantes[i] += frequencia[palavra]

In [14]:
sentencas_importantes

defaultdict(int,
            {0: 81,
             1: 70,
             2: 60,
             3: 45,
             4: 54,
             5: 25,
             6: 62,
             7: 52,
             8: 48,
             9: 81,
             10: 22})

## Resultado

In [15]:
from heapq import nlargest

idx_sentencas_importantes = nlargest(5, sentencas_importantes, sentencas_importantes.get)
print(idx_sentencas_importantes)

[0, 9, 1, 6, 2]


In [16]:
# Titulo
print("MATERIA - ",dados.title.get_text())
print()

for i in sorted(idx_sentencas_importantes):
    print(sentencas[i])


MATERIA -  MPF obtém liminar contra Chesf por surgimento de mancha no Rio São Francisco - TNH1


A Justiça Federal atendeu a pedidos de liminar feitos pelo Ministério Público Federal (MPF) e proibiu que a Companhia Hidrelétrica do São Francisco (Chesf) realize novo deplecionamento (redução de vazão) em qualquer reservatório integrante do Complexo Hidrelétrico de Paulo Afonso e da UHE Xingó, sem a observância de todas as condicionantes e/ou exigências estabelecidas em autorização ambiental concedida pelo IBAMA.
A decisão foi da juíza federal Camila Monteiro Pullin, em resposta a ação civil pública ajuizada pelo MPF contra a Chesf em razão de manchas escuras que apareçam no Rio São Francisco, no ano de 2015, que levou ao desabastecimento de pelo menos sete municípios alagoanos, atingindo mais de 100 mil pessoas.
A Justiça atendeu ainda ao pedido do MPF de pena de multa, por cada novo episódio, no valor de mais de R$ 6 milhões, correspondente a dez vezes o valor da multa aplicada pelo IMA