In [1]:
import requests
import numpy as np
import pandas as pd
from bs4 import BeautifulSoup
import collections

import nltk
from nltk.stem import RSLPStemmer
from nltk.corpus import stopwords

In [2]:
#nltk.download()

In [3]:
#realiza a separação das palavras
def tokenize(sentence):
    sentence = sentence.lower()
    sentence = nltk.word_tokenize(sentence)
    return sentence

In [4]:
#reduz a palavra para o seu sentido "raiz"
def stemming(sentence):
    stemmer = RSLPStemmer()
    phrase = []
    for word in sentence:
        phrase.append(stemmer.stem(word.lower()))
    return phrase

In [5]:
#remove palavras que não possuem "valor"
stopWords = list()
df_stopWords = pd.read_csv('stop_words_list.txt')
for element in df_stopWords.values:
    for word in element:
        stopWords.append(word)

def removeWords(_words_list_, _stopWordsList_):
    #stopwords = nltk.corpus.stopwords.words('portuguese')
    #stop_words = set(stopwords.words('portuguese'))
    _stopWordsList_.extend(['.', ',', '"', "'", '?', '!', ':', ';', '(', ')', '[', ']', '{', '}']) 
        
    _words_ = list()
    for word in _words_list_:
        if word not in _stopWordsList_:
            _words_.append(word)
    return _words_

In [6]:
#stop_words = set(stopwords.words('portuguese'))
#stop_words.update(['de','.', ',', '"', "'", '?', '!', ':', ';', '(', ')', '[', ']', '{', '}']) 
#stop_words

In [7]:
urls = ['https://g1.globo.com/rr/roraima/noticia/2019/02/14/homem-mata-esposa-e-amante-a-tiros-e-comete-suicidio-em-boa-vista.ghtml',
        'https://g1.globo.com/am/amazonas/noticia/2019/02/11/homem-e-morto-a-tiros-em-lava-jato-na-zona-sul-de-manaus.ghtml',
        'https://g1.globo.com/ac/acre/noticia/2019/02/11/jovem-e-morto-a-tiros-na-frente-da-namorada-em-bairro-de-rio-branco.ghtml'
       ]
urls

['https://g1.globo.com/rr/roraima/noticia/2019/02/14/homem-mata-esposa-e-amante-a-tiros-e-comete-suicidio-em-boa-vista.ghtml',
 'https://g1.globo.com/am/amazonas/noticia/2019/02/11/homem-e-morto-a-tiros-em-lava-jato-na-zona-sul-de-manaus.ghtml',
 'https://g1.globo.com/ac/acre/noticia/2019/02/11/jovem-e-morto-a-tiros-na-frente-da-namorada-em-bairro-de-rio-branco.ghtml']

<p><strong><span style="color: #3366ff;">Realiza o soup na mat&eacute;ria do site</span></strong></p>

In [8]:
sess = requests.Session()
page = sess.request(method='Get', url=urls[0])
soup = BeautifulSoup(page.content, 'html.parser')

In [9]:
title = soup.find(class_="title").get_text().strip()
title

'Homem mata esposa e amante a tiros e comete suicídio em Boa Vista'

<p><strong><span style="color: #3366ff;">Retira do site as frases importantes</span></strong></p>

In [10]:
text = soup.find_all(class_='content-text__container ')
phrases = list()
for phrase in text:
    phrases.append(phrase.get_text().strip())
phrases

['O crime foi por volta das 17h no bairro do Estados, zona Norte da capital. Os tiros foram efetuados com uma pistola calibre 380, segundo a PM.',
 'De acordo com a PM, durante a tarde Luciene chegou em um carro, estacionou próximo a uma distribuidora e entrou em uma picape em que estava Albério. Os dois saíram. Nesse período, chegou o esposo, que ficou no local.',
 'Depois de um tempo, relataram testemunhas à PM, o carro com a mulher e o amante retornou, momento em que o Vinícius disparou contra eles e em seguida se matou.',
 'Ainda não se sabe quantos disparos foram efetuados. Luciene e Albério foram assassinados ainda dentro do carro.',
 'Conforme um amigo do casal, Vinicius e Luciene estavam juntos há nove anos, e há dois dias haviam formalizado a união.',
 'Os corpos foram removidos do local pelo Instituo Médico Legal às 18h30. A PM isolou o local. A perícia da Polícia Civil foi acionada.']

<p><strong><span style="color: #3366ff;">Realiza o tokenize em cada frase</span></strong></p>

In [11]:
words = list()
wordList = list()
for phrase in phrases:
    words.append(tokenize(phrase))

#realiza o join de todas as palavras em apenas um lista
for words_ in words:
    for word in words_:
        wordList.append(word)

<p><strong><span style="color: #3366ff;">Retira as palavra sem importância das frases</span></strong></p>

In [12]:
filteredwordList = removeWords(wordList, stopWords)
filteredwordList

['crime',
 '17h',
 'tiros',
 'efetuados',
 'calibre',
 '380',
 'a',
 'pm',
 'a',
 'pm',
 'a',
 'luciene',
 'a',
 'entrou',
 'estava',
 'albério',
 'relataram',
 'testemunhas',
 'pm',
 'a',
 'retornou',
 'vinícius',
 'disparou',
 'eles',
 'matou',
 'quantos',
 'disparos',
 'efetuados',
 'luciene',
 'albério',
 'assassinados',
 'vinicius',
 'luciene',
 'estavam',
 'haviam',
 'a',
 'corpos',
 'removidos',
 'instituo',
 '18h30',
 'a',
 'pm',
 'a',
 'acionada']

<p><strong><span style="color: #3366ff;">Realiza a redução da palavra</span></strong></p>

In [13]:
stemmingWords = stemming(filteredwordList)

In [14]:
countWords = collections.Counter(stemmingWords)
countWords

Counter({'crim': 1,
         '17h': 1,
         'tir': 1,
         'efetu': 2,
         'calibr': 1,
         '380': 1,
         'a': 8,
         'pm': 4,
         'lucien': 3,
         'entr': 1,
         'est': 2,
         'albéri': 2,
         'relat': 1,
         'testemunh': 1,
         'retorn': 1,
         'viníc': 1,
         'dispar': 2,
         'ele': 1,
         'mat': 1,
         'quant': 1,
         'assassin': 1,
         'vinic': 1,
         'hav': 1,
         'corp': 1,
         'remov': 1,
         'institu': 1,
         '18h30': 1,
         'acion': 1})

base = pd.read_csv('census.csv')

previsores = base.iloc[:, 0:14].values
classe = base.iloc[:, 14].values

from sklearn.cross_validation import train_test_split
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, classe, test_size=0.15, random_state=0)

from sklearn.ensemble import RandomForestClassifier
classificador = RandomForestClassifier(n_estimators=40, criterion='entropy', random_state=0)
classificador.fit(previsores_treinamento, classe_treinamento)
previsoes = classificador.predict(previsores_teste)

from sklearn.metrics import confusion_matrix, accuracy_score
precisao = accuracy_score(classe_teste, previsoes)
matriz = confusion_matrix(classe_teste, previsoes)