## Exercícios pré-processamento e modelos clássicos

**Autor**: Filipe Theodoro

**Modificado por**: Kauvin Lucas

## Expressão Regular

In [1]:
import re

In [2]:
texto = "Me chamo Filipe_Theodoro, tenho 25 anos e nasci em 09/11/1921"

#### Encontrar números

In [18]:
# Encontrar todos os dígitos do texto
re.findall(r'[0-9]', texto)

['2', '5', '0', '9', '1', '1', '1', '9', '2', '1']

In [19]:
# Encontrar dígitos de 4 ou más dígitos do texto com um quantificador
re.findall(r'[0-9]{4,}', texto)

['1921']

In [20]:
# Encontrar todos os números do texto com um dígito ou mais
re.findall(r'[0-9]+', texto)

['25', '09', '11', '1921']

In [21]:
# Encontrar todos os números do texto com um dígito ou mais
re.findall(r'\d+', texto)

['25', '09', '11', '1921']

#### Encontrar letras

In [3]:
texto

'Me chamo Filipe_Theodoro, tenho 25 anos e nasci em 09/11/1921'

In [4]:
# Encontrar todas as palavras com letras minúsculas e maiúsculas
re.findall(r'[a-zA-Z]+', texto)

['Me', 'chamo', 'Filipe', 'Theodoro', 'tenho', 'anos', 'e', 'nasci', 'em']

In [23]:
# Encontrar todos os termos separados por: não caracteres, números e sublinhados
re.findall(r'\w+', texto)

['Me',
 'chamo',
 'Filipe',
 'tenho',
 '25',
 'anos',
 'e',
 'nasci',
 'em',
 '09',
 '11',
 '1921']

In [24]:
re.findall(r'\W+', texto)

[' ', ' ', ', \n', ' ', ' ', ' ', ' ', ' ', ' ', '/', '/']

#### Encontrar espaços em branco

In [25]:
texto = "Me chamo Filipe, \ntenho 25 anos e nasci em 09/11/1921"

In [26]:
print(texto)

Me chamo Filipe, 
tenho 25 anos e nasci em 09/11/1921


In [27]:
# Encontrar todos os espaços em branco ou caracteres ocultos
re.findall(r'\s', texto)

[' ', ' ', ' ', '\n', ' ', ' ', ' ', ' ', ' ', ' ']

#### Buscar padrões

Por exemplo, buscar o formato de data DD/MM/AAAA

In [28]:
# Buscar todas datas do texto e returnar lista de tuplas
re.findall(r'(\d+)/(\d+)/(\d+)', texto)

[('09', '11', '1921')]

In [29]:
# # Buscar as datas do texto e returnar lista de strings
re.findall(r'(\d+/\d+/\d+)', texto)

['09/11/1921']

In [30]:
print(texto)

Me chamo Filipe, 
tenho 25 anos e nasci em 09/11/1921


In [36]:
# Exemplo 1 -  encontrar número de um ou mais dígitos que for seguido por 'anos'
re.findall(r'([0-9]+).{0,}anos', texto)

['25']

In [38]:
# Exemplo 2 - encontrar número de um ou mais dígitos que for seguido por 'anos'
re.findall(r'(\d+).{0,}anos', texto)

['25']

In [74]:
texto = "Meu nome é Filipe e o meu site é https://www.semantix.com.br e moro em Belo Horizonte."

In [58]:
# Encontrar um termo que começe com um determinado texto e termine no espaço em branco
re.findall(r'http[^\s]+', texto)

['https://www.semantix.com.br']

In [59]:
# Exemplo com lookback - Encontrar palavras que começam  com letra maiúscula e que são precedidos por um \s
re.findall(r'(?<=\s)[A-Z][a-z]+', texto)

['Filipe', 'Belo', 'Horizonte']

In [76]:
# Exemplo com lookback - Encontrar palavras que começam  com letra maiúscula e que são seguidos de um \s
re.findall(r'[A-Z][a-z][^\s]+', texto)

['Meu', 'Filipe', 'Belo', 'Horizonte.']

In [77]:
example_html = """
<html>
  <head>
    <title>HTML Exemplo Expressão Regular</title>
  </head>
  <body>
    <h1>HTML Exemplo Expressão!! Regular 09/88,1354</h1>
    <p>
      <a href="https://www.semantix.com.br">Página inicial da semantix</a>
    </p>
  </body>
</html>
"""

In [79]:
# Achar texto dentro do tag h1
re.findall(r'<h1>(.+)</h1>', example_html)

['HTML Exemplo Expressão!! Regular 09/88,1354']

In [81]:
# Achar texto dentro do tag a
re.findall(r'<a.+>(.+)</a>', example_html)

['Página inicial da semantix']

In [82]:
# Achar link do tag h1
re.findall(r'http[\w\./:]+', example_html)

['https://www.semantix.com.br']

#### Substituir texto

In [83]:
texto = "#i5gornascimento @i5gornascimento http://www.globo.com Corpo de bombeiros resgata vaca em cima do telhado"

In [84]:
# Encontrar e substituir as urls por URL_SITE
re.sub(r'http[^\s]+', 'URL_SITE', texto)

'#i5gornascimento @i5gornascimento URL_SITE Corpo de bombeiros resgata vaca em cima do telhado'

In [85]:
# Substituir os que não forem caracteres por espaços em branco
re.sub(r'[^\w]+', ' ', texto)

' i5gornascimento i5gornascimento http www globo com Corpo de bombeiros resgata vaca em cima do telhado'

In [98]:
# Substituir os termos que começem com hash symbol (hashtag) por espaço em branco
re.sub(r'#\w+', '', texto)

' @i5gornascimento http://www.globo.com Corpo de bombeiros resgata vaca em cima do telhado'

In [88]:
print(texto)

#i5gornascimento @i5gornascimento http://www.globo.com Corpo de bombeiros resgata vaca em cima do telhado


In [92]:
# Eliminar hashtags ou mentions, links e pontuações ou símbolos do texto
texto1 = re.sub(r"[#|@]\w+"
       "|[^\w\s]"
       "|http[^\s]+", '', texto)

In [93]:
texto1

'   Corpo de bombeiros resgata vaca em cima do telhado'

In [96]:
# Eliminar todos os caracteres do inicio até o primeiro caracter
re.sub(r'^[^\w]+', '', texto1)

'Corpo de bombeiros resgata vaca em cima do telhado'

In [99]:
# Guardar a expressão para que seja usada depois por re.findall, re.sub, entre outros.
regex = re.compile(r'#[^\s]+'
                  '|@[^\s]+'
                  '|http[^\s]+')

In [102]:
# Encontrar os termos de acordo com as expressões guardadas
regex.findall(texto)

['#i5gornascimento', '@i5gornascimento', 'http://www.globo.com']

In [103]:
# Substituir os termos de acordo com as expressões guardadas por "LIXO"
regex.sub('LIXO', texto)

'LIXO LIXO LIXO Corpo de bombeiros resgata vaca em cima do telhado'

## Part-of-Speech Tagging

O Part-of-Speech Tagging (POS) é o processo de convertir palavras em tuplas da forma **(palavra, tag)**, onde o **tag** classifica a respectiva palavra em substantivo, adjetivo, verbo, etc.

In [105]:
!pip install nltk

Defaulting to user installation because normal site-packages is not writeable
Collecting nltk
  Downloading nltk-3.6.5-py3-none-any.whl (1.5 MB)
[K     |████████████████████████████████| 1.5 MB 800 kB/s eta 0:00:01
Collecting click
  Downloading click-8.0.3-py3-none-any.whl (97 kB)
[K     |████████████████████████████████| 97 kB 776 kB/s eta 0:00:01
Installing collected packages: click, nltk
Successfully installed click-8.0.3 nltk-3.6.5


In [109]:
import nltk
nltk.download('floresta')

[nltk_data] Downloading package floresta to /home/kauvin/nltk_data...
[nltk_data]   Unzipping corpora/floresta.zip.


True

In [112]:
from nltk import DefaultTagger, UnigramTagger, BigramTagger, TrigramTagger
from nltk.corpus import floresta
import re

In [113]:
def process_tag(t):
    processed_tag = re.findall(r'\+(.+)', t)
    if processed_tag:
         return processed_tag[0]
    else:
         return 

In [114]:
tsents = floresta.tagged_sents()

In [115]:
tsents[5]

[('E', 'CO+conj-c'),
 ('assim', 'ADVL+adv'),
 (',', ','),
 ('a', 'H+prp'),
 ('os', '>N+art'),
 ('2,5', '>N+num'),
 ('milhões', 'H+n'),
 ('que', 'ACC+pron-indp'),
 ('o', '>N+art'),
 ('Ministério_do_Planeamento_e_Administração_do_Território', 'H+prop'),
 ('já', 'ADVL+adv'),
 ('gasta', 'P+v-fin'),
 ('em', 'H+prp'),
 ('o', '>N+art'),
 ('pagamento', 'H+n'),
 ('de', 'H+prp'),
 ('o', '>N+art'),
 ('pessoal', 'H+n'),
 ('afecto', 'P+v-pcp'),
 ('a', 'H+prp'),
 ('estes', '>N+pron-det'),
 ('organismos', 'H+n'),
 (',', ','),
 ('vêm', 'P+v-fin'),
 ('juntar-', 'P+v-inf'),
 ('se', 'ACC+pron-pers'),
 ('os', '>N+art'),
 ('montantes', 'H+n'),
 ('de', 'H+prp'),
 ('as', '>N+art'),
 ('obras', 'H+n'),
 ('propriamente', '>A+adv'),
 ('ditas', 'H+adj'),
 (',', ','),
 ('que', 'ACC+pron-indp'),
 ('os', '>N+art'),
 ('municípios', 'H+n'),
 (',', ','),
 ('já', '>A+adv'),
 ('com', 'H+prp'),
 ('projectos', 'H+n'),
 ('em', 'H+prp'),
 ('a', '>N+art'),
 ('mão', 'H+n'),
 (',', ','),
 ('vêm', 'AUX+v-fin'),
 ('reivindicar', 

In [116]:
# Extrair a segunda parte de todas as tags
tsents = [[(w.lower(), process_tag(t)) for (w,t) in sent] for sent in tsents if sent]

In [117]:
tsents[5]

[('e', 'conj-c'),
 ('assim', 'adv'),
 (',', None),
 ('a', 'prp'),
 ('os', 'art'),
 ('2,5', 'num'),
 ('milhões', 'n'),
 ('que', 'pron-indp'),
 ('o', 'art'),
 ('ministério_do_planeamento_e_administração_do_território', 'prop'),
 ('já', 'adv'),
 ('gasta', 'v-fin'),
 ('em', 'prp'),
 ('o', 'art'),
 ('pagamento', 'n'),
 ('de', 'prp'),
 ('o', 'art'),
 ('pessoal', 'n'),
 ('afecto', 'v-pcp'),
 ('a', 'prp'),
 ('estes', 'pron-det'),
 ('organismos', 'n'),
 (',', None),
 ('vêm', 'v-fin'),
 ('juntar-', 'v-inf'),
 ('se', 'pron-pers'),
 ('os', 'art'),
 ('montantes', 'n'),
 ('de', 'prp'),
 ('as', 'art'),
 ('obras', 'n'),
 ('propriamente', 'adv'),
 ('ditas', 'adj'),
 (',', None),
 ('que', 'pron-indp'),
 ('os', 'art'),
 ('municípios', 'n'),
 (',', None),
 ('já', 'adv'),
 ('com', 'prp'),
 ('projectos', 'n'),
 ('em', 'prp'),
 ('a', 'art'),
 ('mão', 'n'),
 (',', None),
 ('vêm', 'v-fin'),
 ('reivindicar', 'v-inf'),
 ('junto', 'adv'),
 ('de', 'prp'),
 ('o', 'art'),
 ('executivo', 'n'),
 (',', None),
 ('como',

In [119]:
# Imprimir a cantidade de frases
len(tsents)

9266

In [120]:
train = tsents[:8000]
test = tsents[8000:]

In [121]:
# Inicia o DefaultTagger para impor um determinado tag em cada palavra de um documento
tagger0 = DefaultTagger('n')

In [123]:
# Evaluar a precisão do modelo
tagger0.evaluate(test)

0.1992697360137659

In [124]:
# Inicia o UnigramTagger para determinar o POS para uma simples palavra.
tagger1 = UnigramTagger(train, backoff=tagger0)

In [125]:
tagger1.evaluate(test)

0.7485205858899567

In [129]:
# Inicia o BigramTagger para determinar o POS para pares de palavras baseando-se no modelo de Unigram
tagger2 = BigramTagger(train, backoff=tagger1)

In [130]:
tagger2.evaluate(test)

0.760188021991858

In [131]:
# Inicia o TrigramTagger para determinar o POS para grupos de 3 palavras baseando-se no modelo de Bigram
tagger3 = TrigramTagger(train, backoff=tagger2)

In [132]:
tagger3.evaluate(test)

0.7589289461535234

In [133]:
texto

'#i5gornascimento @i5gornascimento http://www.globo.com Corpo de bombeiros resgata vaca em cima do telhado'

In [135]:
# Utilizar o modelo de Bigram para determinar o POS de cada palavra do texto
tagger2.tag(texto.split())

[('#i5gornascimento', 'n'),
 ('@i5gornascimento', 'n'),
 ('http://www.globo.com', 'n'),
 ('Corpo', 'n'),
 ('de', 'prp'),
 ('bombeiros', 'n'),
 ('resgata', 'n'),
 ('vaca', 'n'),
 ('em', 'prp'),
 ('cima', 'n'),
 ('do', 'n'),
 ('telhado', 'n')]

## Tokenizar texto

In [143]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/kauvin/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [144]:
from nltk import word_tokenize

In [145]:
texto

'#i5gornascimento @i5gornascimento http://www.globo.com Corpo de bombeiros resgata vaca em cima do telhado'

In [146]:
print(texto.split())

['#i5gornascimento', '@i5gornascimento', 'http://www.globo.com', 'Corpo', 'de', 'bombeiros', 'resgata', 'vaca', 'em', 'cima', 'do', 'telhado']


In [147]:
print(word_tokenize(texto, language='portuguese'))

['#', 'i5gornascimento', '@', 'i5gornascimento', 'http', ':', '//www.globo.com', 'Corpo', 'de', 'bombeiros', 'resgata', 'vaca', 'em', 'cima', 'do', 'telhado']


In [148]:
re.split(r'[\s]', texto)

['#i5gornascimento',
 '@i5gornascimento',
 'http://www.globo.com',
 'Corpo',
 'de',
 'bombeiros',
 'resgata',
 'vaca',
 'em',
 'cima',
 'do',
 'telhado']

In [149]:
re.findall(r'[\w]+', texto)

['i5gornascimento',
 'i5gornascimento',
 'http',
 'www',
 'globo',
 'com',
 'Corpo',
 'de',
 'bombeiros',
 'resgata',
 'vaca',
 'em',
 'cima',
 'do',
 'telhado']

## Normalizar dados

In [150]:
from unicodedata import normalize

In [151]:
normalize('NFKD', "Ação").encode('latin-1','ignore').decode('latin-1')

'Acao'

In [152]:
"Áção".lower()

'áção'

In [153]:
"ação".upper()

'AÇÃO'

In [154]:
[ord(character) for character in "Ação"]

[65, 231, 227, 111]

In [155]:
[ord(character) for character in "Acao"]

[65, 99, 97, 111]

## Limpeza de dados

In [157]:
regex = re.compile(r'#[^\s]+'
                  '|@[^\s]+'
                  '|http[^\s]+')

In [158]:
regex.sub('', "#i5gornascimento @i5gornascimento g1 http://www.globo.com Corpo")

'  g1  Corpo'

## Remover Stop words

In [161]:
nltk.download('stopwords')
from nltk.corpus import stopwords

[nltk_data] Downloading package stopwords to /home/kauvin/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [162]:
# Listar stopwords em portugues
print(stopwords.words('portuguese'))

['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estiv

In [163]:
# Definir função para remover stopwords
def remover_stopwords(texto):
    return [x for x in texto.split() if x not in stopwords.words('portuguese')]

In [164]:
texto

'#i5gornascimento @i5gornascimento http://www.globo.com Corpo de bombeiros resgata vaca em cima do telhado'

In [165]:
remover_stopwords(texto)

['#i5gornascimento',
 '@i5gornascimento',
 'http://www.globo.com',
 'Corpo',
 'bombeiros',
 'resgata',
 'vaca',
 'cima',
 'telhado']

## Modelos Clássicos

In [166]:
import pandas
# import re
import numpy

# from unicodedata import normalize

# from nltk import DefaultTagger, UnigramTagger, BigramTagger, TrigramTagger, word_tokenize
# from nltk.corpus import floresta, stopwords
from nltk.stem import RSLPStemmer

from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics
from sklearn.model_selection import cross_val_predict
from sklearn.decomposition import LatentDirichletAllocation, TruncatedSVD
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

numpy.set_printoptions(threshold=numpy.inf)

In [167]:
url = 'https://raw.githubusercontent.com/stacktecnologias/stack-repo/master/Tweets_Mg.csv'

In [168]:
df = pandas.read_csv(url, usecols=['Text', 'Classificacao'])

In [169]:
df.head()

Unnamed: 0,Text,Classificacao
0,���⛪ @ Catedral de Santo Antônio - Governador ...,Neutro
1,"� @ Governador Valadares, Minas Gerais https:/...",Neutro
2,"�� @ Governador Valadares, Minas Gerais https:...",Neutro
3,��� https://t.co/BnDsO34qK0,Neutro
4,��� PSOL vai questionar aumento de vereadores ...,Negativo


In [170]:
df.drop_duplicates(subset=['Text'], inplace=True)

In [171]:
df.shape

(5765, 2)

In [172]:
df.Classificacao.value_counts()

Positivo    2840
Neutro      1974
Negativo     951
Name: Classificacao, dtype: int64

In [173]:
df.Text.values[-1]

'Trio suspeito de roubo de cargas é preso em Santa Luzia (MG) https://t.co/0INgJcMtZb #R7MG #RecordTVMinas'

In [174]:
df.Classificacao.values[0]

'Neutro'

In [175]:
texto = df.Text.values[-1]

In [176]:
df['perfis'] = df['Text'].apply(lambda x: re.findall(r'@[^\s]+', x))

In [177]:
df[df['perfis'].apply(lambda x: len(x)>0)].head()

Unnamed: 0,Text,Classificacao,perfis
70,#i5gornascimento @i5gornascimento @cristiano U...,Neutro,"[@i5gornascimento, @cristiano]"
71,#i5gornascimento @i5gornascimento g1 Corpo em ...,Neutro,[@i5gornascimento]
72,#i5gornascimento @i5gornascimento g1 Prefeito ...,Negativo,[@i5gornascimento]
73,#i5gornascimento @i5gornascimento g1 Vereadore...,Neutro,[@i5gornascimento]
74,#i5gornascimento @i5gornascimento Governador V...,Neutro,[@i5gornascimento]


In [178]:
df['hashtags'] = df['Text'].apply(lambda x: re.findall(r'#[^\s]+', x))

In [179]:
df[df['hashtags'].apply(lambda x: len(x)>0)].head()

Unnamed: 0,Text,Classificacao,perfis,hashtags
11,"""É bonita e é bonita..."" \n#latergram #ibituru...",Neutro,[],"[#latergram, #ibituruna, #home]"
16,"""Mesmo sem muito dinheiro no caixa o governo d...",Negativo,[],[#2017]
27,#ACORDAMINAS!!!\n\nO governador Fernando Pimen...,Neutro,[],[#ACORDAMINAS!!!]
28,#ACORDAMINAS!!!!\n\nO povo mineiro tem que da ...,Neutro,[],[#ACORDAMINAS!!!!]
29,#Alerta - Nome da CEEE é utilizado em golpe no...,Negativo,[],[#Alerta]


In [180]:
class Preprocessador:
    def __init__(self, 
            remove_stopwords = False, 
            apply_limpeza = False):
        
        print("Iniciando preprocessador")
        self.stopwords = stopwords.words('portuguese')
        
        self.regex_limpeza = re.compile(r'#[^\s]+'
                  '|@[^\s]+'
                  '|http[^\s]+')
        
        self.remove_stopwords = remove_stopwords
        self.apply_limpeza = apply_limpeza
        
    def tokenizador(self, texto: str) -> list:
        return re.findall(r'[\w]+', texto)
    
    def limpeza(self, texto:str) -> str:
        texto = self.regex_limpeza.sub('', texto)
        return texto
    
    def normalizador(self, texto: str) -> str:
        texto = texto.lower()
        return normalize('NFKD', texto).encode('latin-1','ignore').decode('latin-1')
    
    def remover_stopwords(self, texto_tokenizado: list) -> list:
        return [t for t in texto_tokenizado if t not in self.stopwords]
        
    def run(self, texto: str) -> str:
        
#         print(texto)
        
        if self.apply_limpeza:
            texto = self.limpeza(texto)
#             print(texto)
            
        texto = texto.lower()
        
        texto_tokenizado = self.tokenizador(texto)
#         print(texto_tokenizado)
        if self.remove_stopwords:
            texto_tokenizado = self.remover_stopwords(texto_tokenizado)
#             print(texto_tokenizado)
        
        texto = " ".join(texto_tokenizado)
#         print(texto)

        texto = self.normalizador(texto)
#         print(texto)
        
        return texto

In [181]:
prep = Preprocessador()

Iniciando preprocessador


In [182]:
prep.apply_limpeza = True
prep.remove_stopwords = True

In [183]:
prep.run("Oi meu nome é Goku me siga no perfil #goku_oficial")

'oi nome goku siga perfil'

## Aplicar preprocessamento na base

In [184]:
df['Text tratado'] = df['Text'].apply(prep.run)

In [185]:
df.shape

(5765, 5)

In [186]:
df.head()

Unnamed: 0,Text,Classificacao,perfis,hashtags,Text tratado
0,���⛪ @ Catedral de Santo Antônio - Governador ...,Neutro,[],[],catedral santo antonio governador valadares mg
1,"� @ Governador Valadares, Minas Gerais https:/...",Neutro,[],[],governador valadares minas gerais
2,"�� @ Governador Valadares, Minas Gerais https:...",Neutro,[],[],governador valadares minas gerais
3,��� https://t.co/BnDsO34qK0,Neutro,[],[],
4,��� PSOL vai questionar aumento de vereadores ...,Negativo,[],[],psol vai questionar aumento vereadores prefeit...


In [187]:
df = df[df['Text tratado'].apply(lambda x: len(x)>1)]

In [188]:
df.shape

(5749, 5)

In [189]:
df.head()

Unnamed: 0,Text,Classificacao,perfis,hashtags,Text tratado
0,���⛪ @ Catedral de Santo Antônio - Governador ...,Neutro,[],[],catedral santo antonio governador valadares mg
1,"� @ Governador Valadares, Minas Gerais https:/...",Neutro,[],[],governador valadares minas gerais
2,"�� @ Governador Valadares, Minas Gerais https:...",Neutro,[],[],governador valadares minas gerais
4,��� PSOL vai questionar aumento de vereadores ...,Negativo,[],[],psol vai questionar aumento vereadores prefeit...
5,""" bom é bandido morto""\nDeputado Cabo Júlio é ...",Neutro,[],[],bom bandido morto deputado cabo julio condenad...


In [190]:
df_tratado = df.drop_duplicates(subset=['Text tratado'])

In [191]:
df_tratado.shape

(3055, 5)

In [192]:
df_tratado.head()

Unnamed: 0,Text,Classificacao,perfis,hashtags,Text tratado
0,���⛪ @ Catedral de Santo Antônio - Governador ...,Neutro,[],[],catedral santo antonio governador valadares mg
1,"� @ Governador Valadares, Minas Gerais https:/...",Neutro,[],[],governador valadares minas gerais
4,��� PSOL vai questionar aumento de vereadores ...,Negativo,[],[],psol vai questionar aumento vereadores prefeit...
5,""" bom é bandido morto""\nDeputado Cabo Júlio é ...",Neutro,[],[],bom bandido morto deputado cabo julio condenad...
6,"""..E 25% dos mineiros dizem não torcer para ti...",Neutro,[],[],25 mineiros dizem torcer time nenhum dentro es...


In [193]:
df_tratado.Classificacao.value_counts()

Neutro      1419
Positivo    1142
Negativo     494
Name: Classificacao, dtype: int64

Agora a nossa base já esta pronta para ir para modelagem.

## Bag of Words

A Bag of Words (BoW) ou vectorização é uma técnica de simplificação de documentos e consiste em transformar cada texto em um vector de tamanho fixo representando quantas veces cada palavra aparece no documento.

**Vantagems**:
* Modelo básico e leve de representação de palavras.
* Útil quando o contexto e posição da palavra não são relevantes.

**Desvantagems**:
* A informação contextual é perdida.
* Não diz *onde* uma determinada palavra ocorre no texto.
* É ineficiente quando há um número muito grande de diferentes palavras.

In [202]:
from sklearn.feature_extraction.text import CountVectorizer

In [195]:
class BagOfWords:
    def __init__(self, documentos, ngram=1):
        self.vectorizer = CountVectorizer(analyzer="word", tokenizer=prep.tokenizador, ngram_range=(ngram, ngram))
        self.corpus = self.vectorizer.fit_transform(documentos)
        self.word_freq = None
        
    def get_topn(self, topn=100):
        if not self.word_freq:
            result = {}
            for palavra, total in zip(self.vectorizer.get_feature_names(), sum(self.corpus.toarray())):
                result[palavra] = total
        else:
            result = self.word_freq
        return sorted(result.items(), key=lambda x: x[1], reverse=True)
    
    def transform(self, texto):
        if type(texto) is str:
            return self.vectorizer.transform([texto])
        elif type(texto) is list:
            return self.vectorizer.transform(texto)

In [196]:
# Tomar uma muestra de documentos e construir uma Bag of Words
bow_negativa = BagOfWords(df_tratado[df_tratado['Classificacao'] == 'Negativo']['Text tratado'].values, ngram=1)

In [197]:
bow_negativa.get_topn()

[('minas', 255),
 ('governo', 222),
 ('mg', 188),
 ('rt', 179),
 ('helicopteros', 126),
 ('pimentel', 126),
 ('estado', 122),
 ('governador', 115),
 ('gerais', 88),
 ('calamidade', 87),
 ('compra', 79),
 ('financeira', 77),
 ('dois', 70),
 ('helicoptero', 68),
 ('r', 61),
 ('filho', 48),
 ('justica', 47),
 ('pt', 47),
 ('fernando', 46),
 ('recursos', 46),
 ('via', 46),
 ('bb', 45),
 ('judiciais', 43),
 ('conta', 40),
 ('avisa', 39),
 ('depositos', 38),
 ('brasil', 35),
 ('judicial', 32),
 ('2', 27),
 ('8', 26),
 ('milhoes', 26),
 ('dinheiro', 25),
 ('buscar', 24),
 ('cobra', 24),
 ('banco', 23),
 ('1', 22),
 ('50', 22),
 ('5', 21),
 ('bilhao', 20),
 ('festa', 19),
 ('politica', 19),
 ('ser', 19),
 ('ainda', 17),
 ('q', 17),
 ('sobre', 17),
 ('petista', 16),
 ('vai', 16),
 ('gasta', 15),
 ('cara', 14),
 ('povo', 14),
 ('pra', 14),
 ('usa', 14),
 ('decreta', 13),
 ('uso', 13),
 ('by', 12),
 ('p', 12),
 ('voos', 12),
 ('comprar', 11),
 ('vergonha', 11),
 ('reveillon', 10),
 ('corrupto', 9

In [200]:
# Construir uma Bag of Words
bow = BagOfWords(df_tratado['Text tratado'].values, ngram=1)

In [199]:
bow.get_topn()

[('minas', 1386),
 ('estado', 1234),
 ('mg', 809),
 ('rt', 609),
 ('gerais', 476),
 ('governo', 454),
 ('drogas', 394),
 ('governador', 332),
 ('amarela', 174),
 ('febre', 174),
 ('pimentel', 169),
 ('pm', 164),
 ('trafico', 164),
 ('roubo', 160),
 ('policia', 149),
 ('valadares', 147),
 ('helicopteros', 140),
 ('y', 139),
 ('preso', 132),
 ('contra', 130),
 ('dois', 121),
 ('en', 118),
 ('politica', 118),
 ('in', 108),
 ('prende', 108),
 ('el', 106),
 ('r', 106),
 ('apreende', 105),
 ('apos', 103),
 ('calamidade', 100),
 ('presidio', 100),
 ('i', 96),
 ('m', 96),
 ('new', 93),
 ('post', 93),
 ('at', 92),
 ('via', 92),
 ('compra', 91),
 ('le', 91),
 ('financeira', 90),
 ('la', 89),
 ('presos', 87),
 ('brasil', 82),
 ('anos', 79),
 ('nacional', 77),
 ('un', 77),
 ('fernando', 73),
 ('helicoptero', 73),
 ('pt', 70),
 ('militar', 69),
 ('1', 68),
 ('justica', 67),
 ('mi', 67),
 ('2', 66),
 ('bh', 65),
 ('sobre', 65),
 ('q', 63),
 ('homem', 59),
 ('ser', 56),
 ('filho', 55),
 ('tres', 55),

In [208]:
# Imprimir a matriz de representação a palavra "minas"
bow_negativa.transform('minas').toarray()

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

## TF-IDF

O TF-IDF(*term frequency–inverse document frequency*) é um fator de importância de uma palavra dentro do corpo de texto ou corpus linguístico. O fator de uma determinada palavra aumenta a medida que a frequência dela é maior.

**Vantagems**:
* É usado como base para muitos modelos
* Modela a importância de cada palavras dentro do texto

**Desvantagems**:
* As mesmas do Bag of Words

In [209]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [210]:
class Tfidf:
    def __init__(self, documentos, ngram=1):
        self.vectorizer = TfidfVectorizer(
            analyzer="word",
            tokenizer=prep.tokenizador, 
            ngram_range=(ngram, ngram), 
            max_df=0.9, 
#             norm=None,
            use_idf=True
        )
        self.corpus = self.vectorizer.fit_transform(documentos)
        self.word_freq = None
        
    def get_topn(self, topn=100):
        if not self.word_freq:
            result = {}
            for palavra, total in zip(self.vectorizer.get_feature_names(), sum(self.corpus.toarray())):
                result[palavra] = total
        else:
            result = self.word_freq
        return sorted(result.items(), key=lambda x: x[1], reverse=True)
    
    def transform(self, texto):
        if type(texto) is str:
            return self.vectorizer.transform([texto])
        elif type(texto) is list:
            return self.vectorizer.transform(texto)

In [211]:
tfidf = Tfidf(df_tratado['Text tratado'].values, ngram=1)

In [212]:
tfidf.get_topn()

[('minas', 141.2686116567849),
 ('estado', 123.65789996381403),
 ('mg', 104.71587270147812),
 ('rt', 90.05501135809683),
 ('drogas', 79.72354168179108),
 ('gerais', 78.94444388045143),
 ('governo', 76.52453646889327),
 ('governador', 62.782044732399775),
 ('trafico', 43.40339054687168),
 ('pm', 41.872811074812965),
 ('roubo', 40.134579166262505),
 ('amarela', 40.055244271283634),
 ('febre', 40.055244271283634),
 ('helicopteros', 38.62256630977135),
 ('valadares', 37.22134852097469),
 ('policia', 37.03330399650605),
 ('pimentel', 36.95880243849609),
 ('preso', 35.33603565172994),
 ('dois', 34.19696118074897),
 ('contra', 31.572829650053745),
 ('prende', 31.249478564939576),
 ('calamidade', 31.14973695402672),
 ('apreende', 30.261433361087068),
 ('compra', 29.23791438537391),
 ('financeira', 28.51227697313363),
 ('politica', 27.656793542552858),
 ('in', 27.041882445269614),
 ('via', 26.1562790169652),
 ('new', 25.224140661985732),
 ('post', 25.224140661985732),
 ('presidio', 25.187580164

In [213]:
corpus = ['eu tenho um gato de estimação', 'meu gato odeia cachorro de rua','meu gato e meu cachorro foram na rua']

In [214]:
tfidf = Tfidf(corpus, ngram=1)

In [215]:
tfidf.vectorizer.get_feature_names()

['cachorro',
 'de',
 'e',
 'estimação',
 'eu',
 'foram',
 'meu',
 'na',
 'odeia',
 'rua',
 'tenho',
 'um']

In [216]:
tfidf.get_topn()

[('meu', 1.0157645071142873),
 ('de', 0.7732282388228763),
 ('cachorro', 0.7167801390433731),
 ('rua', 0.7167801390433731),
 ('odeia', 0.5493512310263033),
 ('estimação', 0.4673509818107163),
 ('eu', 0.4673509818107163),
 ('tenho', 0.4673509818107163),
 ('um', 0.4673509818107163),
 ('e', 0.39312851414239275),
 ('foram', 0.39312851414239275),
 ('na', 0.39312851414239275)]

In [217]:
tfidf.transform(['cachorro', 'gato']).toarray()

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

## Modelagem de tópicos - LSA

O Análise Semântico Latente (LSA) é uma técnica não supervisionada utilizada para reducir a dimensionalidade do TF-IDF. Utiliza-se da decomposição em valores singulares (SVD) para reducir o número de linhas do TF-IDF ao mesmo tempo que preserva uma similaridade entre as colunas. Valores próximos ao 1 indicam elevada semelhança entre os documentos.

In [218]:
from sklearn.decomposition import TruncatedSVD

In [219]:
class ModelagemTopicos:
    def __init__(self, train_data, num_components=10):
        # Create SVD object
        self.lsa = TruncatedSVD(n_components=num_components, n_iter=100, random_state=42)

        # Fit SVD model on data
        self.corpus = self.lsa.fit_transform(train_data)
        
    def extrair_topicos(self, terms, topn=10):

        for index, component in enumerate(self.lsa.components_):
            zipped = zip(terms, component)
            top_terms_key=sorted(zipped, key = lambda t: t[1], reverse=True)[:topn]
            top_terms_list=list(dict(top_terms_key).keys())
            print("Topic "+str(index)+": ",top_terms_list)

In [220]:
model_topic = ModelagemTopicos(tfidf.corpus, num_components=3)

In [221]:
model_topic.extrair_topicos(tfidf.vectorizer.get_feature_names())

Topic 0:  ['meu', 'rua', 'cachorro', 'odeia', 'de', 'e', 'foram', 'na', 'estimação', 'eu']
Topic 1:  ['estimação', 'eu', 'tenho', 'um', 'de', 'odeia', 'cachorro', 'rua', 'e', 'foram']
Topic 2:  ['odeia', 'de', 'cachorro', 'rua', 'estimação', 'eu', 'tenho', 'um', 'meu', 'e']


In [222]:
model_topic.lsa.transform(tfidf.transform('assaltante roubou mulher no ponto de onibus'))

array([[0.29757422, 0.34070401, 0.32348987]])

## LDA

A Alocação Latente de Dirichlet (LDA) é um modelo estadistico generativo que asume que cada documento é uma mistura de tópicos e que cada palavra pode ser modelada para representar cada um desses tópicos. Serve principalmente para descobrir tópicos em cada documento.

In [223]:
from sklearn.decomposition import LatentDirichletAllocation

In [224]:
class LDA:
    def __init__(self, train_data, n_components=10):

        self.lda = LatentDirichletAllocation(n_components=n_components, random_state=42)

        self.corpus = self.lda.fit_transform(train_data)
        
    def extrair_topicos(self, terms, topn=10):

        for index, component in enumerate(self.lda.components_):
            zipped = zip(terms, component)
            top_terms_key=sorted(zipped, key = lambda t: t[1], reverse=True)[:topn]
            top_terms_list=list(dict(top_terms_key).keys())
            print("Topic "+str(index)+": ",top_terms_list)

In [225]:
lda = LDA(tfidf.corpus, n_components=20)

In [226]:
lda.extrair_topicos(tfidf.vectorizer.get_feature_names())

Topic 0:  ['cachorro', 'rua', 'de', 'meu', 'e', 'foram', 'na', 'estimação', 'eu', 'odeia']
Topic 1:  ['cachorro', 'rua', 'de', 'meu', 'e', 'foram', 'na', 'estimação', 'eu', 'odeia']
Topic 2:  ['cachorro', 'rua', 'de', 'meu', 'e', 'foram', 'na', 'estimação', 'eu', 'odeia']
Topic 3:  ['cachorro', 'rua', 'de', 'meu', 'e', 'foram', 'na', 'estimação', 'eu', 'odeia']
Topic 4:  ['cachorro', 'rua', 'de', 'meu', 'e', 'foram', 'na', 'estimação', 'eu', 'odeia']
Topic 5:  ['cachorro', 'rua', 'de', 'meu', 'e', 'foram', 'na', 'estimação', 'eu', 'odeia']
Topic 6:  ['cachorro', 'rua', 'de', 'meu', 'e', 'foram', 'na', 'estimação', 'eu', 'odeia']
Topic 7:  ['cachorro', 'rua', 'de', 'meu', 'e', 'foram', 'na', 'estimação', 'eu', 'odeia']
Topic 8:  ['estimação', 'tenho', 'um', 'eu', 'de', 'cachorro', 'meu', 'rua', 'e', 'foram']
Topic 9:  ['cachorro', 'rua', 'de', 'meu', 'e', 'foram', 'na', 'estimação', 'eu', 'odeia']
Topic 10:  ['odeia', 'cachorro', 'rua', 'de', 'meu', 'e', 'estimação', 'eu', 'foram', 'na'

In [227]:
lda.lda.transform(tfidf.transform('homem foi preso por trafico de drogas no estado de minas gerais mg'))

array([[0.025, 0.025, 0.025, 0.025, 0.025, 0.025, 0.025, 0.025, 0.025,
        0.025, 0.525, 0.025, 0.025, 0.025, 0.025, 0.025, 0.025, 0.025,
        0.025, 0.025]])

## BM25

A BM25 é um algoritmo de ranking que ajuda na recuperação de informação. Se baseia no TF-IDF e pode ser usado para indexar dados e mostrar a relevância de um termo de busca (entrada) em cada um dos documentos.

In [228]:
import numpy

In [229]:
class BM25:
    def __init__(self, train_data, b=0.75, k1=1.6):
        self.corpus = train_data
        self.vectorizer = TfidfVectorizer(norm=None, smooth_idf=False)
        self.vectorizer.fit(train_data)
        self.corpus_bow = super(TfidfVectorizer, self.vectorizer).transform(train_data)
        self.len_X = self.corpus_bow.sum(1).A1
        self.avdl = self.corpus_bow.sum(1).mean()
        self.b = b
        self.k1 = k1
    
    def transform(self, q):
        """ Calculate BM25 between query q and corpus"""
        b, k1, avdl = self.b, self.k1, self.avdl
        len_X, avdl = self.len_X, self.avdl
        q, = super(TfidfVectorizer, self.vectorizer).transform([q])

        # convert to csc for better column slicing
        X = self.corpus_bow.tocsc()[:, q.indices]
        
        denom = X + (k1 * (1 - b + b * len_X / avdl))[:, None]
        # idf(t) = log [ n / df(t) ] + 1 in sklearn, so it need to be coneverted
        # to idf(t) = log [ n / df(t) ] with minus 1
        idf = self.vectorizer._tfidf.idf_[None, q.indices] - 1.
        numer = X.multiply(numpy.broadcast_to(idf, X.shape)) * (k1 + 1)
        self.denom = denom
        self.numer = numer
        return (numer / denom).sum(1).A1
    
    def similar(self, q, topn=5):
        resp = self.transform(q)
        self.max_inds = numpy.argpartition(resp, -topn)[-topn:]
        most_similar = [(resp[ind], self.corpus[ind])  for ind in self.max_inds]
        return sorted(most_similar, key=lambda x: x[0], reverse=True)
        

In [230]:
bm25 = BM25(df_tratado['Text tratado'].values)

In [231]:
bm25.similar("mata", topn=10)

[(6.0472184119834544, 'mata verde 21kg drogas apreendidos pm'),
 (5.717376024132451, '44obpm mata verde 21kg drogas apreendidos pm'),
 (5.717376024132451, 'prisao trafico drogas carmo mata mg via'),
 (5.717376024132451, 'homem preso carmo mata mg trafico drogas'),
 (5.717376024132451, 'noticias mata verde mg 21kg drogas apreend'),
 (5.4216546849081375, 'atentado suicida bagda mata doze pessoas estado minas'),
 (5.4216546849081375, 'motorista passageira presos 21kg drogas mata verde mg'),
 (5.1550202222760895,
  'tt atentado suicida bagda mata doze pessoas estado minas'),
 (4.913382356975536,
  'atirador mata cinco fere oito aeroporto fort lauderdale estado minas'),
 (4.913382356975536,
  'pm mata criminoso apos roubo testemunha filma tiroteio presidente olegario')]

In [232]:
bm25.max_inds

array([ 388, 3014, 1862,  386, 2784, 2535, 2804, 2846, 2481, 2856])

In [233]:
[(x, (bm25.numer / bm25.denom)[x].sum(1)) for x in bm25.max_inds]

[(388, matrix([[4.91338236]])),
 (3014, matrix([[4.91338236]])),
 (1862, matrix([[5.15502022]])),
 (386, matrix([[5.42165468]])),
 (2784, matrix([[5.71737602]])),
 (2535, matrix([[5.71737602]])),
 (2804, matrix([[6.04721841]])),
 (2846, matrix([[5.42165468]])),
 (2481, matrix([[5.71737602]])),
 (2856, matrix([[5.71737602]]))]

In [234]:
len(resp)

NameError: name 'resp' is not defined

In [235]:
numpy.argpartition(resp, -5)[-5:]

NameError: name 'resp' is not defined

In [None]:
resp.argmax()

In [89]:
df_tratado['Text'].values[2804]

'@PMMG190 - MATA VERDE \x96 Mais de 21kg de drogas são apreendidos pela PM https://t.co/AA5Z6SPeHu'

In [None]:
resp[280]

## Criar modelo

In [236]:
from sklearn.naive_bayes import MultinomialNB
from sklearn import svm
from sklearn import metrics
from sklearn.model_selection import cross_val_predict

In [237]:
class Modelo:
    def _init(self, path= None):
        if path:
            self.load(path)
            
    def train(self, X:list, Y:list):
        self.model = MultinomialNB()
        self.model.fit(X, Y)
        resultados = cross_val_predict(self.model, X, Y, cv=10)
        print(metrics.accuracy_score(Y, resultados))
        print(metrics.classification_report(Y, resultados))
        
    def predict(self, X):
        result = self.model.predict_proba(X)[0]

        print(f'Negativo {result[0]:.2f}')
        print(f'Neutro {result[1]:.2f}')        
        print(f'Positivo {result[2]:.2f}')        
        return self.model.predict(X)[0]

In [238]:
modelo = Modelo()

In [239]:
modelo.train(bow.corpus, df_tratado['Classificacao'].values)

0.8494271685761048
              precision    recall  f1-score   support

    Negativo       0.65      0.88      0.75       494
      Neutro       0.89      0.83      0.86      1419
    Positivo       0.93      0.86      0.89      1142

    accuracy                           0.85      3055
   macro avg       0.82      0.86      0.83      3055
weighted avg       0.86      0.85      0.85      3055



In [240]:
modelo.predict(tfidf.transform([prep.run('pimental pt')]))

ValueError: dimension mismatch

In [241]:
df_tratado.shape

(3055, 5)