## Expressão Regular

In [None]:
import re

In [None]:
texto = "Me chamo Filipe_Theodoro, tenho 25 anos e nasci em 09/11/1921"

#### Encontrar números

In [None]:
re.findall(r'[0-9]', texto)

In [None]:
re.findall(r'[0-9]{4,}', texto)

In [None]:
re.findall(r'[0-9]+', texto)

In [None]:
re.findall(r'\d+', texto)

#### Encontrar letras

In [None]:
texto

In [None]:
re.findall(r'[a-zA-Z]+', texto)

In [None]:
re.findall(r'\w+', texto)

In [None]:
re.findall(r'\W+', texto)

#### Encontrar espaços em branco

In [None]:
texto = "Me chamo Filipe, tenho 25 anos e nasci em 09/11/1921"

In [None]:
print(texto)

In [None]:
re.findall(r'\s', texto)

#### Buscar padrões

In [None]:
DD/MM/AAAA

In [None]:
re.findall(r'(\d+)/(\d+)/(\d+)', texto)[0][2]

In [None]:
print(texto)

In [None]:
re.findall(r'([0-9]+).{0,}anos', texto)

In [None]:
texto = "Meu nome é Filipe e o meu site é https://www.semantix.com.br e moro em Belo Horizonte."

In [None]:
re.findall(r'http[^\s]+', texto)

In [None]:
re.findall(r'(?<=\s)[A-Z][a-z]+', texto)

In [None]:
example_html = """
<html>
  <head>
    <title>HTML Exemplo Expressão Regular</title>
  </head>
  <body>
    <h1>HTML Exemplo Expressão!! Regular 09/88,1354</h1>
    <p>
      <a href="https://www.semantix.com.br">Página inicial da semantix</a>
    </p>
  </body>
</html>
"""

In [None]:
re.findall(r'<h1>(.+)</h1>', example_html)

In [None]:
re.findall(r'<a.+>(.+)</a>', example_html)

In [None]:
re.findall(r'http[\w\./:]+', example_html)

#### Substituir texto

In [None]:
re.sub()

In [None]:
texto = "#i5gornascimento @i5gornascimento http://www.globo.com Corpo de bombeiros resgata vaca em cima do telhado"

In [None]:
re.sub(r'http[^\s]+', 'URL_SITE', texto)

In [None]:
re.sub(r'[^\w]+', ' ', texto)

In [None]:
re.sub(r'#\w+', '', texto)

In [None]:
print(texto)

In [None]:
texto1 = re.sub(r"[#|@]\w+"
       "|[^\w\s]"
       "|http[^\s]+", '', texto)

In [None]:
texto1

In [None]:
re.sub(r'^[^\w]+', '', texto1)

In [None]:
regex = re.compile(r'#[^\s]+'
                  '|@[^\s]+'
                  '|http[^\s]+')

In [None]:
regex.findall(texto)

In [None]:
regex.sub('LIXO', texto)

## Part-of-Speech Tagging

In [None]:
from nltk import DefaultTagger, UnigramTagger, BigramTagger, TrigramTagger
from nltk.corpus import floresta
import re

In [None]:
def process_tag(t):
    processed_tag = re.findall(r'\+(.+)', t)
    if processed_tag:
         return processed_tag[0]
    else:
         return 

In [None]:
tsents = floresta.tagged_sents()

In [None]:
tsents[5]

In [None]:
tsents = [[(w.lower(), process_tag(t)) for (w,t) in sent] for sent in tsents if sent]

In [None]:
tsents[5]

In [None]:
len(tsents)

In [None]:
train = tsents[:8000]
test = tsents[8000:]

In [None]:
tagger0 = DefaultTagger('n')

In [None]:
tagger0.evaluate(test)

In [None]:
tagger1 = UnigramTagger(train, backoff=tagger0)

In [None]:
tagger1.evaluate(test)

In [None]:
tagger2 = BigramTagger(train, backoff=tagger1)

In [None]:
tagger2.evaluate(test)

In [None]:
tagger3 = TrigramTagger(train, backoff=tagger2)

In [None]:
tagger3.evaluate(test)

In [None]:
texto

In [None]:
tagger2.tag(texto.split())

## Tokenizar texto

In [None]:
from nltk import word_tokenize

In [None]:
texto

In [None]:
print(texto.split())

In [None]:
print(word_tokenize(texto, language='portuguese'))

In [None]:
re.split(r'[\s]', texto)

In [None]:
re.findall(r'[\w]+', texto)

## Normalizar dados

In [None]:
from unicodedata import normalize

In [None]:
normalize('NFKD', "Ação").encode('latin-1','ignore').decode('latin-1')

In [None]:
"Áção".lower()

In [None]:
"ação".upper()

In [None]:
[ord(character) for character in "Ação"]

In [None]:
[ord(character) for character in "Acao"]

## Limpeza de dados

In [None]:
regex = re.compile(r'#[^\s]+'
                  '|@[^\s]+'
                  '|http[^\s]+')

In [None]:
regex.sub('', "#i5gornascimento @i5gornascimento g1 http://www.globo.com Corpo")

## Remover Stop words

In [None]:
from nltk.corpus import stopwords

In [None]:
print(stopwords.words('portuguese'))

In [None]:
def remover_stopwords(texto):
    return [x for x in texto.split() if x not in stopwords.words('portuguese')]

In [None]:
texto

In [None]:
remover_stopwords(texto)

## Modelos Clássicos

In [1]:
import pandas
import re
import numpy

from unicodedata import normalize

from nltk import DefaultTagger, UnigramTagger, BigramTagger, TrigramTagger, word_tokenize
from nltk.corpus import floresta, stopwords
from nltk.stem import RSLPStemmer

from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics
from sklearn.model_selection import cross_val_predict
from sklearn.decomposition import LatentDirichletAllocation, TruncatedSVD
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

numpy.set_printoptions(threshold=numpy.inf)

In [2]:
url = 'https://raw.githubusercontent.com/stacktecnologias/stack-repo/master/Tweets_Mg.csv'

In [3]:
df = pandas.read_csv(url, usecols=['Text', 'Classificacao'])

In [4]:
df.head()

Unnamed: 0,Text,Classificacao
0,���⛪ @ Catedral de Santo Antônio - Governador ...,Neutro
1,"� @ Governador Valadares, Minas Gerais https:/...",Neutro
2,"�� @ Governador Valadares, Minas Gerais https:...",Neutro
3,��� https://t.co/BnDsO34qK0,Neutro
4,��� PSOL vai questionar aumento de vereadores ...,Negativo


In [5]:
df.drop_duplicates(subset=['Text'], inplace=True)

In [6]:
df.shape

(5765, 2)

In [7]:
df.Classificacao.value_counts()

Positivo    2840
Neutro      1974
Negativo     951
Name: Classificacao, dtype: int64

In [8]:
df.Text.values[-1]

'Trio suspeito de roubo de cargas é preso em Santa Luzia (MG) https://t.co/0INgJcMtZb #R7MG #RecordTVMinas'

In [9]:
df.Classificacao.values[0]

'Neutro'

In [10]:
texto = df.Text.values[-1]

In [None]:
df['perfis'] = df['Text'].apply(lambda x: re.findall(r'@[^\s]+', x))

In [None]:
df[df['perfis'].apply(lambda x: len(x)>0)].head()

In [None]:
df['hashtags'] = df['Text'].apply(lambda x: re.findall(r'#[^\s]+', x))

In [None]:
df[df['hashtags'].apply(lambda x: len(x)>0)].head()

In [11]:
class Preprocessador:
    def __init__(self, 
            remove_stopwords = False, 
            apply_limpeza = False):
        
        print("Iniciando preprocessador")
        self.stopwords = stopwords.words('portuguese')
        
        self.regex_limpeza = re.compile(r'#[^\s]+'
                  '|@[^\s]+'
                  '|http[^\s]+')
        
        self.remove_stopwords = remove_stopwords
        self.apply_limpeza = apply_limpeza
        
    def tokenizador(self, texto: str) -> list:
        return re.findall(r'[\w]+', texto)
    
    def limpeza(self, texto:str) -> str:
        texto = self.regex_limpeza.sub('', texto)
        return texto
    
    def normalizador(self, texto: str) -> str:
        texto = texto.lower()
        return normalize('NFKD', texto).encode('latin-1','ignore').decode('latin-1')
    
    def remover_stopwords(self, texto_tokenizado: list) -> list:
        return [t for t in texto_tokenizado if t not in self.stopwords]
        
    def run(self, texto: str) -> str:
        
#         print(texto)
        
        if self.apply_limpeza:
            texto = self.limpeza(texto)
#             print(texto)
            
        texto = texto.lower()
        
        texto_tokenizado = self.tokenizador(texto)
#         print(texto_tokenizado)
        if self.remove_stopwords:
            texto_tokenizado = self.remover_stopwords(texto_tokenizado)
#             print(texto_tokenizado)
        
        texto = " ".join(texto_tokenizado)
#         print(texto)

        texto = self.normalizador(texto)
#         print(texto)
        
        return texto

In [12]:
prep = Preprocessador()

Iniciando preprocessador


In [13]:
prep.apply_limpeza = True
prep.remove_stopwords = True

In [15]:
prep.run("Oi meu nome é Goku me siga no perfil #goku_oficial")

'oi nome goku siga perfil'

## Aplicar preprocessamento na base

In [16]:
df['Text tratado'] = df['Text'].apply(prep.run)

In [17]:
df.shape

(5765, 3)

In [18]:
df.head()

Unnamed: 0,Text,Classificacao,Text tratado
0,���⛪ @ Catedral de Santo Antônio - Governador ...,Neutro,catedral santo antonio governador valadares mg
1,"� @ Governador Valadares, Minas Gerais https:/...",Neutro,governador valadares minas gerais
2,"�� @ Governador Valadares, Minas Gerais https:...",Neutro,governador valadares minas gerais
3,��� https://t.co/BnDsO34qK0,Neutro,
4,��� PSOL vai questionar aumento de vereadores ...,Negativo,psol vai questionar aumento vereadores prefeit...


In [19]:
df = df[df['Text tratado'].apply(lambda x: len(x)>1)]

In [20]:
df.shape

(5749, 3)

In [21]:
df.head()

Unnamed: 0,Text,Classificacao,Text tratado
0,���⛪ @ Catedral de Santo Antônio - Governador ...,Neutro,catedral santo antonio governador valadares mg
1,"� @ Governador Valadares, Minas Gerais https:/...",Neutro,governador valadares minas gerais
2,"�� @ Governador Valadares, Minas Gerais https:...",Neutro,governador valadares minas gerais
4,��� PSOL vai questionar aumento de vereadores ...,Negativo,psol vai questionar aumento vereadores prefeit...
5,""" bom é bandido morto""\nDeputado Cabo Júlio é ...",Neutro,bom bandido morto deputado cabo julio condenad...


In [22]:
df_tratado = df.drop_duplicates(subset=['Text tratado'])

In [23]:
df_tratado.shape

(3055, 3)

In [24]:
df_tratado.head()

Unnamed: 0,Text,Classificacao,Text tratado
0,���⛪ @ Catedral de Santo Antônio - Governador ...,Neutro,catedral santo antonio governador valadares mg
1,"� @ Governador Valadares, Minas Gerais https:/...",Neutro,governador valadares minas gerais
4,��� PSOL vai questionar aumento de vereadores ...,Negativo,psol vai questionar aumento vereadores prefeit...
5,""" bom é bandido morto""\nDeputado Cabo Júlio é ...",Neutro,bom bandido morto deputado cabo julio condenad...
6,"""..E 25% dos mineiros dizem não torcer para ti...",Neutro,25 mineiros dizem torcer time nenhum dentro es...


In [25]:
df_tratado.Classificacao.value_counts()

Neutro      1419
Positivo    1142
Negativo     494
Name: Classificacao, dtype: int64

Agora a nossa base já esta pronta para ir para modelagem.

## Bag of Words

In [26]:
from sklearn.feature_extraction.text import CountVectorizer

In [27]:
class BagOfWords:
    def __init__(self, documentos, ngram=1):
        self.vectorizer = CountVectorizer(analyzer="word", tokenizer=prep.tokenizador, ngram_range=(ngram, ngram))
        self.corpus = self.vectorizer.fit_transform(documentos)
        self.word_freq = None
        
    def get_topn(self, topn=100):
        if not self.word_freq:
            result = {}
            for palavra, total in zip(self.vectorizer.get_feature_names(), sum(self.corpus.toarray())):
                result[palavra] = total
        else:
            result = self.word_freq
        return sorted(result.items(), key=lambda x: x[1], reverse=True)
    
    def transform(self, texto):
        if type(texto) is str:
            return self.vectorizer.transform([texto])
        elif type(texto) is list:
            return self.vectorizer.transform(texto)

In [109]:
bow_negativa = BagOfWords(df_tratado[df_tratado['Classificacao'] == 'Negativo']['Text tratado'].values, ngram=1)

In [110]:
bow_negativa.get_topn()

[('minas', 255),
 ('governo', 222),
 ('mg', 188),
 ('rt', 179),
 ('helicopteros', 126),
 ('pimentel', 126),
 ('estado', 122),
 ('governador', 115),
 ('gerais', 88),
 ('calamidade', 87),
 ('compra', 79),
 ('financeira', 77),
 ('dois', 70),
 ('helicoptero', 68),
 ('r', 61),
 ('filho', 48),
 ('justica', 47),
 ('pt', 47),
 ('fernando', 46),
 ('recursos', 46),
 ('via', 46),
 ('bb', 45),
 ('judiciais', 43),
 ('conta', 40),
 ('avisa', 39),
 ('depositos', 38),
 ('brasil', 35),
 ('judicial', 32),
 ('2', 27),
 ('8', 26),
 ('milhoes', 26),
 ('dinheiro', 25),
 ('buscar', 24),
 ('cobra', 24),
 ('banco', 23),
 ('1', 22),
 ('50', 22),
 ('5', 21),
 ('bilhao', 20),
 ('festa', 19),
 ('politica', 19),
 ('ser', 19),
 ('ainda', 17),
 ('q', 17),
 ('sobre', 17),
 ('petista', 16),
 ('vai', 16),
 ('gasta', 15),
 ('cara', 14),
 ('povo', 14),
 ('pra', 14),
 ('usa', 14),
 ('decreta', 13),
 ('uso', 13),
 ('by', 12),
 ('p', 12),
 ('voos', 12),
 ('comprar', 11),
 ('vergonha', 11),
 ('reveillon', 10),
 ('corrupto', 9

In [104]:
bow = BagOfWords(df_tratado['Text tratado'].values, ngram=1)

In [105]:
bow.get_topn()

[('minas', 1386),
 ('estado', 1234),
 ('mg', 809),
 ('rt', 609),
 ('gerais', 476),
 ('governo', 454),
 ('drogas', 394),
 ('governador', 332),
 ('amarela', 174),
 ('febre', 174),
 ('pimentel', 169),
 ('pm', 164),
 ('trafico', 164),
 ('roubo', 160),
 ('policia', 149),
 ('valadares', 147),
 ('helicopteros', 140),
 ('y', 139),
 ('preso', 132),
 ('contra', 130),
 ('dois', 121),
 ('en', 118),
 ('politica', 118),
 ('in', 108),
 ('prende', 108),
 ('el', 106),
 ('r', 106),
 ('apreende', 105),
 ('apos', 103),
 ('calamidade', 100),
 ('presidio', 100),
 ('i', 96),
 ('m', 96),
 ('new', 93),
 ('post', 93),
 ('at', 92),
 ('via', 92),
 ('compra', 91),
 ('le', 91),
 ('financeira', 90),
 ('la', 89),
 ('presos', 87),
 ('brasil', 82),
 ('anos', 79),
 ('nacional', 77),
 ('un', 77),
 ('fernando', 73),
 ('helicoptero', 73),
 ('pt', 70),
 ('militar', 69),
 ('1', 68),
 ('justica', 67),
 ('mi', 67),
 ('2', 66),
 ('bh', 65),
 ('sobre', 65),
 ('q', 63),
 ('homem', 59),
 ('ser', 56),
 ('filho', 55),
 ('tres', 55),

In [None]:
bow_negativa.transform('minas gerais').toarray()[0]

## TF-IDF

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [37]:
class Tfidf:
    def __init__(self, documentos, ngram=1):
        self.vectorizer = TfidfVectorizer(
            analyzer="word",
            tokenizer=prep.tokenizador, 
            ngram_range=(ngram, ngram), 
            max_df=0.9, 
#             norm=None,
            use_idf=True
        )
        self.corpus = self.vectorizer.fit_transform(documentos)
        self.word_freq = None
        
    def get_topn(self, topn=100):
        if not self.word_freq:
            result = {}
            for palavra, total in zip(self.vectorizer.get_feature_names(), sum(self.corpus.toarray())):
                result[palavra] = total
        else:
            result = self.word_freq
        return sorted(result.items(), key=lambda x: x[1], reverse=True)
    
    def transform(self, texto):
        if type(texto) is str:
            return self.vectorizer.transform([texto])
        elif type(texto) is list:
            return self.vectorizer.transform(texto)

In [102]:
tfidf = Tfidf(df_tratado['Text tratado'].values, ngram=1)

In [101]:
tfidf.get_topn()

[('minas', 33.247486839942354),
 ('governo', 32.6531109604824),
 ('mg', 28.801402037145955),
 ('rt', 27.953317972215938),
 ('helicopteros', 27.759700495024575),
 ('calamidade', 23.134989662450593),
 ('compra', 22.653836511979264),
 ('pimentel', 21.575974159500106),
 ('financeira', 21.28424783641069),
 ('estado', 20.72251070346269),
 ('dois', 20.59898822522258),
 ('governador', 20.359360858187802),
 ('gerais', 18.78815577855167),
 ('helicoptero', 15.009572348583644),
 ('via', 13.651645636376545),
 ('r', 13.575060096949763),
 ('justica', 12.897737703993057),
 ('bb', 12.54461743013722),
 ('recursos', 12.525800444946947),
 ('filho', 12.013877864437392),
 ('avisa', 11.738951525043129),
 ('pt', 11.115764236461334),
 ('conta', 11.099502148790956),
 ('fernando', 11.059898897418913),
 ('judiciais', 10.269354032213835),
 ('judicial', 9.822730871060442),
 ('depositos', 9.664572961086206),
 ('brasil', 9.388671421027276),
 ('8', 8.415269358142941),
 ('milhoes', 8.315956918695765),
 ('buscar', 7.501

In [41]:
corpus = ['eu tenho um gato de estimação', 'meu gato odeia cachorro de rua','meu gato e meu cachorro foram na rua']

In [42]:
tfidf = Tfidf(corpus, ngram=1)

In [43]:
tfidf.vectorizer.get_feature_names()

['cachorro',
 'de',
 'e',
 'estimação',
 'eu',
 'foram',
 'meu',
 'na',
 'odeia',
 'rua',
 'tenho',
 'um']

In [44]:
tfidf.get_topn()

[('meu', 1.0157645071142873),
 ('de', 0.7732282388228763),
 ('cachorro', 0.7167801390433731),
 ('rua', 0.7167801390433731),
 ('odeia', 0.5493512310263033),
 ('estimação', 0.4673509818107163),
 ('eu', 0.4673509818107163),
 ('tenho', 0.4673509818107163),
 ('um', 0.4673509818107163),
 ('e', 0.39312851414239275),
 ('foram', 0.39312851414239275),
 ('na', 0.39312851414239275)]

In [66]:
tfidf.transform(['cachorro', 'gato']).toarray()

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 

## Modelagem de tópicos - LSA

In [49]:
from sklearn.decomposition import TruncatedSVD

In [50]:
class ModelagemTopicos:
    def __init__(self, train_data, num_components=10):
        # Create SVD object
        self.lsa = TruncatedSVD(n_components=num_components, n_iter=100, random_state=42)

        # Fit SVD model on data
        self.corpus = self.lsa.fit_transform(train_data)
        
    def extrair_topicos(self, terms, topn=10):

        for index, component in enumerate(self.lsa.components_):
            zipped = zip(terms, component)
            top_terms_key=sorted(zipped, key = lambda t: t[1], reverse=True)[:topn]
            top_terms_list=list(dict(top_terms_key).keys())
            print("Topic "+str(index)+": ",top_terms_list)

In [64]:
model_topic = ModelagemTopicos(tfidf.corpus, num_components=3)

In [65]:
model_topic.extrair_topicos(tfidf.vectorizer.get_feature_names())

Topic 0:  ['governador valadares', 'minas gerais', 'i m', 'm at', 'in governador', 'valadares minas', 'valadares mg', 'dois helicopteros', 'compra dois', 'gerais w']
Topic 1:  ['compra dois', 'dois helicopteros', 'calamidade financeira', 'governo mg', 'financeira governo', 'mg compra', 'governo minas', 'rt calamidade', 'avisa justica', 'gerais compra']
Topic 2:  ['avisa justica', 'conta judicial', 'recursos conta', 'justica governo', 'mg recursos', 'bb avisa', 'governo mg', 'rt bb', 'brasil avisa', 'governador valadares']


In [59]:
model_topic.lsa.transform(tfidf.transform('assaltante roubou mulher no ponto de onibus'))

array([[ 0.01282356,  0.01405195, -0.00101798,  0.01059606,  0.0002419 ,
        -0.0024141 , -0.00430479,  0.01494479,  0.00126317,  0.00291937]])

## LDA

In [67]:
from sklearn.decomposition import LatentDirichletAllocation

In [68]:
class LDA:
    def __init__(self, train_data, n_components=10):

        self.lda = LatentDirichletAllocation(n_components=n_components, random_state=42)

        self.corpus = self.lda.fit_transform(train_data)
        
    def extrair_topicos(self, terms, topn=10):

        for index, component in enumerate(self.lda.components_):
            zipped = zip(terms, component)
            top_terms_key=sorted(zipped, key = lambda t: t[1], reverse=True)[:topn]
            top_terms_list=list(dict(top_terms_key).keys())
            print("Topic "+str(index)+": ",top_terms_list)

In [78]:
lda = LDA(tfidf.corpus, n_components=20)

In [79]:
lda.extrair_topicos(tfidf.vectorizer.get_feature_names())

Topic 0:  ['minas', 'gerais', 'amarela', 'febre', 'estado', 'privado', 'presidio', 'anos', 'rebelioes', 'nacional']
Topic 1:  ['estado', 'minas', 'mg', 'gerais', 'brasil', 'publico', 'rt', 'soares', 'direito', 'amamentacao']
Topic 2:  ['minas', 'unai', 'prisao', 'drogas', 'jovens', 'estado', 'presos', 'onibus', 'arma', 'movel']
Topic 3:  ['faz', 'apreensao', 'minas', 'divisa', 'amarela', 'febre', 'municipios', 'contra', 'bloqueio', 'gerais']
Topic 4:  ['zona', 'rural', 'contra', 'febre', 'amarela', 'vacinacao', 'minas', 'estado', 'intensificada', 'melhor']
Topic 5:  ['governo', 'minas', 'gerais', 'milhoes', '8', 'gasta', 'estado', 'r', '50', 'helicopteros']
Topic 6:  ['calamidade', 'helicopteros', 'compra', 'financeira', 'dois', 'governo', 'mg', 'rt', 'minas', 'novo']
Topic 7:  ['justica', 'bb', 'governo', 'recursos', 'helicoptero', 'avisa', 'judiciais', 'depositos', 'filho', 'conta']
Topic 8:  ['minas', 'estado', 'gerais', 'patrimonio', 'reis', 'imaterial', 'roubo', 'rt', 'pm', 'sete'

In [81]:
lda.lda.transform(tfidf.transform('homem foi preso por trafico de drogas no estado de minas gerais mg'))

array([[0.01417154, 0.01417154, 0.01417154, 0.01417154, 0.01417154,
        0.01417154, 0.01417154, 0.01417154, 0.01417154, 0.01417154,
        0.01417154, 0.01417154, 0.01417154, 0.01417154, 0.2625384 ,
        0.01417154, 0.48237387, 0.01417154, 0.01417154, 0.01417154]])

## BM25

In [None]:
import numpy

In [82]:
class BM25:
    def __init__(self, train_data, b=0.75, k1=1.6):
        self.corpus = train_data
        self.vectorizer = TfidfVectorizer(norm=None, smooth_idf=False)
        self.vectorizer.fit(train_data)
        self.corpus_bow = super(TfidfVectorizer, self.vectorizer).transform(train_data)
        self.len_X = self.corpus_bow.sum(1).A1
        self.avdl = self.corpus_bow.sum(1).mean()
        self.b = b
        self.k1 = k1
    
    def transform(self, q):
        """ Calculate BM25 between query q and corpus"""
        b, k1, avdl = self.b, self.k1, self.avdl
        len_X, avdl = self.len_X, self.avdl
        q, = super(TfidfVectorizer, self.vectorizer).transform([q])

        # convert to csc for better column slicing
        X = self.corpus_bow.tocsc()[:, q.indices]
        
        denom = X + (k1 * (1 - b + b * len_X / avdl))[:, None]
        # idf(t) = log [ n / df(t) ] + 1 in sklearn, so it need to be coneverted
        # to idf(t) = log [ n / df(t) ] with minus 1
        idf = self.vectorizer._tfidf.idf_[None, q.indices] - 1.
        numer = X.multiply(numpy.broadcast_to(idf, X.shape)) * (k1 + 1)
        self.denom = denom
        self.numer = numer
        return (numer / denom).sum(1).A1
    
    def similar(self, q, topn=5):
        resp = self.transform(q)
        self.max_inds = numpy.argpartition(resp, -topn)[-topn:]
        most_similar = [(resp[ind], self.corpus[ind])  for ind in self.max_inds]
        return sorted(most_similar, key=lambda x: x[0], reverse=True)
        

In [83]:
bm25 = BM25(df_tratado['Text tratado'].values)

In [85]:
bm25.similar("mata", topn=10)

[(6.0472184119834544, 'mata verde 21kg drogas apreendidos pm'),
 (5.717376024132451, '44obpm mata verde 21kg drogas apreendidos pm'),
 (5.717376024132451, 'prisao trafico drogas carmo mata mg via'),
 (5.717376024132451, 'homem preso carmo mata mg trafico drogas'),
 (5.717376024132451, 'noticias mata verde mg 21kg drogas apreend'),
 (5.4216546849081375, 'atentado suicida bagda mata doze pessoas estado minas'),
 (5.4216546849081375, 'motorista passageira presos 21kg drogas mata verde mg'),
 (5.1550202222760895,
  'tt atentado suicida bagda mata doze pessoas estado minas'),
 (4.913382356975536,
  'atirador mata cinco fere oito aeroporto fort lauderdale estado minas'),
 (4.913382356975536,
  'pm mata criminoso apos roubo testemunha filma tiroteio presidente olegario')]

In [86]:
bm25.max_inds

array([ 388, 3014, 1862,  386, 2784, 2535, 2804, 2846, 2481, 2856])

In [87]:
[(x, (bm25.numer / bm25.denom)[x].sum(1)) for x in bm25.max_inds]

[(388, matrix([[4.91338236]])),
 (3014, matrix([[4.91338236]])),
 (1862, matrix([[5.15502022]])),
 (386, matrix([[5.42165468]])),
 (2784, matrix([[5.71737602]])),
 (2535, matrix([[5.71737602]])),
 (2804, matrix([[6.04721841]])),
 (2846, matrix([[5.42165468]])),
 (2481, matrix([[5.71737602]])),
 (2856, matrix([[5.71737602]]))]

In [None]:
len(resp)

In [None]:
numpy.argpartition(resp, -5)[-5:]

In [None]:
resp.argmax()

In [89]:
df_tratado['Text'].values[2804]

'@PMMG190 - MATA VERDE \x96 Mais de 21kg de drogas são apreendidos pela PM https://t.co/AA5Z6SPeHu'

In [None]:
resp[280]

## Criar modelo

In [None]:
from sklearn.naive_bayes import MultinomialNB
from sklearn import svm
from sklearn import metrics
from sklearn.model_selection import cross_val_predict

In [90]:
class Modelo:
    def _init(self, path= None):
        if path:
            self.load(path)
            
    def train(self, X:list, Y:list):
        self.model = MultinomialNB()
        self.model.fit(X, Y)
        resultados = cross_val_predict(self.model, X, Y, cv=10)
        print(metrics.accuracy_score(Y, resultados))
        print(metrics.classification_report(Y, resultados))
        
    def predict(self, X):
        result = self.model.predict_proba(X)[0]

        print(f'Negativo {result[0]:.2f}')
        print(f'Neutro {result[1]:.2f}')        
        print(f'Positivo {result[2]:.2f}')        
        return self.model.predict(X)[0]

In [91]:
modelo = Modelo()

In [106]:
modelo.train(bow.corpus, df_tratado['Classificacao'].values)

0.8494271685761048
              precision    recall  f1-score   support

    Negativo       0.65      0.88      0.75       494
      Neutro       0.89      0.83      0.86      1419
    Positivo       0.93      0.86      0.89      1142

    accuracy                           0.85      3055
   macro avg       0.82      0.86      0.83      3055
weighted avg       0.86      0.85      0.85      3055



In [112]:
modelo.predict(tfidf.transform([prep.run('pimental pt')]))

Negativo 0.56
Neutro 0.37
Positivo 0.07


'Negativo'

In [108]:
df_tratado.shape

(3055, 3)