### Bibliotecas necessárias

In [2]:
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

### Pacotes necessários

In [3]:
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\JoãoPedro\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\JoãoPedro\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [4]:
stopwords = nltk.corpus.stopwords.words('portuguese')
print(stopwords)

['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estiv

In [6]:
texto = 'Um carro azul seguia rapidamente em uma rodovia, e ao passar por um buraco, o carro furou o pneu, e o motorista desceu do carro azul'

# Tokenização

Com o código abaixo, podemos quebrar o texto em palavras.

In [25]:
from nltk.tokenize import word_tokenize, sent_tokenize
tokens = word_tokenize(texto)

print(tokens)

['Um', 'carro', 'azul', 'seguia', 'rapidamente', 'em', 'uma', 'rodovia', ',', 'e', 'ao', 'passar', 'por', 'um', 'buraco', ',', 'o', 'carro', 'furou', 'o', 'pneu', ',', 'e', 'o', 'motorista', 'desceu', 'do', 'carro', 'azul']


Também é possível quebrar o texto em sentenças.

In [42]:
sent = sent_tokenize(texto)

print(sent)

['Um carro azul seguia rapidamente em uma rodovia, e ao passar por um buraco, o carro furou o pneu, e o motorista desceu do carro azul']


Agora, podemos filtrar as palvras, retirando as stopwords.

In [27]:
sent_filtradas = []
for t in tokens:
    if t not in stopwords:
        sent_filtradas.append(t)
print(sent_filtradas)

['Um', 'carro', 'azul', 'seguia', 'rapidamente', 'rodovia', ',', 'passar', 'buraco', ',', 'carro', 'furou', 'pneu', ',', 'motorista', 'desceu', 'carro', 'azul']


# Cálculo TD-IDF

Usando o módulo TfidfVectorizer, pode-se identificar os scores e os termos com maior frequência no texto. 

In [44]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
import pandas as pd

Inicialmente, o texto é convertido em um vetor.

In [48]:
tf_idf = TfidfVectorizer()

array = tf_idf.fit_transform([texto])
count_array = count.fit_transform([texto])

array = array.todense()
print(array)

[[0.1796053  0.3592106  0.1796053  0.53881591 0.1796053  0.1796053
  0.1796053  0.1796053  0.1796053  0.1796053  0.1796053  0.1796053
  0.1796053  0.1796053  0.1796053  0.3592106  0.1796053 ]]


In [51]:
names = tf_idf.get_feature_names()

df = pd.DataFrame(array, columns=names)

print("\nTD-IDF Vectorizer\n")
print(df)


TD-IDF Vectorizer

         ao      azul    buraco     carro    desceu        do        em  \
0  0.179605  0.359211  0.179605  0.538816  0.179605  0.179605  0.179605   

      furou  motorista    passar      pneu       por  rapidamente   rodovia  \
0  0.179605   0.179605  0.179605  0.179605  0.179605     0.179605  0.179605   

     seguia        um       uma  
0  0.179605  0.359211  0.179605  


Aqui podemos ver os scores de cada palavra. 

Para verificar a frequência com que cada cada palavra aparece, podemos utilizar o módulo FreqDist.

In [54]:
from nltk.probability import FreqDist
fdist = FreqDist(tokens)

fdist.most_common()

[('carro', 3),
 (',', 3),
 ('o', 3),
 ('azul', 2),
 ('e', 2),
 ('Um', 1),
 ('seguia', 1),
 ('rapidamente', 1),
 ('em', 1),
 ('uma', 1),
 ('rodovia', 1),
 ('ao', 1),
 ('passar', 1),
 ('por', 1),
 ('um', 1),
 ('buraco', 1),
 ('furou', 1),
 ('pneu', 1),
 ('motorista', 1),
 ('desceu', 1),
 ('do', 1)]