## Instalação da biblioteca nltk

In [3]:
pip install nltk

Note: you may need to restart the kernel to use updated packages.


In [4]:
import nltk

## Baixando as stop words

In [5]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\felip\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

## Stop words em Português

In [6]:
stopwords = nltk.corpus.stopwords.words('portuguese')

In [7]:
print(stopwords)

['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estiv

## Tokenização

In [8]:
from nltk.tokenize import word_tokenize

In [9]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\felip\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [10]:
frase = 'Eu dirijo devagar porque nós queremos ver os animais'

In [11]:
tokens = word_tokenize(frase)

In [12]:
print(tokens)

['Eu', 'dirijo', 'devagar', 'porque', 'nós', 'queremos', 'ver', 'os', 'animais']


In [13]:
for t in tokens:
    if t not in stopwords:
        print(t)

Eu
dirijo
devagar
porque
queremos
ver
animais


In [14]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

In [15]:
texto1 = 'A matemática é muito importante para compreendermos como a natureza funciona'

In [16]:
tf_idf = TfidfVectorizer()

## Usando o fit_transform

In [17]:
vetor = tf_idf.fit_transform([texto1])
print(vetor)

  (0, 2)	0.35355339059327373
  (0, 6)	0.35355339059327373
  (0, 0)	0.35355339059327373
  (0, 1)	0.35355339059327373
  (0, 7)	0.35355339059327373
  (0, 3)	0.35355339059327373
  (0, 5)	0.35355339059327373
  (0, 4)	0.35355339059327373


In [18]:
vetor = vetor.todense()
print(vetor)

[[0.35355339 0.35355339 0.35355339 0.35355339 0.35355339 0.35355339
  0.35355339 0.35355339]]


In [19]:
nomes = tf_idf.get_feature_names()

In [20]:
print(nomes)

['como', 'compreendermos', 'funciona', 'importante', 'matemática', 'muito', 'natureza', 'para']


In [21]:
df = pd.DataFrame(vetor, columns=nomes)
print(df)

       como  compreendermos  funciona  importante  matemática     muito  \
0  0.353553        0.353553  0.353553    0.353553    0.353553  0.353553   

   natureza      para  
0  0.353553  0.353553  


## Usando um novo texto

In [22]:
texto2 = 'A matemática é incrível, quanto mais estudo matemática, mais eu consigo aprender matemática'

In [23]:
tf_idf = TfidfVectorizer()
vetor2 = tf_idf.fit_transform([texto2])

In [24]:
vetor2 = vetor2.todense()

nomes = tf_idf.get_feature_names()

In [25]:
df = pd.DataFrame(vetor2, columns=nomes)
print(df)

   aprender   consigo    estudo        eu  incrível      mais  matemática  \
0  0.229416  0.229416  0.229416  0.229416  0.229416  0.458831    0.688247   

     quanto  
0  0.229416  
