## 1 ) Tokenização

In [5]:
import re

In [1]:
texto = "No meio do caminho tinha uma pedra."

In [2]:
texto.split()

['No', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra.']

In [3]:
texto = "Olá, tudo bem? Em que posso ajudá-lo hoje?"

In [4]:
texto.split()

['Olá,', 'tudo', 'bem?', 'Em', 'que', 'posso', 'ajudá-lo', 'hoje?']

In [13]:
re.sub(r"[,.!?]", r" ", texto).lower().split()

['olá', 'tudo', 'bem', 'em', 'que', 'posso', 'ajudá-lo', 'hoje']

In [15]:
texto = "Eu paguei R$456,00 pelo setup. Ficou massa!"

In [26]:
regex = r"R\$?![\d\.\,]+\w+|\S+"

In [27]:
re.findall(regex, texto)

['Eu', 'paguei', 'R$456,00', 'pelo', 'setup.', 'Ficou', 'massa!']

## Tokenizador usando as regras do NLTK

In [30]:
import nltk

nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [31]:
text = """Hello everyone!!!"""

nltk.word_tokenize(text, language='english')

['Hello', 'everyone', '!', '!', '!']

In [33]:
texto = "Eu paguei R$456,00 pelo setup. Ficou massa!"
nltk.word_tokenize(texto, language='portuguese')

['Eu',
 'paguei',
 'R',
 '$',
 '456,00',
 'pelo',
 'setup',
 '.',
 'Ficou',
 'massa',
 '!']

In [34]:
texto = """O meninio jogou bola ontem às 16:00.
Comi um cachorro quente na rua ontem e custou R$5,00! Estava uma delícia"""

nltk.word_tokenize(texto, language='portuguese')

['O',
 'meninio',
 'jogou',
 'bola',
 'ontem',
 'às',
 '16:00',
 '.',
 'Comi',
 'um',
 'cachorro',
 'quente',
 'na',
 'rua',
 'ontem',
 'e',
 'custou',
 'R',
 '$',
 '5,00',
 '!',
 'Estava',
 'uma',
 'delícia']

## Capitalização

In [35]:
versos = """
No meio do caminho tinha uma pedra
Tinha uma pedra no meio do caminho
""".upper()
print(versos)


NO MEIO DO CAMINHO TINHA UMA PEDRA
TINHA UMA PEDRA NO MEIO DO CAMINHO



In [36]:
nltk.word_tokenize(versos, language="portuguese")

['NO',
 'MEIO',
 'DO',
 'CAMINHO',
 'TINHA',
 'UMA',
 'PEDRA',
 'TINHA',
 'UMA',
 'PEDRA',
 'NO',
 'MEIO',
 'DO',
 'CAMINHO']

In [39]:
texto = "Estamos na aula de Projeto Integrado. Estamos estudando PLN no momento"

nltk.sent_tokenize(texto, language="portuguese")

['Estamos na aula de Projeto Integrado.', 'Estamos estudando PLN no momento']

## Lematização

In [41]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m55.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [43]:
import spacy

nlp = spacy.load("pt_core_news_sm")

In [46]:
texto = "O passado é só uma história que contamos"

doc = nlp(texto)

In [48]:
type(doc)

spacy.tokens.doc.Doc

In [53]:
for token in doc:
  print(token.text, ' --> ', token.lemma_)

O  -->  o
passado  -->  passado
é  -->  ser
só  -->  só
uma  -->  um
história  -->  história
que  -->  que
contamos  -->  contar


In [56]:
nlp("pelo")[0].lemma_

'por o'

In [60]:
[x.lemma_ for x in nlp("pelo menos eu tô melhorando isso. Eu não penteei o pelo do cachorro. Vou estudar mais para a próxima prova...")]

['por o',
 'menos',
 'eu',
 'tô',
 'melhorar',
 'isso',
 '.',
 'eu',
 'não',
 'penteei',
 'o',
 'por o',
 'de o',
 'cachorro',
 '.',
 'vou',
 'estudar',
 'mais',
 'para',
 'o',
 'próximo',
 'prova',
 '...']

## Radicalização

In [61]:
import nltk
nltk.download('rslp')

[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


True

In [66]:
versos = """O passado é apenas uma história que contamos. E às vezes mentimos."""
stemmer = nltk.stem.RSLPStemmer()

tokens = nltk.word_tokenize(versos, language="portuguese")

for token in tokens:
  print(token, " --> ", stemmer.stem(token))

O  -->  o
passado  -->  pass
é  -->  é
apenas  -->  apen
uma  -->  uma
história  -->  histór
que  -->  que
contamos  -->  cont
.  -->  .
E  -->  e
às  -->  às
vezes  -->  vez
mentimos  -->  ment
.  -->  .


In [67]:
versos = """
No meio do caminho tinha uma pedra
Tinha uma pedra no meio do caminho
Tinha uma pedra
No meio do caminho tinha uma pedra
"""

texto = versos.lower().split('\n')

texto_tok = []
for verso in texto:
  tokens = nltk.word_tokenize(versos, language="portuguese")
  texto_tok.append(tokens)

texto_tok

[['No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra',
  'Tinha',
  'uma',
  'pedra',
  'no',
  'meio',
  'do',
  'caminho',
  'Tinha',
  'uma',
  'pedra',
  'No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra'],
 ['No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra',
  'Tinha',
  'uma',
  'pedra',
  'no',
  'meio',
  'do',
  'caminho',
  'Tinha',
  'uma',
  'pedra',
  'No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra'],
 ['No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra',
  'Tinha',
  'uma',
  'pedra',
  'no',
  'meio',
  'do',
  'caminho',
  'Tinha',
  'uma',
  'pedra',
  'No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra'],
 ['No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra',
  'Tinha',
  'uma',
  'pedra',
  'no',
  'meio',
  'do',
  'caminho',
  'Tinha',
  'uma',
  'pedra',
  'No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra'],
 ['No',
  'meio',
  'do',
  'cam

## Bag of Words

In [85]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

In [86]:
corpus = [
'No meio do caminho tinha uma pedra',
'Tinha uma pedra no meio do caminho',
'Tinha uma pedra',
'No meio do caminho tinha uma pedra'
]

In [87]:
vectorizer = CountVectorizer()

vetores = vectorizer.fit_transform(corpus)
vocab = vectorizer.get_feature_names_out()

pd.DataFrame(vetores.toarray(), columns=vocab)

Unnamed: 0,caminho,do,meio,no,pedra,tinha,uma
0,1,1,1,1,1,1,1
1,1,1,1,1,1,1,1
2,0,0,0,0,1,1,1
3,1,1,1,1,1,1,1


In [88]:
import nltk
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('portuguese')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [89]:
vectorizer = CountVectorizer(stop_words=stopwords)

vetores = vectorizer.fit_transform(corpus)
vocab = vectorizer.get_feature_names_out()

pd.DataFrame(vetores.toarray(), columns=vocab)

Unnamed: 0,caminho,meio,pedra
0,1,1,1
1,1,1,1
2,0,0,1
3,1,1,1
