## 1) Tokenization

In [60]:
import re

This cell defines a simple string in the `texto` variable.

In [61]:
texto = "No meio do caminho tinha uma pedra."

This code again uses the `split()` method to split the new `texto` string into a list of words. Note that punctuation is still attached to the words.

In [62]:
texto.split()

['No', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra.']

Esta célula redefine a variável `texto` com uma string diferente, contendo pontuação.

In [63]:
texto = "Olá, tudo bem? Em que posso ajudá-lo hoje?"

This code again uses the `split()` method to split the new `texto` string into a list of words. Note that punctuation is still attached to the words.

In [64]:
texto.split()

['Olá,', 'tudo', 'bem?', 'Em', 'que', 'posso', 'ajudá-lo', 'hoje?']

This code imports the `re` library, which provides regular expression matching operations. It's useful for finding patterns in strings.

In [65]:
re.sub(r"[,.!?]", r" ", texto).lower().split()

['olá', 'tudo', 'bem', 'em', 'que', 'posso', 'ajudá-lo', 'hoje']

This cell redefines the variable text with a string containing a monetary value.

In [66]:
texto = "Eu paguei R$456,00 pelo setup. Ficou massa!"

This cell defines a regular expression in the variable `regex` to find words or sequences that resemble monetary values (starting with "R$", followed by numbers, dots, or commas, and optionally letters) or any sequence of non-whitespace characters.


In [67]:
regex = r"R\$?![\d\.\,]+\w+|\S+"

This code uses the `re.findall()` function with the regular expression `regex` to find all occurrences matching the pattern in the string `texto`. This extracts words and the monetary value as separate tokens.


In [68]:
re.findall(regex, texto)

['Eu', 'paguei', 'R$456,00', 'pelo', 'setup.', 'Ficou', 'massa!']

In [69]:
import re

In [70]:
texto = "No meio do caminho tinha uma pedra."

In [71]:
texto.split()

['No', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra.']

In [72]:
texto = "Olá, tudo bem? Em que posso ajudá-lo hoje?"

In [73]:
texto.split()

['Olá,', 'tudo', 'bem?', 'Em', 'que', 'posso', 'ajudá-lo', 'hoje?']

In [74]:
re.sub(r"[,.!?]", r" ", texto).lower().split()

['olá', 'tudo', 'bem', 'em', 'que', 'posso', 'ajudá-lo', 'hoje']

In [75]:
texto = "Eu paguei R$456,00 pelo setup. Ficou massa!"

In [76]:
regex = r"R\$?![\d\.\,]+\w+|\S+"

In [77]:
re.findall(regex, texto)

['Eu', 'paguei', 'R$456,00', 'pelo', 'setup.', 'Ficou', 'massa!']

## Tokenizer Using NLTK Rules


This code imports the `nltk` library and downloads the `punkt_tab` package, which is required for tokenization.


In [78]:
import nltk

nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

This code uses the `nltk.word_tokenize()` function to split the string `text` into tokens (words and punctuation), using NLTK’s tokenization rules for the English language.


In [79]:
text = """Hello everyone!!!"""

nltk.word_tokenize(text, language='english')

['Hello', 'everyone', '!', '!', '!']

This code uses the `nltk.word_tokenize()` function to split the string `texto` into tokens (words and punctuation), using NLTK’s tokenization rules for the Portuguese language. Note how it handles the monetary value.


In [80]:
texto = "Eu paguei R$456,00 pelo setup. Ficou massa!"
nltk.word_tokenize(texto, language='portuguese')

['Eu',
 'paguei',
 'R',
 '$',
 '456,00',
 'pelo',
 'setup',
 '.',
 'Ficou',
 'massa',
 '!']

This code demonstrates the tokenization of a longer text with multiple paragraphs and punctuation, using NLTK’s tokenization rules for the Portuguese language.


In [81]:
texto = """O meninio jogou bola ontem às 16:00.
Comi um cachorro quente na rua ontem e custou R$5,00! Estava uma delícia"""

nltk.word_tokenize(texto, language='portuguese')

['O',
 'meninio',
 'jogou',
 'bola',
 'ontem',
 'às',
 '16:00',
 '.',
 'Comi',
 'um',
 'cachorro',
 'quente',
 'na',
 'rua',
 'ontem',
 'e',
 'custou',
 'R',
 '$',
 '5,00',
 '!',
 'Estava',
 'uma',
 'delícia']

In [82]:
import nltk

nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [83]:
text = """Hello everyone!!!"""

nltk.word_tokenize(text, language='english')

['Hello', 'everyone', '!', '!', '!']

In [84]:
texto = "Eu paguei R$456,00 pelo setup. Ficou massa!"
nltk.word_tokenize(texto, language='portuguese')

['Eu',
 'paguei',
 'R',
 '$',
 '456,00',
 'pelo',
 'setup',
 '.',
 'Ficou',
 'massa',
 '!']

In [85]:
texto = """O meninio jogou bola ontem às 16:00.
Comi um cachorro quente na rua ontem e custou R$5,00! Estava uma delícia"""

nltk.word_tokenize(texto, language='portuguese')

['O',
 'meninio',
 'jogou',
 'bola',
 'ontem',
 'às',
 '16:00',
 '.',
 'Comi',
 'um',
 'cachorro',
 'quente',
 'na',
 'rua',
 'ontem',
 'e',
 'custou',
 'R',
 '$',
 '5,00',
 '!',
 'Estava',
 'uma',
 'delícia']

## Capitalization


In [86]:
versos = """
No meio do caminho tinha uma pedra
Tinha uma pedra no meio do caminho
""".upper()
print(versos)


NO MEIO DO CAMINHO TINHA UMA PEDRA
TINHA UMA PEDRA NO MEIO DO CAMINHO



In [87]:
nltk.word_tokenize(versos, language="portuguese")

['NO',
 'MEIO',
 'DO',
 'CAMINHO',
 'TINHA',
 'UMA',
 'PEDRA',
 'TINHA',
 'UMA',
 'PEDRA',
 'NO',
 'MEIO',
 'DO',
 'CAMINHO']

In [88]:
texto = "Estamos na aula de Projeto Integrado. Estamos estudando PLN no momento"

nltk.sent_tokenize(texto, language="portuguese")

['Estamos na aula de Projeto Integrado.', 'Estamos estudando PLN no momento']

## Lemmatization


In [89]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m101.9 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [90]:
import spacy

nlp = spacy.load("pt_core_news_sm")

In [91]:
texto = "O passado é só uma história que contamos"

doc = nlp(texto)

In [92]:
type(doc)

spacy.tokens.doc.Doc

In [93]:
for token in doc:
  print(token.text, ' --> ', token.lemma_)

O  -->  o
passado  -->  passado
é  -->  ser
só  -->  só
uma  -->  um
história  -->  história
que  -->  que
contamos  -->  contar


In [94]:
nlp("pelo")[0].lemma_

'por o'

In [95]:
[x.lemma_ for x in nlp("pelo menos eu tô melhorando isso. Eu não penteei o pelo do cachorro. Vou estudar mais para a próxima prova...")]

['por o',
 'menos',
 'eu',
 'tô',
 'melhorar',
 'isso',
 '.',
 'eu',
 'não',
 'penteei',
 'o',
 'por o',
 'de o',
 'cachorro',
 '.',
 'vou',
 'estudar',
 'mais',
 'para',
 'o',
 'próximo',
 'prova',
 '...']

## Stemming


In [96]:
import nltk
nltk.download('rslp')

[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

In [97]:
versos = """O passado é apenas uma história que contamos. E às vezes mentimos."""
stemmer = nltk.stem.RSLPStemmer()

tokens = nltk.word_tokenize(versos, language="portuguese")

for token in tokens:
  print(token, " --> ", stemmer.stem(token))

O  -->  o
passado  -->  pass
é  -->  é
apenas  -->  apen
uma  -->  uma
história  -->  histór
que  -->  que
contamos  -->  cont
.  -->  .
E  -->  e
às  -->  às
vezes  -->  vez
mentimos  -->  ment
.  -->  .


In [98]:
versos = """
No meio do caminho tinha uma pedra
Tinha uma pedra no meio do caminho
Tinha uma pedra
No meio do caminho tinha uma pedra
"""

texto = versos.lower().split('\n')

texto_tok = []
for verso in texto:
  tokens = nltk.word_tokenize(versos, language="portuguese")
  texto_tok.append(tokens)

texto_tok

[['No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra',
  'Tinha',
  'uma',
  'pedra',
  'no',
  'meio',
  'do',
  'caminho',
  'Tinha',
  'uma',
  'pedra',
  'No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra'],
 ['No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra',
  'Tinha',
  'uma',
  'pedra',
  'no',
  'meio',
  'do',
  'caminho',
  'Tinha',
  'uma',
  'pedra',
  'No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra'],
 ['No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra',
  'Tinha',
  'uma',
  'pedra',
  'no',
  'meio',
  'do',
  'caminho',
  'Tinha',
  'uma',
  'pedra',
  'No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra'],
 ['No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra',
  'Tinha',
  'uma',
  'pedra',
  'no',
  'meio',
  'do',
  'caminho',
  'Tinha',
  'uma',
  'pedra',
  'No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra'],
 ['No',
  'meio',
  'do',
  'cam

## Bag of Words

In [99]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

In [100]:
corpus = [
'No meio do caminho tinha uma pedra',
'Tinha uma pedra no meio do caminho',
'Tinha uma pedra',
'No meio do caminho tinha uma pedra'
]

In [101]:
vectorizer = CountVectorizer()

vetores = vectorizer.fit_transform(corpus)
vocab = vectorizer.get_feature_names_out()

pd.DataFrame(vetores.toarray(), columns=vocab)

Unnamed: 0,caminho,do,meio,no,pedra,tinha,uma
0,1,1,1,1,1,1,1
1,1,1,1,1,1,1,1
2,0,0,0,0,1,1,1
3,1,1,1,1,1,1,1


In [102]:
import nltk
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('portuguese')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [103]:
vectorizer = CountVectorizer(stop_words=stopwords)

vetores = vectorizer.fit_transform(corpus)
vocab = vectorizer.get_feature_names_out()

pd.DataFrame(vetores.toarray(), columns=vocab)

Unnamed: 0,caminho,meio,pedra
0,1,1,1
1,1,1,1
2,0,0,1
3,1,1,1
