## 1 ) Tokenização

Este código importa a biblioteca `re`, que fornece operações de correspondência de expressões regulares. É útil para encontrar padrões em strings.

In [14]:
import re

Esta célula define uma string simples na variável `texto`.

In [15]:
texto = "No meio do caminho tinha uma pedra."

Este código usa o método `split()` para dividir a string `texto` em uma lista de palavras, usando espaços em branco como delimitadores.

In [16]:
texto.split()

['No', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra.']

Esta célula redefine a variável `texto` com uma string diferente, contendo pontuação.

In [17]:
texto = "Olá, tudo bem? Em que posso ajudá-lo hoje?"

Este código novamente usa o método `split()` para dividir a nova string `texto` em uma lista de palavras. Observe que a pontuação ainda está anexada às palavras.

In [18]:
texto.split()

['Olá,', 'tudo', 'bem?', 'Em', 'que', 'posso', 'ajudá-lo', 'hoje?']

Este código usa a biblioteca `re` para substituir a pontuação (vírgula, ponto, ponto de interrogação e ponto de exclamação) por espaços em branco. Em seguida, converte a string resultante para minúsculas e a divide em palavras usando `split()`. Isso remove a pontuação e padroniza a capitalização.

In [19]:
re.sub(r"[,.!?]", r" ", texto).lower().split()

['olá', 'tudo', 'bem', 'em', 'que', 'posso', 'ajudá-lo', 'hoje']

Esta célula redefine a variável `texto` com uma string contendo um valor monetário.

In [20]:
texto = "Eu paguei R$456,00 pelo setup. Ficou massa!"

Esta célula define uma expressão regular na variável `regex` para encontrar palavras ou sequências que se parecem com valores monetários (começando com "R$", seguido por números, pontos ou vírgulas, e opcionalmente letras) ou qualquer sequência de caracteres não-espaço.

In [21]:
regex = r"R\$?![\d\.\,]+\w+|\S+"

Este código usa a função `re.findall()` com a expressão regular `regex` para encontrar todas as ocorrências que correspondem ao padrão na string `texto`. Isso extrai as palavras e o valor monetário como tokens separados.

In [22]:
re.findall(regex, texto)

['Eu', 'paguei', 'R$456,00', 'pelo', 'setup.', 'Ficou', 'massa!']

In [23]:
import re

In [24]:
texto = "No meio do caminho tinha uma pedra."

In [25]:
texto.split()

['No', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra.']

In [26]:
texto = "Olá, tudo bem? Em que posso ajudá-lo hoje?"

In [27]:
texto.split()

['Olá,', 'tudo', 'bem?', 'Em', 'que', 'posso', 'ajudá-lo', 'hoje?']

In [28]:
re.sub(r"[,.!?]", r" ", texto).lower().split()

['olá', 'tudo', 'bem', 'em', 'que', 'posso', 'ajudá-lo', 'hoje']

In [29]:
texto = "Eu paguei R$456,00 pelo setup. Ficou massa!"

In [30]:
regex = r"R\$?![\d\.\,]+\w+|\S+"

In [31]:
re.findall(regex, texto)

['Eu', 'paguei', 'R$456,00', 'pelo', 'setup.', 'Ficou', 'massa!']

## Tokenizador usando as regras do NLTK

Este código importa a biblioteca `nltk` e baixa o pacote `punkt_tab`, que é necessário para a tokenização.

In [32]:
import nltk

nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

Este código usa a função `nltk.word_tokenize()` para dividir a string `text` em tokens (palavras e pontuação), usando as regras de tokenização do NLTK para o idioma inglês.

In [33]:
text = """Hello everyone!!!"""

nltk.word_tokenize(text, language='english')

['Hello', 'everyone', '!', '!', '!']

Este código usa a função `nltk.word_tokenize()` para dividir a string `texto` em tokens (palavras e pontuação), usando as regras de tokenização do NLTK para o idioma português. Observe como ele lida com o valor monetário.

In [34]:
texto = "Eu paguei R$456,00 pelo setup. Ficou massa!"
nltk.word_tokenize(texto, language='portuguese')

['Eu',
 'paguei',
 'R',
 '$',
 '456,00',
 'pelo',
 'setup',
 '.',
 'Ficou',
 'massa',
 '!']

Este código demonstra a tokenização de um texto mais longo com múltiplos parágrafos e pontuação, usando as regras de tokenização do NLTK para o idioma português.

In [35]:
texto = """O meninio jogou bola ontem às 16:00.
Comi um cachorro quente na rua ontem e custou R$5,00! Estava uma delícia"""

nltk.word_tokenize(texto, language='portuguese')

['O',
 'meninio',
 'jogou',
 'bola',
 'ontem',
 'às',
 '16:00',
 '.',
 'Comi',
 'um',
 'cachorro',
 'quente',
 'na',
 'rua',
 'ontem',
 'e',
 'custou',
 'R',
 '$',
 '5,00',
 '!',
 'Estava',
 'uma',
 'delícia']

In [36]:
import nltk

nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [37]:
text = """Hello everyone!!!"""

nltk.word_tokenize(text, language='english')

['Hello', 'everyone', '!', '!', '!']

In [38]:
texto = "Eu paguei R$456,00 pelo setup. Ficou massa!"
nltk.word_tokenize(texto, language='portuguese')

['Eu',
 'paguei',
 'R',
 '$',
 '456,00',
 'pelo',
 'setup',
 '.',
 'Ficou',
 'massa',
 '!']

In [39]:
texto = """O meninio jogou bola ontem às 16:00.
Comi um cachorro quente na rua ontem e custou R$5,00! Estava uma delícia"""

nltk.word_tokenize(texto, language='portuguese')

['O',
 'meninio',
 'jogou',
 'bola',
 'ontem',
 'às',
 '16:00',
 '.',
 'Comi',
 'um',
 'cachorro',
 'quente',
 'na',
 'rua',
 'ontem',
 'e',
 'custou',
 'R',
 '$',
 '5,00',
 '!',
 'Estava',
 'uma',
 'delícia']

## Capitalização

In [40]:
versos = """
No meio do caminho tinha uma pedra
Tinha uma pedra no meio do caminho
""".upper()
print(versos)


NO MEIO DO CAMINHO TINHA UMA PEDRA
TINHA UMA PEDRA NO MEIO DO CAMINHO



In [41]:
nltk.word_tokenize(versos, language="portuguese")

['NO',
 'MEIO',
 'DO',
 'CAMINHO',
 'TINHA',
 'UMA',
 'PEDRA',
 'TINHA',
 'UMA',
 'PEDRA',
 'NO',
 'MEIO',
 'DO',
 'CAMINHO']

In [42]:
texto = "Estamos na aula de Projeto Integrado. Estamos estudando PLN no momento"

nltk.sent_tokenize(texto, language="portuguese")

['Estamos na aula de Projeto Integrado.', 'Estamos estudando PLN no momento']

## Lematização

In [43]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m89.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [44]:
import spacy

nlp = spacy.load("pt_core_news_sm")

In [45]:
texto = "O passado é só uma história que contamos"

doc = nlp(texto)

In [46]:
type(doc)

spacy.tokens.doc.Doc

In [47]:
for token in doc:
  print(token.text, ' --> ', token.lemma_)

O  -->  o
passado  -->  passado
é  -->  ser
só  -->  só
uma  -->  um
história  -->  história
que  -->  que
contamos  -->  contar


In [48]:
nlp("pelo")[0].lemma_

'por o'

In [49]:
[x.lemma_ for x in nlp("pelo menos eu tô melhorando isso. Eu não penteei o pelo do cachorro. Vou estudar mais para a próxima prova...")]

['por o',
 'menos',
 'eu',
 'tô',
 'melhorar',
 'isso',
 '.',
 'eu',
 'não',
 'penteei',
 'o',
 'por o',
 'de o',
 'cachorro',
 '.',
 'vou',
 'estudar',
 'mais',
 'para',
 'o',
 'próximo',
 'prova',
 '...']

## Radicalização

In [50]:
import nltk
nltk.download('rslp')

[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


True

In [51]:
versos = """O passado é apenas uma história que contamos. E às vezes mentimos."""
stemmer = nltk.stem.RSLPStemmer()

tokens = nltk.word_tokenize(versos, language="portuguese")

for token in tokens:
  print(token, " --> ", stemmer.stem(token))

O  -->  o
passado  -->  pass
é  -->  é
apenas  -->  apen
uma  -->  uma
história  -->  histór
que  -->  que
contamos  -->  cont
.  -->  .
E  -->  e
às  -->  às
vezes  -->  vez
mentimos  -->  ment
.  -->  .


In [52]:
versos = """
No meio do caminho tinha uma pedra
Tinha uma pedra no meio do caminho
Tinha uma pedra
No meio do caminho tinha uma pedra
"""

texto = versos.lower().split('\n')

texto_tok = []
for verso in texto:
  tokens = nltk.word_tokenize(versos, language="portuguese")
  texto_tok.append(tokens)

texto_tok

[['No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra',
  'Tinha',
  'uma',
  'pedra',
  'no',
  'meio',
  'do',
  'caminho',
  'Tinha',
  'uma',
  'pedra',
  'No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra'],
 ['No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra',
  'Tinha',
  'uma',
  'pedra',
  'no',
  'meio',
  'do',
  'caminho',
  'Tinha',
  'uma',
  'pedra',
  'No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra'],
 ['No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra',
  'Tinha',
  'uma',
  'pedra',
  'no',
  'meio',
  'do',
  'caminho',
  'Tinha',
  'uma',
  'pedra',
  'No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra'],
 ['No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra',
  'Tinha',
  'uma',
  'pedra',
  'no',
  'meio',
  'do',
  'caminho',
  'Tinha',
  'uma',
  'pedra',
  'No',
  'meio',
  'do',
  'caminho',
  'tinha',
  'uma',
  'pedra'],
 ['No',
  'meio',
  'do',
  'cam

## Bag of Words

In [53]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

In [54]:
corpus = [
'No meio do caminho tinha uma pedra',
'Tinha uma pedra no meio do caminho',
'Tinha uma pedra',
'No meio do caminho tinha uma pedra'
]

In [55]:
vectorizer = CountVectorizer()

vetores = vectorizer.fit_transform(corpus)
vocab = vectorizer.get_feature_names_out()

pd.DataFrame(vetores.toarray(), columns=vocab)

Unnamed: 0,caminho,do,meio,no,pedra,tinha,uma
0,1,1,1,1,1,1,1
1,1,1,1,1,1,1,1
2,0,0,0,0,1,1,1
3,1,1,1,1,1,1,1


In [56]:
import nltk
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('portuguese')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [57]:
vectorizer = CountVectorizer(stop_words=stopwords)

vetores = vectorizer.fit_transform(corpus)
vocab = vectorizer.get_feature_names_out()

pd.DataFrame(vetores.toarray(), columns=vocab)

Unnamed: 0,caminho,meio,pedra
0,1,1,1
1,1,1,1
2,0,0,1
3,1,1,1
