In [8]:
# Instalar bibliotecas necessárias
!pip -q install nltk spacy && python -m spacy download pt_core_news_sm

# Importar bibliotecas
import re
import nltk
import spacy
from nltk.corpus import stopwords
from nltk import ngrams

# Baixar stopwords do NLTK
nltk.download('stopwords')

# Carregar modelo de português do spaCy
nlp = spacy.load("pt_core_news_sm")

# Corpus fornecido (com aspas corrigidas)
text = (
    "A Sra. Rosa plantou uma rosa no jardim. O céu estava azul e a brisa era suave. "
    "Ela pensou: \"Seria maravilhoso se todos os dias fossem assim, tão tranquilos quanto uma rosa em flor.\""
)

# -------------------------------
# 1. Tokenização (com pontuação e maiúsculas)
tokens = re.findall(r'\w+', text)
print("Tokens (com pontuação e maiúsculas):")
print(tokens)

# -------------------------------
# 2. Normalização (remover pontuação e converter para minúsculas)
tokens_norm = re.findall(r'\w+', text.lower())
print("\nTokens normalizados:")
print(tokens_norm)

# -------------------------------
# 3. Remoção de Stop Words
stop_words = set(stopwords.words('portuguese'))
filtered_tokens = [word for word in tokens_norm if word not in stop_words]
print("\nTokens sem stopwords:")
print(filtered_tokens)

# -------------------------------
# 4. Geração de n-gramas
unigrams = list(ngrams(filtered_tokens, 1))
bigrams = list(ngrams(filtered_tokens, 2))
trigrams = list(ngrams(filtered_tokens, 3))

print("\nUnigramas:")
print(unigrams)
print("\nBigramas:")
print(bigrams)
print("\nTrigramas:")
print(trigrams)

# -------------------------------
# 5. Lematização com spaCy
doc = nlp(" ".join(filtered_tokens))
lemmatized = [token.lemma_ for token in doc]
print("\nTokens lematizados:")
print(lemmatized)


Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m54.0 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Tokens (com pontuação e maiúsculas):
['A', 'Sra', 'Rosa', 'plantou', 'uma', 'rosa', 'no', 'jardim', 'O', 'céu', 'estava', 'azul', 'e', 'a', 'brisa', 'era', 'suave', 'Ela', 'pensou', 'Seria', 'maravilhoso', 'se', 'todos', 'os', 'dias', 'fossem', 'assim', 'tão', 'tranquilos', 'quanto', 'uma', 'rosa', 'em', 'flor']

Tokens normalizados:
['a', 'sra', 'rosa', 'plantou', 'uma', 'rosa', 'no', 'jardim', 'o', 'céu', 'estava', 'azul', 'e', 'a', 'brisa', 'era', 'suave', 'ela', 'pensou', 'seria', 'maravilhoso', 'se', 'todos', 'os', 'dias', 'fossem', 'assim', 'tão', 'tranquilos', 'quanto', 'uma', 'rosa', 'em', 'flor']

Tokens sem stopwords:
['sra', 'rosa', 'plantou', 'rosa', 'jardim', 'céu', 'azul', 'brisa', 'suave', 'pensou', 'maravilhoso', 'todos', 'dias', 'assim', 'tão', 'tranquilos', 'quanto', 'rosa', 'flor']

Unigramas:
[('sra',), ('rosa',), ('plantou',), ('rosa',), ('jardim',), ('céu',), ('azul',), ('brisa',), ('suave',), ('pensou',), ('maravilhoso',), ('todos',), ('dias',), ('assim',), ('tão