## 01 - Tokenização

In [1]:
texto = "A IA está ajudando em automatizações na industria."
tokens = texto.replace(".", " .").split()
print(tokens)

['A', 'IA', 'está', 'ajudando', 'em', 'automatizações', 'na', 'industria', '.']


## 02 - Stopwords - Remoção de Stopwords com spaCy

In [16]:
# Instalar o spaCy com o código: pip install -q spacy

# Baixa o modelo pequeno de português com o código:  python -m spacy download pt_core_news_sm

# Carregando o modelo
import spacy
nlp = spacy.load("pt_core_news_sm")

texto = "A IA está ajudando em todos os setores da industria, como vendas, marketing, logística entre outros."
doc = nlp(texto)

conteudo = [t.text for t in doc if not t.is_stop and t.is_alpha]
print(conteudo)


['IA', 'ajudando', 'setores', 'industria', 'vendas', 'marketing', 'logística']


## 03 - Part-of-Speech (POS)

In [4]:
import spacy
from spacy.symbols import POS

nlp = spacy.load("pt_core_news_sm")

for token in nlp("A IA está ajudando nos avanços das pesquisas científicas."):
    print(token.text, token.pos_, token.tag_)


A DET DET
IA PROPN PROPN
está AUX AUX
ajudando VERB VERB
nos ADP ADP
avanços NOUN NOUN
das ADP ADP
pesquisas NOUN NOUN
científicas ADJ ADJ
. PUNCT PUNCT


## 04 - Stemização (Stemming)

In [7]:
import nltk
from nltk.stem import RSLPStemmer

nltk.download('rslp')

stemmer = RSLPStemmer()
palavras = ["Fazer", "Fazendo", "Feito", "Doutores"]

print([stemmer.stem(p) for p in palavras])


['faz', 'faz', 'feit', 'dou']


[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\84284528572\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!


## 05 - Lematização (Lemmatization)

In [8]:
import spacy
nlp = spacy.load("pt_core_news_sm")

frase = "IA vem ajudando a automatizar processos administrativos."
print([(t.text, t.lemma_) for t in nlp(frase)])


[('IA', 'IA'), ('vem', 'vir'), ('ajudando', 'ajudar'), ('a', 'a'), ('automatizar', 'automatizar'), ('processos', 'processo'), ('administrativos', 'administrativo'), ('.', '.')]


## 06 - Entidades nomeadas (NER)

In [9]:
import spacy
nlp = spacy.load("pt_core_news_sm")

texto = "O Universidade SENAI e a Universidade da USP iniciaram um projeto com as meninas do REMAMA."
doc = nlp(texto)

for ent in doc.ents:
    print(ent.text, ent.label_)

Universidade SENAI ORG
Universidade da USP LOC
REMAMA MISC


## 07 - Análise sintática (dependências)

In [10]:
import spacy
nlp = spacy.load("pt_core_news_sm")

doc = nlp("IA vem ajudando a automatizar processos administrativos com grande maestria.")
for token in doc:
    print(token.text, token.dep_, token.head.text)

IA nsubj vem
vem ROOT vem
ajudando xcomp vem
a mark automatizar
automatizar xcomp ajudando
processos obj automatizar
administrativos amod processos
com case maestria
grande amod maestria
maestria nmod processos
. punct vem


## 08 - Noun Chunks (grupos nominais)

In [11]:
import spacy
nlp = spacy.load("pt_core_news_sm")

doc = nlp("A IA está ajudando em automatizações na industria.")
for chunk in doc.noun_chunks:
    print(chunk.text)



A IA
automatizações
industria


## 09 - Busca por semelhanças

In [12]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Corpus de exemplo
corpus = [
    "A IA está ajudando em automatizações na industria",
    "A IA está revolucionando a industria com automatizações",
    "Automatizações na industria estão sendo impulsionadas pela IA",
]

vec = TfidfVectorizer()
X = vec.fit_transform(corpus)

# Similaridade entre a frase 0 e as demais
sims = cosine_similarity(X[0], X).flatten()
print(list(enumerate(sims)))

# Valores próximos de 1 => mais parecidos; próximos de 0 => diferentes


[(0, np.float64(1.0)), (1, np.float64(0.4162752553793451)), (2, np.float64(0.33417258376902))]


## 10 - Expressões regulares (regex)

In [None]:
import re

texto = "Contato: alandiekguimaraes@gmail.com no evento #UniSenai dia 29 de novembro de 2025"
print(re.findall(r"\b[\w.-]+@[\w.-]+\.[a-zA-Z]{2,}\b", texto))
print(re.findall(r"#\w+", texto))
print(re.findall(r"\b\d+\b", texto))

# Saída:
# ['maria.silva@exemplo.com']
# ['#PNL']
# ['12']


['alandiekguimaraes@gmail.com']
['#UniSenai']
['29', '2025']
