#  Capítulo 3

## Código-fonte 3.1
Comando do terminal para instalar algumas das bibliotecas
necessárias do Python via pip.

In [6]:
%pip install numpy pandas scikit-learn nltk spacy gensim

Note: you may need to restart the kernel to use updated packages.


## Código-fonte 3.2
Exibe as versões das bibliotecas instaladas.

In [12]:
import numpy as np
import pandas as pd
import sklearn
import nltk
import spacy
import gensim

print("NumPy version:", np.__version__)
print("Pandas version:", pd.__version__)
print("Scikit-learn version:", sklearn.__version__)
print("NLTK version:", nltk.__version__)
print("SpaCy version:", spacy.__version__)
print("Gensim:", gensim.__version__)

NumPy version: 2.3.5
Pandas version: 2.3.3
Scikit-learn version: 1.7.2
NLTK version: 3.9.2
SpaCy version: 3.8.11
Gensim: 4.4.0


## Código-fonte 3.5 
Código Python para somar dois números.

In [2]:
a = 10
b = 20
print("A soma de a e b é:", a + b)

A soma de a e b é: 30


## Código-fonte 3.6
Este código demonstra como separar um texto em suas palavras e
sentenças usando NLTK.

In [3]:
# pip install nltk
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize

# Exemplo de texto
texto = "Chatbots estão se tornando cada vez mais populares. Eles podem realizar muitas tarefas automaticamente."

# Tokenização em palavras
tokens_palavras = word_tokenize(texto)
print("Tokens de palavras:", tokens_palavras)

# Tokenização em sentenças
tokens_sentencas = sent_tokenize(texto)
print("Tokens de sentenças:", tokens_sentencas)

Tokens de palavras: ['Chatbots', 'estão', 'se', 'tornando', 'cada', 'vez', 'mais', 'populares', '.', 'Eles', 'podem', 'realizar', 'muitas', 'tarefas', 'automaticamente', '.']
Tokens de sentenças: ['Chatbots estão se tornando cada vez mais populares.', 'Eles podem realizar muitas tarefas automaticamente.']


## Código-fonte 3.7
Utiliza a biblioteca SpaCy para processamento de linguagem natural
em português.

In [10]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
     ---------------------------------------- 0.0/13.0 MB ? eta -:--:--
      --------------------------------------- 0.3/13.0 MB ? eta -:--:--
     ----------------------------- ---------- 9.7/13.0 MB 46.5 MB/s eta 0:00:01
     ---------------------------------------- 13.0/13.0 MB 42.8 MB/s  0:00:00
Installing collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


In [11]:
# pip install spacy
# import os
# os.system("python -m spacy download pt_core_news_sm")
import spacy

# Carregar o modelo de linguagem em português
nlp = spacy.load("pt_core_news_sm")

# Exemplo de texto
texto = "Chatbots estão se tornando cada vez mais populares."

# Processando o texto
doc = nlp(texto)

# Tokenização
tokens = [token.text for token in doc]
print("Tokens:", tokens)

Tokens: ['Chatbots', 'estão', 'se', 'tornando', 'cada', 'vez', 'mais', 'populares', '.']


## Código-fonte 3.8
Utiliza a biblioteca NLTK para realizar lematização de palavras em
português. Ele define uma lista de palavras e aplica o lematizador a cada uma delas.

In [13]:
# pip install nltk
# import nltk
# nltk.download('wordnet')

import nltk
from nltk.stem import WordNetLemmatizer

# Inicializando o lematizador
lemmatizer = WordNetLemmatizer()

# Exemplo de palavras}
palavras = ["correndo", "correu", "corredores"]

# Lematização das palavras
lematizadas = [lemmatizer.lemmatize(palavra, pos='v') for palavra in palavras]
print("Palavras lematizadas:", lematizadas)

Palavras lematizadas: ['correndo', 'correu', 'corredores']


## Código-fonte 3.9
Mesmo exemplo do código anterior porém utilizando a biblioteca
Spacy.

In [14]:
#pip install spacy
import spacy

# Carregar o modelo de linguagem em português
nlp = spacy.load("pt_core_news_sm")

# Exemplo de texto
texto = "Chatbots estão se tornando cada vez mais populares."

# Processando o texto
doc = nlp(texto)

tokens = [token.text for token in doc]
print("Tokens:", tokens)

lematizadas = [token.lemma_ for token in doc]
print("Palavras lematizadas:", lematizadas)

Tokens: ['Chatbots', 'estão', 'se', 'tornando', 'cada', 'vez', 'mais', 'populares', '.']
Palavras lematizadas: ['chatbots', 'estar', 'se', 'tornar', 'cada', 'vez', 'mais', 'popular', '.']


## Código-fonte 3.10
Utiliza a biblioteca NLTK para realizar a stemizacao de palavras. Ele
define uma lista de palavras e aplica o stemmer para obter os radicais dessas palavras

In [15]:
# pip install nltk
from nltk.stem import PorterStemmer

# Inicializando o stemizador
stemmer = PorterStemmer()

# Exemplo de palavras
palavras = ["correndo", "correu", "corredores"]

# Stemização das palavras
stems = [stemmer.stem(palavra) for palavra in palavras]
print("Stems das palavras:", stems)

Stems das palavras: ['correndo', 'correu', 'corredor']


## Código-fonte 3.11 
Demonstra como extrair o radical de palavras usando NLTK.

In [16]:
# pip install nltk
# import nltk
# nltk.download('stopwords')

from nltk import word_tokenize
from nltk.corpus import stopwords

# Carregar stopwords para o idioma portugues
stop_words = set(stopwords.words('portuguese'))

# Exemplo de texto
texto = "Chatbots estão se tornando cada vez mais populares."

# Removendo stopwords
tokens_sem_stopwords = [palavra for palavra in word_tokenize(texto) if palavra.lower() not in stop_words]
print("Texto sem stopwords:", tokens_sem_stopwords)

Texto sem stopwords: ['Chatbots', 'tornando', 'cada', 'vez', 'populares', '.']


## Código-fonte 3.12
Demonstra como tokenizar um texto e filtrar stopwords usando SpaCy
em português.

In [18]:
# pip install spacy
# python -m spacy download pt_core_news_sm
import spacy

# Carregar o modelo de linguagem em português
nlp = spacy.load("pt_core_news_sm")

# Exemplo de texto
texto = "Chatbots estão se tornando cada vez mais populares."

# Processando o texto
doc = nlp(texto)

tokens = [token.text for token in doc]
print("Tokens:", tokens)

# Removendo stopwords
tokens_sem_stopwords = [token.text for token in doc if not token.is_stop]
print("Texto sem stopwords:", tokens_sem_stopwords)

Tokens: ['Chatbots', 'estão', 'se', 'tornando', 'cada', 'vez', 'mais', 'populares', '.']
Texto sem stopwords: ['Chatbots', 'tornando', 'populares', '.']


## Código-fonte 3.13
Extração de e-mails com regex.

In [20]:
import re
texto = "Entre em contato em exemplo@email.com ou suporte@outroemail.com."
padrao = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-] +\.[A-Z|a-z]{2,}\b'
emails = re.findall(padrao, texto)
print(emails)

[]


## Código-fonte 3.14
Validação de datas com regex.

In [21]:
import re

padrao_data = r'\b\d{2}/\d{2}/\d{4}\b'
datas_teste = ["31/12/2020", "1/1/2021", "2023-05-10", "25/06/2025 10:00"]

for data in datas_teste:
  if re.match(padrao_data, data):
    print(f"'{data}' é uma data válida no formato DD/MM/AAAA.")
  else:
    print(f"'{data}' não é uma data válida no formato DD/MM/AAAA.")

'31/12/2020' é uma data válida no formato DD/MM/AAAA.
'1/1/2021' não é uma data válida no formato DD/MM/AAAA.
'2023-05-10' não é uma data válida no formato DD/MM/AAAA.
'25/06/2025 10:00' é uma data válida no formato DD/MM/AAAA.


## Código-fonte 3.15
Análise de comandos com regex.

In [22]:
import re

padrao_comando = r'^/\w+'
comandos_teste = ["/ajuda", "/iniciar", "ajuda", "iniciar/"]

for comando in comandos_teste:
    if re.match(padrao_comando, comando):
        print(f"'{comando}' é um comando válido.")
    else:
        print(f"'{comando}' não é um comando válido.")

'/ajuda' é um comando válido.
'/iniciar' é um comando válido.
'ajuda' não é um comando válido.
'iniciar/' não é um comando válido.


## Código-fonte 3.16
Tokenização simples com regex.

In [23]:
import re
texto = "Olá, como vai você?"
tokens = re.split(r'\W+', texto)
print(tokens)

['Olá', 'como', 'vai', 'você', '']


## Código-fonte 3.17
Limpeza de texto removendo tags HTML.

In [24]:
import re
texto_html = "<p>Este é um parágrafo com <b>texto em negrito</b>.</p>"
texto_limpo = re.sub(r'<[^>]+>', '', texto_html)
print(texto_limpo)

Este é um parágrafo com texto em negrito.


## Código-fonte 3.18
Transforma palavras de um pequeno corpus de frases em vetores
one-hot usando o OneHotEncoder do scikit-learn.

In [25]:
# pip install scikit-learn
from sklearn.preprocessing import OneHotEncoder
import numpy as np

# Exemplo de texto
corpus = ["Eu amo programação", "A programação é divertida"]

# Tokenização simples
tokenized_corpus = [sentence.split() for sentence in corpus]
# Flatten para obter todas as palavras
all_words = [word for sentence in tokenized_corpus for word in sentence]
# Remover duplicatas
vocab = list(set(all_words))

# Criar matriz de índices das palavras para cada frase
word_to_idx = {word: idx for idx, word in enumerate(vocab)}
corpus_idx = [[word_to_idx[word] for word in sentence] for sentence in tokenized_corpus]

# Ajustar o encoder para o vocabulário
encoder = OneHotEncoder(sparse_output=False)
one_hot_encoded = encoder.fit_transform(
        np.array(vocab).reshape(-1, 1))

print("Vocabulário:", vocab)
print("One-Hot Encoding:\n", one_hot_encoded)

Vocabulário: ['programação', 'amo', 'é', 'A', 'divertida', 'Eu']
One-Hot Encoding:
 [[0. 0. 0. 0. 1. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0.]]


## Código-fonte 3.19
Utiliza a biblioteca scikit-learn para transformar um conjunto de
frases (corpus) em uma matriz BoW.

In [26]:
# pip install scikit-learn
from sklearn.feature_extraction.text import CountVectorizer

# Exemplo de corpus
corpus = ["Eu amo programação", "A programação é divertida", "Eu amo a vida"]

# Criação do vetor de contagem (Bag of Words)
vectorizer = CountVectorizer()
bow_matrix = vectorizer.fit_transform(corpus)

print("Vocabulário:", vectorizer.get_feature_names_out())
print("Bag of Words Matrix:\n", bow_matrix.toarray())

Vocabulário: ['amo' 'divertida' 'eu' 'programação' 'vida']
Bag of Words Matrix:
 [[1 0 1 1 0]
 [0 1 0 1 0]
 [1 0 1 0 1]]


## Código-fonte 3.20
Técnica comum em processamento de linguagem natural para
converter texto em dados numéricos.

In [27]:
# pip install scikit-learn
from sklearn.feature_extraction.text import TfidfVectorizer

# Exemplo de corpus
corpus = ["Eu amo programação", "A programação é divertida", "Eu amo a vida"]

# Criação do vetor TF-IDF
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(corpus)

print("Vocabulário:", tfidf_vectorizer.get_feature_names_out())
print("TF-IDF Matrix:\n", tfidf_matrix.toarray())

Vocabulário: ['amo' 'divertida' 'eu' 'programação' 'vida']
TF-IDF Matrix:
 [[0.57735027 0.         0.57735027 0.57735027 0.        ]
 [0.         0.79596054 0.         0.60534851 0.        ]
 [0.51785612 0.         0.51785612 0.         0.68091856]]


## Código-fonte 3.21
Treino e avaliação de um modelo simples de classificação de
sentimentos em textos.

In [28]:
# pip install scikit-learn
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import train_test_split
from sklearn import metrics

# Exemplo de corpus e rótulos
corpus = ["Eu amo programação", "A programação é divertida", "Eu odeio bugs", "A vida é bela", "Eu odeio erros"]
labels = [1, 1, 0, 1, 0]  # 1: Sentimento Positivo, 0: Sentimento Negativo

# Divisão dos dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(corpus, labels, test_size=0.4, random_state=42)

# Criação do pipeline TF-IDF + Classificador Naive Bayes
model = make_pipeline(TfidfVectorizer(), MultinomialNB())

# Treinamento do modelo
model.fit(X_train, y_train)

# Predição no conjunto de teste
predicted = model.predict(X_test)

# Avaliação do modelo
print("Relatório de Classificação:\n", metrics.classification_report(y_test, predicted))

Relatório de Classificação:
               precision    recall  f1-score   support

           0       0.00      0.00      0.00         1
           1       0.50      1.00      0.67         1

    accuracy                           0.50         2
   macro avg       0.25      0.50      0.33         2
weighted avg       0.25      0.50      0.33         2



  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])
  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])
  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])


## Código-fonte 3.22
Treina um modelo de Word2Vec usando o corpus news do Brown
(disponível no NLTK) para gerar representações vetoriais de palavras.

In [29]:
# pip install gensim nltk	
from gensim.models import Word2Vec
from nltk.corpus import brown

# Carregar o corpus de exemplo (Brown corpus)
sentences = brown.sents(categories='news')

# Treinamento do modelo Word2Vec
model = Word2Vec(sentences, vector_size=100, window=5, min_count=5, sg=0)

# Obtenção de vetor para uma palavra
vector = model.wv['economy']
print("Vetor para 'economy':", vector)

# Encontrando palavras semelhantes
similar_words = model.wv.most_similar('economy')
print("Palavras semelhantes a 'economy':", similar_words)

Vetor para 'economy': [-0.04815609  0.01639045 -0.01870394 -0.01663649 -0.02984198 -0.12746063
  0.0465952   0.15816896 -0.08479835 -0.06942044  0.06977347 -0.07013117
 -0.07630205 -0.01674319  0.02286813 -0.06601285  0.03113458 -0.02182284
 -0.04738552 -0.09850634  0.04903988  0.03314869  0.13632214 -0.0494479
 -0.07217429  0.08378216 -0.07366972  0.05642854 -0.01578441 -0.03794022
  0.08537542 -0.06744939  0.01029237 -0.04564841  0.0032799   0.11974443
  0.02657936 -0.02911894 -0.05277169 -0.04892118  0.03181053 -0.06764908
 -0.04648553 -0.00583027  0.06949913 -0.07281978 -0.02848032 -0.01343263
  0.01498829  0.03713196  0.01046777 -0.03792575 -0.02187441 -0.02401222
 -0.05076339 -0.00194816  0.06511394 -0.06000043  0.01305613 -0.01043953
 -0.04224693  0.0417886   0.01061732  0.0013354  -0.05156695  0.11047818
 -0.01610061  0.02809229 -0.05760334  0.04505866 -0.08252972  0.06258633
  0.10864721  0.0203197   0.02080672  0.04995502 -0.04221418 -0.00029486
 -0.07728022  0.01529829 -0.08

## Código-fonte 3.23
Treina um modelo de Word2Vec e faz uma analogia de palavras:
”king- ”man”+ ”woman”, buscando o termo mais próximo desse contexto.

In [30]:
# pip install gensim nltk	
from gensim.models import Word2Vec
from nltk.corpus import brown

# Carregar o corpus de exemplo (Brown corpus)
sentences = brown.sents(categories='news')

# Treinamento do modelo Word2Vec
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, sg=0)

# Analogias: "rei" - "homem" + "mulher" = ?
result = model.wv.most_similar(positive=['king', 'woman'], negative=['man'])
print("Resultado da analogia:", result)

Resultado da analogia: [('Mercer', 0.8664076924324036), ('La.', 0.8649832606315613), ('questions', 0.8608457446098328), ('Fighters', 0.8598513007164001), ('discuss', 0.8593618869781494), ('Art', 0.8570495247840881), ('Socialist', 0.8569803833961487), ('seldom', 0.8569306135177612), ('1953', 0.8563147783279419), ('relatively', 0.8557248115539551)]


## Código-fonte 3.24
Faz o download dos embeddings de palavras GloVe e extrai o arquivo
necessário, carrega os vetores e obtém o vetor de características para a palavra
economy.

In [36]:
# pip install requests
# pip install gensim
import os
import requests
import zipfile
from gensim.models import KeyedVectors

url = "https://nlp.stanford.edu/data/glove.6B.zip"
zip_filename = "glove.6B.zip"
txt_filename = "glove.6B.50d.txt"

# Baixar o arquivo zip se não existir
if not os.path.exists(zip_filename):
	print("Baixando embeddings GloVe 6B...")
	with requests.get(url, stream=True) as r:
		r.raise_for_status()
		with open(zip_filename, "wb") as f:
			for chunk in r.iter_content(chunk_size=8192):
				f.write(chunk)
	print("Download concluído.")

# Extrair o arquivo txt se não existir
if not os.path.exists(txt_filename):
	print("Extraindo glove.6B.50d.txt...")
	with zipfile.ZipFile(zip_filename, 'r') as zip_ref:
		zip_ref.extract(txt_filename)
	print("Extração concluída.")

# Carregar embeddings GloVe
glove_model = KeyedVectors.load_word2vec_format(txt_filename, binary=False, no_header=True)

# Obtenção de vetor para uma palavra
vector_glove = glove_model['economy']
print("Vetor para 'economy' com GloVe:", vector_glove)

Vetor para 'economy' com GloVe: [-1.2027e-01 -7.2505e-01  8.7014e-01 -6.3944e-01  1.7259e-01 -3.5168e-01
 -6.5425e-01 -7.2757e-01 -2.2327e-01  1.3200e-01  4.2210e-01 -2.1129e-01
 -3.1140e-01  4.7728e-01  3.1158e-01  6.4071e-01  2.2868e-01 -1.8580e-01
  8.0219e-01  6.9265e-03  3.6053e-01 -7.4774e-01 -8.9363e-01 -6.6631e-01
  1.0789e+00 -1.3036e+00  2.8634e-03  3.6411e-01  5.2839e-01  1.7480e+00
  3.7130e+00  7.0001e-01  9.2982e-01 -1.7352e-01 -8.3904e-01 -4.2105e-01
 -1.4294e+00  5.7824e-01  5.8892e-01 -8.5238e-01 -1.7313e+00  4.5091e-02
  4.9483e-01 -1.0151e+00  8.9959e-02  4.6090e-01  1.7585e-03  6.2182e-01
  1.1893e+00  8.4410e-02]


## Código-fonte 3.25
Este código treina um modelo de linguagem FastText usando o
corpus news do Brown.

In [33]:
# pip install gensim nltk
import gensim
from gensim.models import Word2Vec
from nltk.corpus import brown

# Carregar o corpus de exemplo (Brown corpus)
sentences = brown.sents(categories='news')

# Treinamento do modelo FastText
fasttext_model = gensim.models.FastText(sentences, vector_size=100, window=5, min_count=5)

# Obtenção de vetor para uma palavra
vector_fasttext = fasttext_model.wv['economy']
print("Vetor para 'economy' com FastText:", vector_fasttext)

# Encontrando palavras semelhantes
similar_words_ft = fasttext_model.wv.most_similar('economy')
print("Palavras semelhantes a 'economy' com FastText:", similar_words_ft)

Vetor para 'economy' com FastText: [-0.07913742  0.25233224 -0.07079501 -0.23172215  0.06874844  0.03965204
 -0.00313755  0.15882023  0.18099971 -0.10419944  0.20775302  0.07710753
 -0.19060253  0.2600621  -0.3090463  -0.19312479 -0.06089186 -0.04025605
 -0.26604268 -0.0498223  -0.23428224  0.19358292  0.02633066 -0.10356053
  0.00286019 -0.22827028 -0.24923463  0.03381338 -0.0231407   0.00647127
 -0.01258843  0.02028346  0.44021755 -0.17614518  0.0061322   0.19301128
  0.07359346  0.1785287  -0.18454622 -0.09717848  0.17560244 -0.06990219
  0.11357515 -0.23170672 -0.20930912 -0.1475308  -0.06379472  0.16089591
 -0.0184421  -0.09846582  0.09060253 -0.22754261  0.10772247 -0.288139
  0.09074466  0.00781813 -0.17222355 -0.13406675 -0.21547098 -0.10958227
 -0.14449959 -0.18664409  0.11154978  0.26387405  0.08376542  0.32949618
 -0.1366519  -0.09476344  0.22028679  0.07690582 -0.04966376  0.14929171
  0.18170822 -0.19063792  0.0154007  -0.12020912  0.08991286 -0.01368116
 -0.03464435  0.25