## B. Manipular dados textuais para algoritmos de Machine Learning

B.1. Utilizar a técnica de Bag-of-Words para transformar textos em vetores

**Definição:**
A técnica Bag-of-Words representa textos como a frequência de palavras, ignorando a ordem.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Documentos de exemplo
documentos = ["Este é o primeiro documento.", "Este documento é o segundo documento.", "E este é o terceiro."]

# Aplicar Bag-of-Words
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documentos)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['documento' 'este' 'primeiro' 'segundo' 'terceiro']
[[1 1 1 0 0]
 [2 1 0 1 0]
 [0 1 0 0 1]]


**Exercício Prático:**
1. Colete 10 textos de notícias de diferentes fontes.
2. Aplique a técnica de Bag-of-Words para transformar os textos em vetores.
3. Verifique as palavras mais frequentes em cada documento e no conjunto total.

B.2. Utilizar a técnica de Bag-of-nGrams para transformar textos em vetores

**Definição:**
Bag-of-nGrams é uma extensão do Bag-of-Words que considera sequências de n palavras.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Documentos de exemplo
documentos = ["Este é o primeiro documento.", "Este documento é o segundo documento.", "E este é o terceiro."]

# Aplicar Bag-of-nGrams
vectorizer = CountVectorizer(ngram_range=(2, 2))
X = vectorizer.fit_transform(documentos)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['documento segundo' 'este documento' 'este primeiro' 'este terceiro'
 'primeiro documento' 'segundo documento']
[[0 0 1 0 1 0]
 [1 1 0 0 0 1]
 [0 0 0 1 0 0]]


**Exercício Prático:**
1. Utilize os mesmos textos do exercício anterior.
2. Aplique a técnica de Bag-of-nGrams considerando n=2.
3. Compare os resultados com a técnica de Bag-of-Words.

B.3. Remover as stopwords para ter features mais significativas

**Definição:**
Stopwords são palavras comuns que são removidas para focar nas palavras mais importantes.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Documentos de exemplo
documentos = ["Este é o primeiro documento.", "Este documento é o segundo documento.", "E este é o terceiro."]

# Aplicar Bag-of-Words com remoção de stopwords
vectorizer = CountVectorizer(stop_words='english')
X = vectorizer.fit_transform(documentos)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['documento' 'este' 'primeiro' 'segundo' 'terceiro']
[[1 1 1 0 0]
 [2 1 0 1 0]
 [0 1 0 0 1]]


**Exercício Prático:**
1. Utilize os textos do exercício anterior.
2. Aplique a técnica de Bag-of-Words removendo stopwords.
3. Compare os resultados antes e depois da remoção de stopwords.

B.4. Realizar stemming e lemmatization de expressões usando a biblioteca nltk

**Definição:**
Stemming e lemmatization são técnicas para reduzir palavras às suas formas base ou raiz.

**Exemplo em Python:**

In [None]:
from nltk.stem import PorterStemmer, WordNetLemmatizer
import nltk
nltk.download('wordnet')

# Exemplo de frases
frases = ["running", "runs", "easily", "fairly"]

# Aplicar stemming
stemmer = PorterStemmer()
stemmed_words = [stemmer.stem(word) for word in frases]

# Aplicar lemmatization
lemmatizer = WordNetLemmatizer()
lemmatized_words = [lemmatizer.lemmatize(word) for word in frases]

print(stemmed_words)
print(lemmatized_words)

['run', 'run', 'easili', 'fairli']
['running', 'run', 'easily', 'fairly']


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\dacio\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


**Exercício Prático:**
1. Colete um conjunto de 20 palavras variadas (verbos, advérbios, substantivos).
2. Aplique o stemming utilizando o `PorterStemmer`.
3. Aplique a lemmatization utilizando o `WordNetLemmatizer`.
4. Compare os resultados e discuta as diferenças entre as duas técnicas.

B.5. Calcular Tf-Idf das palavras em uma base de documentos

**Definição:**
TF-IDF é uma técnica que pondera a frequência das palavras pela inversa da frequência nos documentos.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Documentos de exemplo
documentos = ["Este é o primeiro documento.", "Este documento é o segundo documento.", "E este é o terceiro."]

# Aplicar TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documentos)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['documento' 'este' 'primeiro' 'segundo' 'terceiro']
[[0.54783215 0.42544054 0.72033345 0.         0.        ]
 [0.7948031  0.30861775 0.         0.52253528 0.        ]
 [0.         0.50854232 0.         0.         0.861037  ]]


**Exercício Prático:**
1. Utilize os textos dos exercícios anteriores.
2. Aplique a técnica TF-IDF para calcular a importância das palavras.
3. Compare os vetores TF-IDF com os vetores de Bag-of-Words e Bag-of-nGrams.

B.6. Criar um modelo de classificação simples usando uma base codificada por TF-IDF

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Documentos de exemplo
documentos = ["Este é um bom filme.", "Eu não gostei deste filme.", "Filme excelente, recomendo!", "Não foi um bom filme."]
labels = [1, 0, 1, 0]  # 1 = positivo, 0 = negativo

# Aplicar TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documentos)

# Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.25, random_state=42)

# Treinar modelo de classificação
modelo = MultinomialNB()
modelo.fit(X_train, y_train)

# Avaliar modelo
y_pred = modelo.predict(X_test)
print("Acurácia:", accuracy_score(y_test, y_pred))

Acurácia: 0.0


**Exercício Prático:**
1. Colete um conjunto de 50 reviews de filmes, classificando-os como positivos ou negativos.
2. Utilize a técnica TF-IDF para transformar os textos em vetores.
3. Treine um modelo de classificação utilizando `MultinomialNB`.
4. Avalie a performance do modelo utilizando métricas como acurácia, precisão e recall.



## Exercícios

**Exercícios Práticos para Alunos sobre Vetorização de Dados Textuais**

### Exercício 1: Utilizar a técnica de Bag-of-Words para transformar textos em vetores

**Objetivo:**
Aplicar a técnica Bag-of-Words em um conjunto de textos e entender como transformar textos em vetores de frequência de palavras.

**Instruções:**
1. Colete 10 textos de notícias de diferentes fontes. Cada texto deve ter entre 50 e 100 palavras.
2. Importe a biblioteca `CountVectorizer` do scikit-learn.
3. Aplique a técnica Bag-of-Words nos textos coletados.
4. Liste as palavras mais frequentes em cada documento e no conjunto total.

**Código Exemplo:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Textos de exemplo (substitua pelos textos coletados)
documentos = ["Texto 1...", "Texto 2...", "Texto 3...", "Texto 4...", "Texto 5...",
              "Texto 6...", "Texto 7...", "Texto 8...", "Texto 9...", "Texto 10..."]

# Aplicar Bag-of-Words
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documentos)

print("Palavras:", vectorizer.get_feature_names_out())
print("Matriz de Frequência:\n", X.toarray())

Palavras: ['10' 'texto']
Matriz de Frequência:
 [[0 1]
 [0 1]
 [0 1]
 [0 1]
 [0 1]
 [0 1]
 [0 1]
 [0 1]
 [0 1]
 [1 1]]


### Exercício 2: Utilizar a técnica de Bag-of-nGrams para transformar textos em vetores

**Objetivo:**
Explorar a técnica Bag-of-nGrams e compreender como a sequência de palavras pode influenciar a representação dos textos.

**Instruções:**
1. Utilize os mesmos textos do exercício anterior.
2. Importe a biblioteca `CountVectorizer` do scikit-learn.
3. Aplique a técnica Bag-of-nGrams considerando n=2.
4. Compare os resultados com a técnica Bag-of-Words.

**Código Exemplo:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Textos de exemplo (substitua pelos textos coletados)
documentos = ["Texto 1...", "Texto 2...", "Texto 3...", "Texto 4...", "Texto 5...",
              "Texto 6...", "Texto 7...", "Texto 8...", "Texto 9...", "Texto 10..."]

# Aplicar Bag-of-nGrams
vectorizer = CountVectorizer(ngram_range=(2, 2))
X = vectorizer.fit_transform(documentos)

print("nGrams:", vectorizer.get_feature_names_out())
print("Matriz de Frequência:\n", X.toarray())

nGrams: ['texto 10']
Matriz de Frequência:
 [[0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [1]]


### Exercício 3: Remover as stopwords para ter features mais significativas

**Objetivo:**
Remover palavras comuns (stopwords) para focar nas palavras mais importantes e significativas dos textos.

**Instruções:**
1. Utilize os textos do exercício anterior.
2. Importe a biblioteca `CountVectorizer` do scikit-learn.
3. Aplique a técnica Bag-of-Words removendo as stopwords.
4. Compare os resultados antes e depois da remoção de stopwords.

**Código Exemplo:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Textos de exemplo (substitua pelos textos coletados)
documentos = ["Texto 1...", "Texto 2...", "Texto 3...", "Texto 4...", "Texto 5...",
              "Texto 6...", "Texto 7...", "Texto 8...", "Texto 9...", "Texto 10..."]

# Aplicar Bag-of-Words com remoção de stopwords
vectorizer = CountVectorizer(stop_words='english')
X = vectorizer.fit_transform(documentos)

print("Palavras sem Stopwords:", vectorizer.get_feature_names_out())
print("Matriz de Frequência sem Stopwords:\n", X.toarray())

Palavras sem Stopwords: ['10' 'texto']
Matriz de Frequência sem Stopwords:
 [[0 1]
 [0 1]
 [0 1]
 [0 1]
 [0 1]
 [0 1]
 [0 1]
 [0 1]
 [0 1]
 [1 1]]


### Exercício 4: Realizar stemming e lemmatization de expressões usando a biblioteca nltk

**Objetivo:**
Aplicar as técnicas de stemming e lemmatization para reduzir palavras às suas formas base ou raiz.

**Instruções:**
1. Colete um conjunto de 20 palavras variadas (verbos, advérbios, substantivos).
2. Importe as bibliotecas `PorterStemmer` e `WordNetLemmatizer` da nltk.
3. Aplique o stemming utilizando o `PorterStemmer`.
4. Aplique a lemmatization utilizando o `WordNetLemmatizer`.
5. Compare os resultados e discuta as diferenças entre as duas técnicas.

**Código Exemplo:**

In [None]:
from nltk.stem import PorterStemmer, WordNetLemmatizer
import nltk
nltk.download('wordnet')

# Exemplo de palavras
palavras = ["running", "runs", "easily", "fairly", "driving", "drove", "better", "good", "dogs", "flying"]

# Aplicar stemming
stemmer = PorterStemmer()
stemmed_words = [stemmer.stem(word) for word in palavras]

# Aplicar lemmatization
lemmatizer = WordNetLemmatizer()
lemmatized_words = [lemmatizer.lemmatize(word) for word in palavras]

print("Stemming:", stemmed_words)
print("Lemmatization:", lemmatized_words)

Stemming: ['run', 'run', 'easili', 'fairli', 'drive', 'drove', 'better', 'good', 'dog', 'fli']
Lemmatization: ['running', 'run', 'easily', 'fairly', 'driving', 'drove', 'better', 'good', 'dog', 'flying']


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\dacio\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


### Exercício 5: Calcular Tf-Idf das palavras em uma base de documentos

**Objetivo:**
Aplicar a técnica TF-IDF para calcular a importância das palavras em um conjunto de textos.

**Instruções:**
1. Utilize os textos dos exercícios anteriores.
2. Importe a biblioteca `TfidfVectorizer` do scikit-learn.
3. Aplique a técnica TF-IDF para calcular a importância das palavras.
4. Compare os vetores TF-IDF com os vetores de Bag-of-Words e Bag-of-nGrams.

**Código Exemplo:**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Textos de exemplo (substitua pelos textos coletados)
documentos = ["Texto 1...", "Texto 2...", "Texto 3...", "Texto 4...", "Texto 5...",
              "Texto 6...", "Texto 7...", "Texto 8...", "Texto 9...", "Texto 10..."]

# Aplicar TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documentos)

print("Palavras com TF-IDF:", vectorizer.get_feature_names_out())
print("Matriz TF-IDF:\n", X.toarray())

Palavras com TF-IDF: ['10' 'texto']
Matriz TF-IDF:
 [[0.         1.        ]
 [0.         1.        ]
 [0.         1.        ]
 [0.         1.        ]
 [0.         1.        ]
 [0.         1.        ]
 [0.         1.        ]
 [0.         1.        ]
 [0.         1.        ]
 [0.93794722 0.34677803]]


### Exercício 6: Criar um modelo de classificação simples usando uma base codificada por TF-IDF

**Objetivo:**
Treinar e avaliar um modelo de classificação utilizando a técnica TF-IDF para codificar os textos.

**Instruções:**
1. Colete um conjunto de 50 reviews de filmes, classificando-os como positivos ou negativos.
2. Utilize a técnica TF-IDF para transformar os textos em vetores.
3. Treine um modelo de classificação utilizando `MultinomialNB`.
4. Avalie a performance do modelo utilizando métricas como acurácia, precisão e recall.

**Código Exemplo:**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score

# Reviews de exemplo (substitua pelos reviews coletados)
documentos = ["Este é um bom filme.", "Eu não gostei deste filme.", "Filme excelente, recomendo!", "Não foi um bom filme.",
              "Ótima atuação e enredo.", "Muito chato e previsível.", "Uma obra-prima.", "Não vale a pena assistir.",
              "Simplesmente adorável.", "Terrível e decepcionante."]
labels = [1, 0, 1, 0, 1, 0, 1, 0, 1, 0]  # 1 = positivo, 0 = negativo

# Aplicar TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documentos)

# Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.25, random_state=42)

# Treinar modelo de classificação
modelo = MultinomialNB()
modelo.fit(X_train, y_train)

# Avaliar modelo
y_pred = modelo.predict(X_test)
print("Acurácia:", accuracy_score(y_test, y_pred))
print("Precisão:", precision_score(y_test, y_pred))
print("Recall:", recall_score(y_test, y_pred))

Acurácia: 0.3333333333333333
Precisão: 0.3333333333333333
Recall: 1.0
