B. Manipular dados textuais para algoritmos de Machine Learning

B.1. Utilizar a técnica de Bag-of-Words para transformar textos em vetores

A técnica Bag-of-Words representa textos como a frequência de palavras, ignorando a ordem.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Documentos de exemplo
documentos = ["Este é o primeiro documento.", "Este documento é o segundo documento.", "E este é o terceiro."]

# Aplicar Bag-of-Words
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documentos)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['documento' 'este' 'primeiro' 'segundo' 'terceiro']
[[1 1 1 0 0]
 [2 1 0 1 0]
 [0 1 0 0 1]]


B.2. Utilizar a técnica de Bag-of-nGrams para transformar textos em vetores

Bag-of-nGrams é uma extensão do Bag-of-Words que considera sequências de n palavras.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Documentos de exemplo
documentos = ["Este é o primeiro documento.", "Este documento é o segundo documento.", "E este é o terceiro."]

# Aplicar Bag-of-nGrams
vectorizer = CountVectorizer(ngram_range=(2, 2))
X = vectorizer.fit_transform(documentos)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['documento segundo' 'este documento' 'este primeiro' 'este terceiro'
 'primeiro documento' 'segundo documento']
[[0 0 1 0 1 0]
 [1 1 0 0 0 1]
 [0 0 0 1 0 0]]


B.3. Remover as stopwords para ter features mais significativas

Stopwords são palavras comuns que são removidas para focar nas palavras mais importantes.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Documentos de exemplo
documentos = ["Este é o primeiro documento.", "Este documento é o segundo documento.", "E este é o terceiro."]

# Aplicar Bag-of-Words com remoção de stopwords
vectorizer = CountVectorizer(stop_words='english')
X = vectorizer.fit_transform(documentos)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['documento' 'este' 'primeiro' 'segundo' 'terceiro']
[[1 1 1 0 0]
 [2 1 0 1 0]
 [0 1 0 0 1]]


B.4. Realizar stemming e lemmatization de expressões usando a biblioteca nltk

Stemming e lemmat

ization são técnicas para reduzir palavras às suas formas base ou raiz.

**Exemplo em Python:**

In [None]:
from nltk.stem import PorterStemmer, WordNetLemmatizer
import nltk
nltk.download('wordnet')

# Exemplo de frases
frases = ["running", "runs", "easily", "fairly"]

# Aplicar stemming
stemmer = PorterStemmer()
stemmed_words = [stemmer.stem(word) for word in frases]

# Aplicar lemmatization
lemmatizer = WordNetLemmatizer()
lemmatized_words = [lemmatizer.lemmatize(word) for word in frases]

print(stemmed_words)
print(lemmatized_words)

ModuleNotFoundError: No module named 'nltk'

B.5. Calcular Tf-Idf das palavras em uma base de documentos

TF-IDF é uma técnica que pondera a frequência das palavras pela inversa da frequência nos documentos.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Documentos de exemplo
documentos = ["Este é o primeiro documento.", "Este documento é o segundo documento.", "E este é o terceiro."]

# Aplicar TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documentos)

print(vectorizer.get_feature_names_out())
print(X.toarray())

B.6. Criar um modelo de classificação simples usando uma base codificada por TF-IDF

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Documentos de exemplo
documentos = ["Este é um bom filme.", "Eu não gostei deste filme.", "Filme excelente, recomendo!", "Não foi um bom filme."]
labels = [1, 0, 1, 0]  # 1 = positivo, 0 = negativo

# Aplicar TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documentos)

# Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.25, random_state=42)

# Treinar modelo de classificação
modelo = MultinomialNB()
modelo.fit(X_train, y_train)

# Avaliar modelo
y_pred = modelo.predict(X_test)
print("Acurácia:", accuracy_score(y_test, y_pred))

B. Manipular dados textuais para algoritmos de Machine Learning

B.1. Utilizar a técnica de Bag-of-Words para transformar textos em vetores

A técnica Bag-of-Words representa textos como a frequência de palavras, ignorando a ordem.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Documentos de exemplo
documentos = ["Este é o primeiro documento.", "Este documento é o segundo documento.", "E este é o terceiro."]

# Aplicar Bag-of-Words
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documentos)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['documento' 'este' 'primeiro' 'segundo' 'terceiro']
[[1 1 1 0 0]
 [2 1 0 1 0]
 [0 1 0 0 1]]


B.2. Utilizar a técnica de Bag-of-nGrams para transformar textos em vetores

Bag-of-nGrams é uma extensão do Bag-of-Words que considera sequências de n palavras.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Documentos de exemplo
documentos = ["Este é o primeiro documento.", "Este documento é o segundo documento.", "E este é o terceiro."]

# Aplicar Bag-of-nGrams
vectorizer = CountVectorizer(ngram_range=(2, 2))
X = vectorizer.fit_transform(documentos)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['documento segundo' 'este documento' 'este primeiro' 'este terceiro'
 'primeiro documento' 'segundo documento']
[[0 0 1 0 1 0]
 [1 1 0 0 0 1]
 [0 0 0 1 0 0]]


B.3. Remover as stopwords para ter features mais significativas

Stopwords são palavras comuns que são removidas para focar nas palavras mais importantes.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Documentos de exemplo
documentos = ["Este é o primeiro documento.", "Este documento é o segundo documento.", "E este é o terceiro."]

# Aplicar Bag-of-Words com remoção de stopwords
vectorizer = CountVectorizer(stop_words='english')
X = vectorizer.fit_transform(documentos)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['documento' 'este' 'primeiro' 'segundo' 'terceiro']
[[1 1 1 0 0]
 [2 1 0 1 0]
 [0 1 0 0 1]]


B.4. Realizar stemming e lemmatization de expressões usando a biblioteca nltk

Stemming e lemmat

ization são técnicas para reduzir palavras às suas formas base ou raiz.

**Exemplo em Python:**

In [None]:
from nltk.stem import PorterStemmer, WordNetLemmatizer
import nltk
nltk.download('wordnet')

# Exemplo de frases
frases = ["running", "runs", "easily", "fairly"]

# Aplicar stemming
stemmer = PorterStemmer()
stemmed_words = [stemmer.stem(word) for word in frases]

# Aplicar lemmatization
lemmatizer = WordNetLemmatizer()
lemmatized_words = [lemmatizer.lemmatize(word) for word in frases]

print(stemmed_words)
print(lemmatized_words)

ModuleNotFoundError: No module named 'nltk'

B.5. Calcular Tf-Idf das palavras em uma base de documentos

TF-IDF é uma técnica que pondera a frequência das palavras pela inversa da frequência nos documentos.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Documentos de exemplo
documentos = ["Este é o primeiro documento.", "Este documento é o segundo documento.", "E este é o terceiro."]

# Aplicar TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documentos)

print(vectorizer.get_feature_names_out())
print(X.toarray())

B.6. Criar um modelo de classificação simples usando uma base codificada por TF-IDF

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Documentos de exemplo
documentos = ["Este é um bom filme.", "Eu não gostei deste filme.", "Filme excelente, recomendo!", "Não foi um bom filme."]
labels = [1, 0, 1, 0]  # 1 = positivo, 0 = negativo

# Aplicar TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documentos)

# Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.25, random_state=42)

# Treinar modelo de classificação
modelo = MultinomialNB()
modelo.fit(X_train, y_train)

# Avaliar modelo
y_pred = modelo.predict(X_test)
print("Acurácia:", accuracy_score(y_test, y_pred))