### 2. Manipular dados textuais para algoritmos de Machine Learning

#### 2.1. Utilizar a técnica de Bag-of-Words para transformar textos em vetores
A técnica de Bag-of-Words (BoW) converte textos em vetores de frequência de palavras, ignorando a ordem das palavras. Cada documento é representado como um vetor, onde cada dimensão corresponde a uma palavra do vocabulário do corpus.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?'
]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
[[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 1 1 1]
 [0 1 1 1 0 0 1 0 1]]


#### 2.2. Utilizar a técnica de Bag-of-nGrams para transformar textos em vetores
A técnica de Bag-of-nGrams é uma extensão do BoW que considera sequências de n palavras (n-grams) em vez de palavras individuais. Isso captura um pouco da ordem e contexto das palavras.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?'
]
vectorizer = CountVectorizer(ngram_range=(1, 2))
X = vectorizer.fit_transform(corpus)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['and' 'and this' 'document' 'document is' 'first' 'first document' 'is'
 'is the' 'is this' 'one' 'second' 'second document' 'the' 'the first'
 'the second' 'the third' 'third' 'third one' 'this' 'this document'
 'this is' 'this the']
[[0 0 1 0 1 1 1 1 0 0 0 0 1 1 0 0 0 0 1 0 1 0]
 [0 0 2 1 0 0 1 1 0 0 1 1 1 0 1 0 0 0 1 1 0 0]
 [1 1 0 0 0 0 1 1 0 1 0 0 1 0 0 1 1 1 1 0 1 0]
 [0 0 1 0 1 1 1 0 1 0 0 0 1 1 0 0 0 0 1 0 0 1]]


#### 10.4. Técnicas de Feature Engineering para Dados de Texto
##### 10.4.1. Contagem de Caracteres e Palavras
Criar features que representam o número de caracteres e palavras em textos.

In [None]:
import pandas as pd

# Exemplo de dados de texto
data = pd.DataFrame({'text': ['This is a sentence.', 'This is another sentence.']})

# Contagem de caracteres e palavras
data['char_count'] = data['text'].apply(len)
data['word_count'] = data['text'].apply(lambda x: len(x.split()))

print(data)

                        text  char_count  word_count
0        This is a sentence.          19           4
1  This is another sentence.          25           4


##### 10.4.2. Frequência de N-Grams
Criar features que representam a frequência de n-grams em textos.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Exemplo de corpus de texto
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?'
]

# Criar n-grams
vectorizer = CountVectorizer(ngram_range=(1, 2))
X = vectorizer.fit_transform(corpus)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['and' 'and this' 'document' 'document is' 'first' 'first document' 'is'
 'is the' 'is this' 'one' 'second' 'second document' 'the' 'the first'
 'the second' 'the third' 'third' 'third one' 'this' 'this document'
 'this is' 'this the']
[[0 0 1 0 1 1 1 1 0 0 0 0 1 1 0 0 0 0 1 0 1 0]
 [0 0 2 1 0 0 1 1 0 0 1 1 1 0 1 0 0 0 1 1 0 0]
 [1 1 0 0 0 0 1 1 0 1 0 0 1 0 0 1 1 1 1 0 1 0]
 [0 0 1 0 1 1 1 0 1 0 0 0 1 1 0 0 0 0 1 0 0 1]]


#### 2.3. Remover as stopwords para ter features mais significativas
Stopwords são palavras comuns que geralmente são removidas em análises de texto para reduzir o ruído, como "o", "a", "de", etc.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?'
]
vectorizer = CountVectorizer(stop_words='english')
X = vectorizer.fit_transform(corpus)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['document' 'second']
[[1 0]
 [2 1]
 [0 0]
 [1 0]]


#### 2.4. Realizar stemming e lemmatization de expressões usando a biblioteca nltk
Stemming e lemmatization são técnicas para reduzir palavras às suas raízes ou formas base, respectivamente. Stemming é mais agressivo e menos preciso, enquanto lemmatization é mais preciso e considera o contexto da palavra.

In [None]:
import nltk
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet

# Baixar recursos necessários
nltk.download('wordnet')
nltk.download('omw-1.4')

ps = PorterStemmer()
lemmatizer = WordNetLemmatizer()

words = ["running", "ran", "runs", "easily", "fairly"]
stemmed_words = [ps.stem(word) for word in words]
lemmatized_words = [lemmatizer.lemmatize(word, wordnet.VERB) for word in words]

print("Stemming:", stemmed_words)
print("Lemmatization:", lemmatized_words)

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\dacio\AppData\Roaming\nltk_data...
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\dacio\AppData\Roaming\nltk_data...


Stemming: ['run', 'ran', 'run', 'easili', 'fairli']
Lemmatization: ['run', 'run', 'run', 'easily', 'fairly']


#### 2.5. Calcular Tf-Idf das palavras em uma base de documentos
TF-IDF (Term Frequency-Inverse Document Frequency) é uma técnica que pondera a frequência das palavras pelo inverso da frequência dos documentos, destacando palavras importantes que não são comuns em todos os documentos.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?'
]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['and' 'document' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
[[0.         0.46979139 0.58028582 0.38408524 0.         0.
  0.38408524 0.         0.38408524]
 [0.         0.6876236  0.         0.28108867 0.         0.53864762
  0.28108867 0.         0.28108867]
 [0.51184851 0.         0.         0.26710379 0.51184851 0.
  0.26710379 0.51184851 0.26710379]
 [0.         0.46979139 0.58028582 0.38408524 0.         0.
  0.38408524 0.         0.38408524]]


#### 2.6. Criar um modelo de classificação simples usando uma base codificada por TF-IDF
Vamos criar um modelo de classificação de texto usando TF-IDF e um classificador simples, como a Regressão Logística.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline

corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?'
]
labels = [0, 1, 1, 0]

X_train, X_test, y_train, y_test = train_test_split(corpus, labels, test_size=0.25, random_state=42)
pipeline = make_pipeline(TfidfVectorizer(), LogisticRegression())
pipeline.fit(X_train, y_train)
score = pipeline.score(X_test, y_test)

print(f"Accuracy: {score}")

Accuracy: 0.0
