# Revisão e Exercícios

B. Manipular dados textuais para algoritmos de Machine Learning

B.1. Utilizar a técnica de Bag-of-Words para transformar textos em vetores

A técnica Bag-of-Words representa textos como a frequência de palavras, ignorando a ordem.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Documentos de exemplo
documentos = ["Este é o primeiro documento.", "Este documento é o segundo documento.", "E este é o terceiro."]

# Aplicar Bag-of-Words
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documentos)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['documento' 'este' 'primeiro' 'segundo' 'terceiro']
[[1 1 1 0 0]
 [2 1 0 1 0]
 [0 1 0 0 1]]


B.2. Utilizar a técnica de Bag-of-nGrams para transformar textos em vetores

Bag-of-nGrams é uma extensão do Bag-of-Words que considera sequências de n palavras.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Documentos de exemplo
documentos = ["Este é o primeiro documento.", "Este documento é o segundo documento.", "E este é o terceiro."]

# Aplicar Bag-of-nGrams
vectorizer = CountVectorizer(ngram_range=(2, 2))
X = vectorizer.fit_transform(documentos)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['documento segundo' 'este documento' 'este primeiro' 'este terceiro'
 'primeiro documento' 'segundo documento']
[[0 0 1 0 1 0]
 [1 1 0 0 0 1]
 [0 0 0 1 0 0]]


B.3. Remover as stopwords para ter features mais significativas

Stopwords são palavras comuns que são removidas para focar nas palavras mais importantes.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Documentos de exemplo
documentos = ["Este é o primeiro documento.", "Este documento é o segundo documento.", "E este é o terceiro."]

# Aplicar Bag-of-Words com remoção de stopwords
vectorizer = CountVectorizer(stop_words='english')
X = vectorizer.fit_transform(documentos)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['documento' 'este' 'primeiro' 'segundo' 'terceiro']
[[1 1 1 0 0]
 [2 1 0 1 0]
 [0 1 0 0 1]]


B.4. Realizar stemming e lemmatization de expressões usando a biblioteca nltk

Stemming e lemmat

ization são técnicas para reduzir palavras às suas formas base ou raiz.

**Exemplo em Python:**

In [None]:
from nltk.stem import PorterStemmer, WordNetLemmatizer
import nltk
# nltk.download('wordnet')

# Exemplo de frases
frases = ["running", "runs", "easily", "fairly"]

# Aplicar stemming
stemmer = PorterStemmer()
stemmed_words = [stemmer.stem(word) for word in frases]

# Aplicar lemmatization
lemmatizer = WordNetLemmatizer()
lemmatized_words = [lemmatizer.lemmatize(word) for word in frases]

print(stemmed_words)
print(lemmatized_words)

['run', 'run', 'easili', 'fairli']
['running', 'run', 'easily', 'fairly']


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\dacio.souza\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


B.5. Calcular Tf-Idf das palavras em uma base de documentos

TF-IDF é uma técnica que pondera a frequência das palavras pela inversa da frequência nos documentos.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Documentos de exemplo
documentos = ["Este é o primeiro documento.", "Este documento é o segundo documento.", "E este é o terceiro."]

# Aplicar TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documentos)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['documento' 'este' 'primeiro' 'segundo' 'terceiro']
[[0.54783215 0.42544054 0.72033345 0.         0.        ]
 [0.7948031  0.30861775 0.         0.52253528 0.        ]
 [0.         0.50854232 0.         0.         0.861037  ]]


B.6. Criar um modelo de classificação simples usando uma base codificada por TF-IDF

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Documentos de exemplo
documentos = ["Este é um bom filme.", "Eu não gostei deste filme.", "Filme excelente, recomendo!", "Não foi um bom filme."]
labels = [1, 0, 1, 0]  # 1 = positivo, 0 = negativo

# Aplicar TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documentos)

# Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.25, random_state=42)

# Treinar modelo de classificação
modelo = MultinomialNB()
modelo.fit(X_train, y_train)

# Avaliar modelo
y_pred = modelo.predict(X_test)
print("Acurácia:", accuracy_score(y_test, y_pred))

Acurácia: 0.0


**Exercício Prático:**
1. Colete um conjunto de 50 reviews de filmes, classificando-os como positivos ou negativos.
2. Utilize a técnica TF-IDF para transformar os textos em vetores.
3. Treine um modelo de classificação utilizando `MultinomialNB`.
4. Avalie a performance do modelo utilizando métricas como acurácia, precisão e recall.



# B. Manipular dados textuais para algoritmos de Machine Learning

## B.1. Utilizar a técnica de Bag-of-Words para transformar textos em vetores

**Definição:**
A técnica Bag-of-Words representa textos como a frequência de palavras, ignorando a ordem.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Documentos de exemplo
documentos = ["Este é o primeiro documento.", "Este documento é o segundo documento.", "E este é o terceiro."]

# Aplicar Bag-of-Words
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documentos)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['documento' 'este' 'primeiro' 'segundo' 'terceiro']
[[1 1 1 0 0]
 [2 1 0 1 0]
 [0 1 0 0 1]]


**Exercício Prático:**
1. Colete 10 textos de notícias de diferentes fontes.
2. Aplique a técnica de Bag-of-Words para transformar os textos em vetores.
3. Verifique as palavras mais frequentes em cada documento e no conjunto total.

B.2. Utilizar a técnica de Bag-of-nGrams para transformar textos em vetores

**Definição:**
Bag-of-nGrams é uma extensão do Bag-of-Words que considera sequências de n palavras.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Documentos de exemplo
documentos = ["Este é o primeiro documento.", "Este documento é o segundo documento.", "E este é o terceiro."]

# Aplicar Bag-of-nGrams
vectorizer = CountVectorizer(ngram_range=(2, 2))
X = vectorizer.fit_transform(documentos)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['documento segundo' 'este documento' 'este primeiro' 'este terceiro'
 'primeiro documento' 'segundo documento']
[[0 0 1 0 1 0]
 [1 1 0 0 0 1]
 [0 0 0 1 0 0]]


**Exercício Prático:**
1. Utilize os mesmos textos do exercício anterior.
2. Aplique a técnica de Bag-of-nGrams considerando n=2.
3. Compare os resultados com a técnica de Bag-of-Words.

B.3. Remover as stopwords para ter features mais significativas

**Definição:**
Stopwords são palavras comuns que são removidas para focar nas palavras mais importantes.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Documentos de exemplo
documentos = ["Este é o primeiro documento.", "Este documento é o segundo documento.", "E este é o terceiro."]

# Aplicar Bag-of-Words com remoção de stopwords
vectorizer = CountVectorizer(stop_words='english')
X = vectorizer.fit_transform(documentos)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['documento' 'este' 'primeiro' 'segundo' 'terceiro']
[[1 1 1 0 0]
 [2 1 0 1 0]
 [0 1 0 0 1]]


**Exercício Prático:**
1. Utilize os textos do exercício anterior.
2. Aplique a técnica de Bag-of-Words removendo stopwords.
3. Compare os resultados antes e depois da remoção de stopwords.

B.4. Realizar stemming e lemmatization de expressões usando a biblioteca nltk

**Definição:**
Stemming e lemmatization são técnicas para reduzir palavras às suas formas base ou raiz.

**Exemplo em Python:**

In [None]:
from nltk.stem import PorterStemmer, WordNetLemmatizer
import nltk
# nltk.download('wordnet')

# Exemplo de frases
frases = ["running", "runs", "easily", "fairly"]

# Aplicar stemming
stemmer = PorterStemmer()
stemmed_words = [stemmer.stem(word) for word in frases]

# Aplicar lemmatization
lemmatizer = WordNetLemmatizer()
lemmatized_words = [lemmatizer.lemmatize(word) for word in frases]

print(stemmed_words)
print(lemmatized_words)

['run', 'run', 'easili', 'fairli']
['running', 'run', 'easily', 'fairly']


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\dacio.souza\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


**Exercício Prático:**
1. Colete um conjunto de 20 palavras variadas (verbos, advérbios, substantivos).
2. Aplique o stemming utilizando o `PorterStemmer`.
3. Aplique a lemmatization utilizando o `WordNetLemmatizer`.
4. Compare os resultados e discuta as diferenças entre as duas técnicas.

B.5. Calcular Tf-Idf das palavras em uma base de documentos

**Definição:**
TF-IDF é uma técnica que pondera a frequência das palavras pela inversa da frequência nos documentos.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Documentos de exemplo
documentos = ["Este é o primeiro documento.", "Este documento é o segundo documento.", "E este é o terceiro."]

# Aplicar TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documentos)

print(vectorizer.get_feature_names_out())
print(X.toarray())

['documento' 'este' 'primeiro' 'segundo' 'terceiro']
[[0.54783215 0.42544054 0.72033345 0.         0.        ]
 [0.7948031  0.30861775 0.         0.52253528 0.        ]
 [0.         0.50854232 0.         0.         0.861037  ]]


**Exercício Prático:**
1. Utilize os textos dos exercícios anteriores.
2. Aplique a técnica TF-IDF para calcular a importância das palavras.
3. Compare os vetores TF-IDF com os vetores de Bag-of-Words e Bag-of-nGrams.

B.6. Criar um modelo de classificação simples usando uma base codificada por TF-IDF

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Documentos de exemplo
documentos = ["Este é um bom filme.", "Eu não gostei deste filme.", "Filme excelente, recomendo!", "Não foi um bom filme."]
labels = [1, 0, 1, 0]  # 1 = positivo, 0 = negativo

# Aplicar TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documentos)

# Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.25, random_state=42)

# Treinar modelo de classificação
modelo = MultinomialNB()
modelo.fit(X_train, y_train)

# Avaliar modelo
y_pred = modelo.predict(X_test)
print("Acurácia:", accuracy_score(y_test, y_pred))

Acurácia: 0.0



C. Vetorizar dados categóricos para algoritmos de Machine Learning

C.1. Vetorizar variáveis categóricas usando One-Hot encoding

**Definição:**
One-Hot Encoding transforma cada categoria em uma coluna binária separada.

**Exemplo em Python:**

In [None]:
import pandas as pd

# Dados de exemplo
dados = pd.DataFrame({'categoria': ['A', 'B', 'C', 'A', 'B']})

# Aplicar One-Hot Encoding
dados_encoded = pd.get_dummies(dados, columns=['categoria'])

print(dados_encoded)

   categoria_A  categoria_B  categoria_C
0         True        False        False
1        False         True        False
2        False        False         True
3         True        False        False
4        False         True        False


**Exercício Prático:**
1. Crie um conjunto de dados com 3 variáveis categóricas e 100 exemplos.
2. Aplique a técnica One-Hot Encoding.
3. Compare a dimensão do dataset antes e depois da transformação.

C.2. Vetorizar variáveis categóricas usando Dummy encoding

**Definição:**
Dummy Encoding é semelhante ao One-Hot Encoding, mas omite uma das categorias para evitar colinearidade perfeita.

**Exemplo em Python:**

In [None]:
import pandas as pd

# Dados de exemplo
dados = pd.DataFrame({'categoria': ['A', 'B', 'C', 'A', 'B']})

# Aplicar Dummy Encoding
dados_encoded = pd.get_dummies(dados, columns=['categoria'], drop_first=True)

print(dados_encoded)

   categoria_B  categoria_C
0        False        False
1         True        False
2        False         True
3        False        False
4         True        False


**Exercício Prático:**
1. Utilize os mesmos dados do exercício anterior.
2. Aplique a técnica Dummy Encoding.
3. Compare os resultados com a técnica One-Hot Encoding e discuta as diferenças.

C.3. Vetorizar variáveis categóricas usando Effect encoding

**Definição:**
Effect Encoding transforma categorias em variáveis que representam o efeito de cada categoria comparado à média.

**Exemplo em Python:**

In [None]:
import statsmodels.api as sm
import pandas as pd

# Dados de exemplo
dados = pd

.DataFrame({'categoria': ['A', 'B', 'C', 'A', 'B']})
dados['intercept'] = 1

# Aplicar Effect Encoding
dados_encoded = pd.get_dummies(dados, columns=['categoria'], drop_first=True)
dados_encoded = sm.add_constant(dados_encoded, prepend=False, has_constant='add')

print(dados_encoded)

SyntaxError: invalid syntax (600882661.py, line 7)

**Exercício Prático:**
1. Crie um conjunto de dados com uma variável categórica e 50 exemplos.
2. Aplique a técnica Effect Encoding.
3. Compare os resultados com One-Hot Encoding e Dummy Encoding.

C.4. Explicar os pontos positivos e negativos de vetorizar variáveis categóricas

**Definição:**
- **Pontos Positivos:**
  - Permite que modelos matemáticos trabalhem com dados categóricos.
  - Melhora a interpretação do impacto de cada categoria no modelo.

- **Pontos Negativos:**
  - Aumento significativo da dimensionalidade dos dados, especialmente com muitas categorias.
  - Pode introduzir colinearidade (ocorrência de Dummy Trap).

**Exercício Prático:**
1. Discorra sobre os pontos positivos e negativos de cada método de vetorizar variáveis categóricas.
2. Aplique diferentes métodos de vetorizar em um conjunto de dados real e compare os resultados.

C.5. Manipular grande volume de variáveis categóricas com Feature Hashing e Bin Counting

**Feature Hashing:** Transforma variáveis categóricas em uma representação numérica de dimensão fixa usando uma função hash.
**Bin Counting:** Conta a frequência de cada categoria e usa essas contagens como features.

**Exemplo em Python (Feature Hashing):**

In [None]:
from sklearn.feature_extraction import FeatureHasher

# Dados de exemplo
dados = [{'categoria': 'A'}, {'categoria': 'B'}, {'categoria': 'C'}, {'categoria': 'A'}, {'categoria': 'B'}]

# Aplicar Feature Hashing
hasher = FeatureHasher(input_type='dict', n_features=5)
dados_hashed = hasher.transform(dados)

print(dados_hashed.toarray())

**Exercício Prático:**
1. Crie um conjunto de dados com uma variável categórica contendo muitas categorias (mais de 100).
2. Aplique a técnica Feature Hashing.
3. Compare os resultados com a técnica One-Hot Encoding em termos de dimensionalidade e desempenho.

D. Reduzir dimensionalidade através da análise de componentes principais (PCA)

D.1. Explicar o que é uma projeção linear aplicada ao espaço de dados

**Definição:**
Uma projeção linear é a transformação de um espaço de alta dimensão para uma subespaço de menor dimensão usando combinações lineares das variáveis originais. Em PCA, as projeções são feitas de forma a maximizar a variância explicada pelos dados.

**Exercício Prático:**
1. Crie um conjunto de dados com 5 features e 200 exemplos.
2. Realize uma projeção linear reduzindo a dimensionalidade para 2D.
3. Plote os dados projetados em um gráfico de dispersão.

D.2. Explicar as etapas do algoritmo de PCA para extração dos componentes principais

**Definição:**
1. **Centralizar os dados:** Subtrair a média de cada variável.
2. **Calcular a matriz de covariância:** Para entender as relações entre as variáveis.
3. **Calcular os autovalores e autovetores:** Para encontrar as direções das maiores variâncias.
4. **Ordenar os autovetores:** De acordo com os autovalores, em ordem decrescente.
5. **Projetar os dados originais:** Nos novos eixos (autovetores) para reduzir a dimensionalidade.

**Exercício Prático:**
1. Crie um conjunto de dados e aplique as etapas do PCA manualmente utilizando uma biblioteca como NumPy.
2. Compare os resultados com a aplicação do PCA utilizando a biblioteca scikit-learn.

D.3. Utilizar PCA em uma base dados e selecionar as componentes mais relevantes

**Exemplo em Python:**

In [None]:
import numpy as np
from sklearn.decomposition import PCA

# Dados de exemplo
dados = np.random.rand(100, 5)  # 100 exemplos, 5 features

# Aplicar PCA
pca = PCA(n_components=2)
dados_reduzidos = pca.fit_transform(dados)

print(dados_reduzidos)
print(pca.explained_variance_ratio_)

**Exercício Prático:**
1. Utilize um dataset real e aplique PCA para reduzir a dimensionalidade.
2. Selecione as componentes que explicam pelo menos 95% da variância.
3. Plote a variância explicada por cada componente.

D.4. Relacionar o processo de whitening e PCA

**Definição:**
O processo de whitening em PCA normaliza os dados projetados para que tenham média zero e variância unitária. Isso remove qualquer correlação entre os componentes principais, tornando-os independentes.

**Exercício Prático:**
1. Aplique PCA com whitening em um conjunto de dados.
2. Compare os dados transformados com e sem whitening utilizando gráficos de dispersão.

D.5. Escolher o número de componentes de uma PCA baseado na curva de carga

**Definição:**
A curva de carga (scree plot) mostra a variância explicada por cada componente principal. O número de componentes é escolhido com base no "cotovelo" da curva, onde a taxa de variação da variância explicada diminui significativamente.

**Exemplo em Python:**

In [None]:
import matplotlib.pyplot as plt
import numpy as np
from sklearn.decomposition import PCA

# Dados de exemplo
dados = np.random.rand(100, 5)  # 100 exemplos, 5 features

# Aplicar PCA
pca = PCA()
pca.fit(dados)

# Plotar curva de carga
plt.plot(np.cumsum(pca.explained_variance_ratio_))
plt.xlabel('Número de Componentes')
plt.ylabel('Variância Explicada Acumulada')
plt.title('Curva de Carga')
plt.show()

**Exercício Prático:**
1. Utilize um dataset real e aplique PCA.
2. Plote a curva de carga e escolha o número de componentes baseado na curva.
3. Justifique a escolha do número de componentes.

D.6. Explicar as limitações da PCA

**Definição:**
- Assume linearidade nas relações entre variáveis.
- Sensível à escala das variáveis.
- Não é adequada para dados com relações não lineares.
- Pode ser difícil interpretar os componentes principais.

**Exercício Prático:**
1. Discorra sobre as limitações da PCA.
2. Aplique PCA em um conjunto de dados e discuta os resultados considerando as limitações.

D.7. Aplicar PCA em diversas bases de diferentes contextos

**Exemplo em Python:**

In [None]:
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA

# Carregar dados de exemplo (Iris dataset)
iris = load_iris()
X = iris.data

# Aplicar PCA
pca = PCA(n_components=2)
X_reduzido = pca.fit_transform(X)

print(X_reduzido)
print(pca.explained_variance_ratio_)

**Exercício Prático:**
1. Aplique PCA em diferentes conjuntos de dados (ex: financeiro, biológico, etc.).
2. Compare os resultados e discuta a aplicabilidade do PCA em cada contexto.

**Exercícios Práticos para Alunos sobre Vetorização de Dados Textuais**

### Exercício 1: Utilizar a técnica de Bag-of-Words para transformar textos em vetores

**Objetivo:**
Aplicar a técnica Bag-of-Words em um conjunto de textos e entender como transformar textos em vetores de frequência de palavras.

**Instruções:**
1. Colete 10 textos de notícias de diferentes fontes. Cada texto deve ter entre 50 e 100 palavras.
2. Importe a biblioteca `CountVectorizer` do scikit-learn.
3. Aplique a técnica Bag-of-Words nos textos coletados.
4. Liste as palavras mais frequentes em cada documento e no conjunto total.

**Código Exemplo:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Textos de exemplo (substitua pelos textos coletados)
documentos = ["Texto 1...", "Texto 2...", "Texto 3...", "Texto 4...", "Texto 5...",
              "Texto 6...", "Texto 7...", "Texto 8...", "Texto 9...", "Texto 10..."]

# Aplicar Bag-of-Words
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documentos)

print("Palavras:", vectorizer.get_feature_names_out())
print("Matriz de Frequência:\n", X.toarray())

### Exercício 2: Utilizar a técnica de Bag-of-nGrams para transformar textos em vetores

**Objetivo:**
Explorar a técnica Bag-of-nGrams e compreender como a sequência de palavras pode influenciar a representação dos textos.

**Instruções:**
1. Utilize os mesmos textos do exercício anterior.
2. Importe a biblioteca `CountVectorizer` do scikit-learn.
3. Aplique a técnica Bag-of-nGrams considerando n=2.
4. Compare os resultados com a técnica Bag-of-Words.

**Código Exemplo:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Textos de exemplo (substitua pelos textos coletados)
documentos = ["Texto 1...", "Texto 2...", "Texto 3...", "Texto 4...", "Texto 5...",
              "Texto 6...", "Texto 7...", "Texto 8...", "Texto 9...", "Texto 10..."]

# Aplicar Bag-of-nGrams
vectorizer = CountVectorizer(ngram_range=(2, 2))
X = vectorizer.fit_transform(documentos)

print("nGrams:", vectorizer.get_feature_names_out())
print("Matriz de Frequência:\n", X.toarray())

### Exercício 3: Remover as stopwords para ter features mais significativas

**Objetivo:**
Remover palavras comuns (stopwords) para focar nas palavras mais importantes e significativas dos textos.

**Instruções:**
1. Utilize os textos do exercício anterior.
2. Importe a biblioteca `CountVectorizer` do scikit-learn.
3. Aplique a técnica Bag-of-Words removendo as stopwords.
4. Compare os resultados antes e depois da remoção de stopwords.

**Código Exemplo:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Textos de exemplo (substitua pelos textos coletados)
documentos = ["Texto 1...", "Texto 2...", "Texto 3...", "Texto 4...", "Texto 5...",
              "Texto 6...", "Texto 7...", "Texto 8...", "Texto 9...", "Texto 10..."]

# Aplicar Bag-of-Words com remoção de stopwords
vectorizer = CountVectorizer(stop_words='english')
X = vectorizer.fit_transform(documentos)

print("Palavras sem Stopwords:", vectorizer.get_feature_names_out())
print("Matriz de Frequência sem Stopwords:\n", X.toarray())

### Exercício 4: Realizar stemming e lemmatization de expressões usando a biblioteca nltk

**Objetivo:**
Aplicar as técnicas de stemming e lemmatization para reduzir palavras às suas formas base ou raiz.

**Instruções:**
1. Colete um conjunto de 20 palavras variadas (verbos, advérbios, substantivos).
2. Importe as bibliotecas `PorterStemmer` e `WordNetLemmatizer` da nltk.
3. Aplique o stemming utilizando o `PorterStemmer`.
4. Aplique a lemmatization utilizando o `WordNetLemmatizer`.
5. Compare os resultados e discuta as diferenças entre as duas técnicas.

**Código Exemplo:**

In [None]:
from nltk.stem import PorterStemmer, WordNetLemmatizer
import nltk
# nltk.download('wordnet')

# Exemplo de palavras
palavras = ["running", "runs", "easily", "fairly", "driving", "drove", "better", "good", "dogs", "flying"]

# Aplicar stemming
stemmer = PorterStemmer()
stemmed_words = [stemmer.stem(word) for word in palavras]

# Aplicar lemmatization
lemmatizer = WordNetLemmatizer()
lemmatized_words = [lemmatizer.lemmatize(word) for word in palavras]

print("Stemming:", stemmed_words)
print("Lemmatization:", lemmatized_words)

### Exercício 5: Calcular Tf-Idf das palavras em uma base de documentos

**Objetivo:**
Aplicar a técnica TF-IDF para calcular a importância das palavras em um conjunto de textos.

**Instruções:**
1. Utilize os textos dos exercícios anteriores.
2. Importe a biblioteca `TfidfVectorizer` do scikit-learn.
3. Aplique a técnica TF-IDF para calcular a importância das palavras.
4. Compare os vetores TF-IDF com os vetores de Bag-of-Words e Bag-of-nGrams.

**Código Exemplo:**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Textos de exemplo (substitua pelos textos coletados)
documentos = ["Texto 1...", "Texto 2...", "Texto 3...", "Texto 4...", "Texto 5...",
              "Texto 6...", "Texto 7...", "Texto 8...", "Texto 9...", "Texto 10..."]

# Aplicar TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documentos)

print("Palavras com TF-IDF:", vectorizer.get_feature_names_out())
print("Matriz TF-IDF:\n", X.toarray())

### Exercício 6: Criar um modelo de classificação simples usando uma base codificada por TF-IDF

**Objetivo:**
Treinar e avaliar um modelo de classificação utilizando a técnica TF-IDF para codificar os textos.

**Instruções:**
1. Colete um conjunto de 50 reviews de filmes, classificando-os como positivos ou negativos.
2. Utilize a técnica TF-IDF para transformar os textos em vetores.
3. Treine um modelo de classificação utilizando `MultinomialNB`.
4. Avalie a performance do modelo utilizando métricas como acurácia, precisão e recall.

**Código Exemplo:**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score

# Reviews de exemplo (substitua pelos reviews coletados)
documentos = ["Este é um bom filme.", "Eu não gostei deste filme.", "Filme excelente, recomendo!", "Não foi um bom filme.",
              "Ótima atuação e enredo.", "Muito chato e previsível.", "Uma obra-prima.", "Não vale a pena assistir.",
              "Simplesmente adorável.", "Terrível e decepcionante."]
labels = [1, 0, 1, 0, 1, 0, 1, 0, 1, 0]  # 1 = positivo, 0 = negativo

# Aplicar TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documentos)

# Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.25, random_state=42)

# Treinar modelo de classificação
modelo = MultinomialNB()
modelo.fit(X_train, y_train)

# Avaliar modelo
y_pred = modelo.predict(X_test)
print("Acurácia:", accuracy_score(y_test, y_pred))
print("Precisão:", precision_score(y_test, y_pred))
print("Recall:", recall_score(y_test, y_pred))

**Exercícios Práticos para Alunos sobre Vetorização de Dados Textuais**

### Exercício 1: Utilizar a técnica de Bag-of-Words para transformar textos em vetores

**Objetivo:**
Aplicar a técnica Bag-of-Words em um conjunto de textos e entender como transformar textos em vetores de frequência de palavras.

**Instruções:**
1. Colete 10 textos de notícias de diferentes fontes. Cada texto deve ter entre 50 e 100 palavras.
2. Importe a biblioteca `CountVectorizer` do scikit-learn.
3. Aplique a técnica Bag-of-Words nos textos coletados.
4. Liste as palavras mais frequentes em cada documento e no conjunto total.

**Código Exemplo:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Textos de exemplo (substitua pelos textos coletados)
documentos = ["Texto 1...", "Texto 2...", "Texto 3...", "Texto 4...", "Texto 5...",
              "Texto 6...", "Texto 7...", "Texto 8...", "Texto 9...", "Texto 10..."]

# Aplicar Bag-of-Words
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documentos)

print("Palavras:", vectorizer.get_feature_names_out())
print("Matriz de Frequência:\n", X.toarray())

### Exercício 2: Utilizar a técnica de Bag-of-nGrams para transformar textos em vetores

**Objetivo:**
Explorar a técnica Bag-of-nGrams e compreender como a sequência de palavras pode influenciar a representação dos textos.

**Instruções:**
1. Utilize os mesmos textos do exercício anterior.
2. Importe a biblioteca `CountVectorizer` do scikit-learn.
3. Aplique a técnica Bag-of-nGrams considerando n=2.
4. Compare os resultados com a técnica Bag-of-Words.

**Código Exemplo:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Textos de exemplo (substitua pelos textos coletados)
documentos = ["Texto 1...", "Texto 2...", "Texto 3...", "Texto 4...", "Texto 5...",
              "Texto 6...", "Texto 7...", "Texto 8...", "Texto 9...", "Texto 10..."]

# Aplicar Bag-of-nGrams
vectorizer = CountVectorizer(ngram_range=(2, 2))
X = vectorizer.fit_transform(documentos)

print("nGrams:", vectorizer.get_feature_names_out())
print("Matriz de Frequência:\n", X.toarray())

### Exercício 3: Remover as stopwords para ter features mais significativas

**Objetivo:**
Remover palavras comuns (stopwords) para focar nas palavras mais importantes e significativas dos textos.

**Instruções:**
1. Utilize os textos do exercício anterior.
2. Importe a biblioteca `CountVectorizer` do scikit-learn.
3. Aplique a técnica Bag-of-Words removendo as stopwords.
4. Compare os resultados antes e depois da remoção de stopwords.

**Código Exemplo:**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Textos de exemplo (substitua pelos textos coletados)
documentos = ["Texto 1...", "Texto 2...", "Texto 3...", "Texto 4...", "Texto 5...",
              "Texto 6...", "Texto 7...", "Texto 8...", "Texto 9...", "Texto 10..."]

# Aplicar Bag-of-Words com remoção de stopwords
vectorizer = CountVectorizer(stop_words='english')
X = vectorizer.fit_transform(documentos)

print("Palavras sem Stopwords:", vectorizer.get_feature_names_out())
print("Matriz de Frequência sem Stopwords:\n", X.toarray())

### Exercício 4: Realizar stemming e lemmatization de expressões usando a biblioteca nltk

**Objetivo:**
Aplicar as técnicas de stemming e lemmatization para reduzir palavras às suas formas base ou raiz.

**Instruções:**
1. Colete um conjunto de 20 palavras variadas (verbos, advérbios, substantivos).
2. Importe as bibliotecas `PorterStemmer` e `WordNetLemmatizer` da nltk.
3. Aplique o stemming utilizando o `PorterStemmer`.
4. Aplique a lemmatization utilizando o `WordNetLemmatizer`.
5. Compare os resultados e discuta as diferenças entre as duas técnicas.

**Código Exemplo:**

In [None]:
from nltk.stem import PorterStemmer, WordNetLemmatizer
import nltk
# nltk.download('wordnet')

# Exemplo de palavras
palavras = ["running", "runs", "easily", "fairly", "driving", "drove", "better", "good", "dogs", "flying"]

# Aplicar stemming
stemmer = PorterStemmer()
stemmed_words = [stemmer.stem(word) for word in palavras]

# Aplicar lemmatization
lemmatizer = WordNetLemmatizer()
lemmatized_words = [lemmatizer.lemmatize(word) for word in palavras]

print("Stemming:", stemmed_words)
print("Lemmatization:", lemmatized_words)

### Exercício 5: Calcular Tf-Idf das palavras em uma base de documentos

**Objetivo:**
Aplicar a técnica TF-IDF para calcular a importância das palavras em um conjunto de textos.

**Instruções:**
1. Utilize os textos dos exercícios anteriores.
2. Importe a biblioteca `TfidfVectorizer` do scikit-learn.
3. Aplique a técnica TF-IDF para calcular a importância das palavras.
4. Compare os vetores TF-IDF com os vetores de Bag-of-Words e Bag-of-nGrams.

**Código Exemplo:**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Textos de exemplo (substitua pelos textos coletados)
documentos = ["Texto 1...", "Texto 2...", "Texto 3...", "Texto 4...", "Texto 5...",
              "Texto 6...", "Texto 7...", "Texto 8...", "Texto 9...", "Texto 10..."]

# Aplicar TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documentos)

print("Palavras com TF-IDF:", vectorizer.get_feature_names_out())
print("Matriz TF-IDF:\n", X.toarray())

### Exercício 6: Criar um modelo de classificação simples usando uma base codificada por TF-IDF

**Objetivo:**
Treinar e avaliar um modelo de classificação utilizando a técnica TF-IDF para codificar os textos.

**Instruções:**
1. Colete um conjunto de 50 reviews de filmes, classificando-os como positivos ou negativos.
2. Utilize a técnica TF-IDF para transformar os textos em vetores.
3. Treine um modelo de classificação utilizando `MultinomialNB`.
4. Avalie a performance do modelo utilizando métricas como acurácia, precisão e recall.

**Código Exemplo:**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score

# Reviews de exemplo (substitua pelos reviews coletados)
documentos = ["Este é um bom filme.", "Eu não gostei deste filme.", "Filme excelente, recomendo!", "Não foi um bom filme.",
              "Ótima atuação e enredo.", "Muito chato e previsível.", "Uma obra-prima.", "Não vale a pena assistir.",
              "Simplesmente adorável.", "Terrível e decepcionante."]
labels = [1, 0, 1, 0, 1, 0, 1, 0, 1, 0]  # 1 = positivo, 0 = negativo

# Aplicar TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documentos)

# Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.25, random_state=42)

# Treinar modelo de classificação
modelo = MultinomialNB()
modelo.fit(X_train, y_train)

# Avaliar modelo
y_pred = modelo.predict(X_test)
print("Acurácia:", accuracy_score(y_test, y_pred))
print("Precisão:", precision_score(y_test, y_pred))
print("Recall:", recall_score(y_test, y_pred))
X.toarray()

Acurácia: 0.3333333333333333
Precisão: 0.3333333333333333
Recall: 1.0


array([[0.        , 0.        , 0.        , 0.5007009 , 0.        ,
        0.        , 0.        , 0.        , 0.58899657, 0.        ,
        0.        , 0.3894615 , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.5007009 , 0.        ,
        0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.50060377, 0.        , 0.        , 0.50060377,
        0.        , 0.33101364, 0.        , 0.50060377, 0.        ,
        0.37231379, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.64054894, 0.42354941, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.    

### Continuação dos Tópicos Detalhados e Exercícios Práticos

G. Reduzir dimensionalidade através da análise de componentes principais (PCA)

G.1. Explicar o que é uma projeção linear aplicada ao espaço de dados

**Definição:**
Uma projeção linear é a transformação de um espaço de alta dimensão para um subespaço de menor dimensão usando combinações lineares das variáveis originais. Em PCA, as projeções são feitas de forma a maximizar a variância explicada pelos dados.

**Exercício Prático:**
1. Crie um conjunto de dados com 5 features e 200 exemplos.
2. Realize uma projeção linear reduzindo a dimensionalidade para 2D.
3. Plote os dados projetados em um gráfico de dispersão.

**Código Exemplo:**

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Dados de exemplo
dados = np.random.rand(200, 5)  # 200 exemplos, 5 features

# Matriz de projeção (para simplificação, usamos uma matriz de projeção aleatória)
projecao = np.random.rand(5, 2)

# Projeção linear
dados_projetados = np.dot(dados, projecao)

# Plotar os dados projetados
plt.scatter(dados_projetados[:, 0], dados_projetados[:, 1])
plt.title('Projeção Linear dos Dados')
plt.xlabel('Componente 1')
plt.ylabel('Componente 2')
plt.show()

G.2. Explicar as etapas do algoritmo de PCA para extração dos componentes principais

**Definição:**
1. **Centralizar os dados:** Subtrair a média de cada variável.
2. **Calcular a matriz de covariância:** Para entender as relações entre as variáveis.
3. **Calcular os autovalores e autovetores:** Para encontrar as direções das maiores variâncias.
4. **Ordenar os autovetores:** De acordo com os autovalores, em ordem decrescente.
5. **Projetar os dados originais:** Nos novos eixos (autovetores) para reduzir a dimensionalidade.

**Exercício Prático:**
1. Crie um conjunto de dados e aplique as etapas do PCA manualmente utilizando uma biblioteca como NumPy.
2. Compare os resultados com a aplicação do PCA utilizando a biblioteca scikit-learn.

**Código Exemplo:**

In [None]:
import numpy as np

# Dados de exemplo
dados = np.random.rand(100, 3)  # 100 exemplos, 3 features

# Centralizar os dados
dados_centralizados = dados - np.mean(dados, axis=0)

# Calcular a matriz de covariância
matriz_covariancia = np.cov(dados_centralizados, rowvar=False)

# Calcular os autovalores e autovetores
autovalores, autovetores = np.linalg.eig(matriz_covariancia)

# Ordenar os autovetores de acordo com os autovalores
ordem = np.argsort(autovalores)[::-1]
autovalores_ordenados = autovalores[ordem]
autovetores_ordenados = autovetores[:, ordem]

# Projetar os dados nos novos eixos
dados_projetados = np.dot(dados_centralizados, autovetores_ordenados)

print("Dados Projetados:\n", dados_projetados)

G.3. Utilizar PCA em uma base dados e selecionar as componentes mais relevantes

**Exemplo em Python:**

In [None]:
import numpy as np
from sklearn.decomposition import PCA

# Dados de exemplo
dados = np.random.rand(100, 5)  # 100 exemplos, 5 features

# Aplicar PCA
pca = PCA(n_components=2)
dados_reduzidos = pca.fit_transform(dados)

print("Dados Reduzidos:\n", dados_reduzidos)
print("Variância Explicada:", pca.explained_variance_ratio_)

**Exercício Prático:**
1. Utilize um dataset real e aplique PCA para reduzir a dimensionalidade.
2. Selecione as componentes que explicam pelo menos 95% da variância.
3. Plote a variância explicada por cada componente.

**Código Exemplo:**

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

# Carregar dados de exemplo
dados = load_iris().data

# Aplicar PCA
pca = PCA()
pca.fit(dados)

# Plotar a variância explicada por cada componente
plt.plot(np.cumsum(pca.explained_variance_ratio_))
plt.xlabel('Número de Componentes')
plt.ylabel('Variância Explicada Acumulada')
plt.title('Curva de Carga')
plt.show()

G.4. Relacionar o processo de whitening e PCA

**Definição:**
O processo de whitening em PCA normaliza os dados projetados para que tenham média zero e variância unitária. Isso remove qualquer correlação entre os componentes principais, tornando-os independentes.

**Exercício Prático:**
1. Aplique PCA com whitening em um conjunto de dados.
2. Compare os dados transformados com e sem whitening utilizando gráficos de dispersão.

**Código Exemplo:**

In [None]:
import numpy as np
from sklearn.decomposition import PCA

# Dados de exemplo
dados = np.random.rand(100, 5)  # 100 exemplos, 5 features

# Aplicar PCA com whitening
pca = PCA(whiten=True)
dados_whitened = pca.fit_transform(dados)

print("Dados com Whitening:\n", dados_whitened)

G.5. Escolher o número de componentes de uma PCA baseado na curva de carga

**Definição:**
A curva de carga (scree plot) mostra a variância explicada por cada componente principal. O número de componentes é escolhido com base no "cotovelo" da curva, onde a taxa de variação da variância explicada diminui significativamente.

**Exemplo em Python:**

In [None]:
import matplotlib.pyplot as plt
import numpy as np
from sklearn.decomposition import PCA

# Dados de exemplo
dados = np.random.rand(100, 5)  # 100 exemplos, 5 features

# Aplicar PCA
pca = PCA()
pca.fit(dados)

# Plotar curva de carga
plt.plot(np.cumsum(pca.explained_variance_ratio_))
plt.xlabel('Número de Componentes')
plt.ylabel('Variância Explicada Acumulada')
plt.title('Curva de Carga')
plt.show()

**Exercício Prático:**
1. Utilize um dataset real e aplique PCA.
2. Plote a curva de carga e escolha o número de componentes baseado na curva.
3. Justifique a escolha do número de componentes.

**Código Exemplo:**

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.datasets import load_wine

# Carregar dados de exemplo
dados = load_wine().data

# Aplicar PCA
pca = PCA()
pca.fit(dados)

# Plotar a curva de carga
plt.plot(np.cumsum(pca.explained_variance_ratio_))
plt.xlabel('Número de Componentes')
plt.ylabel('Variância Explicada Acumulada')
plt.title('Curva de Carga')
plt.show()

G.6. Explicar as limitações da PCA

**Definição:**
- Assume linearidade nas relações entre variáveis.
- Sensível à escala das variáveis.
- Não é adequada para dados com relações não lineares.
- Pode ser difícil interpretar os componentes principais.

**Exercício Prático:**
1. Discorra sobre as limitações da PCA.
2. Aplique PCA em um conjunto de dados e discuta os resultados considerando as limitações.

G.7. Aplicar PCA em diversas bases de diferentes contextos

**Exemplo em Python:**

In [None]:
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA

# Carregar dados de exemplo (Iris dataset)
iris = load_iris()
X = iris.data

# Aplicar PCA
pca = PCA(n_components=2)
X_reduzido = pca.fit_transform(X)

print(X_reduzido)
print(pca.explained_variance_ratio_)

**Exercício Prático:**
1. Aplique PCA em diferentes conjuntos de dados (ex: financeiro, biológico, etc.).
2. Compare os resultados e discuta a aplicabilidade do PCA em cada contexto.


### Continuação dos Tópicos Detalhados e Exercícios Práticos

H. Selecionar as features úteis para o modelo usando uma das três técnicas: Filtragem, Wrapper e Embedding

H.1. Técnica de Filtragem

**Definição:**
A técnica de filtragem seleciona as features com base em estatísticas univariadas, como a correlação, variância ou outras métricas estatísticas, sem considerar um modelo de machine learning específico. 

**Exemplo em Python:**

In [None]:
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest, f_classif

# Carregar dados de exemplo
iris = load_iris()
X, y = iris.data, iris.target

# Selecionar as 2 melhores features
selector = SelectKBest(score_func=f_classif, k=2)
X_novas = selector.fit_transform(X, y)

print(X_novas)

**Exercício Prático:**
1. Utilize um dataset disponível no sklearn (ex: Iris).
2. Aplique a técnica de filtragem para selecionar as melhores features.
3. Compare os resultados com o dataset original e discuta a relevância das features selecionadas.

H.2. Técnica Wrapper

**Definição:**
A técnica Wrapper utiliza um modelo de machine learning para avaliar a importância de cada subset de features. A técnica mais comum é o método de seleção recursiva de features (RFE).

**Exemplo em Python:**

In [None]:
from sklearn.datasets import load_iris
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

# Carregar dados de exemplo
iris = load_iris()
X, y = iris.data, iris.target

# Aplicar RFE com regressão logística
modelo = LogisticRegression(max_iter=200)
selector = RFE(modelo, n_features_to_select=2, step=1)
selector = selector.fit(X, y)

print("Features Selecionadas:", selector.support_)
print("Ranking das Features:", selector.ranking_)

**Exercício Prático:**
1. Utilize um dataset disponível no sklearn (ex: Iris).
2. Aplique a técnica Wrapper usando RFE para selecionar as melhores features.
3. Compare os resultados com a técnica de filtragem e discuta as vantagens e desvantagens.

H.3. Técnica Embedding

**Definição:**
A técnica Embedding seleciona as features durante o treinamento do modelo. Modelos baseados em árvores, como Random Forest, são comuns para esta técnica.

**Exemplo em Python:**

In [None]:
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectFromModel

# Carregar dados de exemplo
iris = load_iris()
X, y = iris.data, iris.target

# Aplicar Random Forest para seleção de features
modelo = RandomForestClassifier(n_estimators=100)
modelo.fit(X, y)

# Selecionar as features com base na importância
selector = SelectFromModel(modelo, prefit=True)
X_novas = selector.transform(X)

print(X_novas)

**Exercício Prático:**
1. Utilize um dataset disponível no sklearn (ex: Iris).
2. Aplique a técnica Embedding usando Random Forest para selecionar as melhores features.
3. Compare os resultados com as técnicas de Filtragem e Wrapper e discuta as diferenças.

---

I. Manipular grande volume de variáveis categóricas com Feature Hashing e Bin Counting

I.1. Feature Hashing

**Definição:**
Feature Hashing transforma variáveis categóricas em uma representação numérica de dimensão fixa usando uma função hash.

**Exemplo em Python:**

In [None]:
from sklearn.feature_extraction import FeatureHasher

# Dados de exemplo
dados = [{'categoria': 'A'}, {'categoria': 'B'}, {'categoria': 'C'}, {'categoria': 'A'}, {'categoria': 'B'}]

# Aplicar Feature Hashing
hasher = FeatureHasher(input_type='dict', n_features=5)
dados_hashed = hasher.transform(dados)

print(dados_hashed.toarray())

**Exercício Prático:**
1. Crie um conjunto de dados com uma variável categórica contendo muitas categorias (mais de 100).
2. Aplique a técnica Feature Hashing.
3. Compare os resultados com a técnica One-Hot Encoding em termos de dimensionalidade e desempenho.

I.2. Bin Counting

**Definição:**
Bin Counting conta a frequência de cada categoria e usa essas contagens como features.

**Exemplo em Python:**

In [None]:
import pandas as pd
import numpy as np

# Dados de exemplo
dados = pd.DataFrame({'categoria': ['A', 'B', 'C', 'A', 'B', 'A', 'C', 'B', 'A', 'C']})

# Contar a frequência das categorias
contagens = dados['categoria'].value_counts()

# Transformar a variável categórica em contagens
dados['contagem'] = dados['categoria'].map(contagens)

print(dados)

**Exercício Prático:**
1. Crie um conjunto de dados com uma variável categórica contendo muitas categorias.
2. Aplique a técnica Bin Counting.
3. Compare os resultados com Feature Hashing e One-Hot Encoding.

---

J. Aplicar PCA em diversas bases de diferentes contextos

J.1. Aplicar PCA em uma base de dados financeira

**Exemplo em Python:**

In [None]:
import pandas as pd
from sklearn.decomposition import PCA

# Carregar dados de exemplo (substitua pelos seus dados financeiros)
dados_financeiros = pd.DataFrame({
    'Renda': [60000, 65000, 70000, 75000, 80000],
    'Despesas': [40000, 42000, 45000, 48000, 50000],
    'Investimentos': [20000, 22000, 24000, 26000, 28000]
})

# Aplicar PCA
pca = PCA(n_components=2)
dados_reduzidos = pca.fit_transform(dados_financeiros)

print("Dados Reduzidos:\n", dados_reduzidos)
print("Variância Explicada:", pca.explained_variance_ratio_)

**Exercício Prático:**
1. Utilize um dataset financeiro real.
2. Aplique PCA para reduzir a dimensionalidade.
3. Discuta os componentes principais e a variância explicada.

J.2. Aplicar PCA em uma base de dados biológicos

**Exemplo em Python:**

In [None]:
from sklearn.datasets import load_wine
from sklearn.decomposition import PCA

# Carregar dados de exemplo (Wine dataset)
dados = load_wine().data

# Aplicar PCA
pca = PCA(n_components=2)
dados_reduzidos = pca.fit_transform(dados)

print("Dados Reduzidos:\n", dados_reduzidos)
print("Variância Explicada:", pca.explained_variance_ratio_)

C. Vetorizar dados categóricos para algoritmos de Machine Learning

C.1. Vetorizar variáveis categóricas usando One-Hot encoding

One-Hot Encoding transforma cada categoria em uma coluna binária separada.

**Exemplo em Python:**

In [None]:
import pandas as pd

# Dados de exemplo
dados = pd.DataFrame({'categoria': ['A', 'B', 'C', 'A', 'B']})

# Aplicar One-Hot Encoding
dados_encoded = pd.get_dummies(dados, columns=['categoria'])

print(dados_encoded)

C.2. Vetorizar variáveis categóricas usando Dummy encoding

Dummy Encoding é semelhante ao One-Hot Encoding, mas omite uma das categorias para evitar colinearidade perfeita.

**Exemplo em Python:**

In [None]:
import pandas as pd

# Dados de exemplo
dados = pd.DataFrame({'categoria': ['A', 'B', 'C', 'A', 'B']})

# Aplicar Dummy Encoding
dados_encoded = pd.get_dummies(dados, columns=['categoria'], drop_first=True)

print(dados_encoded)

C.3. Vetorizar variáveis categóricas usando Effect encoding

Effect Encoding transforma categorias em variáveis que representam o efeito de cada categoria comparado à média.

**Exemplo em Python:**

In [None]:
import statsmodels.api as sm
import pandas as pd

# Dados de exemplo
dados = pd.DataFrame({'categoria': ['A', 'B', 'C', 'A', 'B']})
dados['intercept'] = 1

# Aplicar Effect Encoding
dados_encoded = pd.get_dummies(dados, columns=['categoria'], drop_first=True)
dados_encoded = sm.add_constant(dados_encoded, prepend=False, has_constant='add')

print(dados_encoded)

C.4. Explicar os pontos positivos e negativos de vetorizar variáveis categóricas

- **Pontos Positivos:**
  - Permite que modelos matemáticos trabalhem com dados categóricos.
  - Melhora a interpretação do impacto de cada categoria no modelo.

- **Pontos Negativos:**
  - Aumento significativo da dimensionalidade dos dados, especialmente com muitas categorias.
  - Pode introduzir colinearidade (corrência de Dummy Trap).

C.5. Manipular grande volume de variáveis categóricas com Feature Hashing e Bin Counting

**Feature Hashing:** Transforma variáveis categóricas em uma representação numérica de dimensão fixa usando uma função hash.
**Bin Counting:** Conta a frequência de cada categoria e usa essas contagens como features.

**Exemplo em Python (Feature Hashing):**

In [None]:
from sklearn.feature_extraction import FeatureHasher

# Dados de exemplo
dados = [{'categoria': 'A'}, {'categoria': 'B'}, {'categoria': 'C'}, {'categoria': 'A'}, {'categoria': 'B'}]

# Aplicar Feature Hashing
hasher = FeatureHasher(input_type='dict', n_features=5)
dados_hashed = hasher.transform(dados)

print(dados_hashed.toarray())

D. Reduzir dimensionalidade através da análise de componentes principais (PCA)

D.1. Explicar o que é uma projeção linear aplicada ao espaço de dados

Uma projeção linear é a transformação de um espaço de alta dimensão para uma subespaço de menor dimensão usando combinações lineares das variáveis originais. Em PCA, as projeções são feitas de forma a maximizar a variância explicada pelos dados.

D.2. Explicar as etapas do algoritmo de PCA para extração dos componentes principais

1. **Centralizar os dados:** Subtrair a média de cada variável.
2. **Calcular a matriz de covariância:** Para entender as relações entre as variáveis.
3. **Calcular os autovalores e autovetores:** Para encontrar as direções das maiores variâncias.
4. **Ordenar os autovetores:** De acordo com os autovalores, em ordem decrescente.
5. **Projetar os dados originais:** Nos novos eixos (autovetores) para reduzir a dimensionalidade.

D.3. Utilizar PCA em uma base dados e selecionar as componentes mais relevantes

**Exemplo em Python:**

In [None]:
import numpy as np
from sklearn.decomposition import PCA

# Dados de exemplo
dados = np.random.rand(100, 5)  # 100 exemplos, 5 features

# Aplicar PCA
pca = PCA(n_components=2)
dados_reduzidos = pca.fit_transform(dados)

print(dados_reduzidos)
print(pca.explained_variance_ratio_)

D.4. Relacionar o processo de whitening e PCA

O processo de whitening em PCA normaliza os dados projetados para que tenham média zero e variância unitária. Isso remove qualquer correlação entre os componentes principais, tornando-os independentes.

D.5. Escolher o número de componentes de uma PCA baseado na curva de carga

A curva de carga (scree plot) mostra a variância explicada por cada componente principal. O número de componentes é escolhido com base no "cotovelo" da curva, onde a taxa de variação da variância explicada diminui significativamente.

**Exemplo em Python:**

In [None]:
import matplotlib.pyplot as plt
import numpy as np
from sklearn.decomposition import PCA

# Dados de exemplo
dados = np.random.rand(100, 5)  # 100 exemplos, 5 features

# Aplicar PCA
pca = PCA()
pca.fit(dados)

# Plotar curva de carga
plt.plot(np.cumsum(pca.explained_variance_ratio_))
plt.xlabel('Número de Componentes')
plt.ylabel('Variância Explicada Acumulada')
plt.title('Curva de Carga')
plt.show()

D.6. Explicar as limitações da PCA

- Assume linearidade nas relações entre variáveis.
- Sensível a escala das variáveis.
- Não é adequada para dados com relações não lineares.
- Pode ser difícil interpretar os componentes principais.

D.7. Aplicar PCA em diversas bases de diferentes contextos

Para aplicar PCA em diferentes contextos, o processo é o mesmo, mas a interpretação dos componentes principais pode variar dependendo do domínio dos dados (financeiro, biológico, etc.).

**Exemplo em Python:**

In [None]:
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA

# Carregar dados de exemplo (Iris dataset)
iris = load_iris()
X = iris.data

# Aplicar PCA
pca = PCA(n_components=2)
X_reduzido = pca.fit_transform(X)

print(X_reduzido)
print(pca.explained_variance_ratio_)

**Exercício Prático:**
1. Utilize um dataset biológico real.
2. Aplique PCA para reduzir a dimensionalidade.
3. Compare os componentes principais e discuta os resultados.

nltk
scikit-learn
statsmodels
matplotlib
pandas
numpy

**Exercício Prático:**
1. Utilize um dataset biológico real.
2. Aplique PCA para reduzir a dimensionalidade.
3. Compare os componentes principais e discuta os resultados.

nltk
scikit-learn
statsmodels
matplotlib
pandas
numpy