## Parte 1: Normalização de Features - Iris Dataset

In [95]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler, normalize

##### Questão 1 - Normalização com `StandardScaler` (Sklearn)

In [96]:
iris = load_iris()
X = iris.data
feature_names = iris.feature_names

df_original = pd.DataFrame(X, columns=feature_names)

print("Dados originais (primeiras linhas):")
df_original.head()

Dados originais (primeiras linhas):


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [97]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

df_scaled = pd.DataFrame(X_scaled, columns=feature_names)

print("Dados normalizados com StandardScaler:")
df_scaled.head()

Dados normalizados com StandardScaler:


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,-0.900681,1.019004,-1.340227,-1.315444
1,-1.143017,-0.131979,-1.340227,-1.315444
2,-1.385353,0.328414,-1.397064,-1.315444
3,-1.506521,0.098217,-1.283389,-1.315444
4,-1.021849,1.249201,-1.340227,-1.315444


In [98]:
means = df_scaled.mean()
stds = df_scaled.std()

print("Média das features (após normalização):")
print(means)

print("\nDesvio padrão das features (após normalização):")
print(stds)

Média das features (após normalização):
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

Desvio padrão das features (após normalização):
sepal length (cm)    1.00335
sepal width (cm)     1.00335
petal length (cm)    1.00335
petal width (cm)     1.00335
dtype: float64


##### Questão 2 - Normalização Manual (StandardScaler)

In [99]:
def standard_scaler_manual(X):
    mean = X.mean(axis=0)
    std = X.std(axis=0)
    return (X - mean) / std

X_manual_scaled = standard_scaler_manual(X)
df_manual_scaled = pd.DataFrame(X_manual_scaled, columns=feature_names)

print("Dados normalizados manualmente:")
df_manual_scaled.head()

Dados normalizados manualmente:


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,-0.900681,1.019004,-1.340227,-1.315444
1,-1.143017,-0.131979,-1.340227,-1.315444
2,-1.385353,0.328414,-1.397064,-1.315444
3,-1.506521,0.098217,-1.283389,-1.315444
4,-1.021849,1.249201,-1.340227,-1.315444


In [100]:
dif = np.abs(df_scaled - df_manual_scaled)
print("Diferença média absoluta entre métodos:")
dif.mean()

Diferença média absoluta entre métodos:


sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

##### Questão 3 - Normalização L2 (Norma Euclidiana)

In [101]:
X_l2 = normalize(X, norm='l2')
df_l2 = pd.DataFrame(X_l2, columns=feature_names)

print("Dados normalizados com norma L2:")
df_l2.head()

Dados normalizados com norma L2:


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.803773,0.551609,0.220644,0.031521
1,0.828133,0.50702,0.236609,0.033801
2,0.805333,0.548312,0.222752,0.034269
3,0.80003,0.539151,0.260879,0.034784
4,0.790965,0.569495,0.22147,0.031639


##### Questão 4 - Normalização L1 (Norma Manhattan)

In [102]:
X_l1 = normalize(X, norm='l1')
df_l1 = pd.DataFrame(X_l1, columns=feature_names)

print("Dados normalizados com norma L1:")
df_l1.head()

Dados normalizados com norma L1:


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.5,0.343137,0.137255,0.019608
1,0.515789,0.315789,0.147368,0.021053
2,0.5,0.340426,0.138298,0.021277
3,0.489362,0.329787,0.159574,0.021277
4,0.490196,0.352941,0.137255,0.019608


In [103]:
somas_l1 = df_l1.sum(axis=1)

print("Soma das features normalizadas (L1) por amostra (primeiras 5):")
print(somas_l1.head())

Soma das features normalizadas (L1) por amostra (primeiras 5):
0    1.0
1    1.0
2    1.0
3    1.0
4    1.0
dtype: float64


## Parte 2: Seleção de Features - Breast Cancer Dataset

In [104]:
from sklearn.datasets import load_breast_cancer
from sklearn.feature_selection import SelectKBest, f_classif, RFE
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

##### Questão 5 - Seleção de Features por Filtragem

In [105]:
data = load_breast_cancer()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target

# Aplicando SelectKBest para selecionar as 10 melhores features
selector = SelectKBest(score_func=f_classif, k=10)
X_selected_filter = selector.fit_transform(X, y)

mask = selector.get_support()
selected_features_filter = X.columns[mask]

print("Features selecionadas (filtragem):")
print(selected_features_filter)

Features selecionadas (filtragem):
Index(['mean radius', 'mean perimeter', 'mean area', 'mean concavity',
       'mean concave points', 'worst radius', 'worst perimeter', 'worst area',
       'worst concavity', 'worst concave points'],
      dtype='object')


**Justificativa**: O método de filtragem com `SelectKBest` é simple e rápido para datasets com muitas features. Ele avalia cada feature individualmente com base na correlação estatística com a variável-alvo!

##### Questão 6 - Seleção de Features com Método Wrapper

In [106]:
model = LogisticRegression(max_iter=5000)

# Aplicando RFE para selecionar 10 features
rfe = RFE(estimator=model, n_features_to_select=10)
rfe.fit(X, y)

selected_features_wrapper = X.columns[rfe.support_]

print("Features selecionadas (wrapper - RFE):")
print(selected_features_wrapper)

Features selecionadas (wrapper - RFE):
Index(['mean radius', 'mean compactness', 'mean concavity', 'texture error',
       'worst radius', 'worst smoothness', 'worst compactness',
       'worst concavity', 'worst concave points', 'worst symmetry'],
      dtype='object')


**Comparação com filtragem**:
- A filtragem é rápida, mas ela analisa cada feature de forma independente.
- O RFE é mais demorado, mas geralmente mais eficaz em modelos preditivos.

##### Questão 7 - Método de Seleção por Embedding

O método *Embedding* realiza a seleção de features internamente durante o treinamento do modelo, utilizando a importância atribuída pelo próprio estimador.

###### Exemplo: Lasso (L1) ou Árvores de Decisão
- Modelos com regularização L1 (tal qual o Lasso) atribuem peso zero a features irrelevantes.
- Árvores de decisão também ranqueiam as features com base na importância das divisões.

**Vantagem Computacional**:
- Embedding realiza a seleção durante o processo de ajuste do modelo, evitando execuções repetidas como no Wrapper.
- Logo, é mais barato computacionalmente que métodos como RFE.

## Parte 3: Processamento de Texto

In [107]:
from sklearn.feature_extraction.text import CountVectorizer
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.tokenize import word_tokenize
import pandas as pd

nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/victorgriggi/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/victorgriggi/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/victorgriggi/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     /Users/victorgriggi/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

In [108]:
texto = """
A alma é, pois, imortal; renasceu repetidas vezes na existência e contemplou todas as coisas existentes e por isso não há nada que ela não conheça! 
Não é de espantar que ela seja capaz de evocar à memória a lembrança de objetos que viu anteriormente, e que se relacionam tanto com a virtude como com as outras coisas existentes. 
Toda a natureza, com efeito, é uma só, é um todo orgânico, e o espírito já viu todas as coisas; logo, nada impede que ao nos lembrarmos de uma coisa – 
o que nós, homens, chamamos de “saber” – todas as outras coisas acorram imediata e maquinalmente à nossa consciência.
"""

##### Questão 8 – Bag-of-Words

In [109]:
vectorizer = CountVectorizer()
X_bow = vectorizer.fit_transform([texto])

df_bow = pd.DataFrame(X_bow.toarray(), columns=vectorizer.get_feature_names_out())

print("Vetor Bag-of-Words:")
df_bow

Vetor Bag-of-Words:


Unnamed: 0,acorram,alma,anteriormente,ao,as,capaz,chamamos,coisa,coisas,com,...,só,tanto,toda,todas,todo,um,uma,vezes,virtude,viu
0,1,1,1,1,4,1,1,1,4,3,...,1,1,1,3,1,1,2,1,1,2


##### Questão 9 – Bag-of-n-Grams (Unigrams, Bigrams, Trigrams)

In [110]:
# Unigrams
vectorizer_uni = CountVectorizer(ngram_range=(1,1))
X_uni = vectorizer_uni.fit_transform([texto])
print("Número de unigrams:", len(vectorizer_uni.get_feature_names_out()))

# Bigrams
vectorizer_bi = CountVectorizer(ngram_range=(2,2))
X_bi = vectorizer_bi.fit_transform([texto])
print("Número de bigrams:", len(vectorizer_bi.get_feature_names_out()))

# Trigrams
vectorizer_tri = CountVectorizer(ngram_range=(3,3))
X_tri = vectorizer_tri.fit_transform([texto])
print("Número de trigrams:", len(vectorizer_tri.get_feature_names_out()))

Número de unigrams: 63
Número de bigrams: 82
Número de trigrams: 86


##### Questão 10 – Remoção de Stopwords com NLTK

In [111]:
from nltk.tokenize import RegexpTokenizer

# Tokenizador que remove pontuação
tokenizer = RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(texto.lower())

# Stopwords em português
stop_words = set(stopwords.words('portuguese'))

# Removendo stopwords
tokens_sem_stopwords = [word for word in tokens if word not in stop_words]

print("Texto sem stopwords:")
print(" ".join(tokens_sem_stopwords))

Texto sem stopwords:
alma pois imortal renasceu repetidas vezes existência contemplou todas coisas existentes nada conheça espantar capaz evocar memória lembrança objetos viu anteriormente relacionam tanto virtude outras coisas existentes toda natureza efeito todo orgânico espírito viu todas coisas logo nada impede lembrarmos coisa homens chamamos saber todas outras coisas acorram imediata maquinalmente consciência


##### Questão 11 – Aplicação de Stemming com NLTK

In [112]:
stemmer = PorterStemmer()
stems = [stemmer.stem(word) for word in tokens_sem_stopwords]

print("Texto após stemming:")
print(" ".join(stems))

Texto após stemming:
alma poi imort renasceu repetida veze existência contempl toda coisa existent nada conheça espantar capaz evocar memória lembrança objeto viu anteriorment relacionam tanto virtud outra coisa existent toda natureza efeito todo orgânico espírito viu toda coisa logo nada imped lembrarmo coisa homen chamamo saber toda outra coisa acorram imediata maquinalment consciência


##### Questão 12 – Aplicação de Lemmatization com NLTK

In [113]:
lemmatizer = WordNetLemmatizer()
lemmas = [lemmatizer.lemmatize(word) for word in tokens_sem_stopwords]

print("Texto após lematização:")
print(" ".join(lemmas))

Texto após lematização:
alma poi imortal renasceu repetidas vezes existência contemplou toda coisas existentes nada conheça espantar capaz evocar memória lembrança objetos viu anteriormente relacionam tanto virtude outras coisas existentes toda natureza efeito todo orgânico espírito viu toda coisas logo nada impede lembrarmos coisa homens chamamos saber toda outras coisas acorram imediata maquinalmente consciência
