In [None]:
import numpy as np
import pandas as pd

from sklearn.datasets import load_iris
from sklearn.datasets import load_breast_cancer

from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import VarianceThreshold

from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import RFECV
from sklearn.model_selection import StratifiedKFold
import warnings
from sklearn import datasets

from sklearn.feature_extraction.text import CountVectorizer
import string

import spacy
import nltk 
from nltk.corpus import stopwords
from nltk.stem import RSLPStemmer

## Part 1 - Normalização de Features

In [2]:
iris_dataset = load_iris()
iris_dataset.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [3]:
iris_df = pd.DataFrame(iris_dataset.data, columns=iris_dataset.feature_names)
iris_df['target']  = iris_dataset.target
iris_df['species'] = pd.Categorical.from_codes(iris_dataset.target, iris_dataset.target_names)


print(iris_df.head())
iris_df.describe()

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                5.1               3.5                1.4               0.2   
1                4.9               3.0                1.4               0.2   
2                4.7               3.2                1.3               0.2   
3                4.6               3.1                1.5               0.2   
4                5.0               3.6                1.4               0.2   

   target species  
0       0  setosa  
1       0  setosa  
2       0  setosa  
3       0  setosa  
4       0  setosa  


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
count,150.0,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333,1.0
std,0.828066,0.435866,1.765298,0.762238,0.819232
min,4.3,2.0,1.0,0.1,0.0
25%,5.1,2.8,1.6,0.3,0.0
50%,5.8,3.0,4.35,1.3,1.0
75%,6.4,3.3,5.1,1.8,2.0
max,7.9,4.4,6.9,2.5,2.0


#### Questão 1: Utilize a normalização StandardScaler para escalonar as features do Iris Dataset. 

In [None]:
features = iris_df.drop(['target','species'], axis=1)

scaler = StandardScaler()
features_scaled = scaler.fit_transform(features)


df_scaled = pd.DataFrame(features_scaled, columns=features.columns)

print("----- Antes da normalização -------")
print("Média:", features.mean())
print("Desvio padrão:", features.std())

print("----- Depois da normalização -------")
print("Média:", df_scaled.mean())
print("Desvio padrão:", df_scaled.std())


----- Antes da normalização -------
Média: sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64
Desvio padrão: sepal length (cm)    0.828066
sepal width (cm)     0.435866
petal length (cm)    1.765298
petal width (cm)     0.762238
dtype: float64
----- Depois da normalização -------
Média: sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64
Desvio padrão: sepal length (cm)    1.00335
sepal width (cm)     1.00335
petal length (cm)    1.00335
petal width (cm)     1.00335
dtype: float64


#### Questão 2: Implemente manualmente uma função em Python para realizar o escalonamento padrão (StandardScaler), sem utilizar a função correspondente do sklearn.

In [None]:
def normalizacao_manual(df_iris):
  df_normalizado = df_iris.copy()
  for column in df_iris.columns:
    media = df_iris[column].mean()
    desvio_padrao = df_iris[column].std(ddof=0)
    df_normalizado[column] = (df_iris[column] - media) / desvio_padrao
  return df_normalizado

features_normalizadas = normalizacao_manual(features)

print("----- Normalização StandardScaler -------")
print("Média:\n", df_scaled.mean())
print("Desvio padrão:\n", df_scaled.std()) 
print("\n----- Normalização Manual -------")
print("Média:\n", features_normalizadas.mean())
print("Desvio padrão:\n", features_normalizadas.std())

----- Normalização StandardScaler -------
Média:
 sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64
Desvio padrão:
 sepal length (cm)    1.00335
sepal width (cm)     1.00335
petal length (cm)    1.00335
petal width (cm)     1.00335
dtype: float64

----- Normalização Manual -------
Média:
 sepal length (cm)   -4.736952e-16
sepal width (cm)    -7.815970e-16
petal length (cm)   -4.263256e-16
petal width (cm)    -4.736952e-16
dtype: float64
Desvio padrão:
 sepal length (cm)    1.00335
sepal width (cm)     1.00335
petal length (cm)    1.00335
petal width (cm)     1.00335
dtype: float64


#### Questão 3: Realize a regularização das features do Iris Dataset utilizando a norma Euclidiana (L2). Exiba os resultados obtidos.


In [None]:
normalizer = Normalizer(norm='l2')
features_normal2 = normalizer.fit_transform(features)

print(features_normal2)

[[0.80377277 0.55160877 0.22064351 0.0315205 ]
 [0.82813287 0.50702013 0.23660939 0.03380134]
 [0.80533308 0.54831188 0.2227517  0.03426949]
 [0.80003025 0.53915082 0.26087943 0.03478392]
 [0.790965   0.5694948  0.2214702  0.0316386 ]
 [0.78417499 0.5663486  0.2468699  0.05808704]
 [0.78010936 0.57660257 0.23742459 0.0508767 ]
 [0.80218492 0.54548574 0.24065548 0.0320874 ]
 [0.80642366 0.5315065  0.25658935 0.03665562]
 [0.81803119 0.51752994 0.25041771 0.01669451]
 [0.80373519 0.55070744 0.22325977 0.02976797]
 [0.786991   0.55745196 0.26233033 0.03279129]
 [0.82307218 0.51442011 0.24006272 0.01714734]
 [0.8025126  0.55989251 0.20529392 0.01866308]
 [0.81120865 0.55945424 0.16783627 0.02797271]
 [0.77381111 0.59732787 0.2036345  0.05430253]
 [0.79428944 0.57365349 0.19121783 0.05883625]
 [0.80327412 0.55126656 0.22050662 0.04725142]
 [0.8068282  0.53788547 0.24063297 0.04246464]
 [0.77964883 0.58091482 0.22930848 0.0458617 ]
 [0.8173379  0.51462016 0.25731008 0.03027177]
 [0.78591858 



#### Questão 4: Realize a regularização das features do Iris Dataset utilizando a norma Manhattan (L1).

In [None]:
normalizer = Normalizer(norm='l1')
features_normal1 = normalizer.fit_transform(features)

print(features_normal1)
print(np.sum(features_normal1, axis=1))

[[0.5        0.34313725 0.1372549  0.01960784]
 [0.51578947 0.31578947 0.14736842 0.02105263]
 [0.5        0.34042553 0.13829787 0.0212766 ]
 [0.4893617  0.32978723 0.15957447 0.0212766 ]
 [0.49019608 0.35294118 0.1372549  0.01960784]
 [0.47368421 0.34210526 0.14912281 0.03508772]
 [0.4742268  0.35051546 0.1443299  0.03092784]
 [0.4950495  0.33663366 0.14851485 0.01980198]
 [0.49438202 0.3258427  0.15730337 0.02247191]
 [0.51041667 0.32291667 0.15625    0.01041667]
 [0.5        0.34259259 0.13888889 0.01851852]
 [0.48       0.34       0.16       0.02      ]
 [0.51612903 0.32258065 0.15053763 0.01075269]
 [0.50588235 0.35294118 0.12941176 0.01176471]
 [0.51785714 0.35714286 0.10714286 0.01785714]
 [0.475      0.36666667 0.125      0.03333333]
 [0.49090909 0.35454545 0.11818182 0.03636364]
 [0.49514563 0.33980583 0.13592233 0.02912621]
 [0.49565217 0.33043478 0.14782609 0.02608696]
 [0.47663551 0.35514019 0.14018692 0.02803738]
 [0.5046729  0.31775701 0.1588785  0.01869159]
 [0.47663551 



In [8]:
breast_cancer_dict = load_breast_cancer()
data = breast_cancer_dict['data']
feature_names = breast_cancer_dict['feature_names']
target = breast_cancer_dict['target']

breast_cancer_df = pd.DataFrame(data, columns=feature_names)
breast_cancer_df['target'] = target

## Parte 2 Seleção de Features

#### Questão 5: Considere o Breast Cancer Dataset. Proponha uma estratégia de filtragem para selecionar um conjunto de features mais significativas e justifique sua resposta.


In [9]:
features = breast_cancer_df.drop(columns='target')
target = breast_cancer_df['target']

threshold = VarianceThreshold(threshold=0.5)
features_high_variance = threshold.fit_transform(features)
high_variance_features = features.columns[threshold.get_support()]

print("Features após Variance Threshold:")
print(high_variance_features.tolist())

Features após Variance Threshold:
['mean radius', 'mean texture', 'mean perimeter', 'mean area', 'perimeter error', 'area error', 'worst radius', 'worst texture', 'worst perimeter', 'worst area']


#### Questão 6: Repita a Questão 5, mas agora utilizando o método Wrapper para selecionar as features. Compare os resultados obtidos com os da abordagem de filtragem.


In [10]:
warnings.filterwarnings(action = "ignore", module = "scipy", message = "^internal gelsd")

model = LogisticRegression(max_iter=10000)

rfecv = RFECV(estimator=model, step=1, cv=StratifiedKFold(5), scoring='accuracy')
rfecv.fit(features, target)

selected_features = features.columns[rfecv.support_]
print("Número adequado de features:", rfecv.n_features_)
print("Features selecionadas com RFECV:", selected_features.tolist())

Número adequado de features: 20
Features selecionadas com RFECV: ['mean radius', 'mean texture', 'mean smoothness', 'mean compactness', 'mean concavity', 'mean concave points', 'mean symmetry', 'texture error', 'perimeter error', 'area error', 'compactness error', 'worst radius', 'worst texture', 'worst perimeter', 'worst smoothness', 'worst compactness', 'worst concavity', 'worst concave points', 'worst symmetry', 'worst fractal dimension']


#### Questão 7:Descreva o funcionamento do método de seleção de features conhecido como Embedding. Explique por que ele é computacionalmente mais barato que o Wrapper, justificando sua resposta;

*O método de seleção de features Embedding realiza a seleção de atributos durante o processo de treinamento do modelo, o algoritmo aprende a importância de cada feature, atribuindo pesos conforme sua relevância, e as features menos relevantes podem ser descartadas automaticamente ao longo do treinamento ou após sua conclusão. Esse método é computacionalmente mais barato do que o Wrapper porque não exige múltiplos treinamentos do modelo. No modelo wrapper o treinamento acontece várias vezes para cada combinação de features testado, o que gera um alto custo computacional, já o Embedding realiza apenas um treinamento o que o torna mais eficiente em termos de tempo e uso de recursos.*

### Parte 3 Processamento de Texto

In [11]:
texto = "A alma é, pois, imortal; renasceu repetidas vezes na existência e contemplou todas as coisas existentes e por isso não há nada que ela não conheça! Não é de espantar que ela seja capaz de evocar à memória a lembrança de objetos que viu anteriormente, e que se relacionam tanto com a virtude como com as outras coisas existentes. Toda a natureza, com efeito, é uma só, é um todo orgânico, e o espírito já viu todas as coisas; logo, nada impede que ao nos lembrarmos de uma coisa – o que nós, homens, chamamos de “saber” – todas as outras coisas acorram imediata e maquinalmente à nossa consciência." 

#### Questão 8: Utilize o método Bag-of-Words para transformar o texto acima em um vetor. Apresente a vetorização obtida.

In [12]:
texto_limpo = []
texto_limpo.append(texto.translate(str.maketrans('', '', string.punctuation)).lower())

vect = CountVectorizer()
vect.fit(texto_limpo)

print(f"Tamanho do vocabulário: {len(vect.vocabulary_)}")
print(f"Conteúdo de vocabulário\n {vect.vocabulary_}")

Tamanho do vocabulário: 63
Conteúdo de vocabulário
 {'alma': 1, 'pois': 44, 'imortal': 25, 'renasceu': 48, 'repetidas': 49, 'vezes': 60, 'na': 34, 'existência': 21, 'contemplou': 13, 'todas': 56, 'as': 4, 'coisas': 8, 'existentes': 20, 'por': 45, 'isso': 27, 'não': 39, 'há': 23, 'nada': 35, 'que': 46, 'ela': 16, 'conheça': 11, 'de': 14, 'espantar': 17, 'seja': 52, 'capaz': 5, 'evocar': 19, 'memória': 33, 'lembrança': 29, 'objetos': 41, 'viu': 62, 'anteriormente': 2, 'se': 51, 'relacionam': 47, 'tanto': 54, 'com': 9, 'virtude': 61, 'como': 10, 'outras': 43, 'toda': 55, 'natureza': 36, 'efeito': 15, 'uma': 59, 'só': 53, 'um': 58, 'todo': 57, 'orgânico': 42, 'espírito': 18, 'já': 28, 'logo': 31, 'impede': 26, 'ao': 3, 'nos': 37, 'lembrarmos': 30, 'coisa': 7, 'nós': 40, 'homens': 22, 'chamamos': 6, 'saber': 50, 'acorram': 0, 'imediata': 24, 'maquinalmente': 32, 'nossa': 38, 'consciência': 12}


### Questão 9:Utilize o método Bag-of-n-Grams para vetorizar o texto e apresente:
 * O número de unigrams.
 * O número de bigrams.
 * O número de trigrams.


In [13]:

unigrams = CountVectorizer(ngram_range=(1, 1)).fit(texto_limpo)
print("O número de unigrams")
print(f"Tamanho do vocabulário: {len(unigrams.vocabulary_)}")
print(f"Conteúdo de vocabulário:\n{unigrams.get_feature_names_out()}")


bigrams = CountVectorizer(ngram_range=(2, 2)).fit(texto_limpo)
print("\nO número de bigrams")
print(f"Tamanho do vocabulário: {len(bigrams.vocabulary_)}")
print(f"Conteúdo de vocabulário:\n{bigrams.get_feature_names_out()}")


trigrams = CountVectorizer(ngram_range=(3, 3)).fit(texto_limpo)
print("\nO número de trigrams")
print(f"Tamanho do vocabulário: {len(trigrams.vocabulary_)}")
print(f"Conteúdo de vocabulário:\n{trigrams.get_feature_names_out()}")

O número de unigrams
Tamanho do vocabulário: 63
Conteúdo de vocabulário:
['acorram' 'alma' 'anteriormente' 'ao' 'as' 'capaz' 'chamamos' 'coisa'
 'coisas' 'com' 'como' 'conheça' 'consciência' 'contemplou' 'de' 'efeito'
 'ela' 'espantar' 'espírito' 'evocar' 'existentes' 'existência' 'homens'
 'há' 'imediata' 'imortal' 'impede' 'isso' 'já' 'lembrança' 'lembrarmos'
 'logo' 'maquinalmente' 'memória' 'na' 'nada' 'natureza' 'nos' 'nossa'
 'não' 'nós' 'objetos' 'orgânico' 'outras' 'pois' 'por' 'que' 'relacionam'
 'renasceu' 'repetidas' 'saber' 'se' 'seja' 'só' 'tanto' 'toda' 'todas'
 'todo' 'um' 'uma' 'vezes' 'virtude' 'viu']

O número de bigrams
Tamanho do vocabulário: 82
Conteúdo de vocabulário:
['acorram imediata' 'alma pois' 'anteriormente que' 'ao nos' 'as coisas'
 'as outras' 'capaz de' 'chamamos de' 'coisa que' 'coisas acorram'
 'coisas existentes' 'coisas logo' 'com as' 'com efeito' 'com virtude'
 'como com' 'conheça não' 'contemplou todas' 'de espantar' 'de evocar'
 'de objetos' 'de s

#### Questão 10: Utilizando o pacote NLTK, remova as stopwords do texto e apresente o resultado obtido.

In [None]:
nltk.download('stopwords')
stopwords_pt = set(stopwords.words('portuguese'))

palavras = texto.lower().split()
palavras_filtradas = [p for p in palavras if p not in stopwords_pt]

print("Texto sem stopwords:", palavras_filtradas)

Texto sem stopwords: ['alma', 'é,', 'pois,', 'imortal;', 'renasceu', 'repetidas', 'vezes', 'existência', 'contemplou', 'todas', 'coisas', 'existentes', 'nada', 'conheça!', 'espantar', 'capaz', 'evocar', 'memória', 'lembrança', 'objetos', 'viu', 'anteriormente,', 'relacionam', 'tanto', 'virtude', 'outras', 'coisas', 'existentes.', 'toda', 'natureza,', 'efeito,', 'só,', 'todo', 'orgânico,', 'espírito', 'viu', 'todas', 'coisas;', 'logo,', 'nada', 'impede', 'lembrarmos', 'coisa', '–', 'nós,', 'homens,', 'chamamos', '“saber”', '–', 'todas', 'outras', 'coisas', 'acorram', 'imediata', 'maquinalmente', 'consciência.']


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Leiil\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


#### Questão 11: Utilize o NLTK para aplicar stemming no texto. Apresente o resultado obtido.

In [15]:
nltk.download('rslp')
stemmer = RSLPStemmer()
stems = [stemmer.stem(p) for p in palavras_filtradas]

print("Stemming:", stems)


Stemming: ['alm', 'é,', 'pois,', 'imortal;', 'renasc', 'repet', 'vez', 'exist', 'contempl', 'tod', 'cois', 'exist', 'nad', 'conheça!', 'espant', 'capaz', 'evoc', 'memór', 'lembranç', 'objet', 'viu', 'anteriormente,', 'relacion', 'tant', 'virtud', 'outr', 'cois', 'existentes.', 'tod', 'natureza,', 'efeito,', 'só,', 'tod', 'orgânico,', 'espírit', 'viu', 'tod', 'coisas;', 'logo,', 'nad', 'imped', 'lembr', 'cois', '–', 'nós,', 'homens,', 'cham', '“saber”', '–', 'tod', 'outr', 'cois', 'acorr', 'imediat', 'maqu', 'consciência.']


[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\Leiil\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!


#### Questão 12: Utilize o NLTK para aplicar lemmatization no texto. Apresente o resultado obtido.

In [16]:
nlp = spacy.load("pt_core_news_sm")

doc = nlp(texto)
palavras_lematizadas = [token.lemma_ for token in doc if not token.is_stop and not token.is_punct]

print("Lemmatization:", palavras_lematizadas)

Lemmatization: ['alma', 'imortal', 'renascer', 'repetido', 'existência', 'contemplar', 'coisa', 'existente', 'haver', 'conhecer', 'espantar', 'ser', 'capaz', 'evocar', 'memória', 'lembrança', 'objeto', 'ver', 'anteriormente', 'relacionar', 'virtude', 'coisa', 'existente', 'natureza', 'efeito', 'orgânico', 'espírito', 'ver', 'coisa', 'impedir', 'lembrarmo', 'homem', 'chamar', 'coisa', 'acorr', 'imediato', 'maquinalmente', 'consciência']
