## Seleção de features baseadas em modelo (árvore de decisão)

In [3]:
import pandas as pd

from sklearn.ensemble import ExtraTreesClassifier
from sklearn.feature_selection import SelectFromModel

#Dados de exemplo IRIS
dfIris = pd.read_csv('Iris.csv').set_index('Id')
dfIris['Species'] = pd.Categorical(dfIris['Species'])
dfIris['code'] = dfIris['Species'].cat.codes

X = dfIris.iloc[:,0:4]
y = dfIris['code']


print(X.shape)
clf = ExtraTreesClassifier(n_estimators=50)
clf = clf.fit(X, y)
#print(clf.feature_importances_  )

model = SelectFromModel(clf, prefit=True)
X_new = model.transform(X)
print(X_new.shape)


print(X.columns)
col_index = model.get_support()
print(col_index)

(150, 4)
[0.11798706 0.04830951 0.4053756  0.42832783]
(150, 2)
Index(['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm'], dtype='object')
[False False  True  True]




## Seleção baseada em importância

In [None]:
import numpy as np
from sklearn.linear_model import RidgeCV
from sklearn.feature_selection import SelectFromModel


ridge = RidgeCV().fit(X, y)

importance = np.abs(ridge.coef_)

feature_names = X.columns

#Como a ideia é selecioonar 2 features, vamos colocar o threshold um pouco acima da terceiro melhor coeficiente
threshold = np.sort(importance)[-3] + 0.01

sfm = SelectFromModel(ridge, threshold=threshold).fit(X, y)

feature_names[sfm.get_support()]

## Seleção de features univariada



In [4]:

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

print(X.shape)

model = SelectKBest(chi2, k=2)
X_new = model.fit_transform(X, y)
X_new.shape

print(X_new.shape)

col_index = model.get_support()

print(X.columns)
print(col_index)


(150, 4)
(150, 2)
Index(['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm'], dtype='object')
[False False  True  True]


In [None]:
## Na versão 0.24 do sklearn tem mais outros recursos implementados, como o SequentialFeatureSelector  


# Principal Component Analysis - PCA

In [None]:
# Carregando todas as features do dataset wine
import pandas as pd
df = pd.read_csv('wine_data.csv', header=None)

df

In [None]:
#Carregando somente as features do dataset wine, sem as classes (coluna 0)
dfAllFeatures = df.iloc[:,1:]

dfAllFeatures

In [None]:
#Somente as classes
dfClasses = df.iloc[:,0]
dfClasses

In [None]:
from sklearn import preprocessing

#Normalização
std_scaler = preprocessing.StandardScaler()

dfAllFeatures_norm = std_scaler.fit_transform(dfAllFeatures)

#### Aplicando o PCA no conjunto sem e com normalização

In [None]:
from sklearn.decomposition import PCA
import seaborn as sns

# Nos dados originais
pca = PCA(n_components=2)
X = pca.fit_transform(df)


# Nos dados normalizados
pca_std = PCA(n_components=2)
X_std = pca_std.fit_transform(dfAllFeatures_norm)

In [None]:
#Cria um dataframe com os dados sem normalização do PCA
dfNoScale = pd.DataFrame(X, columns = ['PC1','PC2'])
dfNoScale['Classes'] = dfClasses

dfNoScale

In [None]:
#Visualização dos dois PCs - classes foram adicionadas em cores
sns.scatterplot(data=dfNoScale, x="PC1", y="PC2", hue='Classes', palette='tab10')

In [None]:
#Cria um dataframe com os dados com normalização do PCA
dfWithScale = pd.DataFrame(X_std, columns = ['PC1','PC2'])
dfWithScale['Classes'] = dfClasses


#Visualiza os dados - Note como a separação de classes fica melhor depois dos dados normalizados.
sns.scatterplot(data=dfWithScale, x="PC1", y="PC2", hue='Classes', palette='tab10')