<a href="https://colab.research.google.com/github/DeboraOliver/MachineLearning_lessons/blob/main/FeaturesEnginering.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Engenharia de Características


In [None]:
#parte 1: preparação dos dados
import pandas as pd

In [None]:
# fAZ O DOWNLOAD DOS DADOS E SALVA NO DATAFRAME
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
df = pd.read_csv(url, names=['sepal length','sepal width','petal length', 'petal width','target'])
#define as caracteristicas
features = ['sepal length','sepal width','petal length', 'petal width']
caracteristicas = df.loc[:, features].values
target = df.loc[:,['target']].values
print(df)

     sepal length  sepal width  petal length  petal width          target
0             5.1          3.5           1.4          0.2     Iris-setosa
1             4.9          3.0           1.4          0.2     Iris-setosa
2             4.7          3.2           1.3          0.2     Iris-setosa
3             4.6          3.1           1.5          0.2     Iris-setosa
4             5.0          3.6           1.4          0.2     Iris-setosa
..            ...          ...           ...          ...             ...
145           6.7          3.0           5.2          2.3  Iris-virginica
146           6.3          2.5           5.0          1.9  Iris-virginica
147           6.5          3.0           5.2          2.0  Iris-virginica
148           6.2          3.4           5.4          2.3  Iris-virginica
149           5.9          3.0           5.1          1.8  Iris-virginica

[150 rows x 5 columns]


# PRINCIPAL COMPONENT ANALYSIS

É a primeira escolha quando se deseja reduzir a dimensionalidade de uma base de dados na qual não se sabe muto sobre as características da base. O PCA pode ser utilizado para problemas de classificação e regressão de dados. O objetivo é buscar por uma projeção linear a partir dos dados originais em outro plano com uma dimensionalidade menor que os dados originais. Por isso, o PCA é limitado a dados lineares.

ATENÇÃO: Antes de iniciar uma transformação matemática com o PCA, os valores originais devem ser escalados/Transformados

In [None]:
from sklearn.preprocessing import StandardScaler #normalizar os dados
from sklearn.decomposition import PCA

In [None]:
#escalar os dados para que possam ser usados pelo algoritmo PCA
caracteristicas_normalizadas = StandardScaler().fit_transform(caracteristicas)

#usando o PCA
#inicia o pca e define que ele deve criar 2 componentes principais
pca = PCA(n_components=2)
#realizar a reducao dos dados para 2 pcs
principalcomponents = pca.fit_transform(caracteristicas_normalizadas)
# print(principalcomponents)
#salvar os dados no dataframe
principalDF = pd.DataFrame(data = principalcomponents, columns = ['PC1','PC2'])
#concatena o dataframe gerado com os componentes principaos e anexa a variavel target
finalDF = pd.concat([principalDF,df[['target']]], axis = 1)
finalDF

Unnamed: 0,PC1,PC2,target
0,-2.264542,0.505704,Iris-setosa
1,-2.086426,-0.655405,Iris-setosa
2,-2.367950,-0.318477,Iris-setosa
3,-2.304197,-0.575368,Iris-setosa
4,-2.388777,0.674767,Iris-setosa
...,...,...,...
145,1.870522,0.382822,Iris-virginica
146,1.558492,-0.905314,Iris-virginica
147,1.520845,0.266795,Iris-virginica
148,1.376391,1.016362,Iris-virginica


# LINEAR DISCRIMINANT ANALYSIS (LDA)

O LDA é usado para cobrir lacunas que existem no PCA, entretanto, o LDA é um algoritmo supervisionado, enquanto o PCA é não supervisionado. 
O objetivo do LDA é buscar o subgrupo das caracteristicas qiue otimiza a separação das classes de objetos diferentes. Logo, no LDA é preciso informar a variável target

In [None]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

In [None]:
#Inicia o LDA e define que ele deve criar 2 componentes
lda = LinearDiscriminantAnalysis(n_components= 2)

#Executa o LDA e realiza a transformação dos dados sem o scaler
caracteristicas_lda = lda.fit(caracteristicas, target).transform(caracteristicas)
# print(caracteristicas_lda)

#Salva os dados no pandas dataframe
principalDfLda = pd.DataFrame(data = caracteristicas_lda, columns = ['Componente 1', 'Componente 2'])
#concatena o dataframe gerado com os componentes principais e anexa a variável target
finalDfLda = pd.concat([principalDfLda, df[['target']]], axis = 1)
finalDfLda

  y = column_or_1d(y, warn=True)


Unnamed: 0,Componente 1,Componente 2,target
0,8.084953,0.328454,Iris-setosa
1,7.147163,-0.755473,Iris-setosa
2,7.511378,-0.238078,Iris-setosa
3,6.837676,-0.642885,Iris-setosa
4,8.157814,0.540639,Iris-setosa
...,...,...,...
145,-5.674013,1.661346,Iris-virginica
146,-5.197129,-0.365506,Iris-virginica
147,-4.981712,0.812973,Iris-virginica
148,-5.901486,2.320751,Iris-virginica


# t-SNE

O t-SNE é baseado na estatística, o objetivo é procurar o melhor balanceamento em que as duas distribuições apresentem a maior similaridade. Esta téncica, infelizmente possui limitações na quantidade máxima de dimensões, sendo recomendado até 50 dimensões. Logo, se a base de dados possuir mais de 50 dimensões, é recomendado que se aplique o PCA para reduzir a um número menor que 50 antes de usar o t-SNE.

In [None]:
from sklearn.manifold import TSNE

In [None]:
#inicializando o t-sne, definindo a quantidade de componentes que serão criados e o numero de iterações.
tsne = TSNE(n_components= 2, n_iter = 1000, random_state= 0)
caracteristicas_tsne = tsne.fit_transform(caracteristicas)
# caracteristicas_tsne

#salva os dados sno pandas dataframe
principal_df_tsne = pd.DataFrame(data = caracteristicas_tsne, columns = ['Componente 1','Componente 2'])
#Concatena o dataframe gerado com os componentes princixpais e anexa a vaariável target
final_DF_tsne = pd.concat([principal_df_tsne, df[['target']]], axis = 1)
final_DF_tsne



Unnamed: 0,Componente 1,Componente 2,target
0,11.203382,22.376368,Iris-setosa
1,11.372829,24.752634,Iris-setosa
2,10.731367,25.162184,Iris-setosa
3,10.426812,25.310125,Iris-setosa
4,11.413805,22.269051,Iris-setosa
...,...,...,...
145,-2.497805,-16.178240,Iris-virginica
146,-3.562153,-13.217125,Iris-virginica
147,-2.961897,-15.377681,Iris-virginica
148,-1.575621,-16.273569,Iris-virginica


In [None]:
#Imprime  a "qualidade" do produto gerado. A métrica divergência de KL representa o erro, quanto menor o valor dela, melhor  o modelo.
#Quanto menor for o valor dessa métrica, melhor é o modelo
print('Kullback-Leibler divergence t-SNE: ', tsne.kl_divergence_)

Kullback-Leibler divergence t-SNE:  0.12067263573408127
