## Aplicação do algoritmo PCA

Este trabalho consiste na aplicação do algoritmo PCA - Principal Component Analysis - utilizando a biblioteca Scikit Learn do Python.  O dataset foi obtido através do repositório de dados da UCI - Universidade da Califórnia Irvine - para problemas de Machine Learning através do link (https://archive.ics.uci.edu/ml/datasets/Parkinson%27s+Disease+Classification).

Os dados correspondem a doença de Parkinson, que contém 755 atributos e 756 registros de pacientes. O problema escolhido é caracterizado como problema de classificação, onde deseja-se identificar quais pacientes têm e quais não têm a doença de Parkinson. O atributo 'class' contém 0 ou 1 para denotar a ausência ou presença da doença de Parkinson. O atributo "id" foi descartado neste experimento por não contribuir para a predição do classificador.

Os dados foram separados em 70% para treino e 30% para teste do classificador. O experimento a seguir faz uma comparação entre a Regressão Logística sem a utilização do PCA e posteriormente com a utilização do PCA.

### Importando as bibliotecas que serão utilizadas

In [296]:
# Algoritmos a serem utilizados
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

import pandas as pd

### Importando o dataset

In [297]:
df = pd.read_csv("pd_speech_features.csv")
df.drop('id', axis=1, inplace=True)
df.head()

Unnamed: 0,gender,PPE,DFA,RPDE,numPulses,numPeriodsPulses,meanPeriodPulses,stdDevPeriodPulses,locPctJitter,locAbsJitter,...,tqwt_kurtosisValue_dec_28,tqwt_kurtosisValue_dec_29,tqwt_kurtosisValue_dec_30,tqwt_kurtosisValue_dec_31,tqwt_kurtosisValue_dec_32,tqwt_kurtosisValue_dec_33,tqwt_kurtosisValue_dec_34,tqwt_kurtosisValue_dec_35,tqwt_kurtosisValue_dec_36,class
0,1,0.85247,0.71826,0.57227,240,239,0.008064,8.7e-05,0.00218,1.8e-05,...,1.562,2.6445,3.8686,4.2105,5.1221,4.4625,2.6202,3.0004,18.9405,1
1,1,0.76686,0.69481,0.53966,234,233,0.008258,7.3e-05,0.00195,1.6e-05,...,1.5589,3.6107,23.5155,14.1962,11.0261,9.5082,6.5245,6.3431,45.178,1
2,1,0.85083,0.67604,0.58982,232,231,0.00834,6e-05,0.00176,1.5e-05,...,1.5643,2.3308,9.4959,10.7458,11.0177,4.8066,2.9199,3.1495,4.7666,1
3,0,0.41121,0.79672,0.59257,178,177,0.010858,0.000183,0.00419,4.6e-05,...,3.7805,3.5664,5.2558,14.0403,4.2235,4.6857,4.846,6.265,4.0603,1
4,0,0.3279,0.79782,0.53028,236,235,0.008162,0.002669,0.00535,4.4e-05,...,6.1727,5.8416,6.0805,5.7621,7.7817,11.6891,8.2103,5.0559,6.1164,1


### Pré-processamento dos dados

In [298]:
X = df.drop('class',axis=1).values
y = df[["class"]].values

#Normalizando os dados
scaler = StandardScaler()
scaler.fit(X)
xNorm = scaler.transform(X)


### Aplicando o PCA sob o dataset

In [300]:
numComponents = 50
pca = PCA(n_components=numComponents)
pc = pca.fit_transform(xNorm)

pcData = pd.DataFrame(data = pc, columns = ['PC' + str(i) for i in range(1,numComponents+1)])

pcDataFrame = pd.concat([pcData, df[['class']]], axis = 1)

print("Componentes Principais e target:")
pcDataFrame.head()

Componentes Principais e target:


Unnamed: 0,PC1,PC2,PC3,PC4,PC5,PC6,PC7,PC8,PC9,PC10,...,PC42,PC43,PC44,PC45,PC46,PC47,PC48,PC49,PC50,class
0,-10.034309,1.473186,-6.836298,-0.809853,-3.405661,-0.033693,1.994512,0.92526,0.45879,-0.47316,...,0.586964,-0.392597,-0.043617,-0.327218,-0.940435,1.851291,0.506517,2.310201,-1.38609,1
1,-10.624667,1.585847,-6.820881,1.390104,-3.174823,1.742995,2.147863,2.229634,0.631808,1.247581,...,0.285399,0.915003,-0.288367,-0.776201,-0.772974,2.12823,0.883766,1.411821,-1.232584,1
2,-13.503155,-1.251541,-6.809195,1.388726,-2.259068,2.590965,0.756006,1.071568,0.11294,-1.542235,...,0.759425,1.090811,-0.52277,0.32903,-0.263425,2.619754,2.272754,2.448152,-1.926444,1
3,-9.143503,8.834664,15.302887,-4.081097,-5.063204,-9.536942,-2.908444,-5.220639,-4.77985,5.203669,...,3.01637,0.719468,0.708613,-0.358858,-1.160542,1.346132,-1.130061,1.675372,0.090295,1
4,-6.752753,4.612583,15.649159,-5.895137,-5.710882,-11.018595,-1.299189,-5.402773,-7.902123,7.289489,...,2.656536,0.887579,0.074389,-0.379434,0.380261,0.936061,1.58292,0.510605,0.75136,1


### Preparando os dados

In [301]:
#Dados para a Regressão Logistica sem o PCA
xTrain, XTest, yTrain, yTest = train_test_split(xNorm, y, test_size=0.3,random_state=0)

#Para a Regressão Logistica com PCA
xPca = finalDf.drop('class', axis=1).values
xPcaTrain, xPcaTest, yPcaTrain, yPcaTest = train_test_split(xPca, y, test_size=0.3,random_state=0)

### Regressão Linear sem utilizar a redução de dimensionalidade

In [302]:
%%time

logisticRegression = LogisticRegression(max_iter=2000,tol=0.0001)
logisticRegression.fit(xTrain,yTrain)

yPredicted  = logisticRegression.predict(XTest)
testAccuracy = accuracy_score(yTest, yPredicted )*100
print('Acurácia sem utilizar PCA: %.2f %%' % testAccuracy)

Acurácia sem utilizar PCA: 83.26 %
Wall time: 107 ms


### Regressão Linear utilizando a redução de dimensionalidade

In [303]:
%%time

logisticRegressionPca = LogisticRegression(max_iter=2000,tol=0.0001)
logisticRegressionPca.fit(xPcaTrain, yPcaTrain)

yPredicted2 = logisticRegressionPca.predict(xPcaTest)
testAccuracyPca = accuracy_score(yPcaTest, yPredicted2)*100
print('Acurácia utilizando PCA: %.2f %%' % testAccuracyPca)


Acurácia utilizando PCA: 87.22 %
Wall time: 35.9 ms


### Resultados

A regressão logística treinada sem o uso do PCA apresentou acurácia de 83.26% na predição e seu tempo de execução foi de 107 milessegundos.

A redução de dimensionalidade foi aplicada nos dados pois o dataset original é altamente dimensionado, o que justifica a aplicação do PCA. Ao realizar o teste da regressão logística treinada com os componentes principais, foi obtido uma acurácia superior de 87.22% para os mesmos dados de teste, além de um tempo de execução muito mais rápido. Para este caso em particular, a aplicação do PCA trouxe melhores resultados para o classificador escolhido.