# Analyze_data

Iremos analisar ambos os dataset para que haja uma melhor compreensão sobre os mesmos.

# 1. Knowing data

Exploração do dataset para entender melhor os atributos.

In [None]:
import os
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier

from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn.metrics import roc_auc_score

from sklearn.model_selection import train_test_split

In [None]:
#Read data
df_hand = pd.read_csv('parkinson_tappy_hand.csv',index_col='id')
df_direction = pd.read_csv('parkinson_tappy_direction.csv',index_col='id')

In [None]:
#Show data
df_hand.head()

In [None]:
#Show data
df_direction.head()

Descrição dos atributos:

- hand: Tecla do lado esquerdo (L), direito (R) ou espaço (S) pressionada.
- direction: Tecla anterior e posterior.
- hold_time: Quanto tempo ficou segurando a tecla (milisegundos).
- latency: Tempo entre pressionar a tecla anterior e posterior (milisegundos).
- flight: Tempo entre soltar a tecla anterior e pressionar a posterior (milisegundos).

Observações: 
- flight = latency - hold_time

# 2. Statistical analysis

Estatísticas do dataset.

In [None]:
#Some statistics
df_hand.describe()

In [None]:
#Some statistics
df_direction.describe()

In [None]:
#Amount of samples
df_hand.shape

In [None]:
#Amount of samples
df_direction.shape

In [None]:
#Proportion of parkinson in each group
df_hand['parkinson'].value_counts() / df_hand.shape[0]

In [None]:
#Proportion of parkinson in each group
df_direction['parkinson'].value_counts() / df_direction.shape[0]

In [None]:
#Exclude columns with flight
cols = list(filter(lambda x: 'flight' not  in x,df_hand.columns))

#Heatmap
plt.figure(figsize=(15,9))
sns.heatmap(df_hand.loc[:,cols].corr(),vmin=-1,vmax=1,annot=True)
plt.show()

Podemos ver que hold não possui correlações fortes com latency. Apesar disso, as combinações de hold e latency  nas métricas acabam sendo correlacionados (algumas vezes). 

Em geral notamos que as médias e desvios são iguais para ambos os lados, ou seja, a assimetria não é muita.

Observação: Não calculado a correlação para flight devido a sua fórmula.

In [None]:
#Columns that have metric to evaluate
cols_metric = df_hand.columns[1:]

#Boxplot of each metric
plt.figure(figsize=(15,20))
plt.subplots_adjust(wspace=0.5,hspace=0.9)
for index,metric in enumerate(cols_metric):
    plt.subplot(5,4,index+1)
    sns.boxplot(data=df_hand,x='parkinson',y=metric)

É interessante notar que de modo geral as pessoas com parkinson tendem a ter uma variação maior ao clicar nas teclas.

Ademais, dependendo da tecla e do tempo sendo calculado vimos que as pessoas com parkison podem ou não ser mais rápidas.

# 3. Modeling

In [None]:
'''Apply classification in df'''
def classifier(df,test_size=0.4):
    #Classifiers
    dt = DecisionTreeClassifier()
    svm = SVC(gamma='scale',probability=True)
    lr = LogisticRegression(solver='liblinear')
    clfs = {'dt':dt,'svm':svm,'lr':lr}

    #Divide dataset in dependent and independent variables
    X = df.iloc[:,1:]
    Y = df['parkinson']

    #Split data
    X_train, X_test, y_train, y_test = train_test_split(X,Y,test_size=test_size)

    #Training
    for k,v in clfs.items():
        clfs[k] = v.fit(X_train,y_train)
    
    return clfs,X_test,y_test

'''Compute some metrics about classification'''
def metrics(clfs,X,Y):
    #Confusion matrix for each classifier
    result = []
    for k in clfs.keys():
        tn, fp, fn, tp  = confusion_matrix(Y,clfs[k].predict(X)).ravel()
        result.append({'classifier':k,'acc':round((tn+tp)/(tn+fp+fn+tp),2),'sens':round(tp/(tp+fn),2),'spec':round(tn/(tn+fp),2),'auc':round(roc_auc_score(Y,clfs[k].predict(X)),2)})
        
    return result

'''Perform an avaliation on classifiers'''
def evaluate_classifiers(df,test_size=0.4):
    #Dataframe with classification result
    df_result = pd.DataFrame()

    for i in range(100):
        #Classification
        clfs,X,Y = classifier(df,test_size)

        #Concat other results
        df_result = pd.concat([df_result,pd.DataFrame(metrics(clfs,X,Y))])

    #Summarizes the metrics
    df_result = df_result.pivot_table(index='classifier',values=['acc','auc','sens','spec'])
    
    return df_result

In [None]:
evaluate_classifiers(df_hand)

In [None]:
evaluate_classifiers(df_direction)

In [None]:
#Exclude columns with flight
cols = list(filter(lambda x: 'flight' not in x,df_direction.columns))

evaluate_classifiers(df_direction.loc[:,cols])