In [17]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt

from sklearn.tree import DecisionTreeClassifier

from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
import time

In [39]:
X_train=pd.read_csv('X_train.csv')
X_test=pd.read_csv('X_test.csv')
y_train=pd.read_csv('y_train.csv')
y_test=pd.read_csv('y_test.csv')
X_train.drop(columns=['Unnamed: 0','ID'],inplace=True)
X_test.drop(columns=['Unnamed: 0','ID'],inplace=True)
y_train.drop(columns='Unnamed: 0',inplace=True)
y_test.drop(columns='Unnamed: 0',inplace=True)

# Árvore de decisão

In [40]:
start_time = time.time()
clf=DecisionTreeClassifier(ccp_alpha=0.001)
clf=clf.fit(X_train,y_train)
end_time = time.time()
y_pred=clf.predict(X_test)
accuracy=accuracy_score(y_test,y_pred)
print('Acurácia do modelo com todas as variáveis {0:.2f}% '.format(accuracy*100))
print("Tempo de processamento: {0:.2f} segundos\n".format(end_time - start_time))

Acurácia do modelo com todas as variáveis 87.99% 
Tempo de processamento: 7.62 segundos



# Árvore com PCA

In [41]:
pca = PCA(n_components=50)
x_train_pca=pca.fit_transform(X_train)
x_test_pca=pca.fit_transform(X_test)
x_train_pca

array([[-5.52028030e+00, -2.90277517e-01, -1.52992855e+00, ...,
         2.08089425e-01,  6.39683948e-01,  3.57306603e-01],
       [-5.53534954e+00, -8.25302495e-02, -1.92480428e+00, ...,
        -4.10049807e-01, -1.07368425e-01, -4.26093326e-01],
       [-5.47498801e+00,  2.87387051e-01, -2.14464160e+00, ...,
        -4.72914919e-01,  4.12188873e-02, -1.70566988e-01],
       ...,
       [ 5.85750527e+00, -3.08184349e+00,  6.71207302e-01, ...,
         9.52825644e-02,  6.35938902e-02, -2.12958362e-01],
       [ 5.42109482e+00, -3.42643018e+00,  6.71243268e-01, ...,
         1.89901258e-01,  2.06694167e-01,  1.63389672e-01],
       [ 5.49797027e+00, -2.78992873e+00,  5.72224008e-03, ...,
         4.08337051e-01,  3.36842426e-01, -1.24989841e-01]])

In [42]:

start_time = time.time()
clf=DecisionTreeClassifier(ccp_alpha=0.001)
clf=clf.fit(x_train_pca,y_train)
end_time = time.time()
base_treino=clf.score(x_train_pca,y_train)
base_test=clf.score(x_test_pca,y_test)
print('Acucária do modelo na base de test {0:.2f}%'.format(base_test*100))
print('Acurácia do modelo na base de treinamento {0:.2f}%'.format(base_treino*100))
print("Tempo de processamento: {0:.2f} segundos\n".format(end_time - start_time))


Acucária do modelo na base de test 41.91%
Acurácia do modelo na base de treinamento 91.80%
Tempo de processamento: 0.86 segundos



# Testando o número de componentes

In [43]:
lista_n=[1, 2, 5, 10, 50]

for i in lista_n:
    pca = PCA(n_components=i)
    x_train_pca=pca.fit_transform(X_train)
    x_test_pca=pca.fit_transform(X_test)
    start_time = time.time()
    clf=DecisionTreeClassifier(ccp_alpha=0.001)
    clf.fit(x_train_pca, y_train)
    end_time = time.time()

    train_accuracy = accuracy_score(y_train, clf.predict(x_train_pca))
    test_accuracy = accuracy_score(y_test, clf.predict(x_test_pca))
    print(f"\nQuantidade de componentes: {i}")
    print("Acurácia na base treinamento: {0:.2f}%".format(train_accuracy*100))
    print("Acurácia na base teste: {0:.2f}%".format(test_accuracy*100))
    print("Tempo de processamento: {0:.2f} segundos\n".format(end_time - start_time))
    


Quantidade de componentes: 1
Acurácia na base treinamento: 49.97%
Acurácia na base teste: 47.44%
Tempo de processamento: 0.08 segundos


Quantidade de componentes: 2
Acurácia na base treinamento: 61.28%
Acurácia na base teste: 51.85%
Tempo de processamento: 0.06 segundos


Quantidade de componentes: 5
Acurácia na base treinamento: 84.60%
Acurácia na base teste: 50.83%
Tempo de processamento: 0.08 segundos


Quantidade de componentes: 10
Acurácia na base treinamento: 89.27%
Acurácia na base teste: 43.06%
Tempo de processamento: 0.15 segundos


Quantidade de componentes: 50
Acurácia na base treinamento: 91.73%
Acurácia na base teste: 44.04%
Tempo de processamento: 0.84 segundos



# Conclusão 

- Acurácia na base de treino fica cada vez melhor cada vez que o número de componentes aumenta, assim como o tempo de processamento também. No entanto na base teste não teve um desempenho muito bom, seria necessário verificar se o modelo tá 'overfittado'. 