# Projeto de Inteligência Artificial

Compara diferentes métodos de classificação

Métodos a comparar:

- Árvores de decisão
- SVM
- Random Forest

Projeto para a disciplina Inteligência Artificial, 2018 3º Quadrimestre UFABC.

Integrantes do Grupo:
- Luana Ferreira do Nascimento RA 11090115
- Rodrigo Rominho Mayer        RA 11020716

Os problemas que iremos tratar serão "Heart Disease Data Set" com os dados de Cleveland e "Wine Quality Data Set" com os dados de vinho vermelho.

##### Preparando o dataset

In [12]:
# importa o pandas 
import pandas as pd

# importa o train test split
from sklearn.model_selection import train_test_split

# carrega os datasets
# dataset de doença cardíaca (com diagnósticos de 0 a 4)
# coracao = pd.read_csv("data/processed.cleveland.nonull.csv")
# dataset de doença cardíaca (com diagnósticos 0 ou 1)
coracao = pd.read_csv("data/coracao_nonull_nomagnitude.csv")
vinho = pd.read_csv("data/winequality-red.csv",sep=';')

# ajeita as colunas
coracao.columns  = ["age","sex","cp","trestbps","chol","fbs","restecg","thalach","exang","oldpeak","slope","ca","thal","num"]

# separa os dados e o target
X_coracao = coracao.drop(["num"], axis=1)
y_coracao = coracao[["num"]]

X_vinho = vinho.drop(["quality"], axis=1)
y_vinho = vinho[["quality"]]

# separa os dados de treinamento e de teste
X_train_coracao, X_test_coracao, y_train_coracao, y_test_coracao = train_test_split(X_coracao, y_coracao, test_size=0.2)
X_train_vinho, X_test_vinho, y_train_vinho, y_test_vinho = train_test_split(X_vinho, y_vinho, test_size=0.2)

##### Visualização dos dados - Heart Disease Data Set

- **age**: Idade
- **sex**: Sexo (1 = masculino, 0 = feminino)
- **cp**: Tipo de dor no peito
    1. Angina típica
    2. Angina atípica
    3. Dor não anginal
    4. Sem sintomas
- **trestbps**: Pressão sanguínea em repouso (mm de Hg)
- **chol**: Colesterol no sangue (mg/dL)
- **fbs**: Açúcar no sangue em jejum > 120 mg/dL (1 = verdadeiro)
- **restecg**: Resultados eletrocardiograma
    0. Normal
    1. Anormalidade nas ondas ST-T
    2. Provável ou definitiva hipertrofia ventricular (esquerda)
- **thalach**: Máxima taxa de batimentos cardíacos (Batimentos/min)
- **exang**: Angina induzida por exercício (1 = verdadeiro)
- **oldpeak**: ST Depression induzida por exercício relativa ao descanso
- **slope**: Taxa de crescimento do segmento ST em exercício de máximo esforço
    1. Crescente
    2. Constante
    3. Decrescente
- **ca**: Número de vias principais coloridas por fluoroscopia (0 - 3)
- **thal**: 3 = normal; 6 = defeito permanente; 7 = defeito reversível
- **num**: [Target] Diagnóstico de doença cardíaca (1 = Verdadeiro)


Segundo a documentação do Heart Disease Data Set:

>  The "goal" field refers to the presence of heart disease
     in the patient.  It is integer valued from 0 (no presence) to 4.
     Experiments with the Cleveland database have concentrated on simply
     attempting to distinguish presence (values 1,2,3,4) from absence (value
     0)
     
Portanto, o treinamento e as previsões foram realizados considerando qualquer valor superior a 0 como diagnóstico positivo.

In [13]:
print(coracao)

      age  sex   cp  trestbps   chol  fbs  restecg  thalach  exang  oldpeak  \
0    67.0  1.0  4.0     160.0  286.0  0.0      2.0    108.0    1.0      1.5   
1    67.0  1.0  4.0     120.0  229.0  0.0      2.0    129.0    1.0      2.6   
2    37.0  1.0  3.0     130.0  250.0  0.0      0.0    187.0    0.0      3.5   
3    41.0  0.0  2.0     130.0  204.0  0.0      2.0    172.0    0.0      1.4   
4    56.0  1.0  2.0     120.0  236.0  0.0      0.0    178.0    0.0      0.8   
5    62.0  0.0  4.0     140.0  268.0  0.0      2.0    160.0    0.0      3.6   
6    57.0  0.0  4.0     120.0  354.0  0.0      0.0    163.0    1.0      0.6   
7    63.0  1.0  4.0     130.0  254.0  0.0      2.0    147.0    0.0      1.4   
8    53.0  1.0  4.0     140.0  203.0  1.0      2.0    155.0    1.0      3.1   
9    57.0  1.0  4.0     140.0  192.0  0.0      0.0    148.0    0.0      0.4   
10   56.0  0.0  2.0     140.0  294.0  0.0      2.0    153.0    0.0      1.3   
11   56.0  1.0  3.0     130.0  256.0  1.0      2.0  

##### Visualização dos dados - Wine Quality Data Set

In [14]:
print(vinho)

      quality
0           5
1           5
2           5
3           6
4           5
5           5
6           5
7           7
8           7
9           5
10          5
11          5
12          5
13          5
14          5
15          5
16          7
17          5
18          4
19          6
20          6
21          5
22          5
23          5
24          6
25          5
26          5
27          5
28          5
29          6
...       ...
1569        6
1570        6
1571        6
1572        5
1573        6
1574        6
1575        6
1576        6
1577        6
1578        6
1579        5
1580        6
1581        5
1582        5
1583        5
1584        7
1585        6
1586        6
1587        6
1588        6
1589        5
1590        6
1591        6
1592        6
1593        6
1594        5
1595        6
1596        6
1597        5
1598        6

[1599 rows x 1 columns]


##### Treinando com árvores de decisão

Referências para o algoritmo:
- https://scikit-learn.org/stable/modules/tree.html
- https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html

In [4]:
from sklearn import tree

# Heart Disease
coracaoTree = tree.DecisionTreeClassifier()
coracaoTree = coracaoTree.fit(X_train_coracao, y_train_coracao)

#Wine Quality
wineTree = tree.DecisionTreeClassifier()
wineTree = wineTree.fit(X_train_vinho, y_train_vinho)

##### Treinando com SVM

Referências para o algoritmo:

- https://scikit-learn.org/stable/modules/svm.html

In [11]:
from sklearn import svm
print(y_train_vinho)
# Heart Disease
coracaoSvm = svm.SVC()
coracaoSvm = coracaoSvm.fit(X_train_coracao, y_train_coracao)

#Wine Quality
wineSvm = svm.SVC() 
wineSvm = wineSvm.fit(X_train_vinho, y_train_vinho)

      quality
376         6
981         5
1353        5
712         5
88          5
452         6
909         6
887         7
1072        6
1564        5
929         7
776         6
1077        5
1524        6
1398        7
1421        5
1469        3
30          5
332         6
530         6
203         5
908         6
705         5
1384        5
135         5
449         6
591         6
1031        7
1233        4
234         6
...       ...
411         5
1377        6
794         6
640         5
542         5
121         6
931         5
889         5
1131        5
886         6
859         6
680         5
744         5
1583        5
922         6
956         6
679         5
930         5
538         7
498         8
1542        6
145         5
631         5
1404        6
267         8
571         6
685         5
246         5
883         5
1115        6

[1279 rows x 1 columns]


  y = column_or_1d(y, warn=True)


##### Treinando com Random Forest

##### Resultados da árvore de decisão - Heart Disease Data Set

In [None]:
# Realiza a previsão de 20% dos dados (que não foram usados no treinamento)
resultsDT = coracaoTree.predict(X_test_coracao)
resultsDT = resultsDT.tolist()

# Array de resultados reais, utilizado para contagem de previsões corretas
resultadoRealDT = y_test_coracao.values.tolist();

# Contador de previsões corretas
contadorDT = 0

print("N | Previsão | Valor Real")

for x in range(0, len(resultsDT)):
    print(str("{:02d}".format(x + 1)) + "| P: " + str(resultsDT[x]) + "       R: " + str(resultadoRealDT[x][0]))
    if resultsDT[x] == resultadoRealDT[x][0]:
        contadorDT = contadorDT + 1
        
print()
print("Total: " + str(len(resultsDT)))
print("Previstos corretamente: " + str(contadorDT))
print('{0:.2f}'.format((contadorDT/len(resultsDT)) * 100) + "%")

##### Resultados da árvore de decisão - Wine Quality Data Set

In [None]:
# Realiza a previsão de 20% dos dados (que não foram usados no treinamento)
resultsDTWine = wineTree.predict(X_test_vinho)
resultsDTWine = resultsDTWine.tolist()

# Array de resultados reais, utilizado para contagem de previsões corretas
resultadoRealDTWine = y_test_vinho.values.tolist();

# Contador de previsões corretas
contadorDTWine = 0

print(resultsDTWine)
print(resultadoRealDTWine)

print("N | Previsão | Valor Real")

for x in range(0, len(resultsDTWine)):
    print(str("{:02d}".format(x + 1)) + "| P: " + str(resultsDTWine[x]) + "       R: " + str(resultadoRealDTWine[x][0]))
    if resultsDTWine[x] == resultadoRealDTWine[x][0]:
        contadorDTWine = contadorDTWine + 1
        
print()
print("Total: " + str(len(resultsDTWine)))
print("Previstos corretamente: " + str(contadorDTWine))
print('{0:.2f}'.format((contadorDTWine/len(resultsDTWine)) * 100) + "%")

##### Resultados do SVM

##### Resultados do Random Forest