# Trabalho 2 - Inteligência Computacional

## Importações utilizadas:
* arff               -Leitura do DataSet
* panda              -Criação do DataFrame
* numpy              -Operações com números
* tree               -Criação da árvore de Decisões
* svm                -Criação da máquina de suporte a vetores
* train_test_split   -Separação de amostras de teste e treinamento
* accuracy_score     -Obtenção da acurácia
* time               -Tempo para comparações

In [1]:
from scipy.io import arff
import pandas as pd
import numpy as np
from sklearn import tree
from sklearn import svm
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from time import time

## Carregando os dados
Obtendo dataSet do arquivo .arff

In [2]:
data = arff.loadarff('Autism-Adult-Data.arff')
df = pd.DataFrame(data[0], dtype=np.str)

## Formatando
* Cria um dicionário de dados para transformar strings em numeros
* Retira dos dados aqueles registros que possuem colunas faltantes
* Deleta colunas não utilizadas
* Formata as strings para float

In [3]:
replace_map = { 'gender': {
                    'f' : 1,
                    'm' : 0
                }, 
                'jundice': {
                    'yes': 1,
                    'no': 0
                }, 
                'austim': {
                    'yes': 1,
                    'no': 0
                },
                'used_app_before': {
                    'yes': 1,
                    'no': 0
                },
                'Class/ASD' : {
                    'YES': 1,
                    'NO': 0
                },
                'ethnicity': {
                    'White-European': 0,
                    'Latino': 1,
                    'Others': 2,
                    'Black': 3,
                    'Asian': 4,
                    '\'Middle Eastern \'': 5,
                    'Pasifika': 6,
                    '\'South Asian\'': 7,
                    'Hispanic': 8,
                    'Turkish': 9,
                    'others': 10,
                },
                'relation': {
                    'Self':0,
                    'Parent':1,
                    '\'Health care professional\'':2,
                    'Relative':3,
                    'Others':4,
                },
               'contry_of_res': {
                    '\'United States\''        : 0,
                    'Brazil'                   : 1,
                    'Spain'                    : 2,
                    'Egypt'                    : 3,
                    '\'New Zealand\''          : 4,
                    'Bahamas'                  : 5,
                    'Burundi'                  : 6,
                    'Austria'                  : 7,
                    'Argentina'                : 8,
                    'Jordan'                   : 9,
                    'Ireland'                  : 10,
                    '\'United Arab Emirates\'' : 11,
                    'Afghanistan'              : 12,
                    'Lebanon'                  : 13,
                    '\'United Kingdom\''       : 14,
                    '\'South Africa\''         : 15,
                    'Italy'                    : 16,
                    'Pakistan'                 : 17,
                    'Bangladesh'               : 18,
                    'Chile'                    : 19,
                    'France'                   : 20,
                    'China'                    : 21,
                    'Australia'                : 22,
                    'Canada'                   : 23,
                    '\'Saudi Arabia\''         : 24,
                    'Netherlands'              : 25,
                    'Romania'                  : 26,
                    'Sweden'                   : 27,
                    'Tonga'                    : 28,
                    'Oman'                     : 29,
                    'India'                    : 30,
                    'Philippines'              : 31,
                    '\'Sri Lanka\''            : 32,
                    '\'Sierra Leone\''         : 33,
                    'Ethiopia'                 : 34,
                    '\'Viet Nam\''             : 35,
                    'Iran'                     : 36,        
                    '\'Costa Rica\''           : 37,
                    'Germany'                  : 38,
                    'Mexico'                   : 39,
                    'Russia'                   : 40,
                    'Armenia'                  : 41,
                    'Iceland'                  : 42,
                    'Nicaragua'                : 43,
                    '\'Hong Kong\''            : 44,
                    'Japan'                    : 45,     
                    'Ukraine'                  : 46,
                    'Kazakhstan'               : 47,
                    'AmericanSamoa'            : 48,
                    'Uruguay'                  : 49,
                    'Serbia'                   : 50,
                    'Portugal'                 : 51,
                    'Malaysia'                 : 52,
                    'Ecuador'                  : 53,    
                    'Niger'                    : 54,
                    'Belgium'                  : 55,
                    'Bolivia'                  : 56,
                    'Aruba'                    : 57,
                    'Finland'                  : 58,
                    'Turkey'                   : 59,          
                    'Nepal'                    : 60,
                    'Indonesia'                : 61,
                    'Angola'                   : 62,
                    'Azerbaijan'               : 63,
                    'Iraq'                     : 64,
                    '\'Czech Republic\''       : 65,          
                    'Cyprus'                   : 66


                }
              }

df.replace(replace_map, inplace=True)

df = df[df != '?']

df.dropna(axis = 0, inplace = True)

y = df['Class/ASD']

df.drop(['age_desc', 'Class/ASD'], axis=1, inplace=True)

df = df.astype(np.float)

## Separação dos dados

* Depende dos parâmetros, nesse caso se utiliza 20% dos dados para teste selecionados de maneira randômica
* Quantidade de registros para treinamento
* Quantidade de registros para teste

In [24]:
X_train, X_test, y_train, y_test = train_test_split(df, y, test_size=0.2, random_state=50)

print ("Treinamento:", len(X_train))
print ("Teste:", len(y_test))
print ("Total:", len(X_train) + len(y_test), "registros")

Treinamento: 487
Teste: 122
Total: 609 registros


# Decision Tree
* Matriz de Confusão
* Tempo de Treinamento
* Acurácia total

In [23]:
clfDecisionTree = tree.DecisionTreeClassifier()

start = time()
clfDecisionTree = clfDecisionTree.fit(X_train, y_train)
end = time()
#print (X_train.head())

prediction = clfDecisionTree.predict(X_test)

print (pd.crosstab(y_test, prediction, rownames=['Autista'], colnames=['Predição'], margins=True))

print ("Tempo Total de Treinamento:", end - start, "segundos")

print ("Acurácia total: ", accuracy_score(y_test, prediction))

Predição  0  All
Autista         
0         1    1
All       1    1
Tempo Total de Treinamento: 0.0039825439453125 segundos
Acurácia total:  1.0


# Support Vector Machine
* Matriz de Confusão
* Tempo de Treinamento
* Acurácia total

In [6]:
clfSVM = svm.SVC(random_state=2)
clfSVM.fit(X_train, y_train) 

start = time()
clf_prediction = clfSVM.predict(X_test)
end = time()

print (pd.crosstab(y_test, clf_prediction, rownames=['Autista'], colnames=['Predição'], margins=True))

print ("Tempo Total de Treinamento:", end - start, "segundos")

print ("Acurácia total:", accuracy_score(y_test, clf_prediction))

Predição   0   1  All
Autista              
0         73   2   75
1         16  31   47
All       89  33  122
Tempo Total de Treinamento: 0.004000186920166016 segundos
Acurácia total: 0.8524590163934426
