# Trabalho 2 de IA - FACIN - PUCRS 

**Nomes:** Gabriel Fasoli Susin e Augusto Cezar Bergamin

O banco de dados escolhido foi retirado do link http://www.technologyforge.net/Datasets/, sendo uma tabela csv que relaciona condições climáticas com a possibilidade de jogar algo indefinido. O dataset escolhido é composto de 14 instancias e possui 4 atributos, sendo eles 2 numericos e 2 nominais. Dentre os atributos estão:
- **Outlook:** Sunny, Overcast, Rainy
- **Temperature:** Numérico
- **Humidity:** Numérico
- **Humidity:** True, False

Ainda possui a divisão de classes **"play"** podendo ser "yes" ou "no".

# Import do CSV usando o pandas

A importação do CSV condendo os dados desejados é feita utilizando o pandas. Este usa uma função "read" e o arquivo csv esta localizado localmente na mesma pasta deste notebook.

In [122]:
import pandas as pd

In [123]:
data = pd.read_csv("ToPlayOrNotToPlayNumeric.csv")
data

Unnamed: 0,Outlook,Temp.,Humidity,Windy,Play
0,overcast,64,65,True,yes
1,rainy,65,70,True,no
2,rainy,68,80,False,yes
3,sunny,69,70,False,yes
4,rainy,70,96,False,yes
5,rainy,71,91,True,no
6,sunny,72,95,False,no
7,overcast,72,90,True,yes
8,rainy,75,80,False,yes
9,sunny,75,70,True,yes


# Pré-processamento

O pré-processamento a ser feito na base de dados utilizada é a transformação dos valores nominais para numéricos, de forma com que seja possível utiliza-los nos algoritmos de classificação posteriormente. Sendo assim as variáveis nominais serão organizadas da seguinte forma.
- **Outlook:**
    - **Sunny = 1**
    - **Rainy = 2**
    - **Overcast = 3**
- **Windy:**
    - **True = 1**
    - **False = 0**
- **Play**:
    - **Yes = 1**
    - **No = 0**

Cria-se um dicionário para cada variável, atribuindo valores numéricos aos atributos nominais.

In [124]:
Play = {"yes":1, "no":0}
Windy = {True:1, False:0}
Outlook = {"sunny":1, "rainy":2 ,"overcast":3}

In [125]:
play_colune = data
play_colune

Unnamed: 0,Outlook,Temp.,Humidity,Windy,Play
0,overcast,64,65,True,yes
1,rainy,65,70,True,no
2,rainy,68,80,False,yes
3,sunny,69,70,False,yes
4,rainy,70,96,False,yes
5,rainy,71,91,True,no
6,sunny,72,95,False,no
7,overcast,72,90,True,yes
8,rainy,75,80,False,yes
9,sunny,75,70,True,yes


Utilizando o comando abaixo transformamos a variável que anteriormente contia todo nossa dataset em uma variável contendo apenas coluna de "Play" e esta já possui seus dados substituidos por 1 ou 0.

In [126]:
play_colune = play_colune["Play"].apply(Play.get).astype(int)
play_colune

0     1
1     0
2     1
3     1
4     1
5     0
6     0
7     1
8     1
9     1
10    0
11    1
12    1
13    0
Name: Play, dtype: int64

Transforma-se esse dataset em um array com os valores. Este então será nosso "Target" na execução.

In [127]:
play_colune_array = play_colune.values 
play_colune_array

array([1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0])

In [128]:
data_sem_play = data

Para executar nossos algoritmos escolhidos precisamos tambem da base de dados, porem esta não pode ter a coluna play, pois estaria fornecendo ao nosso algoritmo a coluna com as respostas para este treinar, sendo assim, ela é removida.

In [129]:
del(data_sem_play['Play'])

E todos os elementos nominais são transformados conforme os dicionários criados acima.

In [130]:
data_sem_play["Outlook"] = data_sem_play["Outlook"].apply(Outlook.get).astype(int)

In [131]:
data_sem_play["Windy"] = data_sem_play["Windy"].apply(Windy.get).astype(int)

In [132]:
data_sem_play.values

array([[ 3, 64, 65,  1],
       [ 2, 65, 70,  1],
       [ 2, 68, 80,  0],
       [ 1, 69, 70,  0],
       [ 2, 70, 96,  0],
       [ 2, 71, 91,  1],
       [ 1, 72, 95,  0],
       [ 3, 72, 90,  1],
       [ 2, 75, 80,  0],
       [ 1, 75, 70,  1],
       [ 1, 80, 90,  1],
       [ 3, 81, 75,  0],
       [ 3, 83, 86,  0],
       [ 1, 85, 85,  0]])

# Algoritmo SGDC

O primeiro algoritmo a ser testado é o SGDC. Este é um algoritmo de classificação linear, apontado pela documentação do sklearn como apropriado para um numero de amostras menor.
![alt text](classification.png "Title")



In [133]:
from sklearn import linear_model

In [134]:
clfSGDC = linear_model.SGDClassifier()



In [135]:
clfSGDC.fit(data_sem_play.values, play_colune_array)

SGDClassifier(alpha=0.0001, average=False, class_weight=None, epsilon=0.1,
       eta0=0.0, fit_intercept=True, l1_ratio=0.15,
       learning_rate='optimal', loss='hinge', max_iter=5, n_iter=None,
       n_jobs=1, penalty='l2', power_t=0.5, random_state=None,
       shuffle=True, tol=None, verbose=0, warm_start=False)

In [136]:
data_pred = clfSGDC.predict(data_sem_play.values)
data_pred

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

# Avaliação SGDC

In [137]:
from sklearn import metrics

In [138]:
metrics.accuracy_score(play_colune_array,data_pred)

0.35714285714285715

# Validação Cruzada do SGDC

In [139]:
from sklearn.model_selection import cross_val_score
import numpy as np

In [140]:
scores = cross_val_score(clfSGDC,data,play_colune_array, cv = 2, verbose = 3, scoring='accuracy')
np.mean(scores)

[CV]  ................................................................
[CV] .................................... , score=0.625, total=   0.0s
[CV]  ................................................................
[CV] ....................... , score=0.6666666666666666, total=   0.0s


[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.0s remaining:    0.0s
[Parallel(n_jobs=1)]: Done   2 out of   2 | elapsed:    0.0s remaining:    0.0s
[Parallel(n_jobs=1)]: Done   2 out of   2 | elapsed:    0.0s finished


0.64583333333333326

# Agoritmo RandomForestClassifier com profundidade 2

Com o objetivo de melhorar nossos valores, utilizamos um algoritmo de árvore nos nossos dados. 

In [141]:
from sklearn.ensemble import RandomForestClassifier

In [142]:
clfForest = RandomForestClassifier(max_depth=2, random_state=0)

In [143]:
clfForest.fit(data_sem_play.values, play_colune_array)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=2, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
            oob_score=False, random_state=0, verbose=0, warm_start=False)

In [144]:
data_pred = clfForest.predict(data_sem_play.values)
data_pred

array([1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0])

# Avaliação RandomForestClassifier

Como podemos ver, com uma profundidade igual a 2 no algoritmo classificador temos uma taxa de acerto de 85%. 

In [148]:
metrics.accuracy_score(play_colune_array,data_pred)


0.8571428571428571

# Validação Cruzada do RandomForestClassifier

In [146]:
scores = cross_val_score(clfForest,data,play_colune_array, cv = 2, verbose = 3, scoring='accuracy')
np.mean(scores)

[CV]  ................................................................
[CV] ..................................... , score=0.75, total=   0.0s
[CV]  ................................................................
[CV] ....................... , score=0.6666666666666666, total=   0.0s


[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.0s remaining:    0.0s
[Parallel(n_jobs=1)]: Done   2 out of   2 | elapsed:    0.0s remaining:    0.0s
[Parallel(n_jobs=1)]: Done   2 out of   2 | elapsed:    0.0s finished


0.70833333333333326

# Agoritmo RandomForestClassifier com profundidade 3

A execução anterior obteve 85% de acerto para uma profundidade de apenas 2 na árvore, porem podemos aumentar esta profundidade sem custo maior e obter melhores resultados.

In [170]:
clfForest = RandomForestClassifier(max_depth=3, random_state=0)

In [171]:
fitForest = clfForest.fit(data_sem_play.values, play_colune_array)

In [172]:
data_pred = clfForest.predict(data_sem_play.values)
data_pred

array([1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0])

# Avaliação RandomForestClassifier com profundidade 3

In [173]:
metrics.accuracy_score(play_colune_array,data_pred)# Validação Cruzada do RandomForestClassifier


1.0

# Validação Cruzada do RandomForestClassifier com profundidade 3

In [174]:
scores = cross_val_score(clfForest,data,play_colune_array, cv = 2, verbose = 3, scoring='accuracy')
np.mean(scores)

[CV]  ................................................................
[CV] ..................................... , score=0.75, total=   0.0s
[CV]  ................................................................
[CV] ....................... , score=0.6666666666666666, total=   0.0s


[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.0s remaining:    0.0s
[Parallel(n_jobs=1)]: Done   2 out of   2 | elapsed:    0.0s remaining:    0.0s
[Parallel(n_jobs=1)]: Done   2 out of   2 | elapsed:    0.0s finished


0.70833333333333326

In [178]:
)

ImportError: No module named 'pydot'