# Machine Learning - Problema de Classificação

bibliotecas usadas: https://scikit-learn.org/stable/

### 1. Dados cvs e Funções reusáveis

In [11]:
""" 
Formato csv: 3 primeiros são dados de treino, últimos são resultados marcador
#: visita, analise, sinal, compra
#: 1, 0, 1, 1
#: 0, 1, 0, 0
#: 1, 1, 0, 1
"""

import csv
import pandas as pd
from sklearn.naive_bayes import MultinomialNB
from sklearn.ensemble import AdaBoostClassifier

data1 = pd.read_csv('../dados/data1.csv') # DataFrame

def percentual(diff): 
    wins = [e for e in diff if e == 0]
    total_wins = len(wins)
    total_try = len(diff)
    percent_wins = 100*(total_wins/total_try)
    print(f"diff: {diff}")
    print(f'Acertou {percent_wins}% de {total_try} elementos!')
    
def data1_load():
    x, y = [], []
    ifile = open('../dados/data1.csv', "r")
    ireader = csv.reader(ifile)
    next(ireader)
    for a, b, c, d in ireader:
        x.append([int(a), int(b), int(c)])
        y.append(int(d))
    return x,y 


### 2. Problema 1: Cachorro ou gato?

#### 2.1 Dados

In [12]:
""" 
Para cada elemento, definem-se característica
Definição: [peludo, rabo, late]
"""
dog1 = [1, 1, 1]
dog2 = [0, 1, 1]
dog3 = [0, 1, 1]
cat1 = [1, 1, 0]
cat2 = [0, 1, 0]
cat3 = [1, 1, 0]

# Agrupa em informações e repostas para conhecimento.
x = [cat1, cat2, cat3, dog1, dog2, dog3]
y = [1, 1, 1, -1, -1, -1] # 1 = cat | -1 = dog 

#### 2.2 Criar modelo e treinar

In [13]:
model = MultinomialNB() # MultinomialNB (Naive Bayes: algoritmo bayesiano)

# mode = AdaBoostClassifier()
model.fit(x,y)

#### 2.3 Realizar testes básicos

In [14]:
naosei1 = [1, 1, 1]
naosei2 = [1, 0, 0]
tests = [naosei1, naosei2]
resultado = model.predict(tests)

print(resultado)

[-1  1]


#### 2.4 Quanto de acerto? Quanto é eficiente?

#### 2.4.1 Testes

In [15]:
# Realizam-se os testes
naosei1 = [1, 1, 1] # dog: peludo, rabo, late
naosei2 = [1, 0, 0] # cat: peludo, !rabo, !late
naosei3 = [0, 0, 1] # dog: !peludo, !rabo, late
naosei4 = [1, 1, 1] # dog: peludo, rabo, late

tests = [naosei1, naosei2, naosei3, naosei4]
resultado = model.predict(tests)

print(f'resultado: {resultado}')

resultado: [-1  1 -1 -1]


#### 2.4.2 Taxa de acertos

In [16]:
marking_tests = [-1, 1, -1, 1] # [dog cat dog cat] 75%

diff = resultado - marking_tests # 0 acertou
percentual(diff)


diff: [ 0  0  0 -2]
Acertou 75.0% de 4 elementos!


### 3. Problema 2: Comércio de veículos

#### 3.1 Forma ingênua

##### 3.1.1 Leitura dos dados

In [17]:
X, Y = data1_load()

##### 3.1.2 Criar modelo e treinar

In [18]:
model = MultinomialNB() # MultinomialNB (Naive Bayes: algoritmo bayesiano)

# mode = AdaBoostClassifier()
model.fit(x,y)

##### 3.1.3 Realizar testes básicos

In [19]:
cli1 = [0, 0, 0] #: !visita, !analise, !sinal
cli2 = [0, 0, 1] #: !visita, !analise, sinal
cli3 = [0, 1, 0] #: !visita, analise, !sinal
cli4 = [0, 1, 1] #: !visita, analise, sinal
cli5 = [1, 0, 0] #: visita, !analise, !sinal
cli6 = [1, 0, 1] #: visita, !analise, sinal
cli7 = [1, 1, 0] #: visita, analise, !sinal
cli8 = [1, 1, 1] #: visita, analise, sinal

tests = [cli1, cli2, cli3, cli4, cli5, cli6, cli7, cli8]
marking_tests = [0, 1, 0, 1, 0, 1, 0, 0]

resultado = model.predict(tests)

resultado

array([-1, -1,  1, -1,  1, -1,  1, -1])

##### 3.1.4 Taxa de acertos

In [20]:
marking_tests = [0, 1, 0, 1, 0, 1, 0, 0]
diff = resultado - marking_tests

percentual(diff)

diff: [-1 -2  1 -2  1 -2  1 -1]
Acertou 0.0% de 8 elementos!


#### 3.2 Uma Forma com melhor estratégia

##### 3.2.1 Leitura dos dados e atribuições

In [24]:
x, y = data1_load()

trainer = x[:90]
marking_trainer = y[:90]
tests = x[-10:]
marking_tests = y[-10:]

##### 3.2.2 Criar modelo e treinar

In [25]:
model = MultinomialNB() # MultinomialNB (Naive Bayes: algoritmo bayesiano)

# mode = AdaBoostClassifier()
model.fit(trainer, marking_trainer)

##### 3.2.3 Realizar testes básicos

In [26]:
resultado = model.predict(tests)
diff = resultado - marking_tests

percentual(diff)

diff: [ 0 -1  0  0  0  0  0  0  0  0]
Acertou 90.0% de 10 elementos!


##### 3.2.4 Taxa de acertos

In [27]:
# algoritmo do chutao
soma1 = sum(marking_tests)
soma0 = len(marking_tests) - soma1
maximo = max(soma1, soma0)
taxa_acerto = 100.0 * maximo/len(marking_tests)
print(f'Chute: {taxa_acerto}% de {len(marking_tests)} elementos!')

Chute: 70.0% de 10 elementos!


#### 3.3 Exercício (Vale 1 ponto na AV2). 

Para o problema da venda de veículos, agora com "data2.csv", realizar seu algoritmo de ML utilizando colunas categóricas. 

Para isso, pode-se fazer uso do recurso "get_dummies" do pandas.

In [28]:
df = pd.read_csv('../dados/data2.csv')
x_df = df[['visita', 'analise', 'sinal']]
y_df = df[['compra']]

trainer = pd.get_dummies(x_df)
trainer[:2]

Unnamed: 0,visita,sinal,analise_corolla,analise_golf,analise_ranger
0,0,1,True,False,False
1,0,0,False,True,False
