# Machine Learning - Problema de Classificação

bibliotecas usadas: https://scikit-learn.org/stable/

### 1. Dados cvs e Funções reusáveis

In [8]:
""" 
Formato csv: 3 primeiros são dados de treino, últimos são resultados marcador
#: visita, analise, sinal, compra
#: 1, 0, 1, 1
#: 0, 1, 0, 0
#: 1, 1, 0, 1
"""

import csv
import pandas as pd
from sklearn.naive_bayes import MultinomialNB
from sklearn.ensemble import AdaBoostClassifier

data1 = pd.read_csv('../dados/data1.csv') # DataFrame

def percentual(diff): 
    wins = [e for e in diff if e == 0]
    total_wins = len(wins)
    total_try = len(diff)
    percent_wins = 100*(total_wins/total_try)
    print(f"diff: {diff}")
    print(f'Acertou {percent_wins}% de {total_try} elementos!')
    
def data1_load():
    x, y = [], []
    ifile = open('../dados/data1.csv', "r")
    ireader = csv.reader(ifile)
    next(ireader)
    for a, b, c, d in ireader:
        x.append([int(a), int(b), int(c)])
        y.append(int(d))
    return x,y 


### 2. Problema 1: Cachorro ou gato?

#### 2.1 Dados

In [9]:
""" 
Para cada elemento, definem-se característica
Definição: [peludo, rabo, late]
"""
dog1 = [1, 1, 1]
dog2 = [0, 1, 1]
dog3 = [0, 1, 1]
cat1 = [1, 1, 0]
cat2 = [0, 1, 0]
cat3 = [1, 1, 0]

# Agrupa em informações e repostas para conhecimento.
x = [cat1, cat2, cat3, dog1, dog2, dog3]
y = [1, 1, 1, -1, -1, -1] # 1 = cat | -1 = dog 

#### 2.2 Criar modelo e treinar

In [10]:
model = MultinomialNB() # MultinomialNB (Naive Bayes: algoritmo bayesiano)

# mode = AdaBoostClassifier()
model.fit(x,y)

#### 2.3 Realizar testes básicos

In [11]:
naosei1 = [1, 1, 1]
naosei2 = [1, 0, 0]
tests = [naosei1, naosei2]
resultado = model.predict(tests)

print(resultado)

[-1  1]


#### 2.4 Quanto de acerto? Quanto é eficiente?

#### 2.4.1 Testes

In [12]:
# Realizam-se os testes
naosei1 = [1, 1, 1] # dog: peludo, rabo, late
naosei2 = [1, 0, 0] # cat: peludo, !rabo, !late
naosei3 = [0, 0, 1] # dog: !peludo, !rabo, late
naosei4 = [1, 1, 1] # dog: peludo, rabo, late

tests = [naosei1, naosei2, naosei3, naosei4]
resultado = model.predict(tests)

print(f'resultado: {resultado}')

resultado: [-1  1 -1 -1]


#### 2.4.2 Taxa de acertos

In [13]:
marking_tests = [-1, 1, -1, 1] # [dog cat dog cat] 75%

diff = resultado - marking_tests # 0 acertou
percentual(diff)


diff: [ 0  0  0 -2]
Acertou 75.0% de 4 elementos!


### 3. Problema 2: Comércio de veículos

#### 3.1 Forma ingênua

##### 3.1.1 Leitura dos dados

In [14]:
X, Y = data1_load()

##### 3.1.2 Criar modelo e treinar

In [15]:
model = MultinomialNB() # MultinomialNB (Naive Bayes: algoritmo bayesiano)

# mode = AdaBoostClassifier()
model.fit(x,y)

##### 3.1.3 Realizar testes básicos

In [16]:
cli1 = [0, 0, 0] #: !visita, !analise, !sinal
cli2 = [0, 0, 1] #: !visita, !analise, sinal
cli3 = [0, 1, 0] #: !visita, analise, !sinal
cli4 = [0, 1, 1] #: !visita, analise, sinal
cli5 = [1, 0, 0] #: visita, !analise, !sinal
cli6 = [1, 0, 1] #: visita, !analise, sinal
cli7 = [1, 1, 0] #: visita, analise, !sinal
cli8 = [1, 1, 1] #: visita, analise, sinal

tests = [cli1, cli2, cli3, cli4, cli5, cli6, cli7, cli8]
marking_tests = [0, 1, 0, 1, 0, 1, 0, 0]

resultado = model.predict(tests)

resultado

array([-1, -1,  1, -1,  1, -1,  1, -1])

##### 3.1.4 Taxa de acertos

In [17]:
marking_tests = [0, 1, 0, 1, 0, 1, 0, 0]
diff = resultado - marking_tests

percentual(diff)

diff: [-1 -2  1 -2  1 -2  1 -1]
Acertou 0.0% de 8 elementos!


#### 3.2 Uma Forma com melhor estratégia

##### 3.2.1 Leitura dos dados e atribuições

In [18]:
x, y = data1_load()

trainer = x[:90]
marking_trainer = y[:90]
tests = x[-10:]
marking_tests = y[-10:]

##### 3.2.2 Criar modelo e treinar

In [19]:
model = MultinomialNB() # MultinomialNB (Naive Bayes: algoritmo bayesiano)

# mode = AdaBoostClassifier()
model.fit(trainer, marking_trainer)

##### 3.2.3 Realizar testes básicos

In [20]:
resultado = model.predict(tests)
diff = resultado - marking_tests

percentual(diff)

diff: [ 0 -1  0  0  0  0  0  0  0  0]
Acertou 90.0% de 10 elementos!


##### 3.2.4 Taxa de acertos

In [21]:
# algoritmo do chutao
soma1 = sum(marking_tests)
soma0 = len(marking_tests) - soma1
maximo = max(soma1, soma0)
taxa_acerto = 100.0 * maximo/len(marking_tests)
print(f'Chute: {taxa_acerto}% de {len(marking_tests)} elementos!')

Chute: 70.0% de 10 elementos!


#### 3.3 Exercício (Vale 1 ponto na AV2). 

Para o problema da venda de veículos, agora com "data2.csv", realizar seu algoritmo de ML utilizando colunas categóricas. 

Para isso, pode-se fazer uso do recurso "get_dummies" do pandas.

In [22]:
df = pd.read_csv('../dados/data2.csv')
x_df = df[['visita', 'analise', 'sinal']]
y_df = df[['compra']]

trainer = pd.get_dummies(x_df)
trainer[:2]

Unnamed: 0,visita,sinal,analise_corolla,analise_golf,analise_ranger
0,0,1,True,False,False
1,0,0,False,True,False


In [77]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   visita   1000 non-null   int64 
 1   analise  1000 non-null   object
 2   sinal    1000 non-null   int64 
 3   compra   1000 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 31.4+ KB


In [7]:
df.select_dtypes(include='object').describe()

Unnamed: 0,analise
count,1000
unique,3
top,ranger
freq,361


In [26]:
pip install category_encoders

Collecting category_encoders
  Downloading category_encoders-2.6.1-py2.py3-none-any.whl (81 kB)
                                              0.0/81.9 kB ? eta -:--:--
     ---------------------------------------- 81.9/81.9 kB 2.3 MB/s eta 0:00:00
Collecting statsmodels>=0.9.0 (from category_encoders)
  Downloading statsmodels-0.14.0-cp311-cp311-win_amd64.whl (9.2 MB)
                                              0.0/9.2 MB ? eta -:--:--
                                              0.1/9.2 MB 3.5 MB/s eta 0:00:03
     -                                        0.3/9.2 MB 3.9 MB/s eta 0:00:03
     -                                        0.5/9.2 MB 4.0 MB/s eta 0:00:03
     --                                       0.7/9.2 MB 3.8 MB/s eta 0:00:03
     ----                                     1.1/9.2 MB 4.8 MB/s eta 0:00:02
     -----                                    1.3/9.2 MB 4.7 MB/s eta 0:00:02
     -------                                  1.6/9.2 MB 4.9 MB/s eta 0:00:02
     -------

##### 3.3.1 OneHotEncoder e OrdinalEncoder 
Usando como base o video: [Codificando Variáveis Categóricas para Machine Learning | Mãos à obra Cientista de Dados #02](https://youtu.be/ZPTAeXfaZ4g)

In [47]:
from category_encoders.one_hot import OneHotEncoder, OrdinalEncoder

In [91]:
df.select_dtypes(include='object')

Unnamed: 0,analise
0,corolla
1,golf
2,corolla
3,ranger
4,ranger
...,...
995,ranger
996,ranger
997,golf
998,corolla


In [72]:
one_hot_enc = OneHotEncoder(cols=['analise'])
one_hot_enc

In [89]:
one_hot_enc.fit_transform(x_df)

Unnamed: 0,visita,analise_1,analise_2,analise_3,sinal
0,0,1,0,0,1
1,0,0,1,0,0
2,1,1,0,0,0
3,1,0,0,1,1
4,1,0,0,1,0
...,...,...,...,...,...
995,0,0,0,1,0
996,0,0,0,1,0
997,0,0,1,0,1
998,1,1,0,0,0


In [88]:
ord_enc = OrdinalEncoder(cols=['analise'])
ord_enc

In [90]:
ord_enc.fit_transform(x_df)

Unnamed: 0,visita,analise,sinal
0,0,1,1
1,0,2,0
2,1,1,0
3,1,3,1
4,1,3,0
...,...,...,...
995,0,3,0
996,0,3,0
997,0,2,1
998,1,1,0


##### 3.3.2 Transformando dados categóricos em dados numéricos

De acordo com: https://medium.com/data-hackers/tratamento-e-transformação-de-dados-nan-uma-visão-geral-e-prática-54efa9fc7a98 e https://medium.com/data-hackers/engenharia-de-features-transformando-dados-categóricos-em-dados-numéricos-e5d3991df715

Identificado as colunas dos dados categóricos, o próximo passo é verificar a frequência de classes, para entendermos como está a distribuição de cada classe no dataframe. Para isso podemos utilizar o método value_counts() da biblioteca Pandas, que realiza justamente essa contagem de frequência por valor.

In [78]:
df.analise.value_counts()

analise
ranger     361
golf       327
corolla    312
Name: count, dtype: int64

Com a função unique() podemos visualizar as classes presentes em uma determina feature categórica.

In [79]:
df.analise.unique()

array(['corolla', 'golf', 'ranger'], dtype=object)

Como comentamos na introdução desse artigo, para podermos utilizar esses dados categóricos em uma modelagem precisamos que se tornem dados numéricos, pois, muitas vezes, eles vem no formato de string. Como fazer isso?

Aqui entra a técnica de Label Enconder, onde as classes são substituídas por números. Por exemplo, ‘Classe A’ virará 0, ‘Classe B’ virará 1, ... Para fazer isso podemos utilizar o método LabelEnconder() da biblioteca Sklearn para aplicar esse processo, como fazemos abaixo:

In [80]:
from sklearn.preprocessing import LabelEncoder
label_enconder = LabelEncoder()
labels_analise = label_enconder.fit_transform(df.analise)
labels_analise

array([0, 1, 0, 2, 2, 2, 0, 2, 0, 2, 0, 2, 2, 1, 2, 0, 2, 0, 2, 2, 0, 2,
       2, 1, 2, 0, 2, 2, 2, 0, 1, 0, 2, 0, 2, 2, 1, 2, 0, 1, 1, 2, 1, 2,
       0, 2, 0, 2, 2, 1, 2, 0, 1, 2, 0, 2, 0, 0, 0, 0, 2, 2, 1, 0, 2, 2,
       2, 0, 2, 1, 2, 1, 2, 1, 1, 2, 1, 0, 2, 0, 2, 0, 2, 2, 0, 2, 0, 2,
       1, 2, 1, 1, 0, 0, 0, 2, 0, 2, 0, 1, 1, 0, 1, 0, 1, 1, 0, 2, 2, 0,
       0, 0, 1, 0, 2, 1, 1, 1, 1, 0, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 0, 1,
       2, 1, 1, 2, 0, 2, 1, 1, 2, 2, 2, 2, 0, 1, 1, 0, 2, 2, 1, 1, 0, 1,
       1, 0, 1, 1, 1, 1, 1, 1, 2, 2, 2, 0, 2, 1, 0, 1, 2, 0, 0, 1, 1, 0,
       2, 1, 0, 1, 1, 2, 0, 2, 0, 1, 2, 0, 0, 2, 1, 2, 2, 2, 2, 2, 2, 1,
       0, 2, 2, 0, 2, 1, 1, 0, 0, 1, 0, 2, 2, 0, 0, 2, 1, 1, 2, 0, 1, 2,
       2, 1, 0, 0, 0, 0, 2, 1, 0, 1, 0, 0, 1, 0, 2, 2, 1, 0, 1, 0, 0, 2,
       1, 2, 1, 0, 0, 2, 2, 2, 2, 2, 2, 1, 1, 1, 0, 0, 2, 2, 1, 2, 0, 0,
       0, 2, 2, 1, 1, 1, 1, 2, 1, 0, 2, 2, 2, 2, 0, 0, 2, 1, 2, 2, 0, 2,
       2, 0, 2, 2, 2, 2, 1, 1, 2, 2, 1, 2, 2, 2, 1,

In [81]:
df['Labels'] = labels_analise
df

Unnamed: 0,visita,analise,sinal,compra,Labels
0,0,corolla,1,1,0
1,0,golf,0,1,1
2,1,corolla,0,1,0
3,1,ranger,1,0,2
4,1,ranger,0,1,2
...,...,...,...,...,...
995,0,ranger,0,0,2
996,0,ranger,0,1,2
997,0,golf,1,1,1
998,1,corolla,0,1,0


Bem, após aplicar a técnica do Label Enconder, você pode supor que já pode utilizar essa coluna dentro da modelagem sem nenhum problema, correto? Na verdade, utilizar a coluna gerada na técnica de Label Enconder na modelagem não é o passo final, pois existe um problema. Como sabemos a modelagem é pura matemática. Ao aplicar essa lógica, o modelo pode interpretar como uma classe ser mais importante ou de maior valor que as outras e isso pode enviesar a predição do modelo. Por exemplo, uma ‘Classe A’ recebe valor 0 no Label Enconder, enquanto uma ‘Classe I’ recebe valor 7. A modelagem pode interpretar a ‘Classe I’ como superior à ‘Classe A’, pois 7 > 0. Para evitar esse problema, a partir do Label Enconder, podemos aplicar a técnica do One Hot Enconding.

Nesta técnica, suponha que temos 1 feature categórica com m classes. Nesse processo, essa coluna será substituída por m colunas de valor binário, ou seja, colunas preenchidas por apenas valor 0 e 1. Para afirmar que um determinado registro pertence a uma classe, o valor 1 deve estar na coluna que representa essa classe e 0 nas demais colunas (que representam as outras classes). Essa lógica se aplica para todos os registros. Ou seja, agora em vez de termos uma única coluna com a informação da classe, temos um conjunto de colunas que a interseção delas dirá qual a classe o determinado registro pertence.

In [83]:
from sklearn.preprocessing import OneHotEncoder
one_hot_enconder = OneHotEncoder()
feature_arr = one_hot_enconder.fit_transform(df[['Labels']]).toarray()
feature_arr

array([[1., 0., 0.],
       [0., 1., 0.],
       [1., 0., 0.],
       ...,
       [0., 1., 0.],
       [1., 0., 0.],
       [0., 0., 1.]])

Agora vamos colocar esse resultado no nosso dataframe. Inicialmente, podemos gerar um dataframe com o resultado do OneHotEnconder(). Para isso utilizamos a feature_arr com os valores binários e pegamos as classes via o atributo classes_ da variável label_enconder que criamos durante o tópico 2–2, para darmos nomes a essas colunas binárias. Após isso, criamos o dataframe conforme mostra a seguir:

In [84]:
feature_labels = list(label_enconder.classes_)
features = pd.DataFrame(feature_arr, columns=feature_labels)
features

Unnamed: 0,corolla,golf,ranger
0,1.0,0.0,0.0
1,0.0,1.0,0.0
2,1.0,0.0,0.0
3,0.0,0.0,1.0
4,0.0,0.0,1.0
...,...,...,...
995,0.0,0.0,1.0
996,0.0,0.0,1.0
997,0.0,1.0,0.0
998,1.0,0.0,0.0


Por fim, anexamos essas novas colunas no dataframe original utilizando a função concat() do Pandas, como parâmetros axis = 1 para justamente anexarmos colunas ao nosso dataframe original.

In [85]:
pd.concat([df, features], axis=1)

Unnamed: 0,visita,analise,sinal,compra,Labels,corolla,golf,ranger
0,0,corolla,1,1,0,1.0,0.0,0.0
1,0,golf,0,1,1,0.0,1.0,0.0
2,1,corolla,0,1,0,1.0,0.0,0.0
3,1,ranger,1,0,2,0.0,0.0,1.0
4,1,ranger,0,1,2,0.0,0.0,1.0
...,...,...,...,...,...,...,...,...
995,0,ranger,0,0,2,0.0,0.0,1.0
996,0,ranger,0,1,2,0.0,0.0,1.0
997,0,golf,1,1,1,0.0,1.0,0.0
998,1,corolla,0,1,0,1.0,0.0,0.0


##### 3.3.3  Dummies do Pandas, uma imitação do One Hot Enconder?

Essa estratégia do Pandas é bem similar ao One Hot Enconder. No entanto, existem uma diferença!

Você não precisa aplicar LabelEnconder() antes da estratégia do Dummies Enconding, você pode aplicá-la diretamente na coluna de classe com as strings se quiser.

In [86]:
dummy_features = pd.get_dummies(df['analise'])

In [87]:
pd.concat([df, dummy_features], axis=1)

Unnamed: 0,visita,analise,sinal,compra,Labels,corolla,golf,ranger
0,0,corolla,1,1,0,True,False,False
1,0,golf,0,1,1,False,True,False
2,1,corolla,0,1,0,True,False,False
3,1,ranger,1,0,2,False,False,True
4,1,ranger,0,1,2,False,False,True
...,...,...,...,...,...,...,...,...
995,0,ranger,0,0,2,False,False,True
996,0,ranger,0,1,2,False,False,True
997,0,golf,1,1,1,False,True,False
998,1,corolla,0,1,0,True,False,False
