                              Universidade Federal da Paraíba - UFPB

                        Programa de Pós-Graduação em Economia - PPGE

                                 Introdução à Data Science 

             Modelos de Machine Learning - Naives Bayes (NB) e k-Nearest Neighbour (kNN)


### O que é Machine Learning ?

Machine Learning é um campo da computação que envolve o processo de aprendizagem de inteligência artificial com o intuito de analisar dados, identificar padrões, prever informações e, sobretudo, interagir com atividades humanas.
É a extração de conhecimento a partir de dados utilizando ferramentas dos campos da estatística, inteligência artificial e ciência da computação.

"Machine Learning é o campo de estudo que fornece aos computadores a habilidade de aprender sem serem explicitamente programados" Arthur L. Samuel, 1959


### Para quê se usa Machine Learning ? 

O uso de algoritmos de machine learning está inserida na vida cotidiana, mas pouco se faz notar. Filtragem de Spams na caixa de e-mail, recomendação de músicas e filmes nos aplicativos de streaming e reconhecimento facial são alguns poucos exemplos do vasto uso de algoritmos de ML no dia-a-dia. Alguns exemplos são:

## 1.1. No mundo dos negócios
    1. Filmes - Netflix
    2. Música - Spotify
    3. Comida - iFood
    4. Produtos - Amazon
    5. Reconhecimento facial - Facebook
    
## 1.2. Na ciência
    1. Entender estrelas
    2. Encontrar planetas distantes
    3. Descobrir novas partículas
    4. Analisar sequências de DNA
    5. Fornecer tratamentos personalizados para o câncer    

## Corolário - Reconhecimento facial
* O problema só foi solucionado em 2001
* O computador percebe os pixels de um modo totalmente diferente dos humanos
* Esta diferença torna praticamente impossível que um humano desenvolva regras de decisão para o reconhecimento facial
* O aprendizado de máquina soluciona este problema a partir de um grande número de imagens de rostos de pessoas

### Quais são os tipos de sistemas de Machine Learning que existem? 
São muitos os tipos de sistemas de Machine Learning e os critérios que definem um sistema não são exclusivos.
No entanto, pode-se ressaltar dois tipos fundamentais:

1) **Aprendizagem Supervisionada**: Na aprendizagem supervisionada, os dados que serão utilizados no algoritmo já
incluem os *labels*. Algumas tarefas comuns para esse tipo de aprendizagem são:

        1.1) Classificação: Classificar uma variável chamada de classe (geralmente ditocômica) baseado em outras características.
        
        1.2) Previsão: Prever um valor númerico de uma variável dado um conjunto de preditores. Prever o preço de um carro com base na quilometragem, marca, ano de fabricação, etc. é um exemplo de tarefa de previsão.
        
        
2) **Aprendizagem Não-Supervisionada**: Na aprendizagem não-supervisionada, os dados não são rotulados. Uma maneira de olhar é imaginar que o sistema tem que aprender sem um professor. Aqui, a atividade mais comum é *clustering* (agrupamento) de dados.

## Algoritmo Naive-Bayes

O **algoritmo Naive-Bayes (NB)** é um algoritmo de aprendizagem supervisionada de classificação. É utilizado, principalmente, em atividades de filtragem de spam, separação de documentos, etc. O Naive-Bayes faz uso de uma aborgadem probabilística, fundamentada no Teorema de Bayes. 

O NB é comumente tratado como um algoritmo ML de entrada, pela sua facilidade de entendimento do método, implementação do algoritmo e interpretação dos resultados. Ele também é considerado um algoritmo rápido, devido ao fato de que seus cálculos restringem-se ao cálculo de probabilidades *a priori* e *a posteriori*, que não exigem muito tempo computacional. Por fim, o NB é capaz de obter uma boa precisão nas classificações em bases pequenas, porém, para bases grandes (>1 milhão de linhas), existem algoritmos que performam melhor. 

Podemos avaliar as características do algoritmo Naive-Bayes utilizando um exemplo clássico: Decidir se devemos conceber ou não um empréstimo ao um indivíduo, baseado em um conjunto de características (preditores). 

Utilizaremos um exemplo prático para demonstrar a utilização do algoritmo. Muitas vezes, os algoritmos de Machine Learning são encarados como "caixas-pretas", ou seja, pegamos os dados, jogamos na caixa e obtemos o resultado. No entanto, é importante conhecermos o que está dentro desta "caixa-preta" para melhor regulariazarmos os hiperparâmetros dos modelos. 

A documentação da biblioteca *scikit learn* apresenta as demonstrações do [algoritmo Naive-Bayes](https://scikit-learn.org/stable/modules/naive_bayes.html).

# Exemplo de algoritmo
O exemplo que iremos abordar estamos abordando o problema de um agência financeira que está classificando bons e maus pagadores, baseado em algumas características, tais como renda, idade e tamanho do emprestísmo, de credores passados.

In [22]:
# Pacotes necessários
import pandas as pd

In [23]:
# Abrindo a base
base = pd.read_csv("https://raw.githubusercontent.com/pedrohcrocha/Introducao-a-DS/master/credit-data.csv", sep=',')
# Resumo estatístico
base.describe()

Unnamed: 0,clientid,income,age,loan,default
count,2000.0,2000.0,1997.0,2000.0,2000.0
mean,1000.5,45331.600018,40.807559,4444.369695,0.1415
std,577.494589,14326.327119,13.624469,3045.410024,0.348624
min,1.0,20014.48947,-52.42328,1.37763,0.0
25%,500.75,32796.459717,28.990415,1939.708847,0.0
50%,1000.5,45789.117313,41.317159,3974.719419,0.0
75%,1500.25,57791.281668,52.58704,6432.410625,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


In [24]:
# Como temos idade negativa, podemos preencher as linhas com idade negativa com a média (sem idades negativas)
MediaSemIdadeNegativa = base['age'][base.age > 0].mean()
base.loc[base.age < 0, 'age'] = MediaSemIdadeNegativa
base.describe()

Unnamed: 0,clientid,income,age,loan,default
count,2000.0,2000.0,1997.0,2000.0,2000.0
mean,1000.5,45331.600018,40.9277,4444.369695,0.1415
std,577.494589,14326.327119,13.261825,3045.410024,0.348624
min,1.0,20014.48947,18.055189,1.37763,0.0
25%,500.75,32796.459717,29.072097,1939.708847,0.0
50%,1000.5,45789.117313,41.317159,3974.719419,0.0
75%,1500.25,57791.281668,52.58704,6432.410625,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


In [25]:
# Para conferir, pela contagem, quee a coluna 'Age' tem valores 'nan' ou 'missing'
base.loc[pd.isnull(base['age'])]

# Substituindo esses valores pela a média (sem NaN)
import numpy as np
MediaSemNaN = np.nanmean(base['age'])
base.loc[pd.isnull(base['age']), 'age'] = MediaSemNaN
base.describe()

Unnamed: 0,clientid,income,age,loan,default
count,2000.0,2000.0,2000.0,2000.0,2000.0
mean,1000.5,45331.600018,40.9277,4444.369695,0.1415
std,577.494589,14326.327119,13.25187,3045.410024,0.348624
min,1.0,20014.48947,18.055189,1.37763,0.0
25%,500.75,32796.459717,29.102161,1939.708847,0.0
50%,1000.5,45789.117313,41.30071,3974.719419,0.0
75%,1500.25,57791.281668,52.58234,6432.410625,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


In [26]:
# Temos que dividir em regressores (X) e regressando (y)
X = base.iloc[:, 1:4].values
y = base.iloc[:,4].values

In [27]:
# Temos que dividir as bases em treino e teste.
from sklearn.model_selection import train_test_split
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.2, random_state=10)

In [28]:
# Importando o método Naive Bayes
from sklearn.naive_bayes import BernoulliNB
NB = BernoulliNB()

In [29]:
# Treinamos o algoritmo fornecendo as bases de treino
NB.fit(X_treino,y_treino)

BernoulliNB(alpha=1.0, binarize=0.0, class_prior=None, fit_prior=True)

In [30]:
# Agora, dado que o algoritmo foi treinado, podemos fazer nossa previsão
y_treino_pred = NB.predict(X_teste)

### Medidas de Avaliação de Performance

Uma outra maneira de avaliar o modelo, mais precisa, é pela **matriz de confusão**. É uma matriz que mostra as frequências de classificação para cada classe do modelo. São elas:
* **Verdadeiro positivo (TP)** - a classe que queremos prever foi prevista corretamente
* **Falso positivo (FP)** - a classe que queremos prever foi prevista incorretamente
* **Verdadeiro negativo (TN)** - a classe que não queremos prever foi prevista corretamente
* **Falso negativo (FN)** - a classe que não queremos prever foi prevista incorretamente

### Recall
Fornece a proporção dos positivos que foi prevista corretamente. Em outras palavras, nos diz o quão bom é o modelo para do ponto de vista das previsões positivas corretas. É calculado pela fórmula:

\begin{align}
Recall = \frac{TP}{TP+FN}
\end{align}

### Precisão
Fornece a proporção de classificações positivas que foi de fato correta. É calculada pela fórmula:

\begin{align}
Precision = \frac{TP}{TP+FP}
\end{align}

In [44]:
# Para avaliar se a performance do algoritmo foi satisfatória, devemos verificar algumas métricas
from sklearn.metrics import accuracy_score, precision_score, confusion_matrix

acuracia = accuracy_score(y_treino_pred, y_teste)*100
precisao = precision_score(y_treino_pred, y_teste)*100

print("Acurácia: {}%".format(acuracia))
print('Precisão: {}%'.format(precisao))

Acurácia: 85.5%
Precisão: 0.0%


In [90]:
# Matriz de Confusão
confusion_matrix(y_treino_pred, y_teste)

array([[342,  58],
       [  0,   0]])

# 4. k-Nearest Neighbors

É um dos algoritmos mais simples de aprendizado de máquina supervisionado de classificação. O primeiro passo é fornecer uma base de dados com inputs e outputs para formar o conjunto de treinamento do modelo. Com base neste conjunto de dados o modelo 'aprende' a classificar novos inputs. À medida que fornecemos novos inputs, o algoritmo procura pelos k vizinhos mais próximos, e prevê a classificação destes novos inputs de acordo com os k vizinhos mais próximos encontrados.

## 4.1. Objetivo

Construir um modelo de aprendizado de máquina que, a partir de um conjunto de dados, conhecido como conjunto de treinamento, consiga prever a classificação de novos dados fornecidos ao modelo.

## 4.2. Treinando e testando o modelo

Antes de aplicarmos o modelo, precisamos saber se podemos confiar nas suas previsões. Não podemos usar o conjunto de dados fornecido para o treinamento do algoritmo para testá-lo, uma vez que o modelo lembraria de todos os dados e acertaria todas as suas previsões.
Para testar o modelo, precisamos fornecer dados novos mas dados para os quais conhecemos os outpus. O procedimento geralmente utilizado é dividir o conjuntos de dados disponível em duas partes. Uma parte é utilizada para construir o modelo de aprendizado de máquina, e é chamada de **conjunto de treinamento** ou **dados de treinamento**. A outra parte é usada para avaliar o quão bem o modelo funciona, e é chamada de **conjunto de teste** ou **dados de teste**.

In [None]:
# 5. Exemplo prático

Começamos importando os pacotes necessários para desenvolver o modelo de k-NN:

In [None]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.metrics import confusion_matrix, precision_score, accuracy_score,recall_score, f1_score, classification_report
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
import seaborn as sns
sns.set()

## Exemplo 
Para este exemplo foi utilizada a base de dados de câncer de mama do módulo `sklearn.datasets`. A base de dados classifica os tumores em duas categorias, maligno e benigno e possui 568 inputs com 30 características para cada tumor.

In [None]:
breast_cancer = load_breast_cancer()
df = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names)
df.head(5)

## 5.2. Analisando os dados

Para simplificar o modelo, escolhemos duas dessas características aleatoriamente, 'área média' e 'compacidade média'. Plotando os dados em um gráfico de dispersão podemos ver que o modelo de k-NN é adequado para este caso.

In [None]:
sns.scatterplot(x='mean area', y='mean compactness', data=df)

## 5.3. O conjunto de treinamento

No `sklearn`, geralmente denotamos os dados com um X maiúsculo, enquanto os rótulos ou classificações são denotadas por um y minúsculo. Isso é inspirado na formulação matemática de função, *f(x)=y*, na qual *x* é o input e *y* é o output. O X é maiúsculo pois refere-se a uma matriz, enquanto y é minúsculo pois refere-se a um vetor.

Note que atribuímos valores numéricos para que o modelo consiga interpretar os dados, 0 para tumores malignos e 1 para tumores benignos.

In [None]:
X = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names)
X = X[['mean area', 'mean compactness']]
y = pd.Categorical.from_codes(breast_cancer.target, breast_cancer.target_names)
y = pd.get_dummies(y, drop_first=True)

Agora, dividimos a base de dados para treinar e testar o algoritmo. A função `train_test_split` embaralha os dados e, por padrão, determina 75% da base de dados original para o **conjunto de terinamento** e 25% para o **conjunto de teste**.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)

## 5.4. O modelo

Definimos `KNeighborsClassifier` para procurar pelos 5 vizinhos mais próximos. Além disso, informamos explicitamente para o classificador utilizar a distância Euclidiana para determinar a proximidade entre os pontos da vizinhança.

\begin{align}
Distância Euclidiana = \sqrt{\sum_{i=1}^k(x_i-y_i)²}
\end{align}

Outros métodos para o cálculo da distância são:
* Manhattan
* Minkowski
* Hamming

In [None]:
knn = KNeighborsClassifier(n_neighbors=5, metric='euclidean')
knn.fit(X_train, y_train.values.ravel())

## 5.5. Previsão e avaliação do modelo

Usando o nosso modelo já treinado, podemos prever se um tumor é benigno ou maligno com base em novos valores médios da área e da compacidade do tumor, provenientes do **conjunto de teste**.

In [None]:
y_pred = knn.predict(X_test)

Podemos comparar visualmente as previsões feitas pelo modelo com a amostra do conjunto de treinamento pelos seus respectivos gráficos de dispersão.

In [None]:
sns.scatterplot(x='mean area',
                y='mean compactness',
                hue='benign',
                data=X_test.join(y_test, how='outer'))

In [None]:
plt.scatter(X_test['mean area'],
            X_test['mean compactness'],
            c=y_pred,
            cmap='coolwarm',
            alpha=0.6)

## 5.6 Outras métricas de avalição de performance

### 5.6.1. Acurácia
Diz quanto o modelo acertou das previsões possíveis. É calculada pela fórmula:

\begin{align}
Accuracy = \frac{TP+TN}{TP+FP+TN+FN}
\end{align}

In [None]:
print(f'A acurácia do modelo com k=5 é de {round(accuracy_score(y_test, y_pred), 2):.0%}.')

### 5.6.2. F-Score
Fornece o balanço entre a precisão e o recall do modelo. É calculado pela fórmula:

\begin{align}
Fscore = 2*\frac{Precision*Recall}{Precision+Recall}
\end{align}

In [None]:
print(f'O f-Score do modelo com k=5 é de {round(f1_score(y_test, y_pred), 2):.0%}.')

Note que todos os cálculos acima tem como objetivo avaliar o modelo do ponto da classe para a qual estamos querendo fazer previsões, os tumores benignos. Estas métricas são utilizadas para avaliar o índice de acerto de previsão de tumores benignos. A função `classification_report` do `sklearn` fornece todas estas métricas em um tabela para cada classe do modelo, no caso, para os tumores malignos e benignos.

In [None]:
print(classification_report(y_test, y_pred))

## 5.7. O valor ótimo de k

Geralmente, escolhemos um valor de k **ímpar** para evitar confusões entre duas classes, e próximo da regra de ouro, que diz que o valor de k deve ser a raiz quadrada do tamanho da amostra do conjunto de treinamento.

\begin{align}
k=\sqrt{n}
\end{align}

No nosso exemplo, temos n=425, equivalente a 75% do conjunto de dados original, o **conjunto de treinamento**. Portanto,

\begin{align}
k=\sqrt{n}=\sqrt{425}=20,6
\end{align}

### 5.7.1. Testanto para k = 19

In [21]:
knn = KNeighborsClassifier(n_neighbors=19, metric='euclidean')
knn.fit(X_train, y_train.values.ravel())
y_pred = knn.predict(X_test)
confusion_matrix(y_test, y_pred)

NameError: name 'KNeighborsClassifier' is not defined

In [None]:
print(f'A acurácia do modelo com k=19 é de {round(accuracy_score(y_test, y_pred), 2):.0%}.')
print(f'O recall do modelo com k=19 é de {round(recall_score(y_test, y_pred), 2):.0%}.')
print(f'A precisão do modelo com k=19 é de {round(precision_score(y_test, y_pred), 2):.0%}.')
print(f'O f-Score do modelo com k=19 é de {round(f1_score(y_test, y_pred), 2):.0%}.')

### 5.7.2. Testanto para k = 21

In [None]:
knn = KNeighborsClassifier(n_neighbors=9, metric='euclidean')
knn.fit(X_train, y_train.values.ravel())
y_pred = knn.predict(X_test)
confusion_matrix(y_test, y_pred)

In [None]:
print(f'A acurácia do modelo com k=21 é de {round(accuracy_score(y_test, y_pred), 2):.0%}.')
print(f'O recall do modelo com k=21 é de {round(recall_score(y_test, y_pred), 2):.0%}.')
print(f'A precisão do modelo com k=21 é de {round(precision_score(y_test, y_pred), 2):.0%}.')
print(f'O f-Score do modelo com k=21 é de {round(f1_score(y_test, y_pred), 2):.0%}.')

## 5.8. Prós e contras do k-NN
**Prós**
* Fácil implementação
* Flexível na escolha de características e distâncias
* Funciona bem para casos com múltiplas classes
* É um bom modelo preditivo quanto temos uma quantidade representativa de dados

**Contras**
* Precisamos determinar o valor de k
* O custo computacional é alto uma vez que é preciso calcular a distância para cada um dos dados
* É preciso coletar e armazenar os dados em uma base para o treinamento do algoritmo
* É preciso saber que temos uma função de distância significativa