# <font color='green'> Aprendendo Machine Learning Através de um Projeto </font>

# 1 - Primeiras Impressões

## 1.1 - Importando Base de Dados

In [None]:
# Importando módulos necessários
import pandas as pd
import numpy as np
import warnings

In [None]:
# Desativando possíveis avisos
warnings.filterwarnings('ignore')

In [None]:
# Importando a base de dados
telecom = pd.read_csv('/home/joeldspy/Modelos/datasets/churn.csv')

In [None]:
# Dimensões da nossa base de dados
telecom.shape

In [None]:
# Primeiras impressões do nosso dataset
telecom.head(3)

## 1.2 - Tratando a Base de Dados

In [None]:
# Algumas informações da base de dados crua
telecom.info()

In [None]:
# Acessando os dados binários
bi_data = telecom[['Conjuge', 'Dependentes', 'TelefoneFixo', 'PagamentoOnline', 'Churn']]
bi_data.head(3)

In [None]:
# Modificando os dados binários
bi_data = bi_data.replace({'Sim' : 1, 'Nao' : 0})
bi_data.head(3)

In [None]:
# Transformando variáveis qualitativas em variáveis binárias
dummies_data = pd.get_dummies(telecom.drop(bi_data.columns, axis=1))
dummies_data.head(3)

In [None]:
# Concatenando os 2 datasets
telecom = pd.concat([bi_data, dummies_data], axis=1)

In [None]:
# Visualizando o dataset final
telecom.head(3)

# 2 - Criando Modelos de Machine Learning

## 2.1 - Distância Euclidiana

In [None]:
# Separando dados entre entrada e saída
x = telecom.drop(['Churn'], axis=1)
y = telecom['Churn']

In [None]:
# Normalizando os dados
from sklearn.preprocessing import StandardScaler
st_scaler = StandardScaler()
x_norm = st_scaler.fit_transform(x)

### $$ d = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2} $$

In [None]:
# Definindo dois pontos
point_a = x_norm[0]
point_b = st_scaler.transform([[0,0,1,1,0,0,39.90,1,0,0,0,1,0,0,0,0,1,1,1,0,0,1,1,0,0,0,0,1,0,0,1,0,0,0,1,0,1,0]])

In [None]:
# Elevando ao quadrado a diferença de todas as dimensões entre pontos
np.square(point_a - point_b)

In [None]:
# Somando os quadrados das diferenças
np.sum(np.square(point_a - point_b))

In [None]:
# Extraindo a raiz quadrada
np.sqrt(np.sum(np.square(point_a - point_b)))

## 2.2 - Criando Modelos

In [None]:
# Separando dados de treino e teste
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x_norm, y, random_state=75, train_size=0.25)

<div align='center'>
<img src='https://www.jcchouinard.com/wp-content/uploads/2021/08/image-8.png'>
</div>

O KNeighborsClassifier é um algoritmo de classificação de aprendizado de máquina que está disponível na biblioteca scikit-learn (sklearn) do Python. Ele é usado para classificar amostras de dados em categorias com base na proximidade com seus vizinhos mais próximos.

A ideia básica do algoritmo KNeighborsClassifier é simples: dado um novo ponto de dados (ou seja, uma amostra a ser classificada), ele encontra os k vizinhos mais próximos dessa amostra no conjunto de treinamento. A classe ou categoria mais comum entre esses k vizinhos é então atribuída à nova amostra.

A distância entre as amostras é usada para determinar a proximidade. Geralmente, a distância euclidiana é usada como métrica padrão, mas outras métricas de distância também podem ser usadas, como a distância de Manhattan ou a distância de Chebyshev.

O valor de k, chamado de hiperparâmetro, é um parâmetro importante do algoritmo KNeighborsClassifier. Ele determina quantos vizinhos serão considerados para a votação da classe ou categoria. Um valor maior de k significa que mais vizinhos serão considerados, o que pode levar a uma decisão mais robusta, mas pode ser mais lento computacionalmente. Um valor menor de k pode levar a uma decisão mais instável, mas computacionalmente mais eficiente.

Em resumo, o KNeighborsClassifier é um algoritmo de classificação de aprendizado de máquina que usa a proximidade entre amostras para fazer a classificação. Ele encontra os k vizinhos mais próximos de uma nova amostra e atribui a classe ou categoria mais comum entre esses vizinhos à nova amostra. É um algoritmo simples e fácil de entender, adequado para problemas de classificação onde a proximidade entre amostras é uma consideração importante.

In [None]:
# Criando modelo de KNeighborsClassifier
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=5, metric='euclidean')

knn.fit(x_train, y_train)

print(f'A acurácia do modelo KNeighborsClassifier foi de {knn.score(x_test, y_test):.2f}')

<div align='center'>
<img src='https://scikit-learn.org/0.20/_images/sphx_glr_plot_random_forest_embedding_thumb.png'>
</div>

<p>
   O BernoulliNB na biblioteca scikit-learn do Python é um algoritmo de classificação que é geralmente usado para lidar com dados de entrada que são binários, ou seja, com variáveis que têm apenas dois valores possíveis, como verdadeiro/falso, 0/1, presença/ausência, etc.

O BernoulliNB é baseado na distribuição de probabilidade de Bernoulli, que é uma distribuição discreta que assume apenas dois valores possíveis. Ele é adequado para problemas de classificação em que as características (ou atributos) de entrada são representadas como variáveis binárias, e o objetivo é prever a classe de saída ou categoria com base nessas características.

Por exemplo, o BernoulliNB pode ser usado para classificar e-mails em spam ou não spam com base na presença ou ausência de palavras-chave específicas em um e-mail. Ele calcula a probabilidade de um e-mail ser spam ou não spam com base na presença ou ausência dessas palavras-chave e usa essa probabilidade para fazer a classificação.

Em resumo, o BernoulliNB na biblioteca sklearn do Python é usado para lidar com dados de entrada binários, onde as características são representadas como variáveis binárias e é utilizado para problemas de classificação em que o objetivo é prever a categoria de saída com base nessas características binárias. 
</p>

In [None]:
# Criando modelo de BernoulliNB
from sklearn.naive_bayes import BernoulliNB

bnb = BernoulliNB()

bnb.fit(x_train, y_train)

print(f'A acurácia do modelo BernoulliNB foi de {bnb.score(x_test, y_test):.2f}')

In [None]:
# Gerando dados preditos de ambos os modelos
knn_pred = knn.predict(x_test)
bnb_pred = bnb.predict(x_test)

In [None]:
# Avaliando métricas
from sklearn.metrics import confusion_matrix

In [None]:
# Matriz de confusão do modelo KNeighborsClassifier
confusion_matrix(y_test, knn_pred)

In [None]:
# Matriz de confusão do modelo BernoulliNB
confusion_matrix(y_test, bnb_pred)