### 5 - Implementação da Classificação

- Nesta etapa, temos como objetivo implementar o processo de classificação de novos clientes, afim de personalizar as entregas do marketing para o mesmo, de forma automatizada. Sendo assim, vamo utilizar ferramentas de **Machine Learnig** da biblioteca **ScikitLearn**, as quais envolvem **Classificação de múltiplas classes** e métricas de seleção de modelos.

In [1]:
#Importação das bibliotecas

import pandas as pd  
import numpy as np 
import matplotlib.pyplot as plt
import seaborn as sns 

#Importação dos modelos de classificação
from sklearn.multiclass import OneVsRestClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import LinearSVC
from xgboost import XGBClassifier
from sklearn.naive_bayes import GaussianNB

In [2]:
# Carregando a biblioteca local
import sys
import os
sys.path.append(os.path.abspath("/home/edmurcn/Documentos/MeusProjetos/Customer-Clustering/src")) 
import model_train

In [3]:
# Importação do conjunto com a coluna de labels
df = pd.read_csv("/home/edmurcn/Documentos/MeusProjetos/Customer-Clustering/data/dados_label.csv", header=0)
df.head()

Unnamed: 0,Sex,Marital status,Age,Education,Income,Occupation,Settlement size,Label
0,0,0,67,2,124670,1,2,0
1,1,1,22,1,150773,1,2,2
2,0,0,49,1,89210,0,0,1
3,0,0,45,1,171565,1,1,3
4,0,0,53,1,149031,1,1,3


- Apesar do processo de tratamento e avaliação dos dados já ter sido realizado, pode-se avaliar a necessidade, ao longo dessa etapa, de tratar as colunas com dados categóricos com a técnica de **One Hot Enconder**.

In [4]:
#Transformando os dados em arrays
data = df.to_numpy()
X = data[:, :-1]
y = data[:,-1]

Para o treinamento e seleção dos modelos, utilizamos um módulo criado localmente. Nele serão treinado os modelos em conjuntos de treino e aplicado a conjuntos de testes para a avaliação das métricas, como seleção iremos julgar as medidas da **Acurácia**, **F1 Score Micro**, **AUC** e o tempo de treinamento. Os resultados estão dispostos abaixo: 

In [5]:
# Seleção dos modelos

models = {"Random Forest": RandomForestClassifier(random_state=0),
          "Logistic Regression": LogisticRegression(multi_class="ovr"),
          "Decision Tree": DecisionTreeClassifier(),
          "XGBoost": XGBClassifier(random_state=0),
           "Naive Bayes": GaussianNB() }

scores = model_train.evaluation_model_multclass_classifier(models, X, y)
scores

Unnamed: 0,Models,Accuracy,F1_micro,AUC_OVR,Training_time
0,Random Forest,0.9715,0.9715,0.999462,2.4304
1,Logistic Regression,0.4915,0.4915,0.703748,0.3081
2,Decision Tree,0.976,0.9725,0.984322,0.05404
3,XGBoost,0.976,0.976,0.999608,2.44037
4,Naive Bayes,0.7485,0.7485,0.941661,0.05271


Foram elaborados outros gráficos para evidenciar a performance dos modelos, [Gráfico das Métricas](/home/edmurcn/Documentos/MeusProjetos/Customer-Clustering/imagens/metrics.png) e [Gŕaficos Complementares](/home/edmurcn/Documentos/MeusProjetos/Customer-Clustering/imagens/models_performance.png). Desse modo, observamos que os modelos se adaptam bem ao conjunto, alguns com acertos muito próximos de 100%. Mas o modelo com melhor performance, segundo as métricas, foi o **XGBoost**. 