<font size=5><b>Resolvendo problemas de classificação em Machine Learning

#### Preparação de dados para problemas de classificação

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

In [2]:
churn_df = pd.read_csv("customer_churn.csv")

In [3]:
churn_df.head()

Unnamed: 0,CHURN,Gender,Status,Children,Est Income,Car Owner,Age,LongDistance,International,Local,Dropped,Paymethod,LocalBilltype,LongDistanceBilltype,Usage,RatePlan
0,T,F,S,1.0,38000.0,N,24.393333,23.56,0.0,206.08,0.0,CC,Budget,Intnl_discount,229.64,3.0
1,F,M,M,2.0,29616.0,N,49.426667,29.78,0.0,45.5,0.0,CH,FreeLocal,Standard,75.29,2.0
2,F,M,M,0.0,19732.8,N,50.673333,24.81,0.0,22.44,0.0,CC,FreeLocal,Standard,47.25,3.0
3,F,M,S,2.0,96.33,N,56.473333,26.13,0.0,32.88,1.0,CC,Budget,Standard,59.01,1.0
4,F,F,M,2.0,52004.8,N,25.14,5.03,0.0,23.11,0.0,CH,Budget,Intnl_discount,28.14,1.0


In [4]:
X = churn_df.drop(['RatePlan'], axis=1)
y = churn_df['RatePlan']

In [5]:
X.head()

Unnamed: 0,CHURN,Gender,Status,Children,Est Income,Car Owner,Age,LongDistance,International,Local,Dropped,Paymethod,LocalBilltype,LongDistanceBilltype,Usage
0,T,F,S,1.0,38000.0,N,24.393333,23.56,0.0,206.08,0.0,CC,Budget,Intnl_discount,229.64
1,F,M,M,2.0,29616.0,N,49.426667,29.78,0.0,45.5,0.0,CH,FreeLocal,Standard,75.29
2,F,M,M,0.0,19732.8,N,50.673333,24.81,0.0,22.44,0.0,CC,FreeLocal,Standard,47.25
3,F,M,S,2.0,96.33,N,56.473333,26.13,0.0,32.88,1.0,CC,Budget,Standard,59.01
4,F,F,M,2.0,52004.8,N,25.14,5.03,0.0,23.11,0.0,CH,Budget,Intnl_discount,28.14


In [6]:
y.head()

0    3.0
1    2.0
2    3.0
3    1.0
4    1.0
Name: RatePlan, dtype: float64

## Convertendo dados categoricos em numericos

In [7]:
# criando um DF com somente dados numericos
# criando um novo DF
numerical = X.drop(['CHURN', 'Gender', 'Status', 'LocalBilltype',\
                    'Paymethod', 'LongDistanceBilltype', 'Car Owner'],
                   axis=1)

In [8]:
numerical.head()

Unnamed: 0,Children,Est Income,Age,LongDistance,International,Local,Dropped,Usage
0,1.0,38000.0,24.393333,23.56,0.0,206.08,0.0,229.64
1,2.0,29616.0,49.426667,29.78,0.0,45.5,0.0,75.29
2,0.0,19732.8,50.673333,24.81,0.0,22.44,0.0,47.25
3,2.0,96.33,56.473333,26.13,0.0,32.88,1.0,59.01
4,2.0,52004.8,25.14,5.03,0.0,23.11,0.0,28.14


In [9]:
categorical = X.filter(['CHURN', 'Gender', 'Status', 'LocalBilltype',\
                    'Paymethod', 'LongDistanceBilltype', 'Car Owner'])

In [10]:
categorical.head()

Unnamed: 0,CHURN,Gender,Status,LocalBilltype,Paymethod,LongDistanceBilltype,Car Owner
0,T,F,S,Budget,CC,Intnl_discount,N
1,F,M,M,FreeLocal,CH,Standard,N
2,F,M,M,FreeLocal,CC,Standard,N
3,F,M,S,Budget,CC,Standard,N
4,F,F,M,Budget,CH,Intnl_discount,N


O script a seguir converte colunas categóricas em colunas com codificação one-hot usando o método pd.get_dummies().

In [11]:
import pandas as pd
cat_numerical = pd.get_dummies(categorical, drop_first=True)
cat_numerical.head()

Unnamed: 0,CHURN_T,Gender_M,Status_M,Status_S,LocalBilltype_FreeLocal,Paymethod_CC,Paymethod_CH,LongDistanceBilltype_Standard,Car Owner_Y
0,1,0,0,1,0,1,0,0,0
1,0,1,1,0,1,0,1,1,0
2,0,1,1,0,1,1,0,1,0
3,0,1,0,1,0,1,0,1,0
4,0,0,1,0,0,0,1,0,0


A última e última etapa é unir ou concatenar as colunas numéricas e as colunas categóricas com codificação one-hot. Para fazer isso, você pode usar a função concat da biblioteca Pandas, conforme mostrado abaixo:



In [12]:
X = pd.concat([numerical, cat_numerical], axis = 1)
X.head()

Unnamed: 0,Children,Est Income,Age,LongDistance,International,Local,Dropped,Usage,CHURN_T,Gender_M,Status_M,Status_S,LocalBilltype_FreeLocal,Paymethod_CC,Paymethod_CH,LongDistanceBilltype_Standard,Car Owner_Y
0,1.0,38000.0,24.393333,23.56,0.0,206.08,0.0,229.64,1,0,0,1,0,1,0,0,0
1,2.0,29616.0,49.426667,29.78,0.0,45.5,0.0,75.29,0,1,1,0,1,0,1,1,0
2,0.0,19732.8,50.673333,24.81,0.0,22.44,0.0,47.25,0,1,1,0,1,1,0,1,0
3,2.0,96.33,56.473333,26.13,0.0,32.88,1.0,59.01,0,1,0,1,0,1,0,1,0
4,2.0,52004.8,25.14,5.03,0.0,23.11,0.0,28.14,0,0,1,0,0,0,1,0,0


### Dividindo os dados em conjuntos de treinamento e teste
Depois de treinar um algoritmo de aprendizado de máquina, você precisa avaliá-lo para ver o desempenho dele em dados não vistos. Como a regressão, também em problemas de classificação dividimos o conjunto de dados em dois conjuntos, ou seja, o conjunto de treinamento e o conjunto de teste. O conjunto de dados é treinado por meio do conjunto de treinamento e avaliado no conjunto de teste. Para dividir os dados em conjuntos de treinamento e teste, você pode usar a função train_test_split() da biblioteca Sklearn, conforme mostrado abaixo. O script a seguir divide os dados em um conjunto de treinamento de 80 por cento e um conjunto de teste de 20 por cento.

In [13]:
from sklearn.model_selection import train_test_split

# tamanho do teste é a fração do tamanho do teste
X_train, X_test, y_train, y_test = train_test_split\
(X, y, test_size = 0.30, random_state = 0)

# Escalonamento / normalização de dados
A última etapa (opcional) antes de os dados serem passados ​​para os algoritmos de aprendizado de máquina é dimensionar os dados. Você pode ver que algumas colunas do conjunto de dados contêm valores pequenos, enquanto as outras colunas contêm valores muito grandes. É melhor converter todos os valores em uma escala uniforme. Para fazer isso, você pode usar a função StandardScaler () do módulo sklearn.preprocessing, conforme mostrado abaixo:

In [14]:
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
X_train = sc.fit_transform (X_train)
X_test = sc.transform (X_test)

# Regressão Logística
A regressão logística é um modelo linear que faz a classificação passando a saída da regressão linear por uma função sigmóide. 

Para implementar a regressão linear com Sklearn, você pode usar a classe LogisticRegression do módulo sklearn.linear_model. Para treinar o algoritmo, os conjuntos de treinamento e teste, ou seja, X_train e X_test em nosso caso, são passados para o método fit() do objeto da classe LogisticRegression. O conjunto de testes é passado para o método predict() da classe para fazer previsões. O processo de treinar e fazer previsões com o algoritmo de regressão linear é o seguinte:

In [15]:
from sklearn.linear_model import LogisticRegression

log_clf = LogisticRegression ()
classifier = log_clf.fit (X_train, y_train)
y_pred = classifier.predict(X_test)

In [16]:
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

print(confusion_matrix(y_test,y_pred))
print(classification_report(y_test,y_pred))
print(accuracy_score(y_test, y_pred))

[[35 54  0 56]
 [25 87  0 54]
 [39 58  0 56]
 [25 49  0 82]]
              precision    recall  f1-score   support

         1.0       0.28      0.24      0.26       145
         2.0       0.35      0.52      0.42       166
         3.0       0.00      0.00      0.00       153
         4.0       0.33      0.53      0.41       156

    accuracy                           0.33       620
   macro avg       0.24      0.32      0.27       620
weighted avg       0.24      0.33      0.28       620

0.32903225806451614


  _warn_prf(average, modifier, msg_start, len(result))


Leituras Adicionais - Regressão Logística
Para estudar mais sobre regressão linear, verifique estes links:
1. https://bit.ly/3mjFV76
2. https://bit.ly/2FvcU7B

# Classificador KNN

O script a seguir mostra o processo de treinamento, teste e avaliação do algoritmo de classificação KNN para prever os valores da coluna de dicas do conjunto de dados Dicas.

In [17]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

knn_clf = KNeighborsClassifier(n_neighbors=5)
classifier = knn_clf.fit(X_train, y_train)
y_pred = classifier.predict(X_test)

print(confusion_matrix(y_test,y_pred))
print(classification_report(y_test,y_pred))
print(accuracy_score(y_test, y_pred))

[[61 40 29 15]
 [48 67 28 23]
 [49 50 27 27]
 [50 38 27 41]]
              precision    recall  f1-score   support

         1.0       0.29      0.42      0.35       145
         2.0       0.34      0.40      0.37       166
         3.0       0.24      0.18      0.20       153
         4.0       0.39      0.26      0.31       156

    accuracy                           0.32       620
   macro avg       0.32      0.32      0.31       620
weighted avg       0.32      0.32      0.31       620

0.3161290322580645


Leituras adicionais - Classificação KNN
Para estudar mais sobre a classificação KNN, verifique estes links:
1. https://bit.ly/33pXWIj
2. https://bit.ly/2FqNmZx

# Classificador Random Forest
Como o regressor de floresta aleatório, o classificador de floresta aleatório é um algoritmo baseado em árvore que converte recursos em nós de árvore e, em seguida, usa a perda de entropia para fazer previsões de classificação.

In [18]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

rf_clf = RandomForestClassifier(random_state=42, n_estimators=500)
classifier = rf_clf.fit(X_train, y_train)
y_pred = classifier.predict(X_test)

print(confusion_matrix(y_test,y_pred))
print(classification_report(y_test,y_pred))
print(accuracy_score(y_test, y_pred))

[[58 36 30 21]
 [31 64 27 44]
 [47 35 30 41]
 [38 26 32 60]]
              precision    recall  f1-score   support

         1.0       0.33      0.40      0.36       145
         2.0       0.40      0.39      0.39       166
         3.0       0.25      0.20      0.22       153
         4.0       0.36      0.38      0.37       156

    accuracy                           0.34       620
   macro avg       0.34      0.34      0.34       620
weighted avg       0.34      0.34      0.34       620

0.3419354838709677


Leituras adicionais - Classificação aleatória da floresta
Para estudar mais sobre a classificação aleatória de florestas, verifique estes links:
1. https://bit.ly/2V1G0k0
2. https://bit.ly/2GTyqDH

# Classificação de vetores de suporte
A máquina de vetores de suporte é de classificação, bem como algoritmos de regressão, que minimizam o erro entre as previsões reais e as previsões previstas, maximizando a distância entre os hiperplanos que contêm dados para vários registros.

In [19]:
from sklearn import svm
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

svm_clf = svm.SVC()
classifier = svm_clf .fit(X_train, y_train)
y_pred = classifier.predict(X_test)

print(confusion_matrix(y_test,y_pred))
print(classification_report(y_test,y_pred))
print(accuracy_score(y_test, y_pred))

[[49 42 13 41]
 [30 76 10 50]
 [39 47 11 56]
 [29 47 12 68]]
              precision    recall  f1-score   support

         1.0       0.33      0.34      0.34       145
         2.0       0.36      0.46      0.40       166
         3.0       0.24      0.07      0.11       153
         4.0       0.32      0.44      0.37       156

    accuracy                           0.33       620
   macro avg       0.31      0.33      0.30       620
weighted avg       0.31      0.33      0.31       620

0.32903225806451614


Further Readings – SVM Classification
To study more about SVM classification, please check these links:
1. https://bit.ly/3hr4jAi
2. https://bit.ly/3iF0gln

# Validação cruzada K-Fold
Você também pode realizar validação cruzada K-fold para modelos de classificação, assim como modelos de regressão. Você pode usar a função cross_val_score() do módulo sklearn.model_selection para realizar a validação cruzada, como mostrado abaixo. Para o algoritmo de classificação, você precisa passar uma métrica de classificação, por exemplo, precisão para o atributo de pontuação.

In [23]:
from sklearn.model_selection import cross_val_score

print(cross_val_score(classifier, X, y, cv=5, scoring ='accuracy'))

[0.25845411 0.27118644 0.28571429 0.27360775 0.28571429]


# Previsão de um único valor
Vamos fazer uma previsão em um único registro de cliente e ver se ele deixará o banco após seis meses ou não.

In [24]:
churn_df.loc [100]

CHURN                                F
Gender                               M
Status                               M
Children                           1.0
Est Income                     2067.82
Car Owner                            N
Age                          47.853333
LongDistance                     15.25
International                      0.0
Local                            70.65
Dropped                            0.0
Paymethod                           CC
LocalBilltype                   Budget
LongDistanceBilltype    Intnl_discount
Usage                             85.9
RatePlan                           4.0
Name: 100, dtype: object

In [26]:
# training the random forest algorithm
from sklearn.ensemble import RandomForestClassifier

rf_clf = RandomForestClassifier(random_state=42, n_estimators=500)
classifier = rf_clf.fit(X_train, y_train)
single_record = sc.transform (X.values[100].reshape(1, -1))
predicted_churn = classifier.predict(single_record)

print(predicted_churn)

[1.]
