<font size=5><b>Resolvendo problemas de classificação em Machine Learning

#### Preparação de dados para problemas de classificação

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns

In [None]:
churn_df = pd.read_csv("customer_churn.csv")

In [None]:
churn_df.head()

In [None]:
X = churn_df.drop(['RatePlan'], axis=1)
y = churn_df['RatePlan']

In [None]:
X.head()

In [None]:
y.head()

## Convertendo dados categoricos em numericos

In [None]:
# criando um DF com somente dados numericos
# criando um novo DF
numerical = X.drop(['CHURN', 'Gender', 'Status', 'LocalBilltype',\
                    'Paymethod', 'LongDistanceBilltype', 'Car Owner'],
                   axis=1)

In [None]:
numerical.head()

In [None]:
categorical = X.filter(['CHURN', 'Gender', 'Status', 'LocalBilltype',\
                    'Paymethod', 'LongDistanceBilltype', 'Car Owner'])

In [None]:
categorical.head()

O script a seguir converte colunas categóricas em colunas com codificação one-hot usando o método pd.get_dummies().

In [None]:
import pandas as pd
cat_numerical = pd.get_dummies(categorical, drop_first=True)
cat_numerical.head()

A última e última etapa é unir ou concatenar as colunas numéricas e as colunas categóricas com codificação one-hot. Para fazer isso, você pode usar a função concat da biblioteca Pandas, conforme mostrado abaixo:


In [None]:
X = pd.concat([numerical, cat_numerical], axis = 1)
X.head()

### Dividindo os dados em conjuntos de treinamento e teste
Depois de treinar um algoritmo de aprendizado de máquina, você precisa avaliá-lo para ver o desempenho dele em dados não vistos. Como a regressão, também em problemas de classificação dividimos o conjunto de dados em dois conjuntos, ou seja, o conjunto de treinamento e o conjunto de teste. O conjunto de dados é treinado por meio do conjunto de treinamento e avaliado no conjunto de teste. Para dividir os dados em conjuntos de treinamento e teste, você pode usar a função train_test_split() da biblioteca Sklearn, conforme mostrado abaixo. O script a seguir divide os dados em um conjunto de treinamento de 80 por cento e um conjunto de teste de 20 por cento.

In [None]:
from sklearn.model_selection import train_test_split

# tamanho do teste é a fração do tamanho do teste
X_train, X_test, y_train, y_test = train_test_split\
(X, y, test_size = 0.30, random_state = 0)

# Escalonamento / normalização de dados
A última etapa (opcional) antes de os dados serem passados ​​para os algoritmos de aprendizado de máquina é dimensionar os dados. Você pode ver que algumas colunas do conjunto de dados contêm valores pequenos, enquanto as outras colunas contêm valores muito grandes. É melhor converter todos os valores em uma escala uniforme. Para fazer isso, você pode usar a função StandardScaler () do módulo sklearn.preprocessing, conforme mostrado abaixo:

In [None]:
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
X_train = sc.fit_transform (X_train)
X_test = sc.transform (X_test)

# Regressão Logística
A regressão logística é um modelo linear que faz a classificação passando a saída da regressão linear por uma função sigmóide. 

Para implementar a regressão linear com Sklearn, você pode usar a classe LogisticRegression do módulo sklearn.linear_model. Para treinar o algoritmo, os conjuntos de treinamento e teste, ou seja, X_train e X_test em nosso caso, são passados para o método fit() do objeto da classe LogisticRegression. O conjunto de testes é passado para o método predict() da classe para fazer previsões. O processo de treinar e fazer previsões com o algoritmo de regressão linear é o seguinte:

In [None]:
from sklearn.linear_model import LogisticRegression

log_clf = LogisticRegression ()
classifier = log_clf.fit (X_train, y_train)
y_pred = classifier.predict(X_test)

In [None]:
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

print(confusion_matrix(y_test,y_pred))
print(classification_report(y_test,y_pred))
print(accuracy_score(y_test, y_pred))

Leituras Adicionais - Regressão Logística
Para estudar mais sobre regressão linear, verifique estes links:
1. https://bit.ly/3mjFV76
2. https://bit.ly/2FvcU7B

# Classificador KNN

O script a seguir mostra o processo de treinamento, teste e avaliação do algoritmo de classificação KNN para prever os valores da coluna de dicas do conjunto de dados Dicas.

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

knn_clf = KNeighborsClassifier(n_neighbors=5)
classifier = knn_clf.fit(X_train, y_train)
y_pred = classifier.predict(X_test)

print(confusion_matrix(y_test,y_pred))
print(classification_report(y_test,y_pred))
print(accuracy_score(y_test, y_pred))

Leituras adicionais - Classificação KNN
Para estudar mais sobre a classificação KNN, verifique estes links:
1. https://bit.ly/33pXWIj
2. https://bit.ly/2FqNmZx

# Classificador Random Forest
Como o regressor de floresta aleatório, o classificador de floresta aleatório é um algoritmo baseado em árvore que converte recursos em nós de árvore e, em seguida, usa a perda de entropia para fazer previsões de classificação.

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

rf_clf = RandomForestClassifier(random_state=42, n_estimators=500)
classifier = rf_clf.fit(X_train, y_train)
y_pred = classifier.predict(X_test)

print(confusion_matrix(y_test,y_pred))
print(classification_report(y_test,y_pred))
print(accuracy_score(y_test, y_pred))

Leituras adicionais - Classificação aleatória da floresta
Para estudar mais sobre a classificação aleatória de florestas, verifique estes links:
1. https://bit.ly/2V1G0k0
2. https://bit.ly/2GTyqDH

# Classificação de vetores de suporte
A máquina de vetores de suporte é de classificação, bem como algoritmos de regressão, que minimizam o erro entre as previsões reais e as previsões previstas, maximizando a distância entre os hiperplanos que contêm dados para vários registros.

In [None]:
from sklearn import svm
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

svm_clf = svm.SVC()
classifier = svm_clf .fit(X_train, y_train)
y_pred = classifier.predict(X_test)

print(confusion_matrix(y_test,y_pred))
print(classification_report(y_test,y_pred))
print(accuracy_score(y_test, y_pred))

Further Readings – SVM Classification
To study more about SVM classification, please check these links:
1. https://bit.ly/3hr4jAi
2. https://bit.ly/3iF0gln

# Validação cruzada K-Fold
Você também pode realizar validação cruzada K-fold para modelos de classificação, assim como modelos de regressão. Você pode usar a função cross_val_score() do módulo sklearn.model_selection para realizar a validação cruzada, como mostrado abaixo. Para o algoritmo de classificação, você precisa passar uma métrica de classificação, por exemplo, precisão para o atributo de pontuação.

In [None]:
from sklearn.model_selection import cross_val_score

print(cross_val_score(classifier, X, y, cv=5, scoring ='accuracy'))

# Previsão de um único valor
Vamos fazer uma previsão em um único registro de cliente e ver se ele deixará o banco após seis meses ou não.

In [None]:
churn_df.loc [100]

In [None]:
# training the random forest algorithm
from sklearn.ensemble import RandomForestClassifier

rf_clf = RandomForestClassifier(random_state=42, n_estimators=500)
classifier = rf_clf.fit(X_train, y_train)
single_record = sc.transform (X.values[100].reshape(1, -1))
predicted_churn = classifier.predict(single_record)

print(predicted_churn)