**Comando para evitar mensagens de Warning**

In [0]:
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)

**Caso não tenha instalado no seu Google Colab ou no seu Anaconda**

In [0]:
# caso você não tem essa biblioteca instalada use o comando abaixo.
!pip install imblearn

In [0]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import NearMiss
import seaborn as sns

### **Modelo com classes desbalanceadas**

In [0]:
from google.colab import drive
drive.mount('/content/drive')

In [0]:
import pandas as pd

In [0]:
df = pd.read_csv('/content/drive/My Drive/Lidando com Dados Desbalanceados/bank-full.csv', sep=';')

In [0]:
df.head()

In [0]:
df.info()

**Formatando algumas colunas**

In [0]:
df["default"] = df["default"].map({"no":0,"yes":1})
df["housing"] = df["housing"].map({"no":0,"yes":1})
df["loan"] = df["loan"].map({"no":0,"yes":1})
df["y"] = df["y"].map({"no":0,"yes":1})
df.education = df.education.map({"primary": 0, "secondary":1, "tertiary":2})
df.poutcome = df.poutcome.map({"unknown": 0, "failure":1, "other":2, "success":3})
df.contact = df.contact.map({"cellular": 0, "unknown":1, "telephone":2})
df.month = pd.to_datetime(df.month, format = "%b").dt.month

**Checando missing values**

In [0]:
df.isnull().sum()

**Removendo missing values**

In [0]:
df.dropna(inplace = True)

In [0]:
df.head()

**Transformando colunas categóricas em numéricas**

In [0]:
df = pd.get_dummies(df)

In [0]:
df.head()

**Visualizando a distribuição das classes**

In [0]:
df.y.value_counts()

In [0]:
import seaborn as sns
ax = sns.countplot(x="y", data=df)

**Executando um Algoritmo Classificador**

In [0]:
lr = LogisticRegression()

**Separa dados e suas classes**

In [0]:
X = df.drop("y", axis = 1)
y = df.y

**Separa dados de treino e teste**

In [0]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 1, stratify=y)

**Treina o algoritmo**

In [0]:
lr.fit(X_train, y_train)

**Coloca as classificações na variável y_pred**

In [0]:
y_pred = lr.predict(X_test)

**Checa a acurácia do modelo**

In [0]:
accuracy_score(y_test, y_pred)

**Relatório de Classificação**

- *Observe o Recall*




In [0]:
print (classification_report(y_test, y_pred))

**Matriz de confusão**

In [0]:
print (pd.crosstab(y_test, y_pred, rownames=['Real'], colnames=['Predito'], margins=True))

### **Aplicando NearMiss:**

*   Método de Undersampling.
*   Iguala as quantidade de amostras entre as classes.



In [0]:
from imblearn.under_sampling import NearMiss

**Instancia o NearMiss**

In [0]:
nr = NearMiss()

**Aplica o NearMiss**



*   Aplica o NearMiss nos dados para igualar a quantidade de amostras das classes



In [0]:
X, y = nr.fit_sample(X, y)

**Checa a quantidade de amostras entre as classes**

In [0]:
ax = sns.countplot(x=y)



*   Separa em 70% dos dados para treino e 30% para teste.




In [0]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 1, stratify=y)

**Instância o classificador**

In [0]:
lr = LogisticRegression()

**Treina o algoritmo**

In [0]:
lr.fit(X_train, y_train)

**Coloca as classificações na variável y_pred**

In [0]:
y_pred = lr.predict(X_test)

**Checa a acurácia do modelo**

In [0]:
accuracy_score(y_test, y_pred)

*Recall*

In [0]:
print (classification_report(y_test, y_pred))

**Matriz de confusão**

In [0]:
print (pd.crosstab(y_test, y_pred, rownames=['Real'], colnames=['Predito'], margins=True))

### **Aplicando o SMOTE (Synthetic Minority Over-sampling Technique)**



*   Gera dados sintéticos da classe minoritária.



**Separa os dados e as classes**

*Aqui vamos repetir esse passo, pois, no teste do NearMiss a gente substituiu os dados das varíaveis X e y*

In [0]:
X = df.drop("y", axis = 1)
y = df.y

**Visualizando a quantidade de dados por classe**

In [0]:
np.bincount(y)

In [0]:
ax = sns.countplot(x=y)

**Instância o SMOTE**

In [0]:
# sampling_strategy=0.5
smt = SMOTE(sampling_strategy=0.5)

**Aplica o SMOTE nos dados**

In [0]:
X, y = smt.fit_sample(X, y)

**Visualizando a distribuição das amostras**

In [0]:
np.bincount(y)

In [0]:
ax = sns.countplot(x=y)

**Separando Treino e Teste**



*   Separa em 70% dos dados para treino e 30% para teste.




In [0]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 1, stratify=y)

**Instância o classificador**

In [0]:
lr = LogisticRegression()

**Treina o algoritmo**

In [0]:
lr.fit(X_train, y_train)

**Coloca as classificações na variável y_pred**

In [0]:
y_pred = lr.predict(X_test)

**Checa a acurácia do modelo**

In [0]:
accuracy_score(y_test, y_pred)

*Recall*

In [0]:
print (classification_report(y_test, y_pred))

**Matriz de Confusão**

In [0]:
print (pd.crosstab(y_test, y_pred, rownames=['Real'], colnames=['Predito'], margins=True))