In [3]:
import pandas as pd

<!-- Modele o problema de classificação utilizando o algoritmo de Decision Trees. 
Para isso:
1. Faça uma breve análise exploratória sobre a base de dados.
2. Divida a base de dados em treino/teste.
3. Testes os seguintes classificadores baseados em árvores de decisão:
a. Decision tree classifier:
i. Calcule a acurácia.
ii. Varie os parâmetros do classificador e veja o impacto na 
acurácia
b. Random Forest:
i. Calcule a acurácia
ii. Varie os parâmetros do classificador e veja o impacto na 
acurácia. -->

In [4]:
# Modele o problema de classificação utilizando o algoritmo de Decision Trees. 
# Para isso:
# 1. Faça uma breve análise exploratória sobre a base de dados.
# 2. Divida a base de dados em treino/teste.
# 3. Testes os seguintes classificadores baseados em árvores de decisão:
# a. Decision tree classifier:
# i. Calcule a acurácia.
# ii. Varie os parâmetros do classificador e veja o impacto na 
# acurácia
# b. Random Forest:
# i. Calcule a acurácia
# ii. Varie os parâmetros do classificador e veja o impacto na 
# acurácia.

In [5]:
# Carregando base de dados

df = pd.read_excel(r"C:\Users\Rafael Pietro\OneDrive\Cursos\DNC\Datasets\Modelos Supervisionados\Classificação\Bank_Personal_Loan_Modelling.xlsx", sheet_name='Data')

In [6]:
df.head()

Unnamed: 0,ID,Age,Experience,Income,ZIP Code,Family,CCAvg,Education,Mortgage,Personal Loan,Securities Account,CD Account,Online,CreditCard
0,1,25,1,49,91107,4,1.6,1,0,0,1,0,0,0
1,2,45,19,34,90089,3,1.5,1,0,0,1,0,0,0
2,3,39,15,11,94720,1,1.0,1,0,0,0,0,0,0
3,4,35,9,100,94112,1,2.7,2,0,0,0,0,0,0
4,5,35,8,45,91330,4,1.0,2,0,0,0,0,0,1


In [7]:
# Através da análise das variáveis e do dicionário, algums informações relevantes:


# Variáveis categóricas:
# Personal Loan (Empréstimo Pessoal) - Este cliente aceitou o empréstimo pessoal oferecido na última campanha? Esta é a nossa variável alvo
# Securities Account (Conta de títulos) - O cliente possui conta de títulos no banco?
# CD Account (Conta de CD) - O cliente tem uma conta de certificado de depósito (CD) no banco?
# Online - O cliente usa serviços de banco pela Internet?
# Credit Card - (Cartão de crédito) - O cliente usa um cartão de crédito emitido pelo UniversalBank?

# Variáveis contínuas:

# Age (Idade) Idade do cliente
# Experience (Experiência) - anos de experiência
# Income (Renda) - Renda anual em dólares
# CCAvg (CCAvg) - gasto médio com cartão de crédito
# Mortage (Hipoteca) - Valor da hipoteca da casa

# Variáveis ​​categóricas ordinais:
# Family (Família) - tamanho da família do cliente
# Education (Educação) - nível de educação do cliente


# A variável ID não adiciona nenhuma informação interessante. 
# Não há associação entre o ID de cliente de uma pessoa e o empréstimo, também não fornece nenhuma conclusão geral para futuros clientes de empréstimo em potencial. 
# Podemos desconsiderar essas informações para o modelo.
# Zip code também pode ser descosiderada, uma vez que a informação de distnância entre zip code pode não ser realidade



In [8]:
#Excluindo variáveis não úteis

df = df.drop(columns=["ID", "ZIP Code"])

In [9]:
# Estatística básica das variáveis

df.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Age,5000.0,45.3384,11.463166,23.0,35.0,45.0,55.0,67.0
Experience,5000.0,20.1046,11.467954,-3.0,10.0,20.0,30.0,43.0
Income,5000.0,73.7742,46.033729,8.0,39.0,64.0,98.0,224.0
Family,5000.0,2.3964,1.147663,1.0,1.0,2.0,3.0,4.0
CCAvg,5000.0,1.937913,1.747666,0.0,0.7,1.5,2.5,10.0
Education,5000.0,1.881,0.839869,1.0,1.0,2.0,3.0,3.0
Mortgage,5000.0,56.4988,101.713802,0.0,0.0,0.0,101.0,635.0
Personal Loan,5000.0,0.096,0.294621,0.0,0.0,0.0,0.0,1.0
Securities Account,5000.0,0.1044,0.305809,0.0,0.0,0.0,0.0,1.0
CD Account,5000.0,0.0604,0.23825,0.0,0.0,0.0,0.0,1.0


In [10]:
# Distruibuição da variáveis target
df["Personal Loan"].value_counts()


0    4520
1     480
Name: Personal Loan, dtype: int64

In [11]:
# Pelo fato da base ser desbalanceada, não iremos usar toda a classe 0.
# Iremos pegar uma amostra e juntar com o registros da classe 1 para podermos modelar de forma mais justa.

df_classe_1 = df[df["Personal Loan"] == 1]
df_classe_0 = df[df["Personal Loan"] == 0].sample(n=1500)
df = df_classe_1.append(df_classe_0)

  df = df_classe_1.append(df_classe_0)


In [12]:
# Dividindo preditores (X) e variável target (Y)

X = df.drop(columns=["Personal Loan"])
Y = df["Personal Loan"]

In [13]:
# Dividindo a base em treino e teste

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=7)

print(f"Shape X_train: {X_train.shape}")
print(f"Shape y_train: {y_train.shape}")
print(f"Shape X_test: {X_test.shape}")
print(f"Shape y_test: {y_test.shape}")

Shape X_train: (1584, 11)
Shape y_train: (1584,)
Shape X_test: (396, 11)
Shape y_test: (396,)


In [14]:
# Classificador Decision Tree

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

clf = DecisionTreeClassifier(criterion="entropy")
clf.fit(X_train,y_train)

DecisionTreeClassifier(criterion='entropy')

In [15]:
y_pred = clf.predict(X_test)
print(f"Acurácia: {accuracy_score(y_test, y_pred)*100}%")

Acurácia: 96.46464646464646%


In [16]:
# Classificador Random Forest

from sklearn.ensemble import RandomForestClassifier

clf = RandomForestClassifier(criterion='entropy', n_estimators=150) 
clf.fit(X_train,y_train)

RandomForestClassifier(criterion='entropy', n_estimators=150)

In [17]:
y_pred = clf.predict(X_test)

print(f"Acurácia: {accuracy_score(y_test, y_pred)*100}%")

Acurácia: 97.47474747474747%
