In [1]:
#Disciplina: Solucoes de Mineracao de dados
#--------------------------------------------------------
#Script para a analise exploratoria dos dados (AED) - bank
#--------------------------------------------------------
# Importando as bibliotecas necessarias


import os
import zipfile
import pandas
import numpy as np
from pandas.plotting import scatter_matrix
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn import neighbors
from sklearn import tree
plt.rcParams['figure.figsize'] = [16, 10]
pandas.set_option('display.max_columns', None)

In [2]:
# Fazendo o carregamento dos dados diretamente do UCI Machine Learning
dataset = pandas.read_csv("dados/bank.csv", delimiter=";", header='infer')

In [3]:
print("Apresentando o shape dos dados (dimenssoes)")
print(dataset.shape)

Apresentando o shape dos dados (dimenssoes)
(4521, 17)


In [4]:
print("Visualizando o conjunto inicial (head) dos dados, ou mais claramente, os 5 primeiros registros (head(5))")
print(dataset.head(5))

Visualizando o conjunto inicial (head) dos dados, ou mais claramente, os 5 primeiros registros (head(5))
   age          job  marital  education default  balance housing loan  \
0   30   unemployed  married    primary      no     1787      no   no   
1   33     services  married  secondary      no     4789     yes  yes   
2   35   management   single   tertiary      no     1350     yes   no   
3   30   management  married   tertiary      no     1476     yes  yes   
4   59  blue-collar  married  secondary      no        0     yes   no   

    contact  day month  duration  campaign  pdays  previous poutcome   y  
0  cellular   19   oct        79         1     -1         0  unknown  no  
1  cellular   11   may       220         1    339         4  failure  no  
2  cellular   16   apr       185         1    330         1  failure  no  
3   unknown    3   jun       199         4     -1         0  unknown  no  
4   unknown    5   may       226         1     -1         0  unknown  no  


In [5]:
print("Conhecendo os dados estatisticos dos dados carregados (describe)")
print(dataset.describe())

Conhecendo os dados estatisticos dos dados carregados (describe)
               age       balance          day     duration     campaign  \
count  4521.000000   4521.000000  4521.000000  4521.000000  4521.000000   
mean     41.170095   1422.657819    15.915284   263.961292     2.793630   
std      10.576211   3009.638142     8.247667   259.856633     3.109807   
min      19.000000  -3313.000000     1.000000     4.000000     1.000000   
25%      33.000000     69.000000     9.000000   104.000000     1.000000   
50%      39.000000    444.000000    16.000000   185.000000     2.000000   
75%      49.000000   1480.000000    21.000000   329.000000     3.000000   
max      87.000000  71188.000000    31.000000  3025.000000    50.000000   

             pdays     previous  
count  4521.000000  4521.000000  
mean     39.766645     0.542579  
std     100.121124     1.693562  
min      -1.000000     0.000000  
25%      -1.000000     0.000000  
50%      -1.000000     0.000000  
75%      -1.000000   

In [8]:
print("Conhecendo a distribuicao dos dados por classes (class distribution)")
dataset = dataset.rename(columns={'y': 'class'})
print(dataset.groupby('class').size())

Conhecendo a distribuicao dos dados por classes (class distribution)
class
no     4000
yes     521
dtype: int64


In [9]:
# print("Criando grafios de caixa da distribuicao das classes")
# dataset.plot(kind='box', subplots=True, layout=(3,3), sharex=False, sharey=False)
# plt.show()

In [10]:
# print("Criando histogramas dos dados por classes")
# dataset.hist()
# plt.show()

In [11]:
# print("Criando graficos de dispersao dos dados com paleta de cores")
# colors_palette = {'no': 'red', 'yes': 'green'}
# colors = [colors_palette[c] for c in dataset['class']]
# scatter_matrix(dataset, c=colors)
# #plt.savefig('tste_fig')
# plt.show()

In [12]:
#realizando a selecão de atributos numericos para normalizacao MinMax
num_cols = dataset.columns[dataset.dtypes.apply(lambda c: np.issubdtype(c, np.number))]
min_max_scaler = MinMaxScaler()
dataset[num_cols] = min_max_scaler.fit_transform(dataset[num_cols])

In [13]:
# Get dummy variables for categorical vars
data_w_dummies = pandas.get_dummies(dataset, prefix_sep='_', drop_first=True)

In [14]:
#print(data_w_dummies.head())
print("Apresentando o shape dos dados (dimenssoes)")
print(data_w_dummies.shape)

Apresentando o shape dos dados (dimenssoes)
(4521, 43)


In [15]:
#divisao de dados atributos e classe
X = data_w_dummies.values[:, 0:42]
Y = data_w_dummies.values[:,42]

In [16]:
#usando o metodo para fazer uma unica divisao dos dados
X_train, X_test, y_train, y_test = train_test_split( X, Y, test_size = 0.25, random_state = 10)

In [17]:
# we create an instance of Neighbours Classifier and fit the data.
clf = neighbors.KNeighborsClassifier(7)
clf = clf.fit(X_train, y_train)

In [18]:
print("Acuracia de trainamento Knn: %0.3f" %  clf.score(X_train, y_train))
print("Acuracia de teste Knn: %0.3f" %  clf.score(X_test, y_test))

Acuracia de trainamento Knn: 0.900
Acuracia de teste Knn: 0.888


In [19]:
#criando diferentes arvores
clf = tree.DecisionTreeClassifier(criterion='entropy',max_depth=10, random_state = 10)
clf2 = tree.DecisionTreeClassifier(max_depth=15,random_state = 10)

clf = clf.fit(X_train, y_train) #treinamento
clf2 = clf2.fit(X_train, y_train) #treinamento

print("Acuracia de trainamento arvore1: %0.3f" %  clf.score(X_train, y_train))
print("Acuracia de teste arvore1: %0.3f" %  clf.score(X_test, y_test))
print("Acuracia de trainamento arvore2: %0.3f" %  clf2.score(X_train, y_train))
print("Acuracia de teste arvore2: %0.3f" %  clf2.score(X_test, y_test))

Acuracia de trainamento arvore1: 0.956
Acuracia de teste arvore1: 0.897
Acuracia de trainamento arvore2: 0.984
Acuracia de teste arvore2: 0.883
