In [None]:
#Disciplina: Solucoes de Mineracao de dados
#--------------------------------------------------------
#Script para a analise exploratoria dos dados (AED)
#--------------------------------------------------------


# Importando as bibliotecas necessarias
import os
import zipfile
import pandas
import numpy as np
from pandas.plotting import scatter_matrix
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler
plt.rcParams['figure.figsize'] = [16, 10]
pandas.set_option('display.max_columns', None)

# Fazendo o carregamento dos dados diretamente do UCI Machine Learning
dataset = pandas.read_csv("/content/bank.csv", delimiter=";", header='infer')

print("Apresentando o shape dos dados (dimenssoes)")
print(dataset.shape)

print("Visualizando o conjunto inicial (head) dos dados, ou mais claramente, os 5 primeiros registros (head(5))")
print(dataset.head(5))

print("Conhecendo os dados estatisticos dos dados carregados (describe)")
print(dataset.describe())

print("Conhecendo a distribuicao dos dados por classes (class distribution)")
dataset = dataset.rename(columns={'y': 'class'})
print(dataset.groupby('class').size())

print("Criando grafios de caixa da distribuicao das classes")
dataset.plot(kind='box', subplots=True, layout=(3,3), sharex=False, sharey=False)
plt.show()

print("Criando histogramas dos dados por classes")
dataset.hist()
plt.show()

print("Criando graficos de dispersao dos dados com paleta de cores")
colors_palette = {'no': 'red', 'yes': 'green'}
colors = [colors_palette[c] for c in dataset['class']]
scatter_matrix(dataset, c=colors)
#plt.savefig('tste_fig')
plt.show()

#realizando a selecão de atributos numericos para normalizacao MinMax
num_cols = dataset.columns[dataset.dtypes.apply(lambda c: np.issubdtype(c, np.number))]
min_max_scaler = MinMaxScaler()
dataset[num_cols] = min_max_scaler.fit_transform(dataset[num_cols])

# Get dummy variables for categorical vars
data_w_dummies = pandas.get_dummies(dataset, prefix_sep='_', drop_first=True)

# X head
print(data_w_dummies.head())