# Analise exploratória do Dataframe Bank (http://archive.ics.uci.edu/ml/datasets/Bank+Marketing) 

1. Do que se trata?
Base de dados com o perfil dos bons e maus pagadores de empréstimo.
2. Qual o objetivo?
Entender qual o perfil dos bons e maus pagadores de empréstimo.
4. Gerar todos os gráficos com nomes das colunas.
5. O que a análise exploratória mostra?

## Descrição das bibliotecas

- pandas: Biblioteca de manipulação de dados.
- seaborn: Biblioteca baseada na matplotlib para visualização de dados.
- numpy: Biblioteca usado para cálculo matemático.
- matplotlib: Biblioteca usada para plotar gráficos 2D.
- scipy: Biblioteca usada para calculos estatísticos.

In [None]:
# Importar bibliotecas
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

In [None]:
# Versão da biblioteca Pandas
pd.__version__

In [None]:
# Versão da biblioteca Seaborn
sns.__version__

In [None]:
# Versão da biblioteca Numpy
np.__version__

In [None]:
# Versão da biblioteca Matplotlib
import matplotlib
matplotlib.__version__

## Trabalhando com Séries

Série é um tipo de array unidimensional, semelhante a lista em Python, com índices mutáveis. Toda série começa com o índice 0(zero)

In [None]:
# Criando Série

my_serie = pd.Series([10, 20, 30, 40, 50])
print(my_serie)

In [None]:
# Retornar o valor da série através de índice
print(my_serie[2])

In [None]:
# Inserir índice a série
my_serie.index = ['A', 'B', 'C', 'D', 'E']
print(my_serie)

In [None]:
# Retornar o índice com valor 'A'
print(my_serie['A'])

## Trabalhando com Dataframes

Dataframe é uma estrutura multidimensional e mutável em tamanho, com linhas e colunas

In [None]:
# Inicializar Dataframe
dados = {'Indice' : ['A', 'B', 'C', 'D', 'E'],
            'Valor': [1, 2, 3, 4, 5]}

In [None]:
# Criar Dataframe
dataframe = pd.DataFrame(dados)

In [None]:
# Mostrar Dataframe
dataframe

In [None]:
# Importar arquivo CSV com Pandas
arquivo_csv = pd.read_csv("dados/bank.csv", sep = ";")

In [None]:
# Primeiros 5 registros do dataframe
arquivo_csv.head()

In [None]:
# Quantidade de linhas e colunas do Dataframe - np é da bilbioteca numpy
np.shape(arquivo_csv)

In [None]:
# Ultimos 5 registros do dataframe
arquivo_csv.tail()

In [None]:
# Mostra as colunas do Dataframe
arquivo_csv.columns

In [None]:
# Contagem de dados não nulos por coluna
arquivo_csv.count()

In [None]:
# Soma dos valores de um Dataframe por coluna - os dados precisam ser numéricos
arquivo_csv.sum()

In [None]:
# Menor valor do Dataframe por coluna - os dados precisam ser numéricos
arquivo_csv.min()

In [None]:
# Maior valor do Dataframe por coluna - os dados precisam ser númericos
arquivo_csv.max()

In [None]:
# Descrição detalhada das informações do Dataframe
# a função 'describe()' desconsidera os valores NaN (nulos)
arquivo_csv.describe()

## Trabalhando com funções matemáticas da biblioteca Pandas

In [None]:
# Média - soma de todos os valores, dividido pela quantidade de valores
media_balance = arquivo_csv['balance'].sum() / len(arquivo_csv['balance'])
print(media_balance)

# A média também pode ser calculada dessa forma
arquivo_csv['balance'].mean()

In [None]:
# Mediana - valor central de uma lista ordenada crescente ou decrescente
mediana_balance = arquivo_csv['balance'].median()
print(mediana_balance)

In [None]:
# Moda - número que aparece com maior frequência. Se tiver mais de um valor que aparece com a mesma frequência, não existe moda
moda_balance = arquivo_csv['balance'].mode()
print(moda_balance)

In [None]:
# Média geométrica - crescimento exponencial, é a raiz n-ésima do produto dos n valores de um conjunto de dados
# Não pode conter o valor 0(zero) nos dados
#media_geometrica = stats.gmean(arquivo_csv['balance'], axis = 0)

# As idades na coluna 'age', é um exemplo sem valor 0(zero)
media_geometrica = stats.gmean(arquivo_csv['age'], axis = 0)
print(media_geometrica)

In [None]:
# Média harmônica - o menor dos dados, o inverso da média dos inversos de um conjunto de dados
# Não pode conter o valor 0(zero) nos dados
#media_harmonica = stats.hmean(arquivo_csv['balance'], axis = 0)

# As idades na coluna 'age', é um exemplo sem valor 0(zero)
media_harmonica = stats.hmean(arquivo_csv['age'], axis = 0)
print(media_harmonica)

### Medidas de dispersão ou variabilidade da biblioteca Pandas

In [None]:
# Amplitude - diferença entre o maior valor e o menor valor
amplitude = arquivo_csv['balance'].max() - arquivo_csv['balance'].min()
print(amplitude)

In [None]:
# Variância - média dos quadrados dos desvios das medias em relação a sua média
variancia = arquivo_csv['balance'].var()
print(variancia)

In [None]:
# Desvio padrão - raiz quadrada da média aritmética dos quadrados dos desvios em relação a média
# É a medida mais importante de variabilidade
desvio_padrao = arquivo_csv['balance'].std()
print(desvio_padrao)

In [None]:
# Describe da coluna 'balance'
descricao = arquivo_csv['balance'].describe()
print(descricao)

## Visualização gráfica de dados

### Histograma

In [None]:
sns.distplot(arquivo_csv['balance'])

In [None]:
plt.hist(arquivo_csv['balance'])

### Barras e linhas

In [None]:
# kind - informa o tipo da barra a ser plotada
# Opções: point, bar, strip (padrão), swarm, box, violin, or boxen.
sns.catplot(data = arquivo_csv, x = 'balance' kind = 'count')

In [None]:
sns.catplot(x = 'balance', y = 'age', hue = 'y', kind = 'bar', data = arquivo_csv, aspect = 2)

In [None]:
sns.relplot(data = arquivo_csv['balance'], kind = 'line', aspect = 2)

### Setores

In [None]:
# gráfico de pizza
label = 'balance', 'age'
valores = (arquivo_csv['balance'].mean(), arquivo_csv['age'].mean())
offsets = (0.1, 0.1)
plt.pie(valores, explode = offsets, labels = label, autopct = '%1.1f%%', shadow = True, startangle = 90, colors = sns.color_palette('muted'))
plt.axis('equal')

In [None]:
# boxplot
sns.boxplot(data = arquivo_csv, order = ['balance'], orient = 'h')

In [None]:
# gráfico de dispersão
sns.catplot(data = arquivo_csv)

In [None]:
# gráfico de dispersão detalhado
sns.catplot(data = arquivo_csv, kind = 'swarm')

### Correlação - medida se associação entre duas ou mais variáveis
- 0,9 a 1 positivo ou negativo indica uma correlação muito forte.
- 0,7 a 0,9 positivo ou negativo indica uma correlação forte.
- 0,5 a 0,7 positivo ou negativo indica uma correlação moderada.
- 0,3 a 0,5 positivo ou negativo indica uma correlação fraca.
- 0 a 0,3 positivo ou negativo indica uma correlação desprezível.

In [None]:
# correlação entre 'balance' e 'age'
arquivo_csv['balance'].corr(arquivo['age'])

In [None]:
# correlação do dataframe
arquivo_csv.corr()