# Especialização em Ciência de Dados - PUC-Rio
# Machine Learning
## Análise Exploratória de Dados

In [0]:
# Importações de pacotes necessários
import sklearn as sl
import warnings
warnings.filterwarnings("ignore")
#sl.__version__

## Definição do Problema

Para este experimento, vamos utilizar o dataset Pima Indians Diabetes, que contém  registros médicos sobre pacientes e cada registro está rotulado se o paciente desenvolveu ou não diabetes. 

Os registros de pacientes com diabetes foram obtidos de duas fontes: um dispositivo de gravação eletrônica automática e registros em papel. O dispositivo automático tinha um relógio interno para eventos de registro de data e hora, enquanto os registros em papel forneciam apenas intervalos de tempo lógico (café da manhã, almoço, jantar, horário de dormir). Para registros em papel, horários fixos foram atribuídos ao café da manhã (08:00), almoço (12:00), jantar (18:00) e horário de dormir (22:00). Assim, os registros em papel têm tempos de gravação uniformes fictícios, enquanto os registros eletrônicos têm carimbos de hora mais realistas.

Para mais detalhes sobre este dataset, consulte: http://archive.ics.uci.edu/ml/datasets/diabetes

### Informações sobre os atributos:
1. **preg** - Number of times pregnant 
2. **plas** - Plasma glucose concentration a 2 hours in an oral glucose tolerance test 
3. **pres** - Diastolic blood pressure (mm Hg) 
4. **skin** - Triceps skin fold thickness (mm) 
5. **test** - 2-Hour serum insulin (mu U/ml) 
6. **mass** - Body mass index (weight in kg/(height in m)^2) 
7. **pedi** - Diabetes pedigree function 
8. **age** - Age (years) 
9. **class** - Class variable (0 or 1) 

## Carga do dataset

In [0]:
# Observação sobre importação de pacotes

# FORMA 1: Apenas a função que queremos usar (ex: read_csv)
# Importa apenas a função read_csv
# from pandas import read_csv

# FORMA 2: Todo o pacote
# import pandas as pd

Iremos usar o pacote Pandas ( Python Data Analysis Library) para carregar de um arquivo .csv sem cabeçalho. Use **APENAS UM** dos dois blocos a seguir:

In [0]:
# Carrega arquivo csv usando Pandas (NÃO FUNCIONA NO GOOGLE COLAB)

# Importa  todo o pacote Pandas
import pandas as pd

# Informa o caminho do arquivo
arquivo = 'data/pima-data.csv'

# Informa o cabeçalho das colunas
colunas = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

# Lê o arquivo utilizando as colunas informadas
dataset = pd.read_csv(arquivo, names = colunas)

In [0]:
# Carrega arquivo csv usando Pandas usando uma URL

# Importa  todo o pacote Pandas
import pandas as pd

# Informa a URL de importação do dataset
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"

# Informa o cabeçalho das colunas
colunas = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

# Lê o arquivo utilizando as colunas informadas
dataset = pd.read_csv(url, names=colunas, skiprows=0, delimiter=',')

## Análise Exploratória

### Informações Gerais e Estatísticas Descritivas

In [0]:
# Mostra as informações do dataset
dataset.info()

In [0]:
# Mostra as 10 primeiras linhas do dataset
dataset.head(10)

In [0]:
# Mostra as 10 últimas linhas do dataset
dataset.tail(10)

In [0]:
# Mostra as dimensões do dataset
dataset.shape

É sempre importante verificar o tipo do atributos do dataset, pois pode ser necessário realizar conversões.

In [0]:
# Verifica o tipo de dataset de cada atributo
dataset.dtypes

In [0]:
# Faz um resumo estatístico do dataset (média, desvio padrão, mínimo, máximo e os quartis)
dataset.describe()

Vamos agora verificar se o dataset tem as classes balanceadas para que possamos tratar o desbalanceamento posteriormente, se necessário. Veremos que as classes 0 (não ocorrência de diabetes) e 1 (ocorrência de diabetes) estão desbalanceadas.

In [0]:
# Verifica a distribuição das classes
dataset.groupby('class').size()

Lembrando a aula teórica: a covariância representa como duas variáveis numéricas estão relacionadas. Existem várias formas de calcular a correlação entre duas variáveis, como por exemplo, o coeficiente de correlação de Pearson, que pode ser:
* Próximo de -1 : há uma correlação negativa entre as variáveis, 
* Próximo de +1: há uma correlação positiva entre as variáveis. 
* 0: não há correlação entre as variáveis.

<i>OBS: Alguns algoritmos como regressão linear e regressão logística podem apresentar problemas de performance se houver atributos altamente correlacionados. Vale a pena consultar a documentação do algoritmo para verificar se algum tipo de tratamento de dataset é necessário.</i>

In [0]:
# Correlação de Pearson
dataset.corr(method = 'pearson')
# Outros métodos de correlação: {‘pearson’, ‘kendall’, ‘spearman’}

Vamos agora verificar a simetria (skew) da distribuição de dataset de cada atributo, assumindo que a distribuição é normal (gaussiana). Se o coeficiente for:
* Maior que 0: a distribuição é assimétrica positiva (maior à esquerda e menor à direita).
* Menor que 0: a distribuição é assimétrica negativa (maior à direita e menor à esquerda).
* Igual a 0: a distribuição é simétrica.

<i>OBS: Muitos algoritmos de Machine Learning consideram que os dataset possuem uma distribuição normal. Conhecer a simetria dos dataset é importante para que seja realizado algum tratamento, se necessário.</i>

In [10]:
# Simetria de cada atributo
dataset.skew()

preg     0.901674
plas     0.173754
pres    -1.843608
skin     0.109372
test     2.272251
mass    -0.428982
pedi     1.919911
age      1.129597
class    0.635017
dtype: float64

### Visualização com Matplotlib

In [0]:
# Importa o pacote matplotlib
import matplotlib.pyplot as plt
# Indica que os dataset serão gerados nesta mesma janela
%matplotlib inline

Ao exibirmos o histograma do dataset, veremos que os atributos **age**, **pedi** e **test** possuem uma distribuição exponencial, e que as colunas **mass** e **press** possuem uma distribuição aproximadamente normal.

In [0]:
# Histograma
dataset.hist()
plt.show()

O Gráfico de Densidade, ou Density Plot, é bem parecido com o histograma, mas com uma visualização um pouco diferente.  Com ele, pode ser mais fácil identificar a distribuição do atributos do dataset.

In [0]:
# Density Plot
dataset.plot(kind = 'density', subplots = True, layout = (3,3), sharex = False)
plt.show()

No boxblot, a linha no centro (vermelho) representa o valor da mediana (segundo quartil ou p50). A linha abaixo é o 1o quartil (p25) e a linha acima o terceiro quartil (p75). O boxplot ajuda a ter uma ideia da dispersão dos dataset e os possíveis outliers.

*OBS: Se os dataset são muito distantes da média (acima de 3 desvios padrão da média), podem ser outliers.*

No dataset, veremos que a dispersão dos atributos é bem diferente.

In [0]:
# Boxplot
dataset.plot(kind = 'box', subplots = True, layout = (3,3), sharex = False, sharey = False)
plt.show()

In [0]:
# Matriz de Correlação (com labels)

# Armazena as correlações em uma variável
correlations = dataset.corr()

# Plot
import numpy as np
# Cria uma figura
fig = plt.figure()
# Adiciona o gráfico
ax = fig.add_subplot(111)
# Mostra as correlações
cax = ax.matshow(correlations, vmin = -1, vmax = 1)
# Colore o boxplot
fig.colorbar(cax)
# Define o tamanho do quadrado
ticks = np.arange(0, 9, 1)
# Seta as labels dos eixos x e y
ax.set_xticks(ticks)
ax.set_yticks(ticks)
ax.set_xticklabels(colunas)
ax.set_yticklabels(colunas)
# Mostra o gráfico
plt.show()

In [0]:
# Matriz de Correlação (sem labels)

# Armazena as correlações em uma variável
correlations = dataset.corr()

# Plot
fig = plt.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(correlations, vmin = -1, vmax = 1)
fig.colorbar(cax)
plt.show()

O gráfico de dispersão (scatter plot) mostra o relacionamento entre duas variáveis.

In [0]:
# Scatter Plot 
from pandas.plotting import scatter_matrix
scatter_matrix(dataset)
plt.show()

### Visualização com Seaborn (pacote menos complexo, mas gráficos menos flexíveis)

In [0]:
# Importa o pacote
import seaborn as sns

In [0]:
# Scatter Plot (pairplot)
sns.pairplot(dataset)

In [0]:
# Boxplot com orientação vertical
sns.boxplot(data = dataset, orient = "v")