### Entenda seus dados com estatísticas descritivas

Você deve entender seus dados para obter os melhores resultados. Neste capítulo você descobrirá
7 receitas que você pode usar em Python para entender melhor seus dados de aprendizado de máquina. Depois
lendo esta lição você saberá como:

1. Dê uma olhada em seus dados brutos.
2. Revise as dimensões do seu conjunto de dados.
3. Revise os tipos de dados de atributos em seus dados.
4. Resuma a distribuição de instâncias entre classes em seu conjunto de dados.
5. Resuma seus dados usando estatísticas descritivas.
6. Entenda as relações em seus dados usando correlações.
7. Revise a inclinação das distribuições de cada atributo.

Cada receita é demonstrada carregando o conjunto de dados de classificação de diabetes Pima Indians
do repositório UCI Machine Learning. Abra seu ambiente interativo Python e tente
cada receita por sua vez. Vamos começar.

#### Dê uma olhada em seus dados

Não há substituto para olhar para os dados brutos. Observar os dados brutos pode revelar insights
que você não pode obter de outra maneira. Ele também pode plantar sementes que mais tarde podem se transformar em ideias sobre
como pré-processar e manipular melhor os dados para tarefas de aprendizado de máquina. Você pode rever o
primeiras 20 linhas de seus dados usando a função head() no Pandas DataFrame.

In [None]:
# View first 20 rows
from pandas import read_csv
filename = "pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
peek = data.head(20)
print(peek)

Você pode ver que a primeira coluna lista o número da linha, o que é útil para referenciar um
observação específica.

In [None]:
print(peek)

#### Dimensões dos seus dados

Você deve ter um controle muito bom sobre a quantidade de dados que possui, tanto em termos de linhas quanto
colunas.
Muitas linhas e algoritmos podem levar muito tempo para treinar. Muito poucos e talvez você faça
não tem dados suficientes para treinar os algoritmos.
Muitos recursos e alguns algoritmos podem ser distraídos ou apresentar baixo desempenho devido
para a maldição da dimensionalidade.
Você pode revisar a forma e o tamanho do seu conjunto de dados imprimindo a propriedade de forma na
Pandas DataFrame.

In [None]:
# Dimensions of your data
from pandas import read_csv
filename = "pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
shape = data.shape
print(shape)

Os resultados são listados em linhas e colunas. Você pode ver que o conjunto de dados tem 768 linhas e
9 colunas.

In [None]:
print(shape)

#### Tipo de dados para cada atributo

O tipo de cada atributo é importante. Strings podem precisar ser convertidas para
ponto de flutuação
valores ou inteiros para representar valores categóricos ou ordinais. Você pode ter uma ideia dos tipos de
atributos espiando os dados brutos, como acima. Você também pode listar os tipos de dados usados pelo
DataFrame para caracterizar cada atributo usando a propriedade dtypes.

In [None]:
# Data Types for Each Attribute
from pandas import read_csv
filename = "pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
types = data.dtypes
print(types)

Você pode ver que a maioria dos atributos são números inteiros e que massa e pedi são
flutuando
tipos de pontos.

In [None]:
print(types)

#### Estatísticas descritivas

As estatísticas descritivas podem fornecer uma grande visão sobre a forma de cada atributo. Muitas vezes você pode
crie mais resumos do que você tem tempo para revisar. A função describe() nos Pandas
DataFrame lista 8 propriedades estatísticas de cada atributo. Eles são:

Contagem.
Média.
Desvio Padrão.
Valor Mínimo.
25º percentil.
Percentil 50 (mediana).
75º percentil.
Valor Máximo.

In [None]:
# Statistical Summary
from pandas import read_csv
from pandas import set_option
filename = "pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
set_option('display.width', 100)
set_option('precision', 3)
description = data.describe()
print(description)

Você pode ver que obtém muitos dados. Você notará algumas chamadas para pandas.set option()
na receita para alterar a precisão dos números e a largura preferencial da saída. Esse
é torná-lo mais legível para este exemplo. Ao descrever seus dados dessa maneira, vale a pena
tomando algum tempo e revisando as observações dos resultados. Isso pode incluir a presença
de valores NA para dados ausentes ou distribuições surpreendentes para atributos.

In [None]:
print(description)

#### Distribuição de classes (somente classificação)

Em problemas de classificação, você precisa saber o quão balanceados são os valores das classes. Altamente desequilibrado
problemas (muito mais observações para uma classe do que para outra) são comuns e podem precisar de atenção especial
manipulação na fase de preparação de dados do seu projeto. Você pode rapidamente ter uma ideia do
distribuição do atributo de classe em Pandas.

In [None]:
# Class Distribution
from pandas import read_csv
filename = "pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
class_counts = data.groupby('class').size()
print(class_counts)

Você pode ver que há quase o dobro do número de observações com classe 0 (sem início
de diabetes) do que na classe 1 (diabetes de início).

In [None]:
print(class_counts)

#### Correlações entre atributos

Correlação refere-se à relação entre duas variáveis e como elas podem ou não
mudar juntos. O método mais comum para calcular a correlação é a Correlação de Pearson
Coe ciente, que assume uma distribuição normal dos atributos envolvidos. Uma correlação de -1
ou 1 mostra uma correlação negativa ou positiva completa, respectivamente. Considerando que um valor de 0 não mostra nenhum
correlação em tudo. Alguns algoritmos de aprendizado de máquina, como regressão linear e logística, podem sofrer
baixo desempenho se houver atributos altamente correlacionados em seu conjunto de dados. Como tal, é um bom
ideia de revisar todas as correlações aos pares dos atributos em seu conjunto de dados. Você pode usar o
corr() no Pandas DataFrame para calcular uma matriz de correlação.

In [None]:
# Pairwise Pearson correlations
from pandas import read_csv
from pandas import set_option
filename = "pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
set_option('display.width', 100)
set_option('precision', 3)
correlations = data.corr(method='pearson')
print(correlations)

A matriz lista todos os atributos na parte superior e inferior da lateral, para fornecer correlação entre
todos os pares de atributos (duas vezes, porque a matriz é simétrica). Você pode ver a diagonal
linha através da matriz do canto superior esquerdo ao canto inferior direito da matriz mostra perfeito
correlação de cada atributo consigo mesmo.

In [None]:
print(correlations)

#### Distorção de Distribuições Univariadas

Skew refere-se a uma distribuição que é considerada gaussiana (normal ou curva de sino) que é deslocada ou
esmagado em uma direção ou outra. Muitos algoritmos de aprendizado de máquina assumem uma Gaussiana
distribuição. Saber que um atributo tem uma inclinação pode permitir que você execute a preparação de dados
para corrigir a inclinação e depois melhorar a precisão de seus modelos. Você pode calcular a inclinação
de cada atributo usando a função skew() no Pandas DataFrame.

In [None]:
# Skew for each attribute
from pandas import read_csv
filename = "pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
skew = data.skew()
print(skew)

O resultado da inclinação mostra uma inclinação positiva (direita) ou negativa (esquerda). Valores mais próximos de zero são exibidos
menos enviesado.

In [None]:
print(skew)

#### Dicas para lembrar

Esta seção fornece algumas dicas a serem lembradas ao revisar seus dados usando estatísticas resumidas.
Revise os números. Gerar as estatísticas resumidas não é suficiente. Espere um momento
para fazer uma pausa, ler e realmente pensar sobre os números que você está vendo.
Pergunte por quê. Revise seus números e faça muitas perguntas. Como e por que você está vendo
números específicos. Pense em como os números se relacionam com o domínio do problema em geral
e entidades específicas com as quais as observações se relacionam.
Anote as ideias. Anote suas observações e ideias. Mantenha um pequeno arquivo de texto ou
bloco de notas e anote todas as ideias sobre como as variáveis podem se relacionar, para quais números
significa, e ideias de técnicas para tentar mais tarde. As coisas que você escreve agora enquanto o
os dados atualizados serão muito valiosos mais tarde, quando você estiver tentando pensar em coisas novas para experimentar.

In [None]:
%reload_ext watermark
%watermark -a "Caique Miranda" -gu "caiquemiranda" -iv

### End.