Você deve entender seus dados para obter os melhores resultados. Neste capítulo você descobrirá 7 receitas que você pode usar em Python para entender melhor seus dados de aprendizado de máquina.

1. Dê uma olhada em seus dados brutos.
2. Revise as dimensões do seu conjunto de dados.
3. Revise os tipos de dados de atributos em seus dados.
4. Resuma a distribuição de instâncias entre classes em seu conjunto de dados.
5. Resuma seus dados usando estatísticas descritivas.
6. Entenda as relações em seus dados usando correlações.
7. Revise a inclinação das distribuições de cada atributo.

Cada receita é demonstrada carregando o conjunto de dados de classificação de diabetes Pima Indians do repositório UCI Machine Learning. Abra seu ambiente interativo Python e tente cada receita por sua vez. Vamos começar.

#### Dê uma olhada em seus dados

Não há substituto para olhar para os dados brutos. Observar os dados brutos pode revelar insights que você não pode obter de outra maneira. Ele também pode plantar sementes que mais tarde podem se transformar em ideias sobre como pré-processar e manipular melhor os dados para tarefas de aprendizado de máquina. Você pode rever o primeiras 20 linhas de seus dados usando a função `head()` no Pandas DataFrame.

In [1]:
# mostrando as 20 primeiras linhas
from pandas import read_csv

filename = "datasets/diabetes.csv"
names = ['preg', 'plas', 'pres', 
         'skin', 'test', 'mass',
         'pedi', 'age', 'class']

data = read_csv(filename, names=names)
peek = data.head(20)

print(peek)

    preg  plas  pres  skin  test  mass   pedi  age  class
0      6   148    72    35     0  33.6  0.627   50      1
1      1    85    66    29     0  26.6  0.351   31      0
2      8   183    64     0     0  23.3  0.672   32      1
3      1    89    66    23    94  28.1  0.167   21      0
4      0   137    40    35   168  43.1  2.288   33      1
5      5   116    74     0     0  25.6  0.201   30      0
6      3    78    50    32    88  31.0  0.248   26      1
7     10   115     0     0     0  35.3  0.134   29      0
8      2   197    70    45   543  30.5  0.158   53      1
9      8   125    96     0     0   0.0  0.232   54      1
10     4   110    92     0     0  37.6  0.191   30      0
11    10   168    74     0     0  38.0  0.537   34      1
12    10   139    80     0     0  27.1  1.441   57      0
13     1   189    60    23   846  30.1  0.398   59      1
14     5   166    72    19   175  25.8  0.587   51      1
15     7   100     0     0     0  30.0  0.484   32      1
16     0   118

Você pode ver que a primeira coluna lista o número da linha, o que é útil para referenciar um
observação específica.

#### Dimensões dos seus dados

Você deve ter um controle muito bom sobre a quantidade de dados que possui, tanto em termos de linhas quanto colunas. Muitas linhas e algoritmos podem levar muito tempo para treinar. Muito poucos e talvez você faça não tem dados suficientes para treinar os algoritmos. Muitos recursos e alguns algoritmos podem ser distraídos ou apresentar baixo desempenho devido para a maldição da dimensionalidade. Você pode revisar a forma e o tamanho do seu conjunto de dados imprimindo a propriedade de forma na Pandas DataFrame.

In [2]:
# Dimensão dos dados
shape = data.shape
print(shape)

(768, 9)


Os resultados são listados em linhas e colunas. Você pode ver que o conjunto de dados tem 768 linhas e
9 colunas.

#### Tipo de dados para cada atributo

O tipo de cada atributo é importante. Strings podem precisar ser convertidas para ponto de flutuação valores ou inteiros para representar valores categóricos ou ordinais. Você pode ter uma ideia dos tipos de atributos espiando os dados brutos, como acima. Você também pode listar os tipos de dados usados pelo DataFrame para caracterizar cada atributo usando a propriedade dtypes.

In [3]:
# Tipos de dados dos atributos
types = data.dtypes
print(types)

preg       int64
plas       int64
pres       int64
skin       int64
test       int64
mass     float64
pedi     float64
age        int64
class      int64
dtype: object


Você pode ver que a maioria dos atributos são números inteiros e que massa e pedi são
flutuando
tipos de pontos.

#### Estatísticas descritivas

As estatísticas descritivas podem fornecer uma grande visão sobre a forma de cada atributo. Muitas vezes você pode crie mais resumos do que você tem tempo para revisar. A função `describe()` nos Pandas DataFrame lista 8 propriedades estatísticas de cada atributo. Eles são:

- Contagem.
- Média.
- Desvio Padrão.
- Valor Mínimo.
- 25º percentil.
- Percentil 50 (mediana).
- 75º percentil.
- Valor Máximo.

In [4]:
# Resumo estatistico
from pandas import set_option

set_option('display.width', 100)
set_option('display.precision', 3)

description = data.describe()
print(description)

          preg     plas     pres     skin     test     mass     pedi      age    class
count  768.000  768.000  768.000  768.000  768.000  768.000  768.000  768.000  768.000
mean     3.845  120.895   69.105   20.536   79.799   31.993    0.472   33.241    0.349
std      3.370   31.973   19.356   15.952  115.244    7.884    0.331   11.760    0.477
min      0.000    0.000    0.000    0.000    0.000    0.000    0.078   21.000    0.000
25%      1.000   99.000   62.000    0.000    0.000   27.300    0.244   24.000    0.000
50%      3.000  117.000   72.000   23.000   30.500   32.000    0.372   29.000    0.000
75%      6.000  140.250   80.000   32.000  127.250   36.600    0.626   41.000    1.000
max     17.000  199.000  122.000   99.000  846.000   67.100    2.420   81.000    1.000


Você pode ver que obtém muitos dados. Você notará algumas chamadas para `pandas.set_option()` na receita para alterar a precisão dos números e a largura preferencial da saída. Esse é torná-lo mais legível para este exemplo. Ao descrever seus dados dessa maneira, vale a pena tomando algum tempo e revisando as observações dos resultados. Isso pode incluir a presença de valores NA para dados ausentes ou distribuições surpreendentes para atributos.

#### Distribuição de classes (somente classificação)

Em problemas de classificação, você precisa saber o quão balanceados são os valores das classes. Altamente desequilibrado problemas (muito mais observações para uma classe do que para outra) são comuns e podem precisar de atenção especial manipulação na fase de preparação de dados do seu projeto. Você pode rapidamente ter uma ideia do distribuição do atributo de classe em Pandas.

In [5]:
# Distrinuição por classes

class_counts = data.groupby('class').size()
print(class_counts)

class
0    500
1    268
dtype: int64


Você pode ver que há quase o dobro do número de observações com classe 0 (sem início de diabetes) do que na classe 1 (diabetes de início).

#### Correlações entre atributos

Correlação refere-se à relação entre duas variáveis e como elas podem ou não mudar juntos. O método mais comum para calcular a correlação é a Correlação de Pearson Coe ciente, que assume uma distribuição normal dos atributos envolvidos. Uma correlação de -1 ou 1 mostra uma correlação negativa ou positiva completa, respectivamente. Considerando que um valor de 0 não mostra nenhum correlação em tudo. Alguns algoritmos de aprendizado de máquina, como regressão linear e logística, podem sofrer baixo desempenho se houver atributos altamente correlacionados em seu conjunto de dados. Como tal, é um bom ideia de revisar todas as correlações aos pares dos atributos em seu conjunto de dados. Você pode usar o `corr()` no Pandas DataFrame para calcular uma matriz de correlação.

In [6]:
# Pairwise Pearson correlations

correlations = data.corr(method='pearson')
print(correlations)

        preg   plas   pres   skin   test   mass   pedi    age  class
preg   1.000  0.129  0.141 -0.082 -0.074  0.018 -0.034  0.544  0.222
plas   0.129  1.000  0.153  0.057  0.331  0.221  0.137  0.264  0.467
pres   0.141  0.153  1.000  0.207  0.089  0.282  0.041  0.240  0.065
skin  -0.082  0.057  0.207  1.000  0.437  0.393  0.184 -0.114  0.075
test  -0.074  0.331  0.089  0.437  1.000  0.198  0.185 -0.042  0.131
mass   0.018  0.221  0.282  0.393  0.198  1.000  0.141  0.036  0.293
pedi  -0.034  0.137  0.041  0.184  0.185  0.141  1.000  0.034  0.174
age    0.544  0.264  0.240 -0.114 -0.042  0.036  0.034  1.000  0.238
class  0.222  0.467  0.065  0.075  0.131  0.293  0.174  0.238  1.000


A matriz lista todos os atributos na parte superior e inferior da lateral, para fornecer correlação entre todos os pares de atributos (duas vezes, porque a matriz é simétrica). Você pode ver a diagonal linha através da matriz do canto superior esquerdo ao canto inferior direito da matriz mostra perfeito correlação de cada atributo consigo mesmo.

#### Distorção de Distribuições Univariadas

Skew refere-se a uma distribuição que é considerada gaussiana (normal ou curva de sino) que é deslocada ou esmagado em uma direção ou outra. Muitos algoritmos de aprendizado de máquina assumem uma Gaussiana distribuição. Saber que um atributo tem uma inclinação pode permitir que você execute a preparação de dados para corrigir a inclinação e depois melhorar a precisão de seus modelos. Você pode calcular a inclinação de cada atributo usando a função `skew()` no Pandas DataFrame.

In [7]:
# Skew for each attribute

skew = data.skew()
print(skew)

preg     0.902
plas     0.174
pres    -1.844
skin     0.109
test     2.272
mass    -0.429
pedi     1.920
age      1.130
class    0.635
dtype: float64


O resultado da inclinação mostra uma inclinação positiva (direita) ou negativa (esquerda). Valores mais próximos de zero são exibidos menos enviesado.

#### Dicas para lembrar

Esta seção fornece algumas dicas a serem lembradas ao revisar seus dados usando estatísticas resumidas. Revise os números. Gerar as estatísticas resumidas não é suficiente. Espere um momento para fazer uma pausa, ler e realmente pensar sobre os números que você está vendo. Pergunte por quê. Revise seus números e faça muitas perguntas. Como e por que você está vendo números específicos. Pense em como os números se relacionam com o domínio do problema em geral e entidades específicas com as quais as observações se relacionam. Anote as ideias. Anote suas observações e ideias. Mantenha um pequeno arquivo de texto ou bloco de notas e anote todas as ideias sobre como as variáveis podem se relacionar, para quais números significa, e ideias de técnicas para tentar mais tarde. As coisas que você escreve agora enquanto o os dados atualizados serão muito valiosos mais tarde, quando você estiver tentando pensar em coisas novas para experimentar.

In [8]:
%reload_ext watermark
%watermark -gu "caiquemiranda" -iv

Github username: caiquemiranda



### End.