# Avaliando e desenvolvendo intuição
Uma vez que você tiver seus dados carregados em dataframes, o Pandas faz com que uma investigação rápida dos dados seja bem simples. Vamos explorar alguns métodos úteis para avaliar e desenvolver intuição sobre um conjunto de dados. Podemos usar os dados sobre câncer que vimos anteriormente para nos ajudar.

In [None]:
import pandas as pd

df = pd.read_csv('cancer_data.csv')
df.head()

In [None]:
# isto retorna uma tupla com as mesmas dimensões do dataframe
df.shape

In [None]:
# isto retorna os tipos de dados das colunas
df.dtypes

In [None]:
# embora o tipo de dados da coluna 'diagnosis' pareça ser 'object', 
# uma investigação mais profunda revela que se trata de uma string
type(df['diagnosis'][0])

O pandas na verdade armazena [ponteiros](https://en.wikipedia.org/wiki/Pointer_(computer_programming) para strings em dataframes e séries, e é por isso que o tipo de dados aparece como `object` ao invés de `str`. Entender este detalhe não é essencial para análise de dados - apenas saiba que strings irão aparecer como objetos no Pandas.

In [None]:
# isto exibe um resumo conciso do dataframe,
# incluindo o número de valores não-nulos em cada coluna
df.info()

In [None]:
# isto retorna o número de valores únicos em cada coluna
df.nunique()

In [None]:
# isto retorna estatísticas descritivas úteis para cada coluna de dados
df.describe()

In [None]:
# isto retorna as primeiras linhas do nosso dataframe
# como padrão, retorna as primeiras cinco linhas
df.head()

In [None]:
# embora você possa especificar quantas linhas você gostaria que fossem retornadas
df.head(20)

In [None]:
# isso também se aplicar ao comando `.tail()` que retorna as últimas linhas do dataframe
df.tail(2)

## Indexando e selecionando dados no Pandas
Vamos separar este dataframe em três novos dataframes - um para cada métrica (média, desvio padrão e máximo). Para obter os dados para cada dataframe, precisamos selecionar as colunas `id` e `diagnosis`, bem como as dez colunas correspondentes àquela métrica.

In [None]:
# Exibir o índice e rótulo de cada coluna
for i, v in enumerate(df.columns):
    print(i, v)

Podemos selecionar dados usando `loc` e `iloc`, cujos detalhes podem ser lidos na [documentação oficial](https://pandas.pydata.org/pandas-docs/stable/indexing.html). `loc` usa rótulos de linhas ou colunas para selecionar dados, enquanto `iloc` usa índices. Vamos usar estes para indexar o dataframe abaixo.

In [None]:
# selecionar todas as colunas desde 'id' até a última coluna relacionada à média
df_means = df.loc[:,'id':'fractal_dimension_mean']
df_means.head()

In [None]:
# repita o passo acima usando índices
df_means = df.iloc[:,:11]
df_means.head()

Vamos salvar o dataframe de médias para mais tarde.

In [None]:
df_means.to_csv('cancer_data_means.csv', index=False)

### Selecionando múltiplos intervalos no Pandas
Selecionar as colunas para o dataframe de médias foi bem direto - as colunas que precisávamos selecionar estavam todas juntas (`id`, `diagnosis` e as colunas relacionadas à média). Agora temos um pequeno problema quando tentamos fazer o mesmo para desvio padrão ou valores máximos. `id` e `diagnosis` estão separados do restante das colunas de que precisamos! Não conseguimos especificar todas estas em um só intervalo.

Primeiro tente criar o dataframe de desvios padrão por conta própria, para entender por que fazer isto usando apenas `loc` e `iloc` não é possível. Então, use este [link do stackoverflow](https://stackoverflow.com/questions/41256648/select-multiple-ranges-of-columns-in-pandas-dataframe) para aprender como selecionar múltiplos intervalos no Pandas e tente fazê-lo abaixo. A propósito, para descobrir como fazer isso por conta própria, eu encontrei esse link googlando "how to select multiple ranges df.iloc".

*Dica: Talvez você tenha que importar um novo pacote!*

In [None]:
# import


# criar o dataframe de desvios padrão


# exiba as primeiras linhas para confirmar que a operação foi bem sucedida
