### Pandas x Dictionary

Nós terminamos a aula anterior apresentando um dictionário (dictionary) para vocês.

Há dois tipos de dicionário:
  - Não ordenado
  - Ordenado

In [None]:
import os, sys
import pandas as pd # pandas e seu alias pd
import numpy as np  # numpy  e seu alias np

import matplotlib.pyplot as plt # matplotlib e seu alias plt
%matplotlib inline

### Dicionário não ordenado

você pode inicializá-lo de duas formas:
  - meu_dic = dict()
  - meu_dic = {}
  
abaixo crio um dictionary com nome 'dic' não confunda com o método 'dict()' que tem um t a mais.

In [None]:
dic = {}
dic['a'] = 0
dic['b'] = 1
dic['c'] = 2

len(dic)

In [None]:
dic

### Outra forma de construir um dicionário

In [None]:
dic = {'a':0, 'b':1, 'c':2}
type(dic), dic

### Olhando o conteúdo usando a chave (key)

In [None]:
dic.keys()

In [None]:
for key in dic.keys():
    print(key)

### Pesquisando 'chave' (key) e 'valor' (dic[key])

In [None]:
for key in dic.keys():
    print(key, dic[key])

### Usando items() - mais fácil, rápido e seguro

In [None]:
for key, val in dic.items():
    print(key, "->", val)

### Porque um dicionário é tão importante para o Pandas?
### Vamos construir um dicionário mais complexo e tranformá-lo numa tabela Pandas

In [None]:
## 4 animais, a1 ... a4

dic = {}
dic['a1'] = [3.26, 'cm', 'cinza', 223.4, 'g']
dic['a2'] = [4.26, 'cm', 'cinza rajado', 242.3, 'g']
dic['a3'] = [3.76, 'cm', 'cinza', 278.8, 'g']
dic['a4'] = [4.58, 'cm', 'cinza, preto e laranja', 305.1, 'g']
len(dic), dic.keys()

### Veja pandas to_dict()

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.from_dict.html  
https://stackoverflow.com/questions/18837262/convert-python-dict-into-a-dataframe

In [None]:
df = pd.DataFrame.from_dict(dic)
df

### Transpondo a tabela (rodando 90 graus)

In [None]:
# matriz ou tabela .T (transpose)
df = pd.DataFrame.from_dict(dic).T
df

### Clocando nomes

In [None]:
df = pd.DataFrame.from_dict(dic).T
df.columns = ['comprimento', 'uni_comp', 'cor', 'peso', 'uni_peso']
df

### Outra forma de usar dicionário x tabela Pandas

vendo conteúdo do index e de colunas (pd.Series)

In [None]:
# enumerar, listar o indice de uma tabela
# que não é necessariamente numérico: 0, 1, 2 ...
df.index

In [None]:
# lista uma das colunas: Série
df.peso

In [None]:
type(df.peso)

In [None]:
# analisar o tipo do conteúdo
df.peso.iloc[0]

In [None]:
# analisar o tipo do conteúdo
df.uni_peso.iloc[0]

In [None]:
type(df.uni_peso.iloc[0])

In [None]:
df.uni_peso

In [None]:
# coerção para lista
list(df.uni_peso)

### Ao invés de uma chave por animal
### Vou criar múltiplas chaves por atributo

In [None]:
list(df.cor)

In [None]:
dic = {}
dic['animal'] = ['a1', 'a2', 'a3', 'a4']
dic['peso'] = [3.26, 4.26, 3.76, 4.48]
dic['uni_comp'] = ['cm', 'cm', 'cm', 'cm']
dic['cor'] = ['cinza', 'cinza rajado', 'cinza', 'cinza, preto e laranja']
dic['peso'] = [223.4, 242.3, 278.8, 305.1]
dic['uni_peso'] = ['g', 'g', 'g', 'g']

dic

In [None]:
df = pd.DataFrame.from_dict(dic)
df
# tabela fica pronta
# indice é numérico
# animal vai para primeira coluna

### Peso médio, desvio padrão amostral, mediana

o Pandas utiliza numpy
objeto numpy  <objeto>.mean() ... <objeto>.median() 
    
significa: se a série e numérica/float então .mean(), .std(), .median(), .max(), .min()

In [None]:
df.peso.mean()

In [None]:
df.peso.std()

In [None]:
# muitas vezes, não quero ver uma enormidade de casas decimais
# numero de casas decimais = precisão do teu instrumento
# peso: uma casa decimal

np.round(df.peso.std(), 1)

In [None]:
df.peso.median()

In [None]:
np.round(df.peso.median(), 1)

In [None]:
df.peso.max()

In [None]:
df.peso.min()

In [None]:
df

### Desafio:
  - o que é:
        - Média?
        - Mediana?
        - Moda?
        - Desvio padrão amostral?
        - Desvio padrão populacional?
        - O que vocês entendem por erro na tomada de uma medida.
           - não existe medida absoluta
           - qq medida em ciência tem um <valor central> + <erro>

In [None]:
# - len(df) = numero de linhas da tabela = df.shape[0]

# %.1
# %nn.mm
# nn = inteiros, pode ficar vazio
# mm = número de decimais

"O peso médio das %d cobras é %.1f g (%.1f)"%(len(df), df.peso.mean(), df.peso.std())

In [None]:
df.shape

### Criando cobras com peso e comprimento ~ N(mu,std) = distribuição normal

In [None]:
# gerador de numerors inteiros ...
np.arange(0,5)

In [None]:
# arange(ini, end, step)
np.arange(100, 1000, 50)

### numpy random --> máquina randômica, pseudo-estocástica

In [None]:
dic = {}
N = 30

dic['id'] = np.arange(0, N)
#             np.random.normal(mu, std, size)
dic['peso'] = np.random.normal(5, .5, N)
dic['comprimento'] = np.random.normal(2, .4, N)

df = pd.DataFrame.from_dict(dic)
df.head(5)

### N cresce .... posso dizer que a média amostral se aproxima da populacional

### Exemplo espectômetro de massas:
  - bilhões de céulas
  - amostra de 5 K células (ótimo)
     - medir proteínas
     - se a média de Actina se aproxima da média da pele do individuo
        - ???

### Os números abaixo estão corretos?

In [None]:
"O peso médio das %d cobras é %.1f (%.1f) Kg"%(len(df), df.peso.mean(), df.peso.std())

In [None]:
"O comprimento médio das %d cobras é %.2f (%.2f) m"%(len(df), df.comprimento.mean(), df.comprimento.std())

### Não dá para responder esta pergunta agora
  - Vamos estudar teste de hipótese
  - Estudar distribuição Normal, Z, t-student
  - Estudar intervalo de confiança --> [inf, sup], vide um alpha=confiança(95%)

### N=30 aproximando da normalidade (distribuição normal)

In [None]:
# métodos histograma do matplotlib
plt.hist(df.peso, color='orange')
plt.hist(df.comprimento, color='blue')

### Aumentando N ... faça simulações

  - ao aumentar o N melhoro 
    - a precisão do valor central (teorema)
    - simetria da distriuição
    - tender a uma distribuição Normal (média = moda = mediana)
  - valor central = média = valor esperado
  - peso --> valor esperado do peso = \<peso>

In [None]:
dic = {}
N = 200

dic['id'] = np.arange(0, N)
dic['peso'] = np.random.normal(5, .5, N)
dic['comprimento'] = np.random.normal(2, .4, N)

df = pd.DataFrame.from_dict(dic)

# o que são bins??
plt.hist(df.peso, bins=15, color='orange')
plt.hist(df.comprimento, bins=15, color='blue')

### Como monta o histograma?
  - série de valores (peso, comprimento)
  - para cada faixa valores, conto qtos individuos (N = 200)
  - define qtos bins - os segmentos de valores do eixo x:
    - bins = 10
    - val min = 1
    - val max = 3.5
    - (3.5 - 1) / 10 = 0.25
  - historgrama: gráfico de valores discreto --> tender ao contínuo

In [None]:
plt.hist(df.peso, bins=6, color='orange');
plt.hist(df.comprimento, bins=6, color='blue');

In [None]:
plt.hist(df.peso, bins=40, color='orange')
plt.hist(df.comprimento, bins=40, color='blue')
plt.title("peso (kg) - comprimento (m)");

### Na aula de gráficos veremos como criar vários frames (quadros)

### E aí? Os número 'bateram'? Algo a comentar?
  - Se sim, porquê?
  - Se não, porquê?
  
  - De acordo com que o N aumenta tenho mais confiança que os valores esperados amostrais estão próximos dos valores esperados populacionais.

### Filtrando dados

quais são os indivíduos que estão acima da média + 2 desvios padrões para mais e para menos

In [None]:
len(df)

In [None]:
# resposta é uma série lógica (Falses, Trues)
df.peso > df.peso.mean() + 2*df.peso.std()

In [None]:
# se eu somar (True = 1, False = 0)
#    a soma = ao individuos acima de 2 desvio padrões amostrais
#    desvio amostral máximo à direita -- > 2 SSD
np.sum(df.peso > df.peso.mean() + 2*df.peso.std())

### Você esperava o valor 3?
  - quanto esperava: Daniel esperva 10 (representa 5% à esq. e 5% direita)
  - segundo Ronald Fisher (pais da estatística e genética moderna > 1930)
    - valores extremos são 2.5% à esquerda da distr.normal ou 2.5 à direita
    - N = 200 -- N * 2.5/100 = 5

### Quem são os indivíduos?

In [None]:
# retorna os Trues
print("peso tem que estar acima", np.round(df.peso.mean() + 2*df.peso.std(), 1))
df[df.peso > df.peso.mean() + 2*df.peso.std()]

### Vamos melhorar

In [None]:
mu  = df.peso.mean()
# sample standard deviation
ssd = df.peso.std()

limite_sup = mu + 2*ssd
limite_inf = mu - 2*ssd

"A média é %.1f (ssd=%.1f), e os limites são [%.1f, %.1f]"%(mu, ssd, limite_inf, limite_sup)

### Dentro do esperado?
  - resposta são os testes de hipótese, e o intervalor de confiança
  - mas, parece que tudo corre muito bem com N = 200

### Filtrar acima e abaixo da média (Pandas usa notação diferente!)
  - trabalha com uma lógica de True e False
  - bitwise os operadores não são 'and' e 'or'
  - bitwise operator: & (e comercial == and) ou | (pipe == or)

In [None]:
## errado!!!

# parêntese (chato que o Python detesta) é obrigatório no Pandas
df[ df.peso > limite_sup & df.peso < limite_inf]

In [None]:
# Está errado? qual o erro
# and = & - and bitwise, notação binária 

# parêntese (chato que o Python detesta) é obrigatório no Pandas
df[(df.peso > limite_sup) & (df.peso < limite_inf)]

### Tinha que dar vazio, certo? Porque?

In [None]:
### or = | - or bitwise, notação binária 

df[(df.peso > limite_sup) | (df.peso < limite_inf)]

### Animais grandes: apenas 1 desvio padrão

In [None]:
lim_peso_sup =  df.peso.mean() + df.peso.std()
lim_comp_sup =  df.comprimento.mean() + df.comprimento.std()

# aqui uso & (and)
df[(df.peso >= lim_peso_sup) & (df.comprimento >= lim_comp_sup)]

### Animais pequenos: apenas 1 desvio padrão

In [None]:
lim_peso_inf =  df.peso.mean() - df.peso.std()
lim_comp_inf =  df.comprimento.mean() - df.comprimento.std()

print(np.round(lim_peso_inf,2), 'kg ....', np.round(lim_comp_inf,2), 'm')

# aqui uso & (and)
df[(df.peso <= lim_peso_inf) & (df.comprimento <= lim_comp_inf)]

In [None]:
df[(df.peso < lim_peso_inf)]

In [None]:
df[(df.comprimento <= lim_comp_inf)]

### A maquina randômica não criou animais super pequenos ou super grandes. Porque?

### O que é uma máquina randômica? estocástica == gera números não previsíveis

### Como você pode mostrar que é uma máquina randômica?

In [None]:
# baixei de 200 para 30 individuos
# achar 2*SSD para mais ou para menos x duas medidas (peso e comprimento)
# N = 30 já começa ser dificil

# algoritmo estocástico
N = 30  # fixo sempre 30 individuos
i = 0   # contador de loop (laço while)

while(True):  # rode para todo sempre, nunca vai parar
    i += 1
    
    dic = {}

    dic['id'] = np.arange(0, N)
    dic['peso'] = np.random.normal(5, .5, N)
    dic['comprimento'] = np.random.normal(2, .4, N)

    df = pd.DataFrame.from_dict(dic)
    
    mu_peso  = df.peso.mean()
    ssd_peso = df.peso.std()
    
    mu_comp  = df.comprimento.mean()
    ssd_comp = df.comprimento.std()
    
    lim_peso_sup = mu_peso + 2*ssd_peso
    lim_comp_sup = mu_comp + 2*ssd_comp

   
    df = df[(df.peso > lim_peso_sup) & (df.comprimento > lim_comp_sup)]
    
    # uma condição de break - cair fora
    # se dentro do loop achar ao menos 1 individuo, pare a máquina estocástica
    if len(df) > 0: 
        print("%d) <peso> = %.1f (%.1f),  <comp> = %.1f (%.1f), peso sup = %.1f kg, comp sup = %.1f m"%(i, 
               mu_peso, ssd_peso, mu_comp, ssd_comp, lim_peso_sup, lim_comp_sup) )
        break
        
df         

### Qual o erro de peformance no meu algoritmo?

### Isto np.random.normal() é uma máquina estocástica? gerador de números numa distribuição normal?

### O que significa que consegui um valor após 150 tentativas?

In [None]:
100/150

In [None]:
np.sqrt(100/150)

### 8% de chance de um fenomeno grande (ou pequeno ocorrer)

In [None]:
0.816*0.816

In [None]:
100./(0.665*0.665)

### p(raro) * p(raro) = p(raro) ^ 2
### 6.24% * 6.24% ~ 0.39% de dois fenômecnos ocorrerem

### Por isto que Ronald Fischer escolheu 5% como corte "do raro"?

https://en.wikipedia.org/wiki/P-value

https://en.wikipedia.org/wiki/Ronald_Fisher


### Markdown command: >> \![Ronald Fisher]\(../figure/ronald_fisher.jpg)

https://github.com/adam-p/markdown-here/wiki/Markdown-Cheatsheet

![Ronald Fisher](../figure/ronald_fisher.jpg)

In [None]:
os.listdir("../figure")

### Localizando linhas e colunas

In [None]:
N = 20
dic = {}

dic['id'] = np.arange(0, N)
dic['peso'] = np.random.normal(5, .5, N)
dic['comprimento'] = np.random.normal(2, .4, N)
dic['comp_cabeca'] = np.random.normal(.4, .02, N)

df = pd.DataFrame.from_dict(dic)

df.head()

### Filtrando linhas 1,3 e 5 com df.iloc[ ]

In [None]:
df.iloc[[1,3,5]]

### Colunas

In [None]:
df.columns

### Selecionando colunas

In [None]:
df[ ['peso', 'comprimento'] ].head(3)

### Selecionando as mesmas colunas 1 e 2 com df.iloc[ ]

os ':' selecionam todas as linhas\!   
mas, o head(3) filtra as primeiras 3 linhas  

In [None]:
df.iloc[:, 1:3].head(3)

### Com df.loc não precisa do parênteses interno

Access a group of rows and columns by label(s) or a boolean array.
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html

In [None]:
df.iloc[2:4]

In [None]:
df.loc[2:4]

In [None]:
df.loc[1:3, ['peso', 'comprimento']]

In [None]:
df.loc[[1,2,5], ['peso', 'comp_cabeca']]

### Index

In [None]:
N = 5
dic = {}

dic['id'] = np.arange(0, N)
dic['peso'] = np.random.normal(5, .5, N)
dic['comprimento'] = np.random.normal(2, .4, N)
dic['comp_cabeca'] = np.random.normal(.4, .02, N)

df = pd.DataFrame.from_dict(dic)
df

### Criar duas cópias de 'df'
  - df_fake = df
  - df2     = df.copy()

In [None]:
## muito cuidado com o Pyton:  a = b (a e b apontam para o mesmo endereço)
df_fake = df

## para criar uma variável nova, usa-se copy()
df2     = df.copy()

### São objetos diferentes?

método id() --> endereço do objeto  
logo, se o endereço (de memória), é o mesmo objeto

In [None]:
id(df), id(df_fake), id(df) != id(df_fake)

In [None]:
id(df), id(df2), id(df) != id(df2)

In [None]:
df

In [None]:
df == df_fake

In [None]:
df.iloc[0,1] = np.round(df.iloc[0,1], 1)
df.iloc[0,1]

In [None]:
df

In [None]:
df == df_fake

### Dando nome para cada linha (índice, index)

In [None]:
df.index = ['Indian cobra', 'Coral', 'False coral', 'Bothrops jararaca', 'Bothrops terrificus']
df

### Copiando uma tabela, para usar mais para frente

In [None]:
df2 = df.copy()

### Comparando dataframes = comparando matrizes (np.arrays)

In [None]:
df2 <= df

### Usando loc nos índices

In [None]:
df.loc[['Coral', 'False coral']]

In [None]:
df.loc[[True, False, False, True, True]]

### Pode usar lógicas via comprehension que é muito rápido
  - quero todas as cobras não "coral"

In [None]:
not_coral = [x for x in df.index if 'coral' not in x.lower()]
not_coral

In [None]:
df.loc[not_coral]

### Como exercício, liste somente as espécies que tiver 'coral'

### Resetando índices (index)

  - o índice tem nome de cobras
  - preciso retirar este indice e voltar para numérico
  - os nomes das espécies tem que ir para uma coluna

In [None]:
df = df.reset_index()
df

### Voltando os dados originais

In [None]:
df2

In [None]:
df = df2.copy()
df = df.reset_index().rename(columns={'index': 'especie'})
df

In [None]:
df = df2.copy()
cols = df.columns
df = df.reset_index()
df.columns  = ['especie'] + list(cols)
df

### Inplace = change are permanent

In [None]:
df = df2.copy()
df.reset_index().rename(columns={'index': 'cobra'}, inplace=True)
df

In [None]:
type(df)

In [None]:
df.shape

In [None]:
nrow, ncol = df.shape
nrow, ncol