### Pandas x Dictionary

Nós terminamos a aula anterior apresentando um dictionário (dictionary) para vocês.

Há dois tipos de dicionário:
  - Não ordenado
  - Ordenado

In [11]:
import os, sys
import pandas as pd # pandas e seu alias pd
import numpy as np  # numpy  e seu alias np

import matplotlib.pyplot as plt # matplotlib e seu alias plt
%matplotlib inline

### Dicionário não ordenado

você pode inicializá-lo de duas formas:
  - meu_dic = dict()
  - meu_dic = {}
  
abaixo crio um dictionary com nome 'dic' não confunda com o método 'dict()' que tem um t a mais.

In [1]:
dic = {}
dic['a'] = 0
dic['b'] = 1
dic['c'] = 2

len(dic)

3

### Outra forma de construir um dicionário

In [5]:
dic = {'a':0, 'b':1, 'c':2}
type(dic), dic

(dict, {'a': 0, 'b': 1, 'c': 2})

### Olhando o conteúdo usando a chave (key)

In [6]:
for key in dic.keys():
    print(key)

a
b
c


### Pesquisando 'chave' (key) e 'valor' (dic[key])

In [7]:
for key in dic.keys():
    print(key, dic[key])

a 0
b 1
c 2


### Usando items() - mais fácil, rápido e seguro

In [8]:
for key, val in dic.items():
    print(key, val)

a 0
b 1
c 2


### Porque um dicionário é importante para o Pandas?
### Vamos construir um dicionário mais complexo e tranformá-lo numa tabela Pandas

In [9]:
## 4 animais, a1 ... a4

dic = {}
dic['a1'] = [3.26, 'cm', 'cinza', '223.4', 'g']
dic['a2'] = [4.26, 'cm', 'cinza rajado', '242.3', 'g']
dic['a3'] = [3.76, 'cm', 'cinza', '278.8', 'g']
dic['a4'] = [4.58, 'cm', 'cinza, preto e laranja', '305.1', 'g']
len(dic), dic.keys()

(4, dict_keys(['a1', 'a2', 'a3', 'a4']))

### Veja pandas to_dict()

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.from_dict.html  
https://stackoverflow.com/questions/18837262/convert-python-dict-into-a-dataframe

In [12]:
df = pd.DataFrame.from_dict(dic)
df

Unnamed: 0,a1,a2,a3,a4
0,3.26,4.26,3.76,4.58
1,cm,cm,cm,cm
2,cinza,cinza rajado,cinza,"cinza, preto e laranja"
3,223.4,242.3,278.8,305.1
4,g,g,g,g


### Transpondo a tabela (rodando 90 graus)

In [13]:
df = pd.DataFrame.from_dict(dic).T
df

Unnamed: 0,0,1,2,3,4
a1,3.26,cm,cinza,223.4,g
a2,4.26,cm,cinza rajado,242.3,g
a3,3.76,cm,cinza,278.8,g
a4,4.58,cm,"cinza, preto e laranja",305.1,g


### Clocando nomes

In [14]:
df = pd.DataFrame.from_dict(dic).T
df.columns = ['comprimento', 'uni_comp', 'cor', 'peso', 'uni_peso']
df

Unnamed: 0,comprimento,uni_comp,cor,peso,uni_peso
a1,3.26,cm,cinza,223.4,g
a2,4.26,cm,cinza rajado,242.3,g
a3,3.76,cm,cinza,278.8,g
a4,4.58,cm,"cinza, preto e laranja",305.1,g


### Outra forma de usar dicionário x tabela Pandas

vendo conteúdo do index e de colunas (pd.Series)

In [17]:
df.index

Index(['a1', 'a2', 'a3', 'a4'], dtype='object')

In [22]:
list(df.uni_peso)

['g', 'g', 'g', 'g']

In [23]:
dic = {}
dic['animal'] = ['a1', 'a2', 'a3', 'a4']
dic['peso'] = [3.26, 4.26, 3.76, 4.48]
dic['uni_comp'] = ['cm', 'cm', 'cm', 'cm']
dic['cor'] = ['cinza', 'cinza rajado', 'cinza', 'cinza, preto e laranja']
dic['peso'] = [223.4, 242.3, 278.8, 305.1]
dic['uni_peso'] = ['g', 'g', 'g', 'g']

df = pd.DataFrame.from_dict(dic)
df

Unnamed: 0,animal,peso,uni_comp,cor,uni_peso
0,a1,223.4,cm,cinza,g
1,a2,242.3,cm,cinza rajado,g
2,a3,278.8,cm,cinza,g
3,a4,305.1,cm,"cinza, preto e laranja",g


### Peso médio, desvio padrão amostral, mediana

In [24]:
df.peso.mean()

262.4

In [25]:
df.peso.std()

36.59353312631437

In [26]:
df.peso.median()

260.55

### Desafio:
  - o que é:
        - Média?
        - Desvio padrão amostral?
        - Mediana?

In [29]:
"O peso médio das %d cobras é %.1f (%.1f)"%(len(df), df.peso.mean(), df.peso.std())

'O peso médio das 4 cobras é 262.4 (36.6)'

### Criando cobras com a distribuição normal

In [37]:
dic = {}
N = 30

dic['id'] = np.arange(0, N)
dic['peso'] = np.random.normal(5, .5, N)
dic['comprimento'] = np.random.normal(2, .4, N)

df = pd.DataFrame.from_dict(dic)
df.head()

Unnamed: 0,id,peso,comprimento
0,0,5.446755,2.241839
1,1,4.455565,1.947098
2,2,4.530182,1.970758
3,3,4.860173,1.451676
4,4,4.708041,1.858474


In [38]:
"O peso médio das %d cobras é %.1f (%.1f)"%(len(df), df.peso.mean(), df.peso.std())

'O peso médio das 30 cobras é 5.0 (0.5)'

In [39]:
"O comprimento médio das %d cobras é %.1f (%.1f)"%(len(df), df.comprimento.mean(), df.comprimento.std())

'O comprimento médio das 30 cobras é 2.0 (0.4)'

### E aí? Os número 'bateram'? Algo a comentar?
  - Se sim, porquê?
  - Se não, porquê?

### Filtrando dados

filtrando 2 desvios padrões para mais e para menos

In [40]:
df.peso > df.peso.mean() + 2*df.peso.std()

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19     True
20    False
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
Name: peso, dtype: bool

In [41]:
np.sum(df.peso > df.peso.mean() + 2*df.peso.std())

1

In [42]:
df[df.peso > df.peso.mean() + 2*df.peso.std()]

Unnamed: 0,id,peso,comprimento
19,19,6.278185,2.354281


### Vamos melhorar

In [45]:
mu  = df.peso.mean()
# sample standard deviation
ssd = df.peso.std()

limite_sup = mu + 2*ssd
limite_inf = mu - 2*ssd

"A média é %.1f (ssd=%.1f), e os limites são [%.1f, %.1f]"%(mu, ssd, limite_inf, limite_sup)

'A média é 5.0 (ssd=0.5), e os limites são [4.1, 5.9]'

### Dentro do esperado?

### Filtrar acima e abaixo da média (Pandas usa notação diferente!)

In [46]:
# Está errado? qual o erro
# and = & - and bitwise, notação binária 

df[(df.peso > limite_sup) & (df.peso < limite_inf)]

Unnamed: 0,id,peso,comprimento


### Tinha que dar vazio, certo? Porque?

In [47]:
### or = | - or bitwise, notação binária 

df[(df.peso > limite_sup) | (df.peso < limite_inf)]

Unnamed: 0,id,peso,comprimento
19,19,6.278185,2.354281


### Animais grandes: apenas 1 desvio padrão

In [49]:
lim_peso_sup =  df.peso.mean() + df.peso.std()
lim_comp_sup =  df.comprimento.mean() + df.comprimento.std()

# aqui uso & (and)
df[(df.peso >= lim_peso_sup) & (df.comprimento >= lim_comp_sup)]

Unnamed: 0,id,peso,comprimento


### Animais pequenos: apenas 1 desvio padrão

In [53]:
lim_peso_inf =  df.peso.mean() - df.peso.std()
lim_comp_inf =  df.comprimento.mean() - df.comprimento.std()

print(np.round(lim_peso_inf,2), 'kg ....', np.round(lim_comp_inf,2), 'm')

# aqui uso & (and)
df[(df.peso <= lim_peso_inf) & (df.comprimento <= lim_comp_inf)]

4.52 kg .... 1.64 m


Unnamed: 0,id,peso,comprimento


In [51]:
df[(df.peso <= lim_peso_inf)]

Unnamed: 0,id,peso,comprimento
1,1,4.455565,1.947098
6,6,4.449553,1.84738
16,16,4.380576,1.722793
17,17,4.067439,3.023735
21,21,4.470886,2.798945


In [54]:
df[(df.comprimento <= lim_comp_inf)]

Unnamed: 0,id,peso,comprimento
3,3,4.860173,1.451676
15,15,4.854809,1.618666
18,18,4.814969,1.510666
22,22,5.348228,1.479348
28,28,5.266798,1.597743


### A maquina randômica não criou animais super pequenos ou super grandes. Porque?

### O que é uma máquina randômica?

### Como você pode mostrar que é uma máquina randômica?

In [61]:
N = 30; i = 0

while(True):
    i += 1
    
    dic = {}

    dic['id'] = np.arange(0, N)
    dic['peso'] = np.random.normal(5, .5, N)
    dic['comprimento'] = np.random.normal(2, .4, N)

    df = pd.DataFrame.from_dict(dic)
    
    mu_peso  = df.peso.mean()
    ssd_peso = df.peso.std()
    
    mu_comp  = df.comprimento.mean()
    ssd_comp = df.comprimento.std()
    
    lim_peso_sup = mu_peso + 2*ssd_peso
    lim_comp_sup = mu_comp + 2*ssd_comp

    print("%d) <peso> = %.1f (%.1f),  <comp> = %.1f (%.1f), peso sup = %.1f kg, comp sup = %.1f m"%(i, 
                                                                             mu_peso, ssd_peso, mu_comp, ssd_comp,
                                                                             lim_peso_sup, lim_comp_sup) )
    
    df = df[(df.peso > lim_peso_sup) & (df.comprimento > lim_comp_sup)]
    
    if len(df) > 0: break
        
df         

1) <peso> = 5.0 (0.5),  <comp> = 2.1 (0.4), peso sup = 6.0 kg, comp sup = 2.9 m
2) <peso> = 4.9 (0.5),  <comp> = 2.1 (0.3), peso sup = 6.0 kg, comp sup = 2.7 m
3) <peso> = 5.0 (0.5),  <comp> = 2.0 (0.5), peso sup = 6.0 kg, comp sup = 2.9 m
4) <peso> = 5.2 (0.5),  <comp> = 2.1 (0.4), peso sup = 6.2 kg, comp sup = 2.8 m
5) <peso> = 4.9 (0.5),  <comp> = 2.1 (0.4), peso sup = 5.9 kg, comp sup = 2.9 m
6) <peso> = 5.1 (0.6),  <comp> = 2.0 (0.3), peso sup = 6.3 kg, comp sup = 2.7 m
7) <peso> = 5.1 (0.5),  <comp> = 2.1 (0.5), peso sup = 6.1 kg, comp sup = 3.1 m
8) <peso> = 5.0 (0.5),  <comp> = 2.1 (0.4), peso sup = 6.0 kg, comp sup = 2.8 m
9) <peso> = 5.1 (0.4),  <comp> = 2.0 (0.5), peso sup = 5.9 kg, comp sup = 2.9 m
10) <peso> = 5.1 (0.3),  <comp> = 2.0 (0.4), peso sup = 5.8 kg, comp sup = 2.8 m
11) <peso> = 4.9 (0.5),  <comp> = 2.1 (0.3), peso sup = 6.0 kg, comp sup = 2.7 m
12) <peso> = 5.0 (0.6),  <comp> = 2.0 (0.5), peso sup = 6.2 kg, comp sup = 2.9 m
13) <peso> = 5.0 (0.5),  <comp> = 2.1

144) <peso> = 5.0 (0.5),  <comp> = 2.0 (0.4), peso sup = 6.1 kg, comp sup = 2.8 m
145) <peso> = 5.1 (0.5),  <comp> = 2.0 (0.3), peso sup = 6.1 kg, comp sup = 2.6 m
146) <peso> = 4.9 (0.4),  <comp> = 2.0 (0.4), peso sup = 5.8 kg, comp sup = 2.7 m
147) <peso> = 5.0 (0.6),  <comp> = 2.0 (0.5), peso sup = 6.2 kg, comp sup = 2.9 m
148) <peso> = 4.8 (0.5),  <comp> = 2.0 (0.4), peso sup = 5.9 kg, comp sup = 2.8 m
149) <peso> = 5.1 (0.6),  <comp> = 2.0 (0.4), peso sup = 6.3 kg, comp sup = 2.9 m
150) <peso> = 5.0 (0.4),  <comp> = 2.0 (0.3), peso sup = 5.8 kg, comp sup = 2.7 m
151) <peso> = 4.9 (0.5),  <comp> = 2.2 (0.4), peso sup = 6.0 kg, comp sup = 2.9 m
152) <peso> = 4.9 (0.6),  <comp> = 2.1 (0.4), peso sup = 6.1 kg, comp sup = 2.9 m
153) <peso> = 5.1 (0.5),  <comp> = 2.1 (0.4), peso sup = 6.0 kg, comp sup = 2.8 m
154) <peso> = 4.9 (0.5),  <comp> = 2.1 (0.5), peso sup = 6.0 kg, comp sup = 3.0 m
155) <peso> = 4.7 (0.5),  <comp> = 2.0 (0.3), peso sup = 5.7 kg, comp sup = 2.7 m
156) <peso> = 5.

Unnamed: 0,id,peso,comprimento
26,26,5.949074,2.83956


### Qual o erro de peformance no meu algoritmo?

### Isto np.random.normal() é uma máquina estocástica? gerador de números numa distribuição normal?

### O que significa que consegui um valor após 257 tentativas?

In [62]:
100/257

0.38910505836575876

In [63]:
100/np.sqrt(257)

6.237828615518053

### 6% de chance de um fenomeno grande (ou pequeno ocorrer)

In [65]:
0.0624*0.0624

0.0038937599999999996

In [67]:
1./(0.0624*0.0624)

256.82117028270875

### p(raro) * p(raro) = p(raro) ^ 2
### 6.24% * 6.24% ~ 0.39% de dois fenômecnos ocorrerem

### Por isto que Ronald Fischer escolheu 5% como corte "do raro"?

https://en.wikipedia.org/wiki/P-value

https://en.wikipedia.org/wiki/Ronald_Fisher


### Markdown command: >> \![Ronald Fisher]\(../figure/ronald_fisher.jpg)

https://github.com/adam-p/markdown-here/wiki/Markdown-Cheatsheet

![Ronald Fisher](../figure/ronald_fisher.jpg)

In [69]:
os.listdir("../figure")

['ronald_fisher.jpg',
 'carro_rendimento_por_cilindro.png',
 'meucarro.png',
 'carro_rendimento_por_cilindro_better_font.png']