In [148]:
import pandas as pd
import numpy as np

# DataFrame Calculations

Hoje veremos como criar novas colunas em um DataFrame. Até o momento, já criamos colunas através de condicionais (usando `.loc` ou `np.where`) e através dos métodos `.astype()`, `.map()` e `.fillna()`.

A criação de colunas é extremamente simples: basta lembrarmos que um `DataFrame` se comporta como um dicionário de `Series`! Podemos criar novas colunas como adicionamos chaves à um dicionário: utilizando o operador de *assignment*, `=`.

Para aula de hoje utilizaremos um novo dataset: os dados do artigo *Sleep  in Mammals: Ecological and Constitutional Correlates*, contendo informações sobre o sono e a vida de certos animais.

## Lendo o DataFrame

Vamos iniciar carregando o DataFrame, olhando a documentação e os dados.

Documentação: 
http://lib.stat.cmu.edu/datasets/sleep

In [149]:
tb_animals = pd.read_csv('http://www.statsci.org/data/general/sleep.txt', sep='\t')

In [150]:
tb_animals.describe()

Unnamed: 0,BodyWt,BrainWt,NonDreaming,Dreaming,TotalSleep,LifeSpan,Gestation,Predation,Exposure,Danger
count,62.0,62.0,48.0,50.0,58.0,58.0,58.0,62.0,62.0,62.0
mean,198.789984,283.134194,8.672917,1.972,10.532759,19.877586,142.353448,2.870968,2.419355,2.612903
std,899.158011,930.278942,3.666452,1.442651,4.60676,18.206255,146.805039,1.476414,1.604792,1.441252
min,0.005,0.14,2.1,0.0,2.6,2.0,12.0,1.0,1.0,1.0
25%,0.6,4.25,6.25,0.9,8.05,6.625,35.75,2.0,1.0,1.0
50%,3.3425,17.25,8.35,1.8,10.45,15.1,79.0,3.0,2.0,2.0
75%,48.2025,166.0,11.0,2.55,13.2,27.75,207.5,4.0,4.0,4.0
max,6654.0,5712.0,17.9,6.6,19.9,100.0,645.0,5.0,5.0,5.0


In [151]:
tb_animals.head()

Unnamed: 0,Species,BodyWt,BrainWt,NonDreaming,Dreaming,TotalSleep,LifeSpan,Gestation,Predation,Exposure,Danger
0,Africanelephant,6654.0,5712.0,,,3.3,38.6,645.0,3,5,3
1,Africangiantpouchedrat,1.0,6.6,6.3,2.0,8.3,4.5,42.0,3,1,3
2,ArcticFox,3.385,44.5,,,12.5,14.0,60.0,1,1,1
3,Arcticgroundsquirrel,0.92,5.7,,,16.5,,25.0,5,2,3
4,Asianelephant,2547.0,4603.0,2.1,1.8,3.9,69.0,624.0,3,5,4


# Calculos com DataFrames

A forma mais simples de criarmos novas colunas é a partir de constantes, listas ou calculos com outras colunas. Vamos ver como realizar cada um desses passos.

## Colunas constantes

Podemos criar um coluna com valor constante simplesmente atribuindo um número à coluna.

In [152]:
tb_animals['new_column'] = 1

In [153]:
tb_animals.head()

Unnamed: 0,Species,BodyWt,BrainWt,NonDreaming,Dreaming,TotalSleep,LifeSpan,Gestation,Predation,Exposure,Danger,new_column
0,Africanelephant,6654.0,5712.0,,,3.3,38.6,645.0,3,5,3,1
1,Africangiantpouchedrat,1.0,6.6,6.3,2.0,8.3,4.5,42.0,3,1,3,1
2,ArcticFox,3.385,44.5,,,12.5,14.0,60.0,1,1,1,1
3,Arcticgroundsquirrel,0.92,5.7,,,16.5,,25.0,5,2,3,1
4,Asianelephant,2547.0,4603.0,2.1,1.8,3.9,69.0,624.0,3,5,4,1


In [154]:
tb_animals = tb_animals.drop('new_column', axis = 1)

## Criando colunas com `lists`

Podemos criar uma coluna a partir de uma lista (ou qualquer outro iterável). O Pandas interpretará o iterável como um `Series`, ou seja, cada elemento dele será visto como uma nova linha da nossa tabela. Logo, precisamos que o iterável tenha comprimento igual ao tamanho da nossa tabela.

In [155]:
tb_animals['id_linha'] = [i for i in range(tb_animals.shape[0])]

In [156]:
tb_animals['id_linha']

0      0
1      1
2      2
3      3
4      4
      ..
57    57
58    58
59    59
60    60
61    61
Name: id_linha, Length: 62, dtype: int64

In [157]:
tb_animals['erro'] = [1,2,3]

ValueError: Length of values (3) does not match length of index (62)

## Criando colunas à partir de contas

Podemos utilizar os operadores matemáticos para realizar operações sobre as colunas de um DataSet. A operação será mapeada à cada elemento da coluna - como em vetores do Numpy.

In [158]:
tb_animals['BrainWt']/1000

0     5.7120
1     0.0066
2     0.0445
3     0.0057
4     4.6030
       ...  
57    0.0123
58    0.0025
59    0.0580
60    0.0039
61    0.0170
Name: BrainWt, Length: 62, dtype: float64

In [159]:
tb_animals['BrainWt_kg'] = tb_animals['BrainWt']/1000 

In [160]:
tb_animals.describe()

Unnamed: 0,BodyWt,BrainWt,NonDreaming,Dreaming,TotalSleep,LifeSpan,Gestation,Predation,Exposure,Danger,id_linha,BrainWt_kg
count,62.0,62.0,48.0,50.0,58.0,58.0,58.0,62.0,62.0,62.0,62.0,62.0
mean,198.789984,283.134194,8.672917,1.972,10.532759,19.877586,142.353448,2.870968,2.419355,2.612903,30.5,0.283134
std,899.158011,930.278942,3.666452,1.442651,4.60676,18.206255,146.805039,1.476414,1.604792,1.441252,18.041619,0.930279
min,0.005,0.14,2.1,0.0,2.6,2.0,12.0,1.0,1.0,1.0,0.0,0.00014
25%,0.6,4.25,6.25,0.9,8.05,6.625,35.75,2.0,1.0,1.0,15.25,0.00425
50%,3.3425,17.25,8.35,1.8,10.45,15.1,79.0,3.0,2.0,2.0,30.5,0.01725
75%,48.2025,166.0,11.0,2.55,13.2,27.75,207.5,4.0,4.0,4.0,45.75,0.166
max,6654.0,5712.0,17.9,6.6,19.9,100.0,645.0,5.0,5.0,5.0,61.0,5.712


## Cálculos entre Colunas

Podemos realizar operações entre colunas - da mesma forma que os operadores booleanos (`<`, `>`, `==`, etc) podem ser aplicados sobre uma coluna para criar uma coluna, os operadores matemáticos podem ser usados entre duas colunas para criar novas colunas.

In [161]:
tb_animals['BrainWt_kg']/tb_animals['BodyWt']

0     0.000858
1     0.006600
2     0.013146
3     0.006196
4     0.001807
        ...   
57    0.006150
58    0.024038
59    0.013842
60    0.001114
61    0.004198
Length: 62, dtype: float64

In [162]:
tb_animals['ratio_brain_body'] = tb_animals['BrainWt_kg']/tb_animals['BodyWt']

In [163]:
tb_animals['ratio_brain_body'].describe()

count    62.000000
mean      0.009624
std       0.008915
min       0.000858
25%       0.003103
50%       0.006611
75%       0.013668
max       0.039604
Name: ratio_brain_body, dtype: float64

In [164]:
tb_animals[tb_animals['ratio_brain_body']>0.03]

Unnamed: 0,Species,BodyWt,BrainWt,NonDreaming,Dreaming,TotalSleep,LifeSpan,Gestation,Predation,Exposure,Danger,id_linha,BrainWt_kg,ratio_brain_body
26,Groundsquirrel,0.101,4.0,10.4,3.4,13.8,9.0,28.0,5,1,3,26,0.004,0.039604
41,Owlmonkey,0.48,15.5,15.2,1.8,17.0,12.0,140.0,2,2,2,41,0.0155,0.032292


### Operadores Booleanos entre Colunas

Da mesma forma que podemos realizar a comparação de uma coluna com um valor, podemos criar comparações entre colunas:

In [165]:
tb_animals['ratio_brain_body']>0.01

0     False
1     False
2      True
3     False
4     False
      ...  
57    False
58     True
59     True
60    False
61    False
Name: ratio_brain_body, Length: 62, dtype: bool

In [166]:
tb_animals['Dreaming'] > tb_animals['NonDreaming']

0     False
1     False
2     False
3     False
4     False
      ...  
57    False
58    False
59    False
60    False
61    False
Length: 62, dtype: bool

In [167]:
tb_animals[tb_animals['Dreaming'] > tb_animals['NonDreaming']]

Unnamed: 0,Species,BodyWt,BrainWt,NonDreaming,Dreaming,TotalSleep,LifeSpan,Gestation,Predation,Exposure,Danger,id_linha,BrainWt_kg,ratio_brain_body


## Usando métodos de `strings` em colunas

A aplicação dos métodos de `str` é um pouco mais complexa, sintaticamente, que a utilização dos operadores: precisamos utilizar um atributo das `Series` para conseguir acessar os métodos.

In [168]:
tb_animals['Species'].head()

0           Africanelephant
1    Africangiantpouchedrat
2                 ArcticFox
3      Arcticgroundsquirrel
4             Asianelephant
Name: Species, dtype: object

In [169]:
tb_animals['Species'].lower()

AttributeError: 'Series' object has no attribute 'lower'

Para acessar os métodos de `strings` vamos utilizar o atributo `.str` das `Series`

In [170]:
tb_animals['Species'].str.lower()

0            africanelephant
1     africangiantpouchedrat
2                  arcticfox
3       arcticgroundsquirrel
4              asianelephant
               ...          
57                 treehyrax
58                 treeshrew
59                    vervet
60              wateropossum
61      yellow-belliedmarmot
Name: Species, Length: 62, dtype: object

In [171]:
tb_animals['lower_species'] = tb_animals['Species'].str.lower()

Além dos métodos básicos de `strings` podemos utilizar funções de REGEX também!. A síntaxe é a mesma: utilizaremos o atributo `.str` para acessar esses métodos.

Vamos começar com o método `.contains()` que retorna um vetor booleano determinando se um padrão foi encontrado ou não em cada linha de nossa coluna. 

In [172]:
tb_animals['lower_species'].str.contains(r'monk|ape|man|gorilla|baboon|chimpanzee')

0     False
1     False
2     False
3     False
4     False
      ...  
57    False
58    False
59    False
60    False
61    False
Name: lower_species, Length: 62, dtype: bool

In [173]:
tb_animals['id_primata'] = tb_animals['lower_species'].str.contains(r'monk|ape|man|gorilla|baboon|chimpanzee')

In [174]:
sum(tb_animals['id_primata'])

7

Podemos utilizar o método `.findall()` para guardar a informação de qual parte do `string` deu *match* com nosso padrão:

In [175]:
tb_animals['lista_primata'] = tb_animals['lower_species'].str.findall(r'monk|ape|man|gorilla|baboon|chimpanzee')

In [176]:
tb_animals.head(10)

Unnamed: 0,Species,BodyWt,BrainWt,NonDreaming,Dreaming,TotalSleep,LifeSpan,Gestation,Predation,Exposure,Danger,id_linha,BrainWt_kg,ratio_brain_body,lower_species,id_primata,lista_primata
0,Africanelephant,6654.0,5712.0,,,3.3,38.6,645.0,3,5,3,0,5.712,0.000858,africanelephant,False,[]
1,Africangiantpouchedrat,1.0,6.6,6.3,2.0,8.3,4.5,42.0,3,1,3,1,0.0066,0.0066,africangiantpouchedrat,False,[]
2,ArcticFox,3.385,44.5,,,12.5,14.0,60.0,1,1,1,2,0.0445,0.013146,arcticfox,False,[]
3,Arcticgroundsquirrel,0.92,5.7,,,16.5,,25.0,5,2,3,3,0.0057,0.006196,arcticgroundsquirrel,False,[]
4,Asianelephant,2547.0,4603.0,2.1,1.8,3.9,69.0,624.0,3,5,4,4,4.603,0.001807,asianelephant,False,[]
5,Baboon,10.55,179.5,9.1,0.7,9.8,27.0,180.0,4,4,4,5,0.1795,0.017014,baboon,True,[baboon]
6,Bigbrownbat,0.023,0.3,15.8,3.9,19.7,19.0,35.0,1,1,1,6,0.0003,0.013043,bigbrownbat,False,[]
7,Braziliantapir,160.0,169.0,5.2,1.0,6.2,30.4,392.0,4,5,4,7,0.169,0.001056,braziliantapir,False,[]
8,Cat,3.3,25.6,10.9,3.6,14.5,28.0,63.0,1,2,1,8,0.0256,0.007758,cat,False,[]
9,Chimpanzee,52.16,440.0,8.3,1.4,9.7,50.0,230.0,1,1,1,9,0.44,0.008436,chimpanzee,True,[chimpanzee]


O método `.findall()` retorna uma lista: se quisermos transformar essa lista em um string teremos que utilizar o método `.map()`. Vamos começar definindo uma função para selecionar o primeiro elemento de cada lista e utilizar o método `.map()` para aplicar essa função a nossa coluna.

In [177]:
# EXERCICIO

## Ordenando valores

Podemos utilizar o método `.sort_values()` para ordenar um DataFrame por uma (ou mais) coluna.

In [178]:
tb_animals.sort_values(by='ratio_brain_body', ascending=False)

Unnamed: 0,Species,BodyWt,BrainWt,NonDreaming,Dreaming,TotalSleep,LifeSpan,Gestation,Predation,Exposure,Danger,id_linha,BrainWt_kg,ratio_brain_body,lower_species,id_primata,lista_primata
26,Groundsquirrel,0.101,4.00,10.4,3.4,13.8,9.0,28.0,5,1,3,26,0.00400,0.039604,groundsquirrel,False,[]
41,Owlmonkey,0.480,15.50,15.2,1.8,17.0,12.0,140.0,2,2,2,41,0.01550,0.032292,owlmonkey,True,[monk]
31,Lessershort-tailedshrew,0.005,0.14,7.7,1.4,9.1,2.6,21.5,5,2,4,31,0.00014,0.028000,lessershort-tailedshrew,False,[]
49,Rhesusmonkey,6.800,179.00,8.4,1.2,9.6,29.0,164.0,2,3,2,49,0.17900,0.026324,rhesusmonkey,True,[monk]
32,Littlebrownbat,0.010,0.25,17.9,2.0,19.9,24.0,50.0,1,1,1,32,0.00025,0.025000,littlebrownbat,False,[]
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
60,Wateropossum,3.500,3.90,12.8,6.6,19.4,3.0,14.0,2,1,1,60,0.00390,0.001114,wateropossum,False,[]
7,Braziliantapir,160.000,169.00,5.2,1.0,6.2,30.4,392.0,4,5,4,7,0.16900,0.001056,braziliantapir,False,[]
44,Pig,192.000,180.00,6.5,1.9,8.4,27.0,115.0,4,4,4,44,0.18000,0.000937,pig,False,[]
11,Cow,465.000,423.00,3.2,0.7,3.9,30.0,281.0,5,5,5,11,0.42300,0.000910,cow,False,[]


Lembrando que os métodos do DataFrame não alteram o objeto original! Se quisermos guardar nosso resultado precisamos faze-lo explicitamente:

In [179]:
tb_animals = tb_animals.sort_values(by=['Predation', 'ratio_brain_body'], ascending=False)

In [180]:
tb_animals.head()

Unnamed: 0,Species,BodyWt,BrainWt,NonDreaming,Dreaming,TotalSleep,LifeSpan,Gestation,Predation,Exposure,Danger,id_linha,BrainWt_kg,ratio_brain_body,lower_species,id_primata,lista_primata
26,Groundsquirrel,0.101,4.0,10.4,3.4,13.8,9.0,28.0,5,1,3,26,0.004,0.039604,groundsquirrel,False,[]
31,Lessershort-tailedshrew,0.005,0.14,7.7,1.4,9.1,2.6,21.5,5,2,4,31,0.00014,0.028,lessershort-tailedshrew,False,[]
10,Chinchilla,0.425,6.4,11.0,1.5,12.5,7.0,112.0,5,4,4,10,0.0064,0.015059,chinchilla,False,[]
52,Roedeer,14.83,98.2,,,2.6,17.0,150.0,5,5,5,52,0.0982,0.006622,roedeer,False,[]
3,Arcticgroundsquirrel,0.92,5.7,,,16.5,,25.0,5,2,3,3,0.0057,0.006196,arcticgroundsquirrel,False,[]


## Métodos de agregação entre colunas

Podemos utilizar os métodos de agregação para criar novas colunas: basta mudar o eixo ao longo do qual a operação é realizada!

In [181]:
tb_animals[['Predation', 'Exposure', 'Danger']].mean(axis=0)

Predation    2.870968
Exposure     2.419355
Danger       2.612903
dtype: float64

In [182]:
tb_animals[['Predation', 'Exposure', 'Danger']].mean(axis=1)

26    3.000000
31    3.666667
10    4.333333
52    5.000000
3     3.333333
        ...   
24    1.666667
25    1.000000
23    2.000000
29    1.000000
19    1.000000
Length: 62, dtype: float64

In [183]:
tb_animals['risco'] = tb_animals[['Predation', 'Exposure', 'Danger']].mean(axis=1)

In [184]:
tb_animals[['Predation', 'Exposure', 'Danger', 'risco']].mean(axis=0)

Predation    2.870968
Exposure     2.419355
Danger       2.612903
risco        2.634409
dtype: float64

# Cálculos Condicionais

Podemos utilizar o atributo `.loc` para criar colunas condicionais. Vamos começar com um exemplo simples: criando uma coluna a partir de uma constante.

## Colunas Condicionais constantes

In [185]:
tb_animals['flag_alto_risco'] = 0

In [186]:
tb_animals.loc[tb_animals['risco']>=4, 'flag_alto_risco'] = 1

In [187]:
tb_animals.groupby('flag_alto_risco').mean()

  tb_animals.groupby('flag_alto_risco').mean()


Unnamed: 0_level_0,BodyWt,BrainWt,NonDreaming,Dreaming,TotalSleep,LifeSpan,Gestation,Predation,Exposure,Danger,id_linha,BrainWt_kg,ratio_brain_body,id_primata,risco
flag_alto_risco,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
0,162.586089,203.836,9.602778,2.366667,11.875,17.214634,103.914634,2.244444,1.577778,1.888889,31.977778,0.203836,0.011467,0.111111,1.903704
1,294.623824,493.041176,5.883333,0.957143,6.314286,26.3,235.058824,4.529412,4.647059,4.529412,26.588235,0.493041,0.004746,0.117647,4.568627


Um atributo muito útil para esse tipo de visualização é o `.T`: ele nos retorna o DataFrame transposto:

In [188]:
tb_animals.groupby('flag_alto_risco').mean().T

  tb_animals.groupby('flag_alto_risco').mean().T


flag_alto_risco,0,1
BodyWt,162.586089,294.623824
BrainWt,203.836,493.041176
NonDreaming,9.602778,5.883333
Dreaming,2.366667,0.957143
TotalSleep,11.875,6.314286
LifeSpan,17.214634,26.3
Gestation,103.914634,235.058824
Predation,2.244444,4.529412
Exposure,1.577778,4.647059
Danger,1.888889,4.529412


## Colunas Condicionais utilizando operações

In [189]:
tb_animals['max_risco'] = tb_animals[['Predation', 'Exposure', 'Danger']].max(axis = 1)

In [190]:
tb_animals.loc[tb_animals['max_risco'] < 5, 'risco_2'] = tb_animals[['Predation', 'Exposure', 'Danger']].mean(axis = 1)
tb_animals.loc[tb_animals['max_risco'] == 5, 'risco_2'] = 5

In [191]:
tb_animals['flag_alto_risco_2'] = 0
tb_animals.loc[tb_animals['risco_2']>=4, 'flag_alto_risco_2'] = 1

In [192]:
tb_animals.groupby('flag_alto_risco_2').mean().T

  tb_animals.groupby('flag_alto_risco_2').mean().T


flag_alto_risco_2,0,1
BodyWt,16.130439,555.411
BrainWt,84.165366,671.597143
NonDreaming,9.635294,6.335714
Dreaming,2.364706,1.1375
TotalSleep,11.995,7.283333
LifeSpan,17.252632,24.865
Gestation,95.702703,224.547619
Predation,2.02439,4.52381
Exposure,1.487805,4.238095
Danger,1.756098,4.285714


# Quantis

Os quantis são pontos de corte em uma variável numérica que calculados para que uma % das observações esteja abaixo deste ponto. Por exemplo, o quantil 0.5 (50%, ou *mediana*) da variável `BodyWt` é um número tal que 50% das observações tem `BodyWt` abaixo deste número.

Os quantis mais famosos são os **quartis**:

1. 0.25, ou primeiro quartil, onde 25% das observações estão abaixo do quantil;
1. 0.5, ou mediana, onde 50% das observações estão abaixo do quantil;
1. e 0.75, ou terceiro quartil, onde 75% das observações estão abaixo do quantil.

Além disso, muitas vezes usamos os quantis 0.05 e 0.95 para representar os valores mais altos e mais baixos de uma variável.

In [193]:
tb_animals['BodyWt'].median()

3.3425

In [194]:
tb_animals['BodyWt'].quantile(0.5)

3.3425

In [195]:
tb_animals['BodyWt'].quantile([0.25, 0.5, 0.75])

0.25     0.6000
0.50     3.3425
0.75    48.2025
Name: BodyWt, dtype: float64

Uma utilização comum dos quantis é a **discretização de variáveis continuas**, ou seja, a criação de uma variável categórica (`string`) a partir de uma variável numérica.

In [196]:
q25 = tb_animals['BodyWt'].quantile(0.25)
q50 = tb_animals['BodyWt'].quantile(0.5)
q75 = tb_animals['BodyWt'].quantile(0.75)
print(q25, q50, q75)

0.6000000000000001 3.3425 48.2025


In [197]:
tb_animals.loc[tb_animals['BodyWt'] >= q75, 'cat_peso'] = 'Pesados'
tb_animals.loc[tb_animals['BodyWt'] < q75, 'cat_peso'] = 'Médios-Pesados'
tb_animals.loc[tb_animals['BodyWt'] < q50, 'cat_peso'] = 'Leves-Médios'
tb_animals.loc[tb_animals['BodyWt'] < q25, 'cat_peso'] = 'Leves'
tb_animals['cat_peso'].value_counts()

Leves             16
Pesados           16
Médios-Pesados    15
Leves-Médios      15
Name: cat_peso, dtype: int64

## Categorizando dados

A tarefa acima é tão comum que temos uma função específica para *cortar* uma variável numérica de acordo com seus quantis: a `pd.qcut()`

In [198]:
# Your code here!
tb_animals['BodyWt_Interval'] = pd.qcut(tb_animals['BodyWt'], 4, ['Leves', 'Leves-Médios', 'Médios-Pesados', 'Pesados'])

In [199]:
tb_animals['BodyWt_Interval'].value_counts()

Leves             16
Pesados           16
Leves-Médios      15
Médios-Pesados    15
Name: BodyWt_Interval, dtype: int64

In [200]:
tb_animals['BodyWt_Interval'].value_counts(normalize = True)

Leves             0.258065
Pesados           0.258065
Leves-Médios      0.241935
Médios-Pesados    0.241935
Name: BodyWt_Interval, dtype: float64

Os intervalos entre quantis não são uniforme: no exemplo acima a categoria `Leve` tinha animais entre 0 Kg e 0.6 Kg enquanto a `Médios-Pesados` tinha animais entre 3.3 Kg e 48 Kg! Isso acontece pois ao cortamos através de quantis estamos criando intervalos com número de observações uniforme - por consequencia sacrificamos a uniformidade entre intervalos.

Se quisermos *cortar* uma variável em intervalos iguais podemos utilizar a função `pd.cut`:

In [201]:
tb_animals['cat_risco'] = pd.cut(tb_animals['risco'], 3)

In [202]:
tb_animals['cat_risco']

26    (2.333, 3.667]
31    (2.333, 3.667]
10      (3.667, 5.0]
52      (3.667, 5.0]
3     (2.333, 3.667]
           ...      
24    (0.996, 2.333]
25    (0.996, 2.333]
23    (0.996, 2.333]
29    (0.996, 2.333]
19    (0.996, 2.333]
Name: cat_risco, Length: 62, dtype: category
Categories (3, interval[float64, right]): [(0.996, 2.333] < (2.333, 3.667] < (3.667, 5.0]]

Podemos utilizar a função `pd.cut` para criar uma categorização a partir de intervalos específicos através do argumento `bins = []`:

In [203]:
tb_animals['cat_risco'] = pd.cut(tb_animals['risco'], bins = [0, 2, 4, 5], labels = ['Risco Baixo', 'Risco Médio', 'Risco Alto'])

# Colunas Agregadas

Vimos na última aula como podemos combinar os métodos `.groupby()` e `.merge()` para criar colunas agregadas em um DataFrame. Vamos aprender como o método `.transform()` facilita essa operação.

Primeiro, vamos construir as colunas `rel_dreaming` e `rel_nondreaming` contendo a quantidade de sono relativo (por tipo de sono) em relação a categoria de risco de cada animal. Primeiro, construíremos estas colunas utilizando os métodos `.groupby()` e `.merge()`:

In [204]:
tb_agg_animals = (
    tb_animals
    .groupby('cat_risco')
    .agg(
        avg_dreaming = ('Dreaming', 'mean'),
        avg_nondreaming = ('NonDreaming', 'mean')
    )
)
tb_agg_animals

Unnamed: 0_level_0,avg_dreaming,avg_nondreaming
cat_risco,Unnamed: 1_level_1,Unnamed: 2_level_1
Risco Baixo,2.679167,9.9375
Risco Médio,1.588235,8.370588
Risco Alto,0.811111,5.071429


In [205]:
tb_animals = tb_animals.merge(tb_agg_animals, on = 'cat_risco')
tb_animals.head()

Unnamed: 0,Species,BodyWt,BrainWt,NonDreaming,Dreaming,TotalSleep,LifeSpan,Gestation,Predation,Exposure,...,risco,flag_alto_risco,max_risco,risco_2,flag_alto_risco_2,cat_peso,BodyWt_Interval,cat_risco,avg_dreaming,avg_nondreaming
0,Groundsquirrel,0.101,4.0,10.4,3.4,13.8,9.0,28.0,5,1,...,3.0,0,5,5.0,1,Leves,Leves,Risco Médio,1.588235,8.370588
1,Lessershort-tailedshrew,0.005,0.14,7.7,1.4,9.1,2.6,21.5,5,2,...,3.666667,0,5,5.0,1,Leves,Leves,Risco Médio,1.588235,8.370588
2,Arcticgroundsquirrel,0.92,5.7,,,16.5,,25.0,5,2,...,3.333333,0,5,5.0,1,Leves-Médios,Leves-Médios,Risco Médio,1.588235,8.370588
3,Guineapig,1.04,5.5,7.4,0.8,8.2,7.6,68.0,5,3,...,4.0,1,5,5.0,1,Leves-Médios,Leves-Médios,Risco Médio,1.588235,8.370588
4,Mouse,0.023,0.4,11.9,1.3,13.2,3.2,19.0,4,1,...,2.666667,0,4,2.666667,0,Leves,Leves,Risco Médio,1.588235,8.370588


As colunas de sono relativo serão calculadas como a proporção entre o sono (por tipo) de cada indivíduo e o sono médio da sua categoria de risco:

In [206]:
tb_animals['rel_dreaming'] = tb_animals['Dreaming']/tb_animals['avg_dreaming']
tb_animals['rel_nondreaming'] = tb_animals['NonDreaming']/tb_animals['avg_nondreaming']
tb_animals[["Species", "cat_risco", "NonDreaming", "Dreaming", "rel_dreaming", "rel_nondreaming"]].dropna().sort_values("rel_dreaming")

Unnamed: 0,Species,cat_risco,NonDreaming,Dreaming,rel_dreaming,rel_nondreaming
40,Echidna,Risco Baixo,8.6,0.0,0.0,0.865409
15,Rockhyrax(Procaviahab),Risco Médio,4.9,0.5,0.314815,0.585383
13,Treehyrax,Risco Médio,4.9,0.5,0.314815,0.585383
37,Rockhyrax(Heterob),Risco Baixo,5.7,0.9,0.335925,0.573585
6,Vervet,Risco Médio,9.7,0.6,0.377778,1.158819
5,Baboon,Risco Médio,9.1,0.7,0.440741,1.08714
35,Galago,Risco Baixo,9.5,1.2,0.4479,0.955975
53,Genet,Risco Baixo,4.8,1.3,0.485226,0.483019
3,Guineapig,Risco Médio,7.4,0.8,0.503704,0.884048
55,Chimpanzee,Risco Baixo,8.3,1.4,0.522551,0.83522


Agora, vamos utilizar o método `.transform()` para simplificar o processo acima:

In [207]:
tb_animals.\
    groupby('cat_risco')[["Dreaming"]].\
    transform('mean')
    

Unnamed: 0,Dreaming
0,1.588235
1,1.588235
2,1.588235
3,1.588235
4,1.588235
...,...
57,2.679167
58,2.679167
59,2.679167
60,2.679167


O método `.transform()` cria uma coluna contendo, por observação, o resultado da função de agregação sobre os grupos especificados no método `.groupby()`! Não precisamos realizar a transformação e depois obter os resultados da união das tabelas:

In [208]:
tb_animals.\
    groupby('cat_risco')[["Dreaming", "NonDreaming"]].\
    transform('mean')
    

Unnamed: 0,Dreaming,NonDreaming
0,1.588235,8.370588
1,1.588235,8.370588
2,1.588235,8.370588
3,1.588235,8.370588
4,1.588235,8.370588
...,...,...
57,2.679167,9.937500
58,2.679167,9.937500
59,2.679167,9.937500
60,2.679167,9.937500


In [209]:
tb_animals[["avg_dreaming_t", "avg_nondreaming_t"]] = (
    tb_animals
    .groupby('cat_risco')[["Dreaming", "NonDreaming"]]
    .transform('mean')
)

In [211]:
tb_animals[["Species", "avg_dreaming", "avg_nondreaming", "avg_dreaming_t", "avg_nondreaming_t"]]

Unnamed: 0,Species,avg_dreaming,avg_nondreaming,avg_dreaming_t,avg_nondreaming_t
0,Groundsquirrel,1.588235,8.370588,1.588235,8.370588
1,Lessershort-tailedshrew,1.588235,8.370588,1.588235,8.370588
2,Arcticgroundsquirrel,1.588235,8.370588,1.588235,8.370588
3,Guineapig,1.588235,8.370588,1.588235,8.370588
4,Mouse,1.588235,8.370588,1.588235,8.370588
...,...,...,...,...,...
57,Grayseal,2.679167,9.937500,2.679167,9.937500
58,Graywolf,2.679167,9.937500,2.679167,9.937500
59,Gorilla,2.679167,9.937500,2.679167,9.937500
60,Jaguar,2.679167,9.937500,2.679167,9.937500


# Bonus: 

## Correlation

*Touching statistics*

In [None]:
tb_animals.corr()