# A Estrutura de Dados "Série"

**Série** é uma estrutura de dados que pode ser considerada como uma mistura de *lista* com *dicionário*. Uma forma fácil de se visualizar uma série é como uma estrutura de duas colunas de dados onde na primeira ficam os índices da lista (tal como um *dicionário*) e na segunda ficam os valores armazenados, sendo que essa última possui um nome próprio que pode ser retornado usando o atributo **`.name`**.

In [1]:
import pandas as pd
# O atributo '?' abaixo serve para ver a documetação de um determinado recurso de uma biblioteca.
pd.Series?

Podemos criar uma série passando como parâmetro uma lista de valores (mas também pode ser passado qualquer valor array-like, dict ou escalar). Quando fazemos isso, o Pandas por padrão indexa os valores com inteiros começando do zero e coloca o nome da lista de valores como **`None`**.

In [36]:
animals = ['tiger', 'bear', 'moose']
pd.Series(animals)

0    tiger
1     bear
2    moose
dtype: object

Quando inserimos uma lista como parâmetro, o Pandas automaticamente identifica o tipo dos valores da série, como no exemplo acima ele identificou os valores como *object* e no exemplo abaixo como *int64*. Entretanto, podemos escolher o tipo dos valores através do parâmetro **`dtype`**.

In [37]:
numbers = [1, 2, 3]
pd.Series(numbers)

0    1
1    2
2    3
dtype: int64

Pandas usa a lista da biblioteca *`numpy`* na execução de seus códigos por oferecer um desempenho muito melhor em processamento de dados que o array tradicional do Python. Por isso, todo array passado como parâmetro é convertido para np.array.

Além disso, há outros detalhes de tipagem existentes para melhora de desempenho que são importantes de saber, sendo o mais importante a forma como a *`numpy`* e o *`pandas`* lidam com falta de dados.

Por baixo, o Pandas faz algumas conversões de tipos. Por exemplo quando é passado em `Series` uma lista de strings com dos elementos sendo `None` (que indica falta de dados), o tipo dos elementos é declarado como *object* e o `None` é mantido.

In [38]:
animals = ['tiger', 'bear', None]
pd.Series(animals)

0    tiger
1     bear
2     None
dtype: object

Todavia, quando é passado como parâmetro um array de inteiros com um dos elementos como None, os tipos dos elementos são convertidos para *float64* e o **`None`** é convertido para **`NaN` (Not a Number)**.

In [39]:
numbers = [1, 2, None]
pd.Series(numbers)

0    1.0
1    2.0
2    NaN
dtype: float64

Uma coisa a ressaltar é que **NaN não é None**! O exemplo abaixo mostra o que acontece se tentar comparar `NaN` com `None`; o resultado é `False`.

In [40]:
import numpy as np
np.nan == None

False

Acontece que também não se pode fazer teste de igualdade com operador **==** de `NaN` consigo mesmo.

In [41]:
np.nan == np.nan

False

Devem ser usadas funções especiais para testar se um valor é **`NaN`**, tal como a **`isnan`** da *`numpy`*.

In [42]:
np.isnan(np.nan)

True

Além de *listas*, também podem ser usados *dicionários* para criação de Séries. Quando um *dicionário* é passado como parâmetro, as *chaves* do mesmo são reaproveitadas para serem usadas como os índices da série gerada, em vez de usar inteiros para isso.

In [43]:
sports = {'Archery' : 'Butan',
         'Golf' : 'Scotland',
         'Sumo' : 'Japan',
         'Taekwondo' : 'South Korea'}
s = pd.Series(sports)
s

Archery            Butan
Golf            Scotland
Sumo               Japan
Taekwondo    South Korea
dtype: object

Através do atributo `index`, pode-se obter os índices da série e o tipo dos seus valores.

In [44]:
s.index

Index(['Archery', 'Golf', 'Sumo', 'Taekwondo'], dtype='object')

Também é possível passar os índices dos valores separadamente usando o parâmetro `index`.

In [45]:
pd.Series(['Tiger', 'Bear', 'Moose'], index=['India', 'North America', 'Canada'])

India            Tiger
North America     Bear
Canada           Moose
dtype: object

Quando é passado um dicionário como parâmetro de valores mas uma lista de chaves é passada como index, apenas os valores alinhados com as chaves do índice são considerados.

In [46]:
pd.Series({'Scothland': 'Golf',
           'Japan': 'Sumo',
           'USA': 'Hockey',
           'South Korea': 'Taekwondo'},
          index=['Scothland', 'Japan'])

Scothland    Golf
Japan        Sumo
dtype: object

Caso o índice possua mais valores que o dícionário, os índices alinhados com as chaves apontarão para os respectivos valores do dicionário e o restante apontará para valores NaN.

In [47]:
pd.Series({'Scothland': 'Golf',
           'Japan': 'Sumo'},
          index=['Scothland', 'Japan', 'XXX', 'YYY'])

Scothland    Golf
Japan        Sumo
XXX           NaN
YYY           NaN
dtype: object

In [48]:
pd.Series({'Scothland': 'Golf',
           'Japan': 'Sumo',
           'USA': 'Hockey',
           'South Korea': 'Taekwondo'},
          index=['A', 'B', 'C', 'D'])

A   NaN
B   NaN
C   NaN
D   NaN
dtype: float64

Entretanto, se forem passados como parâmetros uma lista de valores e uma lista de índices, ambas precisam ter o mesmo tamanho, ou um **`ValueError`** será disparado.

`ValueError: Wrong number of items passed 3, placement implies 2`

# Consultas em `Series`.

Podemos buscar valores em séries tanto por índices quanto atributos, apesar que os índices têm os mesmos valores dos atributos quando uma lista deles não é passada por parâmetros.

In [49]:
sports = {'Archery': 'Butan',
         'Golf': 'Scotland',
         'Sumo': 'Japan',
         'Taekwondo': 'South Africa'}
s = pd.Series(sports)
s

Archery             Butan
Golf             Scotland
Sumo                Japan
Taekwondo    South Africa
dtype: object

Para obter um valor através do índice, usamos o atributo **`iloc`**. No exemplo abaixo é obtido o quarto país da lista de esportes.

In [50]:
s.iloc[3]

'South Africa'

Para obter um valor através da chave, usamos o atributo **`loc`**. No exemplo abaixo é obtido o país de origem do *Golf*.

In [51]:
s.loc['Golf']

'Scotland'

Pandas também permite o uso do operador de indexação **`[]`** diretamente com o objeto para fazer consultas. 

In [52]:
print(s[3]) # Equivale a print(s.iloc[3])
print(s['Golf']) # Equivale a print(s.loc['Golf'])

South Africa
Scotland


Embora em tese consulta usando **`[]`** diretamente no objeto seja mais prática, as coisas complicam se o índice for uma lista de inteiros, pois o Pandas não saberá identificar se é índice posicional ou de chave. Portanto é necessário tomar cuidado com o uso desse recurso e a forma mais segura de fazer consultas é usando diretamente os atributos **`iloc`** e **`loc`**.

In [53]:
sports = {99: 'Butan',
         100: 'Scotland',
         101: 'Japan',
         102: 'South Corea'}
s = pd.Series(sports)

In [1]:
s[0] # Ao invés de chamar s.iloc[0], isso disparará um KeyError.

Series, tal como listas e dicionários, são objetos iteráveis.

In [55]:
s = pd.Series([100.00, 120.00, 101.00, 3.00])
s

0    100.0
1    120.0
2    101.0
3      3.0
dtype: float64

In [56]:
total = 0
for item in s:
    total += item
total

324.0

Embora o método de soma usado acima funcione, ele é lento. Pandas suporta **vetorização**, que é um método de processamento computacional no qual várias tarefas são executadas simultaneamente num computador, permitindo assim resultados mais rápidos. É bastante usado, principalmente com operações matemáticas. Numpy possui vetorização implementada em quase todas as suas funções, incluindo a função **`sum`**.

In [57]:
import numpy as np

total = np.sum(s)
total

324.0

Agora façamos uma comparação entre ambos os métodos de soma acima.

In [58]:
s = pd.Series(np.random.randint(0, 1000, 10000))
s.head() # Retorna os cinco primeiros elementos da série.

0    989
1    548
2    634
3    704
4    189
dtype: int64

In [59]:
len(s)

10000

**Magic Functions** começam com **%**, e se apertar tab aparecerá todas as magic functions possíveis de se usar. **Celular Magic Functions** começam com **%%** e servem para modificar dados que ficam dentro de uma célula do Jupyter. E a magic function **timeit**, como o nome sugere, serve para rodar o código algumas vezes para calcular a média de tempo de execução do mesmo.

In [60]:
%%timeit -n 100
summary = 0
for item in s:
    summary += item

1.92 ms ± 349 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [61]:
%%timeit -n 100
summary = np.sum(s)

The slowest run took 6.70 times longer than the fastest. This could mean that an intermediate result is being cached.
235 µs ± 228 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


**Broadcasting** é um recurso relacionado as bibliotecas *numpy* e *pandas* que permite aplicar uma determinada operação em cada célula de uma série, mudando assim os valores das séries. No exemplo abaixo, somamos 2 aos valores da série *s*.

In [62]:
s += 2
s.head()

0    991
1    550
2    636
3    706
4    191
dtype: int64

Também podemos mudar o valor dos elementos diretamente, como podemos ver no exemplo abaixo.

In [63]:
for label, value in s.iteritems():
    s.set_value(label, value + 2)
s.head()

0    993
1    552
2    638
3    708
4    193
dtype: int64

Tal como dicionários e vetores, séries também são iteráveis. No entanto, quando iteramos com séries, devemos sempre prestar atenção se estamos fazendo isso da melhor maneira. Abaixo faremos um teste com duas formas de se somar 2 em uma série e comparar o desempenho de ambas.

In [32]:
%%timeit -n 10
s = pd.Series(np.random.randint(100, 1000, 10000))
for label, value in s.iteritems():
    s.loc[label] = value + 2

1.33 s ± 5.78 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [64]:
%%timeit -n 10
s = pd.Series(np.random.randint(100, 1000, 10000))
s += 2

The slowest run took 39.75 times longer than the fastest. This could mean that an intermediate result is being cached.
1.62 ms ± 3.31 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


O atributo **`.loc`** não só serve para obter ou alterar valores, mas também adicionar novos valores na série.

In [66]:
s = pd.Series([1, 2, 3])
s.loc['Animal'] = 'Bear'
s

0            1
1            2
2            3
Animal    Bear
dtype: object

O método **`.append`** serve para unir duas séries. Ao usar esse método, o *pandas* tentará inferir o tipo dos objetos ao juntá-los na mesma série. Esse método não muda nada nas séries originais, pois a junção é feita numa nova série que recebe os valores de ambas as séries passadas.

In [70]:
original_sports = pd.Series({'Archery': 'Butan',
                            'Golf': 'Scothland',
                            'Sumo': 'Japan',
                            'Taekwondo': 'South Korea'})
cricket_loving_countries = pd.Series(['Australia',
                                     'Barbados',
                                     'Pakistain',
                                     'England'], index = ['Cricket'] * 4)
all_countries = original_sports.append(cricket_loving_countries)
all_countries

Archery            Butan
Golf           Scothland
Sumo               Japan
Taekwondo    South Korea
Cricket        Australia
Cricket         Barbados
Cricket        Pakistain
Cricket          England
dtype: object

In [71]:
original_sports

Archery            Butan
Golf           Scothland
Sumo               Japan
Taekwondo    South Korea
dtype: object

In [72]:
cricket_loving_countries

Cricket    Australia
Cricket     Barbados
Cricket    Pakistain
Cricket      England
dtype: object

# A estrutura de dados DataFrame.

DataFrame é uma estrutura de dados que, conceitualmente falando, consiste em uma série de duas dimensões, ou seja, uma tabela. Cada coluna do DataFrame possui um nome e a primeira coluna são os índices. DataFrames podem ser construidos usando séries ou dicionários. 

In [2]:
import pandas as pd

purchase_1 = pd.Series({'Name': 'Cris', 'Item Purchased': 'Dog Food', 'Cost': 22.50 })
purchase_2 = pd.Series({'Name': 'Kevin', 'Item Purchased': 'Kitten Litter', 'Cost': 2.50 })
purchase_3 = pd.Series({'Name': 'Vinod', 'Item Purchased': 'Bird Seed', 'Cost': 5.00 })

df = pd.DataFrame([purchase_1, purchase_2, purchase_3], index = ['Store 1', 'Store 1', 'Store 2'])
df

Unnamed: 0,Cost,Item Purchased,Name
Store 1,22.5,Dog Food,Cris
Store 1,2.5,Kitten Litter,Kevin
Store 2,5.0,Bird Seed,Vinod


In [3]:
df.loc['Store 2']

Cost                      5
Item Purchased    Bird Seed
Name                  Vinod
Name: Store 2, dtype: object

In [4]:
type(df.loc['Store 2'])

pandas.core.series.Series

O nome das colunas, tal como os rótulos dos índices, podem não ser únicos. Por isso, caso se extraia dados de um DataFrame usando índice não único, o valor de retorno será um outro DataFrame.

In [5]:
df.loc['Store 1']

Unnamed: 0,Cost,Item Purchased,Name
Store 1,22.5,Dog Food,Cris
Store 1,2.5,Kitten Litter,Kevin


Para extrair os valores das colunas, podemos usar o operador **`[]`** com o nome da coluna. No exemplo abaixo é extraido uma lista de todos os itens vendidos que consta no dataframe (independente de qual loja ou por quem foi vendido).

In [6]:
df['Item Purchased']

Store 1         Dog Food
Store 1    Kitten Litter
Store 2        Bird Seed
Name: Item Purchased, dtype: object

Podemos usar múltiplos eixos como parâmetros para fazer consultas em um DataFrame.

In [7]:
df.loc['Store 1', 'Cost']

Store 1    22.5
Store 1     2.5
Name: Cost, dtype: float64

Também é possível fazer operações com matrizes no DataFrame, como uma transposta de matriz.

In [8]:
df.T

Unnamed: 0,Store 1,Store 1.1,Store 2
Cost,22.5,2.5,5
Item Purchased,Dog Food,Kitten Litter,Bird Seed
Name,Cris,Kevin,Vinod


In [9]:
df.T.loc['Cost']

Store 1    22.5
Store 1     2.5
Store 2       5
Name: Cost, dtype: object

Encadeamento de índices, que é o uso de **`.loc`** com o operando duplo **`[][]`**, porém essa é uma prática ruim e deve ser evitada, pois com ela o pandas pode retornar ou uma cópia ou uma visualização de uma consulta, dependendo dos recursos de fundo da numpy utilizados.

In [10]:
df.loc['Store 1']['Cost']

Store 1    22.5
Store 1     2.5
Name: Cost, dtype: float64

`.loc` Também suporta slice.

In [11]:
df.loc[:, ['Name', 'Cost']]

Unnamed: 0,Name,Cost
Store 1,Cris,22.5
Store 1,Kevin,2.5
Store 2,Vinod,5.0


Para deletar linhas de um DataFrame, usamos o método **`.drop`** passando como parâmetro o rótulo de índice da linha. Entretanto, isso não muda o DataFrame original, mas retorna um novo DataFrame sem a linha presente.

In [12]:
df.drop('Store 1')

Unnamed: 0,Cost,Item Purchased,Name
Store 2,5.0,Bird Seed,Vinod


In [13]:
df

Unnamed: 0,Cost,Item Purchased,Name
Store 1,22.5,Dog Food,Cris
Store 1,2.5,Kitten Litter,Kevin
Store 2,5.0,Bird Seed,Vinod


Tal como arrays da *numpy*, para retornar um valor cópia do DataFrame devemos usar o método **`.copy`**.

In [14]:
copy_df = df.copy()
copy_df = copy_df.drop('Store 1')
copy_df

Unnamed: 0,Cost,Item Purchased,Name
Store 2,5.0,Bird Seed,Vinod


**`.drop`** possui dois parâmetros opcionais interessantes. O primeiro é o **`axis`** que serve para indicar se é uma linha ou coluna deve ser deletada, sendo por padrão 0  que indica uma linha. O segundo é o **`inplace`** que se for colocado como True o método deletará os valores no DataFrame original em vez de retornar uma cópia com os valores deletados.

In [15]:
copy_df.drop?

Outra forma de se deletar um eixo é usando o comando `del`.

In [16]:
del copy_df['Name']
copy_df

Unnamed: 0,Cost,Item Purchased
Store 2,5.0,Bird Seed


Para adicionar uma coluna, podemos usar o operador **`[]`** e colocar um valor padrão para cada linha usando o operador **`=`**.

In [17]:
df['Location'] = None
df

Unnamed: 0,Cost,Item Purchased,Name,Location
Store 1,22.5,Dog Food,Cris,
Store 1,2.5,Kitten Litter,Kevin,
Store 2,5.0,Bird Seed,Vinod,


# DataFrame indexing and loading

Ao manipularmos DataFrame, podem ocorrer situações nas quais alterações no DataFrame que estamos trabalhando podem afetar o DataFrame base no qual extraímos os dados. Nos exemplos abaixo, pegamos a coluna *Cost* do nosso DataFrame e, usando broadcasting, somamos todos os valores de custos com 2.

In [18]:
costs = df['Cost']
costs

Store 1    22.5
Store 1     2.5
Store 2     5.0
Name: Cost, dtype: float64

In [20]:
costs += 2
costs

Store 1    26.5
Store 1     6.5
Store 2     9.0
Name: Cost, dtype: float64

In [21]:
df

Unnamed: 0,Cost,Item Purchased,Name,Location
Store 1,26.5,Dog Food,Cris,
Store 1,6.5,Kitten Litter,Kevin,
Store 2,9.0,Bird Seed,Vinod,


Como podemos ver, a soma também repercutiu no DataFrame base *df*. Por isso, toda vez que quisermos uma cópia do DataFrame é bom considerar o uso do método **`.copy`** primeiro.

O operador **`!`** serve para executar comandos do terminal da máquina fonte. Funciona bem com Linux, mas não se pode dizer o mesmo com Windows.

In [23]:
!cat olympics.csv

0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
,№ Summer,01 !,02 !,03 !,Total,№ Winter,01 !,02 !,03 !,Total,№ Games,01 !,02 !,03 !,Combined total
Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12
Australia (AUS) [AUS] [Z],25,139,152,177,468,18,5,3,4,12,43,144,155,181,480
Austria (AUT),26,18,33,35,86,22,59,78,81,218,48,77,111,116,304
Azerbaijan (AZE),5,6,5,15,26,5,0,0,0,0,10,6,5,15,26
Bahamas (BAH),15,5,2,5,12,0,0,0,0,0,15,5,2,5,12
Bahrain (BRN),8,0,0,1,1,0,0,0,0,0,8,0,0,1,1
Barbados (BAR) [BAR],11,0,0,1,1,0,0,0,0,0,11,0,0,1,1
Belarus (BLR),5,12,24,39,75,6,6,4,5,15,11,18,28,44,90
Belgium (BEL),25,37,52,53,142,20,1,1,3,5,45,38,53,56,147
Bermuda (BER),17,0,0,1,1,7,0,0,0,0,24,0,0,1,1
Bohemia (BOH) [BOH] [Z],3,0,1,3,4,0,0,0,0,0,3,0,1,3,4
Botswana (BOT),9,0,1,0,1,0,0,0,0,0,9,0,1,

O método **`.read_csv`** lê os dados de uma tabela de um arquivo *.csv* e os insere dentro de um DataFrame.

In [18]:
import pandas as pd

df = pd.read_csv('olympics.csv')
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,,№ Summer,01 !,02 !,03 !,Total,№ Winter,01 !,02 !,03 !,Total,№ Games,01 !,02 !,03 !,Combined total
1,Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
2,Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
3,Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
4,Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12


Embora o exemplo acima pareça bem limpo, podemos notar que na primeira coluna da primeira linha temos o valor **`NaN`**. Podemos resolver isso através de dois parâmetros do método **`.read_csv`**. O primeiro é o **`index_col`** que serve para informar qual coluna da tabela deve ser usada como índice, e o segundo é o **`skiprows`** que informa quantas linhas devem ser ignoradas de cima para baixo.

In [19]:
df = pd.read_csv('olympics.csv', index_col=0, skiprows=1)
df.head()

Unnamed: 0,№ Summer,01 !,02 !,03 !,Total,№ Winter,01 !.1,02 !.1,03 !.1,Total.1,№ Games,01 !.2,02 !.2,03 !.2,Combined total
Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


Agora percebemos um problema, temos colunas repetidas com valores repetidos nos quais o *pandas* colocou com ".1" e ".2". Além disso, os valores que deveriam ser medalhas de "ouro", "prata" e "bronze" estão como "01!", "02!" e "03!". Como isso não é uma boa prática por não deixar os dados claros, devemos mudar o nome das colunas usando o atributo **`.columns`** e o método **`.rename`**.

In [20]:
df.columns

Index(['№ Summer', '01 !', '02 !', '03 !', 'Total', '№ Winter', '01 !.1',
       '02 !.1', '03 !.1', 'Total.1', '№ Games', '01 !.2', '02 !.2', '03 !.2',
       'Combined total'],
      dtype='object')

In [21]:
for col in df.columns:
    if col[:2] == '01': # Verificamos antes da posição 2 para não perder os valores únicos.
        df.rename(columns={col: 'Gold' + col[4:]}, inplace=True)
    if col[:2] == '02':
        df.rename(columns={col: 'Silver' + col[4:]}, inplace=True)
    if col[:2] == '03':
        df.rename(columns={col: 'Bronze' + col[4:]}, inplace=True)
    if col[:1] == '№':
        df.rename(columns={col: '#' + col[1:]}, inplace=True)

df.head()

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


# Querying a DataFrame

Uma das formas mais eficientes de se fazer consultas em *Ciência de Dados* é com o uso de **Boolean Masks**, que consistem em arrays de valores booleanos que podem ser somados a uma *série* ou *dataframe*, com as posições True retornando os valores e False os descartando. Funciona de maneira análoga as máscaras de números binários.

In [22]:
df.loc[:, 'Gold'] > 0 # O mesmo que df['Gold']. Aqui pegamos uma lista para saber que país possui medalha de ouro.

Afghanistan (AFG)                               False
Algeria (ALG)                                    True
Argentina (ARG)                                  True
Armenia (ARM)                                    True
Australasia (ANZ) [ANZ]                          True
Australia (AUS) [AUS] [Z]                        True
Austria (AUT)                                    True
Azerbaijan (AZE)                                 True
Bahamas (BAH)                                    True
Bahrain (BRN)                                   False
Barbados (BAR) [BAR]                            False
Belarus (BLR)                                    True
Belgium (BEL)                                    True
Bermuda (BER)                                   False
Bohemia (BOH) [BOH] [Z]                         False
Botswana (BOT)                                  False
Brazil (BRA)                                     True
British West Indies (BWI) [BWI]                 False
Bulgaria (BUL) [H]          

**`.where`** é um método que recebe como parâmetro uma *Boolean Mask* e retorna um DataFrame com o mesmo formato do original, porém com todas as linhas que não atenderem as condições da *Boolean Mask* como NaN, e com isso serão ignoradas pelas demais funções estatísticas.

In [23]:
only_gold = df.where(df['Gold'] > 0)
only_gold.head()

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Afghanistan (AFG),,,,,,,,,,,,,,,
Algeria (ALG),12.0,5.0,2.0,8.0,15.0,3.0,0.0,0.0,0.0,0.0,15.0,5.0,2.0,8.0,15.0
Argentina (ARG),23.0,18.0,24.0,28.0,70.0,18.0,0.0,0.0,0.0,0.0,41.0,18.0,24.0,28.0,70.0
Armenia (ARM),5.0,1.0,2.0,9.0,12.0,6.0,0.0,0.0,0.0,0.0,11.0,1.0,2.0,9.0,12.0
Australasia (ANZ) [ANZ],2.0,3.0,4.0,5.0,12.0,0.0,0.0,0.0,0.0,0.0,2.0,3.0,4.0,5.0,12.0


In [24]:
only_gold['Gold'].count()

100

In [25]:
df['Gold'].count()

147

A função **`.dropna`** remove os eixos do DataFrame que só possuam NaN. O atributo **`axis`** desse método define qual tipo de eixo deve ser removido, sendo 0 para linha (que é o padrão) ou 1 para coluna. 

In [27]:
only_gold = only_gold.dropna()
only_gold.head()

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Algeria (ALG),12.0,5.0,2.0,8.0,15.0,3.0,0.0,0.0,0.0,0.0,15.0,5.0,2.0,8.0,15.0
Argentina (ARG),23.0,18.0,24.0,28.0,70.0,18.0,0.0,0.0,0.0,0.0,41.0,18.0,24.0,28.0,70.0
Armenia (ARM),5.0,1.0,2.0,9.0,12.0,6.0,0.0,0.0,0.0,0.0,11.0,1.0,2.0,9.0,12.0
Australasia (ANZ) [ANZ],2.0,3.0,4.0,5.0,12.0,0.0,0.0,0.0,0.0,0.0,2.0,3.0,4.0,5.0,12.0
Australia (AUS) [AUS] [Z],25.0,139.0,152.0,177.0,468.0,18.0,5.0,3.0,4.0,12.0,43.0,144.0,155.0,181.0,480.0


Também podemos filtrar esses dados usando máscara booleana diretamente sem precisar usar **`.where`** e **`.dropna`**.

In [30]:
only_gold = df[df['Gold'] > 0] # Filtra tudo automaticamente.
only_gold.head()

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12
Australia (AUS) [AUS] [Z],25,139,152,177,468,18,5,3,4,12,43,144,155,181,480


A combinação de duas máscaras booleanas usando um operador bit a bit é outra máscara booleana e, com isso, podemos criar consultas mais complexas com expressões lógicas compostas.

In [31]:
len(df[(df['Gold'] > 0) | df['Gold.1'] > 0])

101

In [32]:
df[(df['Gold.2'] > 0) & (df['Gold'] == 0)]

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Liechtenstein (LIE),16,0,0,0,0,18,2,2,5,9,34,2,2,5,9


Importante lembrar que cada máscara booleana, quando forem combinadas por um operador bit a bit, devem estar dentro de parênteses por causa da ordem de operações.

Até então vimos quatro formas de indexar DataFrames. A primeira forma é não definir nenhuma indexação e usar o padrão, que são inteiros de zero a N-1, sendo N o número de linhas do DataFrame; a segunda forma é inserir um array de índices no parâmetro **index**; a terceira forma é inferir esses índices usando **labels** de uma estrutura, sejam os índices de uma *série* ou labels de dicionários; a quarta forma, quando os dados são extraídos de um arquivo externo (como um .csv), é definir no atributo **`index_col`** qual das colunas da tabela será índice no DataFrame.

Todavia, há uma outra forma de se definir o índice de um DataFrame que é usando a função **`.set_index`**, que pega como parâmetro colunas e as promove para índice. Essa função é destrutiva, ou seja, a coluna de índices atual não é mantida após a substituição. Para manter a coluna de índices atual na tabela, é necessário criar manualmente uma nova coluna e transferir os dados da coluna de índices para essa nova coluna antes de usar a função *`.set_index`*.

In [33]:
df['country'] = df.index
df = df.set_index('Gold')
df.head()

Unnamed: 0_level_0,# Summer,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total,country
Gold,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
0,13,0,2,2,0,0,0,0,0,13,0,0,2,2,Afghanistan (AFG)
5,12,2,8,15,3,0,0,0,0,15,5,2,8,15,Algeria (ALG)
18,23,24,28,70,18,0,0,0,0,41,18,24,28,70,Argentina (ARG)
1,5,2,9,12,6,0,0,0,0,11,1,2,9,12,Armenia (ARM)
3,2,4,5,12,0,0,0,0,0,2,3,4,5,12,Australasia (ANZ) [ANZ]


Conseguimos substituir a coluna de índice, porém uma nova linha *gold* "aparentemente" foi criada com valores vazios. No entanto, se isso fosse realmente uma linha da tabela, cada coluna deveria ter como valor *None* ou *NaN* caso os valores fossem numéricos. O que realmente aconteceu é que a coluna de índice tem um nome, e com isso o Jupyter Notebook simplesmente acrescentou esse nome ao renderizar a saída.

Também podemos nos livrar completamente dos índices atuais chamando a função **`.reset_index`**, que converte o índice atual para uma coluna e cria um índice padrão numerado.

In [34]:
df = df.reset_index()
df.head()

Unnamed: 0,Gold,# Summer,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total,country
0,0,13,0,2,2,0,0,0,0,0,13,0,0,2,2,Afghanistan (AFG)
1,5,12,2,8,15,3,0,0,0,0,15,5,2,8,15,Algeria (ALG)
2,18,23,24,28,70,18,0,0,0,0,41,18,24,28,70,Argentina (ARG)
3,1,5,2,9,12,6,0,0,0,0,11,1,2,9,12,Armenia (ARM)
4,3,2,4,5,12,0,0,0,0,0,2,3,4,5,12,Australasia (ANZ) [ANZ]


No *pandas* é possível fazer índices multiníveis, que em sistemas de banco de dados relacional é o equivalente a chaves compostas. Para criar índices multiníveis basta passar como atributo **`.set_index`** uma lista de colunas que estamos interessados em promover para índices. O `pandas` fará uma busca nas colunas dessa lista em ordem, procurando por dados distintos e formando índices compostos.

In [3]:
import pandas as pd

df = pd.read_csv('census.csv')
df.head()

Unnamed: 0,SUMLEV,REGION,DIVISION,STATE,COUNTY,STNAME,CTYNAME,CENSUS2010POP,ESTIMATESBASE2010,POPESTIMATE2010,...,RDOMESTICMIG2011,RDOMESTICMIG2012,RDOMESTICMIG2013,RDOMESTICMIG2014,RDOMESTICMIG2015,RNETMIG2011,RNETMIG2012,RNETMIG2013,RNETMIG2014,RNETMIG2015
0,40,3,6,1,0,Alabama,Alabama,4779736,4780127,4785161,...,0.002295,-0.193196,0.381066,0.582002,-0.467369,1.030015,0.826644,1.383282,1.724718,0.712594
1,50,3,6,1,1,Alabama,Autauga County,54571,54571,54660,...,7.242091,-2.915927,-3.012349,2.265971,-2.530799,7.606016,-2.626146,-2.722002,2.59227,-2.187333
2,50,3,6,1,3,Alabama,Baldwin County,182265,182265,183193,...,14.83296,17.647293,21.845705,19.243287,17.197872,15.844176,18.559627,22.727626,20.317142,18.293499
3,50,3,6,1,5,Alabama,Barbour County,27457,27457,27341,...,-4.728132,-2.50069,-7.056824,-3.904217,-10.543299,-4.874741,-2.758113,-7.167664,-3.978583,-10.543299
4,50,3,6,1,7,Alabama,Bibb County,22915,22919,22861,...,-5.527043,-5.068871,-6.201001,-0.177537,0.177258,-5.088389,-4.363636,-5.403729,0.754533,1.107861


**`.unique`** retorna todos os valores únicos existentes em uma coluna do DataFrame.

In [4]:
df['SUMLEV'].unique()

array([40, 50])

In [6]:
df = df[df['SUMLEV'] == 50] # Filtra os dados da tabela apenas para nível de município.
df.head()

Unnamed: 0,SUMLEV,REGION,DIVISION,STATE,COUNTY,STNAME,CTYNAME,CENSUS2010POP,ESTIMATESBASE2010,POPESTIMATE2010,...,RDOMESTICMIG2011,RDOMESTICMIG2012,RDOMESTICMIG2013,RDOMESTICMIG2014,RDOMESTICMIG2015,RNETMIG2011,RNETMIG2012,RNETMIG2013,RNETMIG2014,RNETMIG2015
1,50,3,6,1,1,Alabama,Autauga County,54571,54571,54660,...,7.242091,-2.915927,-3.012349,2.265971,-2.530799,7.606016,-2.626146,-2.722002,2.59227,-2.187333
2,50,3,6,1,3,Alabama,Baldwin County,182265,182265,183193,...,14.83296,17.647293,21.845705,19.243287,17.197872,15.844176,18.559627,22.727626,20.317142,18.293499
3,50,3,6,1,5,Alabama,Barbour County,27457,27457,27341,...,-4.728132,-2.50069,-7.056824,-3.904217,-10.543299,-4.874741,-2.758113,-7.167664,-3.978583,-10.543299
4,50,3,6,1,7,Alabama,Bibb County,22915,22919,22861,...,-5.527043,-5.068871,-6.201001,-0.177537,0.177258,-5.088389,-4.363636,-5.403729,0.754533,1.107861
5,50,3,6,1,9,Alabama,Blount County,57322,57322,57373,...,1.807375,-1.177622,-1.748766,-2.062535,-1.36997,1.859511,-0.84858,-1.402476,-1.577232,-0.884411


Agora queremos reduzir os dados da tabela para o tamanho estimado da população de cada município e o número de nascidos. Para isso, devemos criar um array com o nome de todas as colunas que desejamos manter e, em seguida, projetá-lo no DataFrame e armazená-lo numa nova variável.

In [8]:
columns_to_keep = ['STNAME',
                   'CTYNAME',
                   'BIRTHS2010',
                   'BIRTHS2011',
                   'BIRTHS2012',
                   'BIRTHS2013',
                   'BIRTHS2014',
                   'BIRTHS2015',
                   'POPESTIMATE2010',
                   'POPESTIMATE2011',
                   'POPESTIMATE2012',
                   'POPESTIMATE2013',
                   'POPESTIMATE2014',
                   'POPESTIMATE2015']

df = df[columns_to_keep]
df.head()

Unnamed: 0,STNAME,CTYNAME,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,POPESTIMATE2014,POPESTIMATE2015
1,Alabama,Autauga County,151,636,615,574,623,600,54660,55253,55175,55038,55290,55347
2,Alabama,Baldwin County,517,2187,2092,2160,2186,2240,183193,186659,190396,195126,199713,203709
3,Alabama,Barbour County,70,335,300,283,260,269,27341,27226,27159,26973,26815,26489
4,Alabama,Bibb County,44,266,245,259,247,253,22861,22733,22642,22512,22549,22583
5,Alabama,Blount County,183,744,710,646,618,603,57373,57711,57776,57734,57658,57673


In [10]:
df = df.set_index(['STNAME', 'CTYNAME'])
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,POPESTIMATE2014,POPESTIMATE2015
STNAME,CTYNAME,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Alabama,Autauga County,151,636,615,574,623,600,54660,55253,55175,55038,55290,55347
Alabama,Baldwin County,517,2187,2092,2160,2186,2240,183193,186659,190396,195126,199713,203709
Alabama,Barbour County,70,335,300,283,260,269,27341,27226,27159,26973,26815,26489
Alabama,Bibb County,44,266,245,259,247,253,22861,22733,22642,22512,22549,22583
Alabama,Blount County,183,744,710,646,618,603,57373,57711,57776,57734,57658,57673


Como vimos anteriormente, podemos fazer consultas com índices usando **`.loc`** tanto para linhas quanto para colunas. No caso de índices com múltiplos níveis, devemos respeitar a ordem hierárquica dos níveis da lista, sendo o primeiro nível 0, o segundo nível 1 e assim por diante.

In [11]:
df.loc['Michigan', 'Washtenaw County']

BIRTHS2010            977
BIRTHS2011           3826
BIRTHS2012           3780
BIRTHS2013           3662
BIRTHS2014           3683
BIRTHS2015           3709
POPESTIMATE2010    345563
POPESTIMATE2011    349048
POPESTIMATE2012    351213
POPESTIMATE2013    354289
POPESTIMATE2014    357029
POPESTIMATE2015    358880
Name: (Michigan, Washtenaw County), dtype: int64

Caso queiramos consultar mais de uma linha com chaves multinível, como por exemplo, obter dados demográficos dos municípios "Washtenaw" e "Wayne" do estado de "Michigan", devemos passar como parâmetro para o método **`.loc`** uma lista com tuplas contendo as chaves multinível das linhas que desejamos.

In [13]:
df.loc[[('Michigan', 'Washtenaw County'), ('Michigan', 'Wayne County')]]

Unnamed: 0_level_0,Unnamed: 1_level_0,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,POPESTIMATE2014,POPESTIMATE2015
STNAME,CTYNAME,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Michigan,Washtenaw County,977,3826,3780,3662,3683,3709,345563,349048,351213,354289,357029,358880
Michigan,Wayne County,5918,23819,23270,23377,23607,23586,1815199,1801273,1792514,1775713,1766008,1759335


# Exercício Indexação de DataFrames

Troque os índices do DataFrame de registros de compra de modo que seja indexado hierarquicamente, primeiro por loja e depois por nome. Nomeie estes índices para 'Location' e 'Name' e depois adicione uma nova entrada com os seguintes valores:

`Name: 'Kevyn', Item Purchased: 'Kitty Food', Cost: 3.00, Location: 'Store 2'`

In [31]:
import pandas as pd

purchase_1 = pd.Series({
    'Name': 'Chris',
    'Item Purchased': 'Dog Food',
    'Cost': 22.50})
purchase_2 = pd.Series({
    'Name': 'Kevyn',
    'Item Purchased': 'Kitty Litter',
    'Cost': 2.50})
purchase_3 = pd.Series({
    'Name': 'Vinod',
    'Item Purchased': 'Bird Seed',
    'Cost': 5.00})

df = pd.DataFrame([purchase_1, purchase_2, purchase_3], index=['Store 1', 'Store 1', 'Store 2'])

df = df.set_index([df.index, 'Name']) # Adiciono 'Name' como índice de nível 2.
df.index.names = ['Location', 'Name'] # Mudo o nome da coluna de índice do primeiro nível para 'Location'.
df = df.append(pd.Series({
        'Item Purchased': 'Kitty Food',
        'Cost': 3.00}, name=('Store 2', 'Kevyn')))
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Cost,Item Purchased
Location,Name,Unnamed: 2_level_1,Unnamed: 3_level_1
Store 1,Chris,22.5,Dog Food
Store 1,Kevyn,2.5,Kitty Litter
Store 2,Vinod,5.0,Bird Seed
Store 2,Kevyn,3.0,Kitty Food


# Missing Values

In [17]:
pd.Series?