In [1]:
import pandas as pd

data = {'year': [2010, 2011, 2012, 2011, 2012, 2010, 2011, 2012],
        'team': ['Bears', 'Bears', 'Bears', 'Packers', 'Packers', 'Lions', 'Lions', 'Lions'],
        'wins': [11, 8, 10, 15, 11, 6, 10, 4],
        'losses': [5, 8, 6, 1, 5, 10, 6, 12]}
df = pd.DataFrame(data, columns=['year', 'team', 'wins', 'losses'])
df

Unnamed: 0,year,team,wins,losses
0,2010,Bears,11,5
1,2011,Bears,8,8
2,2012,Bears,10,6
3,2011,Packers,15,1
4,2012,Packers,11,5
5,2010,Lions,6,10
6,2011,Lions,10,6
7,2012,Lions,4,12


# Indexação

## Indexação por colunas

Por padrão, a indexação por colchetes é sobre as colunas em pandas. Por exemplo:

In [2]:
df['team']

0      Bears
1      Bears
2      Bears
3    Packers
4    Packers
5      Lions
6      Lions
7      Lions
Name: team, dtype: object

In [3]:
df.team

0      Bears
1      Bears
2      Bears
3    Packers
4    Packers
5      Lions
6      Lions
7      Lions
Name: team, dtype: object

In [4]:
df[['team', 'year']]

Unnamed: 0,team,year
0,Bears,2010
1,Bears,2011
2,Bears,2012
3,Packers,2011
4,Packers,2012
5,Lions,2010
6,Lions,2011
7,Lions,2012


In [5]:
df['nova_coluna'] = 0
df

Unnamed: 0,year,team,wins,losses,nova_coluna
0,2010,Bears,11,5,0
1,2011,Bears,8,8,0
2,2012,Bears,10,6,0
3,2011,Packers,15,1,0
4,2012,Packers,11,5,0
5,2010,Lions,6,10,0
6,2011,Lions,10,6,0
7,2012,Lions,4,12,0


In [6]:
df.drop('nova_coluna', axis=1)
# df

Unnamed: 0,year,team,wins,losses
0,2010,Bears,11,5
1,2011,Bears,8,8
2,2012,Bears,10,6
3,2011,Packers,15,1
4,2012,Packers,11,5
5,2010,Lions,6,10
6,2011,Lions,10,6
7,2012,Lions,4,12


## Indexação por linhas

Há vários modos de fazer indexação por linhas no pandas. Um dos mais comuns é via indexação booleana (similar ao numpy). Essa abortagem é muito utilizada para filtrar valores.

In [7]:
import numpy as np

# criando array de falses com mesmo tamanho
# do dataframe
idx = np.zeros(df.shape[0], dtype=bool)

# como todos os indices são falsos
# vou ter como resposta um dataframe vazio
df[idx]

Unnamed: 0,year,team,wins,losses,nova_coluna


In [8]:
# calculando média com método nativo do DataFrame
mean_wins = df['wins'].mean()

# gerando indices booleanos
idx = df['wins'] < mean_wins

# imprimindo algumas infos
print("Media da largura da sepala :", mean_wins)
print("Total de elementos apos filtro:", df[idx].shape[0])

df[idx]

Media da largura da sepala : 9.375
Total de elementos apos filtro: 3


Unnamed: 0,year,team,wins,losses,nova_coluna
1,2011,Bears,8,8,0
5,2010,Lions,6,10,0
7,2012,Lions,4,12,0


In [9]:
# calculando média com método nativo do DataFrame
mean_wins = df['wins'].mean()
mean_losses = df['losses'].mean()

# gerando indices booleanos
idx = (df['wins'] < mean_wins) & \
            ~(df['losses'] < mean_losses)

# imprimindo algumas infos
print("Media da largura da sepala :", mean_wins)
print("Media da largura da sepala :", mean_losses)
print("Total de elementos após filtragem:", df[idx].shape[0])

df[idx]

Media da largura da sepala : 9.375
Media da largura da sepala : 6.625
Total de elementos após filtragem: 3


Unnamed: 0,year,team,wins,losses,nova_coluna
1,2011,Bears,8,8,0
5,2010,Lions,6,10,0
7,2012,Lions,4,12,0


### Exercício

Crie um pandas.DataFrame para cada time. Utilize a técnica de filtragem mostrada anteriormente.

In [12]:
## exercício
## a função unique() retorna todos os valore unicos para um pd.DataFrame
list_df = {}
for team in df.team.unique():
    list_df[team] = df[df.team == team]
    
list_df

{'Bears':    year   team  wins  losses  nova_coluna
 0  2010  Bears    11       5            0
 1  2011  Bears     8       8            0
 2  2012  Bears    10       6            0,
 'Lions':    year   team  wins  losses  nova_coluna
 5  2010  Lions     6      10            0
 6  2011  Lions    10       6            0
 7  2012  Lions     4      12            0,
 'Packers':    year     team  wins  losses  nova_coluna
 3  2011  Packers    15       1            0
 4  2012  Packers    11       5            0}

#### Método Loc

A função `loc` nos permite fazer indexação como o numpy no eixo das linhas da tabela.

In [36]:
df.loc[[0, 1, 2]]

Unnamed: 0,year,team,wins,losses,nova_columns,nova_coluna
0,2010,Bears,11,5,,0
1,2011,Bears,8,8,,0
2,2012,Bears,10,6,,0


In [37]:
df.loc[0:3] # diferente do python, ela inclui o ultimo elemento

Unnamed: 0,year,team,wins,losses,nova_columns,nova_coluna
0,2010,Bears,11,5,,0
1,2011,Bears,8,8,,0
2,2012,Bears,10,6,,0
3,2011,Packers,15,1,,0


porém, só é possível fazer as operações no dominio do df.index

In [38]:
df.index

RangeIndex(start=0, stop=8, step=1)

In [39]:
# por exemplo, não vai aceitar o indexação negativa
df.loc[-1]

KeyError: 'the label [-1] is not in the [index]'

se alterarmos o indice

In [40]:
df.index = pd.RangeIndex(-df.shape[0], 0, 1)
df

Unnamed: 0,year,team,wins,losses,nova_columns,nova_coluna
-8,2010,Bears,11,5,,0
-7,2011,Bears,8,8,,0
-6,2012,Bears,10,6,,0
-5,2011,Packers,15,1,,0
-4,2012,Packers,11,5,,0
-3,2010,Lions,6,10,,0
-2,2011,Lions,10,6,,0
-1,2012,Lions,4,12,,0


In [41]:
df.loc[-3:-1]

Unnamed: 0,year,team,wins,losses,nova_columns,nova_coluna
-3,2010,Lions,6,10,,0
-2,2011,Lions,10,6,,0
-1,2012,Lions,4,12,,0


In [42]:
# resetando index
df.index = pd.RangeIndex(0, df.shape[0])
df.loc[df.index[-4:-1]]

Unnamed: 0,year,team,wins,losses,nova_columns,nova_coluna
4,2012,Packers,11,5,,0
5,2010,Lions,6,10,,0
6,2011,Lions,10,6,,0


Além disso, a função loc recebe um segundo parâmetro, que é o subconjunto de colunas que vai retornar (o padrão é todas).

In [46]:
indices = df.index[-4:-1]
print("indices:", df.index[-4:-1])

df.loc[indices, "wins"]

indices: RangeIndex(start=4, stop=7, step=1)


4    11
5     6
6    10
Name: wins, dtype: int64

In [45]:
df.loc[df.index[-4:-1], ["wins", "losses"]]

Unnamed: 0,wins,losses
4,11,5
5,6,10
6,10,6
