In [2]:
# importando pandas
import pandas as pd

# criando com o metódo de dicionário
data = {'year': [2010, 2011, 2012, 2011, 2012, 2010, 2011, 2012],
        'team': ['Bears', 'Bears', 'Bears', 'Packers', 'Packers', 'Lions', 'Lions', 'Lions'],
        'wins': [11, 8, 10, 15, 11, 6, 10, 4],
        'losses': [5, 8, 6, 1, 5, 10, 6, 12]}

df = pd.DataFrame(data, columns = ['year', 'team', 'wins', 'losses'])
df

Unnamed: 0,year,team,wins,losses
0,2010,Bears,11,5
1,2011,Bears,8,8
2,2012,Bears,10,6
3,2011,Packers,15,1
4,2012,Packers,11,5
5,2010,Lions,6,10
6,2011,Lions,10,6
7,2012,Lions,4,12


# Indexação
## Indexação por colunas
Por padrão, a indexação por colchotes é sobre colunas em pandas. Por exemplo:

In [3]:
df['team']

0      Bears
1      Bears
2      Bears
3    Packers
4    Packers
5      Lions
6      Lions
7      Lions
Name: team, dtype: object

In [5]:
df.team

0      Bears
1      Bears
2      Bears
3    Packers
4    Packers
5      Lions
6      Lions
7      Lions
Name: team, dtype: object

In [6]:
df[['team', 'year']]

Unnamed: 0,team,year
0,Bears,2010
1,Bears,2011
2,Bears,2012
3,Packers,2011
4,Packers,2012
5,Lions,2010
6,Lions,2011
7,Lions,2012


In [13]:
df('nova coluna') = 0 # alterando o dataframe
df

Unnamed: 0,year,team,wins,losses,nova coluna
0,2010,Bears,11,5,0
1,2011,Bears,8,8,0
2,2012,Bears,10,6,0
3,2011,Packers,15,1,0
4,2012,Packers,11,5,0
5,2010,Lions,6,10,0
6,2011,Lions,10,6,0
7,2012,Lions,4,12,0


In [16]:
df.drop('nova coluna', axis = 1) # exclusão visual apeans
df

Unnamed: 0,year,team,wins,losses,nova coluna
0,2010,Bears,11,5,0
1,2011,Bears,8,8,0
2,2012,Bears,10,6,0
3,2011,Packers,15,1,0
4,2012,Packers,11,5,0
5,2010,Lions,6,10,0
6,2011,Lions,10,6,0
7,2012,Lions,4,12,0


In [17]:
df.drop('nova coluna', axis = 1, inplace = True) # exclusão definitiva da coluna
df

Unnamed: 0,year,team,wins,losses
0,2010,Bears,11,5
1,2011,Bears,8,8
2,2012,Bears,10,6
3,2011,Packers,15,1
4,2012,Packers,11,5
5,2010,Lions,6,10
6,2011,Lions,10,6
7,2012,Lions,4,12


In [3]:
df.drop(5, axis = 0) # Exclusão da linha visual

Unnamed: 0,year,team,wins,losses
0,2010,Bears,11,5
1,2011,Bears,8,8
2,2012,Bears,10,6
3,2011,Packers,15,1
4,2012,Packers,11,5
6,2011,Lions,10,6
7,2012,Lions,4,12


In [4]:
df

Unnamed: 0,year,team,wins,losses
0,2010,Bears,11,5
1,2011,Bears,8,8
2,2012,Bears,10,6
3,2011,Packers,15,1
4,2012,Packers,11,5
5,2010,Lions,6,10
6,2011,Lions,10,6
7,2012,Lions,4,12


## Indexação por linhas
Há vários modos de fazer indexação por linhas no pandas. Um dos comuns é via indexação booleana (similar ao numpy). Essa abortagem é muito utilizada para filtrar valores.

In [7]:
import numpy as np

# criando array de falses com mesmo tamanho do dataframe
idx = np.zeros(df.shape[0], dtype = bool)

df[idx]

Unnamed: 0,year,team,wins,losses


In [8]:
# para retornar todo o dataframe
idx = np.ones(df.shape[0], dtype = bool)

# como todos os indices são falsos vou ter como resposta um dataframe vazio
df[idx]

Unnamed: 0,year,team,wins,losses
0,2010,Bears,11,5
1,2011,Bears,8,8
2,2012,Bears,10,6
3,2011,Packers,15,1
4,2012,Packers,11,5
5,2010,Lions,6,10
6,2011,Lions,10,6
7,2012,Lions,4,12


In [9]:
# calculando média com método nativo do DataFrame
mean_wins = df['wins'].mean()

#gerando indices booleanos
idx = df['wins'] < mean_wins

# imprimindo algumas infos
print("Média da coluna wins:", mean_wins)
print("Total de elementos após filtro:", df[idx].shape[0])

df[idx]

Média da largura da sepala : 9.375
Total de elementos após filtro :  3


Unnamed: 0,year,team,wins,losses
1,2011,Bears,8,8
5,2010,Lions,6,10
7,2012,Lions,4,12


In [16]:
# calculando média com método nativo do Dataframe
mean_wins = df['wins'].mean()
mean_losses = df['losses'].mean()

# gerando indices booleanos
idx = (df['wins'] < mean_wins) & \
        ~(df['losses'] < mean_losses) #não tiveram derrotas abaixo da média

# ~(df['losses'] < mean_losses) é equivalente há (df['losses'] >= mean_losses)

# imprimindo algumas infos
print("Media da coluna wins:", mean_wins)
print("Media da coluna losses:", mean_losses)
print("Total de elementos após filtragem:",  df[idx].shape[0])

df[idx]

Media da coluna wins: 9.375
Media da coluna losses: 6.625
Total de elementos após filtragem: 3


Unnamed: 0,year,team,wins,losses
1,2011,Bears,8,8
5,2010,Lions,6,10
7,2012,Lions,4,12


### Éxercicio
Crie um pandas.DataFrame para cada time. Utilize a técnica de filtragem mostrada anteriormente

In [18]:
# a função unique() retorna todos os valores unicos para um pd.DataFrame (groupby)
df.team.unique()

array(['Bears', 'Packers', 'Lions'], dtype=object)

In [19]:
# resolução
for nome in df.team.unique():
    print(df[df.team == nome], '\n')

   year   team  wins  losses
0  2010  Bears    11       5
1  2011  Bears     8       8
2  2012  Bears    10       6 

   year     team  wins  losses
3  2011  Packers    15       1
4  2012  Packers    11       5 

   year   team  wins  losses
5  2010  Lions     6      10
6  2011  Lions    10       6
7  2012  Lions     4      12 



## Método Loc
A função `loc`nos permite fazer indexação como o numpy no eixo das linhas da tabela

In [20]:
df.loc[[0, 1, 2]]

Unnamed: 0,year,team,wins,losses
0,2010,Bears,11,5
1,2011,Bears,8,8
2,2012,Bears,10,6


In [22]:
df.loc[[0, 1, 2, 10]] # erro na execução por não ter a linha 10

Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate-loc-reindex-listlike
  """Entry point for launching an IPython kernel.


Unnamed: 0,year,team,wins,losses
0,2010.0,Bears,11.0,5.0
1,2011.0,Bears,8.0,8.0
2,2012.0,Bears,10.0,6.0
10,,,,


In [21]:
df.loc[0:3] # diferente do python, ela inclui o ultimo elemento

Unnamed: 0,year,team,wins,losses
0,2010,Bears,11,5
1,2011,Bears,8,8
2,2012,Bears,10,6
3,2011,Packers,15,1


porém, só é possível fazer as operações no domínio do df.index

In [23]:
df.index

RangeIndex(start=0, stop=8, step=1)

In [25]:
# por exemplo, não vai aceitar o indexação negativa
df.loc[-1]

KeyError: 'the label [-1] is not in the [index]'

In [26]:
df.index

RangeIndex(start=0, stop=8, step=1)

In [27]:
df.index[-1]

7

In [28]:
df.loc[3:-1]

Unnamed: 0,year,team,wins,losses


se alteramos o indice

In [34]:
df.index = pd.RangeIndex(-df.shape[0], 0, 1)
df

Unnamed: 0,year,team,wins,losses
-8,2010,Bears,11,5
-7,2011,Bears,8,8
-6,2012,Bears,10,6
-5,2011,Packers,15,1
-4,2012,Packers,11,5
-3,2010,Lions,6,10
-2,2011,Lions,10,6
-1,2012,Lions,4,12


In [36]:
# resetando index
df.index = pd.RangeIndex(0, df.shape[0])
df.loc[df.index[-4:-1]]

Unnamed: 0,year,team,wins,losses
4,2012,Packers,11,5
5,2010,Lions,6,10
6,2011,Lions,10,6


Além disso, a função `loc`recebe um segundo parâmetro, que é o subconjunto de colunas que vai retornar (o padrão é todas)

In [39]:
indices = df.index[-4:-1]
print("indices:", df.index[-4:-1])

df.loc[indices, "wins"]

indices: RangeIndex(start=4, stop=7, step=1)


4    11
5     6
6    10
Name: wins, dtype: int64

In [40]:
df.loc[df.index[-4 : -1], ["wins", "losses"]]

Unnamed: 0,wins,losses
4,11,5
5,6,10
6,10,6
