# Nesse capítulo vou mostrar alguns métodos mais eficientes quando estamos trabalhando com Data Frames do Pandas.
# Esses métodos são:
1. iterrows
2. itertuples
3. apply
4. Vetorização usando numpy

In [1]:
import pandas as pd
import numpy as np

In [2]:
baseball_df = pd.read_csv('../dados/baseball_stats.csv')
print(baseball_df.head())

  Team League  Year   RS   RA   W    OBP    SLG     BA  Playoffs  RankSeason  \
0  ARI     NL  2012  734  688  81  0.328  0.418  0.259         0         NaN   
1  ATL     NL  2012  700  600  94  0.320  0.389  0.247         1         4.0   
2  BAL     AL  2012  712  705  93  0.311  0.417  0.247         1         5.0   
3  BOS     AL  2012  734  806  69  0.315  0.415  0.260         0         NaN   
4  CHC     NL  2012  613  759  61  0.302  0.378  0.240         0         NaN   

   RankPlayoffs    G   OOBP   OSLG  
0           NaN  162  0.317  0.415  
1           5.0  162  0.306  0.378  
2           4.0  162  0.315  0.403  
3           NaN  162  0.331  0.428  
4           NaN  162  0.335  0.424  


In [3]:
# Função que será utilizada para criar uma nova variável
def calc_win_perc(wins, games_played):
    win_perc = wins / games_played
    return np.round(win_perc,2)

## A maneira mais fácil de calcular essa variável passando por todos os dados seria usar iterar sobre o data frame usando .iloc, porém é muito ineficiente.

In [4]:
win_perc_list = []
for i in range(len(baseball_df.iloc[:5])):
    print(baseball_df.iloc[i])

Team              ARI
League             NL
Year             2012
RS                734
RA                688
W                  81
OBP             0.328
SLG             0.418
BA              0.259
Playoffs            0
RankSeason        NaN
RankPlayoffs      NaN
G                 162
OOBP            0.317
OSLG            0.415
Name: 0, dtype: object
Team              ATL
League             NL
Year             2012
RS                700
RA                600
W                  94
OBP              0.32
SLG             0.389
BA              0.247
Playoffs            1
RankSeason        4.0
RankPlayoffs      5.0
G                 162
OOBP            0.306
OSLG            0.378
Name: 1, dtype: object
Team              BAL
League             AL
Year             2012
RS                712
RA                705
W                  93
OBP             0.311
SLG             0.417
BA              0.247
Playoffs            1
RankSeason        5.0
RankPlayoffs      4.0
G                 162
OOBP    

## Um método mais eficiente e rápido é usar o iterrows() ao invés do .iloc. Uma pequena diferença é que usando esse método ele retorna uma tupla, com o primeiro elemento sendo o índice do data frame e o segundo sendo os dados de cada linha

In [5]:
for row_tuple in baseball_df.iloc[:5].iterrows():
    print(row_tuple)

(0, Team              ARI
League             NL
Year             2012
RS                734
RA                688
W                  81
OBP             0.328
SLG             0.418
BA              0.259
Playoffs            0
RankSeason        NaN
RankPlayoffs      NaN
G                 162
OOBP            0.317
OSLG            0.415
Name: 0, dtype: object)
(1, Team              ATL
League             NL
Year             2012
RS                700
RA                600
W                  94
OBP              0.32
SLG             0.389
BA              0.247
Playoffs            1
RankSeason        4.0
RankPlayoffs      5.0
G                 162
OOBP            0.306
OSLG            0.378
Name: 1, dtype: object)
(2, Team              BAL
League             AL
Year             2012
RS                712
RA                705
W                  93
OBP             0.311
SLG             0.417
BA              0.247
Playoffs            1
RankSeason        5.0
RankPlayoffs      4.0
G               

## Um método ainda mais eficiente que o iterrows é o itertuples. Para acessar os dados, temos que usar o nome da coluna depois do ponto.

In [6]:
for row_namedtuple in baseball_df.iloc[:5].itertuples():
    print(row_namedtuple)

Pandas(Index=0, Team='ARI', League='NL', Year=2012, RS=734, RA=688, W=81, OBP=0.328, SLG=0.418, BA=0.259, Playoffs=0, RankSeason=nan, RankPlayoffs=nan, G=162, OOBP=0.317, OSLG=0.415)
Pandas(Index=1, Team='ATL', League='NL', Year=2012, RS=700, RA=600, W=94, OBP=0.32, SLG=0.389, BA=0.247, Playoffs=1, RankSeason=4.0, RankPlayoffs=5.0, G=162, OOBP=0.306, OSLG=0.378)
Pandas(Index=2, Team='BAL', League='AL', Year=2012, RS=712, RA=705, W=93, OBP=0.311, SLG=0.417, BA=0.247, Playoffs=1, RankSeason=5.0, RankPlayoffs=4.0, G=162, OOBP=0.315, OSLG=0.403)
Pandas(Index=3, Team='BOS', League='AL', Year=2012, RS=734, RA=806, W=69, OBP=0.315, SLG=0.415, BA=0.26, Playoffs=0, RankSeason=nan, RankPlayoffs=nan, G=162, OOBP=0.331, OSLG=0.428)
Pandas(Index=4, Team='CHC', League='NL', Year=2012, RS=613, RA=759, W=61, OBP=0.302, SLG=0.378, BA=0.24, Playoffs=0, RankSeason=nan, RankPlayoffs=nan, G=162, OOBP=0.335, OSLG=0.424)


### Existe uma diferença absursa entre usar o .iloc e o iterrows() e também entre iterrows() e itertuples(). Devemos usar o método itertuples entre esses três métodos!!

## A função apply evita o uso do for, precisamos passar as colunas a serem usadas e temos que usar uma função a ser aplicada, nesse caso a função calc_win_perc. Também precisamos especificar o axis, sendo 1 para calcular com as linhas e 0 para as colunas

In [7]:
baseball_df['RD'] = baseball_df.apply(lambda row: calc_win_perc(row['W'], row['G']),axis=1)

## O último método é tirar proveito da vetorização do pandas usando numpy

In [8]:
baseball_df['RD'] = baseball_df['W'] - baseball_df['G']

In [9]:
baseball_df['RD'] = baseball_df['W'].values - baseball_df['G'].values

# Agora vamos todos esses métodos com os tempos que são executados:

In [10]:
%%timeit -r10 -n30
win_perc_list = []
for i in range(len(baseball_df)):
    row = baseball_df.iloc[i]
    win_perc = calc_win_perc(row['W'], row['G'])
    win_perc_list.append(win_perc)
baseball_df['WP'] = win_perc_list

183 ms ± 30.2 ms per loop (mean ± std. dev. of 10 runs, 30 loops each)


In [11]:
%%timeit -r10 -n30
win_perc_list = []
for i,row in baseball_df.iterrows():
    win_perc = calc_win_perc(row['W'], row['G'])
    win_perc_list.append(win_perc)
baseball_df['WP'] = win_perc_list

84.8 ms ± 3.25 ms per loop (mean ± std. dev. of 10 runs, 30 loops each)


In [12]:
%%timeit -r10 -n30
win_perc_list = []
for row in baseball_df.itertuples():
    win_perc = calc_win_perc(row.W, row.G)
    win_perc_list.append(win_perc)
baseball_df['WP'] = win_perc_list

18 ms ± 674 µs per loop (mean ± std. dev. of 10 runs, 30 loops each)


In [13]:
%%timeit -r10 -n30
baseball_df['RD'] = baseball_df.apply(lambda row: calc_win_perc(row['W'], row['G']),axis=1)

34 ms ± 1.62 ms per loop (mean ± std. dev. of 10 runs, 30 loops each)


In [14]:
%%timeit -r10 -n30
baseball_df['RD'] = baseball_df['W'] - baseball_df['G']

229 µs ± 44.7 µs per loop (mean ± std. dev. of 10 runs, 30 loops each)


In [15]:
%%timeit -r10 -n30
baseball_df['RD'] = baseball_df['W'].values - baseball_df['G'].values

134 µs ± 31.4 µs per loop (mean ± std. dev. of 10 runs, 30 loops each)


## Nesse caso, a ordem dos métodos mais eficientes são:
1. Vetorização com numpy
2. Vetorização com pandas
3. itertuples
4. apply
5. iterrows
6. iloc