# Efficient iterating

Bab ini menyajikan berbagai cara iterating melalui Pandas DataFrame dan mengapa vektorisasi adalah cara paling efisien untuk mencapainya.

## Looping using the `.iterrows()` function

### The poker dataset

1. Hearts
2. Diamonds
3. Clubs
4. Spades

In [16]:
import pandas as pd

poker = pd.read_csv("datasets/poker_hand.csv")

### Generators in Python

In [2]:
def city_name_generator():
    yield('New York')
    yield('London')
    yield('Tokyo')
    yield('Sao Paolo')
    
city_names = city_name_generator()

In [4]:
next(city_names)

'New York'

In [5]:
next(city_names)

'London'

In [6]:
next(city_names)

'Tokyo'

In [7]:
next(city_names)

'Sao Paolo'

In [8]:
next(city_names)

StopIteration: 

### Looping using the .iterrows() function

In [9]:
gen = poker.iterrows()
first_element = next(gen)

In [11]:
first_element[0]

0

In [12]:
first_element[1]

S1        1
R1       10
S2        1
R2       11
S3        1
R3       13
S4        1
R4       12
S5        1
R5        1
Class     9
Name: 0, dtype: int64

### Using the .iterrows() function

In [14]:
import time

In [17]:
start_time = time.time()
for index, values in range(poker.shape[0]):
    next
print("Time using range(): {} sec".format(time.time() - start_time))

TypeError: cannot unpack non-iterable int object

In [20]:
data_generator = poker.iterrows()
start_time = time.time()
for index, values in data_generator:
    next
print("Time using .iterrows(): {} sec".format(time.time() - start_time))

Time using .iterrows(): 1.6354880332946777 sec


### Create a generator for a pandas DataFrame

Anda dapat dengan mudah membuat generator dari pandas DataFrame. Setiap kali Anda iterate, itu akan menghasilkan dua elemen:

* index dari masing-masing baris
* pandas series dengan semua elemen dari baris itu

Anda akan membuat generator di atas dataset `poker`. Kemudian, Anda akan mencetak semua elemen dari baris ke-2, menggunakan generator.

In [21]:
# Create a generator over the rows
generator = poker.iterrows()

# Access the elements of the 2nd row
first_element = next(generator)
second_element = next(generator)
print(first_element, second_element)

(0, S1        1
R1       10
S2        1
R2       11
S3        1
R3       13
S4        1
R4       12
S5        1
R5        1
Class     9
Name: 0, dtype: int64) (1, S1        2
R1       11
S2        2
R2       13
S3        2
R3       10
S4        2
R4       12
S5        2
R5        1
Class     9
Name: 1, dtype: int64)


**Catatan** : Sekarang setelah Anda tahu cara membuat generator di atas DataFrame, mari kita gunakan lebih banyak lagi!

### The iterrows() function for looping

Secara khusus, kami ingin jumlah ranking semua kartu, jika index *hand* adalah angka ganjil. Ranking kartu terletak di kolom aneh pada DataFrame.

In [22]:
data_generator = poker.iterrows()

for index, values in data_generator:
    # Check if index is odd
    if (index % 2) != 0:
        # Sum the ranks of all the cards
        hand_sum = sum([values[1], values[3], values[5], values[7], values[9]])

**Catatan** : Anda sekarang tahu cara menggunakan fungsi `.iterrows()` untuk loop baris pandas DataFrame!

## Looping using the .apply() function

### The .apply() function

In [24]:
import numpy as np

In [36]:
data_sqrt = poker.apply(lambda x: np.sqrt(x))
data_sqrt.head()

Unnamed: 0,S1,R1,S2,R2,S3,R3,S4,R4,S5,R5,Class
0,1.0,3.162278,1.0,3.316625,1.0,3.605551,1.0,3.464102,1.0,1.0,3.0
1,1.414214,3.316625,1.414214,3.605551,1.414214,3.162278,1.414214,3.464102,1.414214,1.0,3.0
2,1.732051,3.464102,1.732051,3.316625,1.732051,3.605551,1.732051,3.162278,1.732051,1.0,3.0
3,2.0,3.162278,2.0,3.316625,2.0,1.0,2.0,3.605551,2.0,3.464102,3.0
4,2.0,1.0,2.0,3.605551,2.0,3.464102,2.0,3.316625,2.0,3.162278,3.0


In [37]:
data_sqrt_2 = np.sqrt(poker)
data_sqrt_2.head()

Unnamed: 0,S1,R1,S2,R2,S3,R3,S4,R4,S5,R5,Class
0,1.0,3.162278,1.0,3.316625,1.0,3.605551,1.0,3.464102,1.0,1.0,3.0
1,1.414214,3.316625,1.414214,3.605551,1.414214,3.162278,1.414214,3.464102,1.414214,1.0,3.0
2,1.732051,3.464102,1.732051,3.316625,1.732051,3.605551,1.732051,3.162278,1.732051,1.0,3.0
3,2.0,3.162278,2.0,3.316625,2.0,1.0,2.0,3.605551,2.0,3.464102,3.0
4,2.0,1.0,2.0,3.605551,2.0,3.464102,2.0,3.316625,2.0,3.162278,3.0


### The .apply() function for rows

In [38]:
apply_start_time = time.time()
poker[['R1', 'R2', 'R3', 'R4', 'R5']].apply(lambda x: sum(x), axis=1)
print("Time using .apply(): {} sec".format(time.time() - apply_start_time))

Time using .apply(): 0.21619629859924316 sec


In [39]:
start_time = time.time()
for ind, value in poker.iterrows():
    sum([value[1], value[3], value[5], value[7], value[9]])
print("Time using .iterrows(): {} sec".format(time.time() - start_time))

Time using .iterrows(): 4.526821136474609 sec


### The .apply() function for columns

In [40]:
start_time = time.time()
poker[['R1', 'R2', 'R3', 'R4', 'R5']].apply(lambda x: sum(x), axis=0)
print("Time using .apply(): {} sec".format(time.time() - apply_start_time))

Time using .apply(): 174.1865360736847 sec


In [41]:
start_time = time.time()
poker[['R1', 'R1', 'R3', 'R4', 'R5']].sum(axis=0)
print("Time using pandas: {} sec".format(time.time() - start_time))

Time using pandas: 0.0050106048583984375 sec


### Practice: .apply() function in every cell

Anda bisa menggunakan `.apply()` untuk memetakan fungsi ke setiap sel DataFrame, terlepas dari kolom atau baris.

Cara Python asli untuk menguadratkan angka `n` adalah `n**2`.

In [43]:
# Define the lambda transformation
get_square = lambda x: x**2

# Apply the transformation
data_sum = poker.apply(get_square)
print(data_sum.head())

   S1   R1  S2   R2  S3   R3  S4   R4  S5   R5  Class
0   1  100   1  121   1  169   1  144   1    1     81
1   4  121   4  169   4  100   4  144   4    1     81
2   9  144   9  121   9  169   9  100   9    1     81
3  16  100  16  121  16    1  16  169  16  144     81
4  16    1  16  169  16  144  16  121  16  100     81


**Catatan** : Anda sekarang dapat menggunakan fungsi `.apply()` untuk mengubah setiap sel sekaligus.

### .apply() for rows iteration

`.apply()` sangat berguna untuk iterate melalui baris-baris DataFrame dan menerapkan fungsi tertentu.

Anda akan mengerjakan subset dataset `poker`, yang mencakup hanya peringkat dari semua lima kartu dari masing-masing tangan di setiap baris (subset ini dibuat untuk Anda dalam skrip). Anda akan mendapatkan varians dari setiap tangan untuk semua peringkat, dan setiap peringkat untuk semua tangan.

In [44]:
# Define the lambda transformation
get_variance = lambda x: np.var(x)

# Apply the transformation
data_tr = poker[['R1', 'R2', 'R3', 'R4', 'R5']].apply(get_variance, axis=1)
print(data_tr.head())

0    18.64
1    18.64
2    18.64
3    18.64
4    18.64
dtype: float64


In [46]:
get_variance = lambda x: np.var(x)

# Apply the transformation
data_tr = poker[['R1', 'R2', 'R3', 'R4', 'R5']].apply(get_variance, axis=0)
print(data_tr.head())

R1    14.060473
R2    14.189523
R3    14.024270
R4    14.040552
R5    13.998851
dtype: float64


**Catatan** : Anda sekarang tahu metode lain untuk secara cepat iterate melalui DataFrame pandas! Apakah ini cara paling efisien?

## Vectorization over pandas series

### Why vectorization in pandas is so fast?

Seperti yang mungkin Anda perhatikan dalam bab ini, kami mencapai peningkatan besar-besaran menggunakan beberapa bentuk vektorisasi.

Dari mana asal perbaikan ini?

* Lebih sedikit operasi diperlukan karena pengoptimalan dalam pandas. Vektorisasi selalu merupakan pilihan tercepat, dan sekarang Anda tahu mengapa. Kiat ekstra: Menggunakan kode C dengan cara yang optimal!

### DataFrames as arrays

<img src="figure/dataframe-as-arrays.png" width=400px height=400px align=left />

### How to perform pandas vectorization

In [47]:
start_time = time.time()
poker[['R1', 'R2', 'R3', 'R4', 'R5']].sum(axis=1)
print("Time using pandas vectorization: {} sec".format(time.time() - start_time))

Time using pandas vectorization: 0.009087324142456055 sec


In [48]:
poker[['R1', 'R2', 'R3', 'R4', 'R5']].sum(axis=1).head()

0    47
1    47
2    47
3    47
4    47
dtype: int64

### Comparison to the previous methods

In [50]:
tart_time = time.time()
poker[['R1', 'R2', 'R3', 'R4', 'R5']].apply(lambda x: sum(x),axis=1)
print("Results from the above operation calculated in %s seconds" % (time.time() - start_time))

Results from the above operation calculated in 69.50318789482117 seconds


### Practice: pandas vectorization in action

Dalam latihan ini, Anda akan menerapkan vektorisasi pada pandas series untuk:

* menghitung peringkat rata-rata semua kartu di masing-masing tangan (baris)
* menghitung peringkat rata-rata dari masing-masing 5 kartu di masing-masing tangan (kolom)

In [51]:
# Calculate the mean rank in each hand
row_start_time = time.time()
mean_r = poker[['R1', 'R2', 'R3', 'R4', 'R5']].mean(axis=1)
print("Time using pandas vectorization for rows: {} sec".format(time.time() - row_start_time))
print(mean_r.head())

# Calculate the mean rank of each of the 5 card in all hands
col_start_time = time.time()
mean_c = poker[['R1', 'R2', 'R3', 'R4', 'R5']].mean(axis=0)
print("Time using pandas vectorization for columns: {} sec".format(time.time() - col_start_time))
print(mean_c.head())

Time using pandas vectorization for rows: 0.004887819290161133 sec
0    9.4
1    9.4
2    9.4
3    9.4
4    9.4
dtype: float64
Time using pandas vectorization for columns: 0.002150297164916992 sec
R1    6.995242
R2    7.014194
R3    7.014154
R4    6.942463
R5    6.962735
dtype: float64


## Vectorization with NumPy arrays using .values()

### Best method of vectorization

Sejauh ini, Anda telah menemukan dua metode vektorisasi:

* Vektorisasi dengan `Pandas` series
* Vektorisasi dengan `Numpy` ndarrays

Meskipun kedua metode ini mengungguli semua metode lainnya, kapan bisa vektorisasi melalui `NumPy` ndarrays digunakan untuk menggantikan vektorisasi dengan `Pandas` series?

* Ketika operasi seperti pengindeksan atau tipe data tidak digunakan. Vektorisasi melalui NumPy ndarrays selalu merupakan opsi tercepat, dan sekarang Anda tahu mengapa!.

### NumPy in Pandas

In [52]:
df = pd.DataFrame({'Col1':[0, 1, 2, 3, 4, 5, 6]}, dtype=np.int8)
print(df)

   Col1
0     0
1     1
2     2
3     3
4     4
5     5
6     6


In [53]:
nd = np.array(range(7))
print(nd)

[0 1 2 3 4 5 6]


### How to perform NumPy vectorization

In [58]:
start_time = time.time()
poker[['R1', 'R2', 'R3', 'R4', 'R5']].values.sum(axis=1)
print("Time using NumPy vectorization: {} sec".format(time.time() - start_time))

Time using NumPy vectorization: 0.0038330554962158203 sec


In [59]:
start_time = time.time()
poker[['R1', 'R2', 'R3', 'R4', 'R5']].sum(axis=1)
print("Results from the above operation calculated in %s seconds" % (time.time() - start_time))

Results from the above operation calculated in 0.00641322135925293 seconds


### Vectorization methods for looping a DataFrame

Sekarang Anda sudah terbiasa dengan vektorisasi dalam Pandas dan NumPy, Anda akan membandingkan sendiri kinerja masing-masing.

In [60]:
# Calculate the variance in each hand
start_time = time.time()
poker_var = poker[['R1', 'R2', 'R3', 'R4', 'R5']].var(axis=1)
print("Time using pandas vectorization: {} sec".format(time.time() - start_time))
print(poker_var.head())

Time using pandas vectorization: 0.006083250045776367 sec
0    23.3
1    23.3
2    23.3
3    23.3
4    23.3
dtype: float64


In [62]:
# Calculate the variance in each hand
start_time = time.time()
poker_var = poker[['R1', 'R2', 'R3', 'R4', 'R5']].values.var(axis=1, ddof=1)
print("Time using NumPy vectorization: {} sec".format(time.time() - start_time))
print(poker_var[0:5])

Time using NumPy vectorization: 0.003411531448364258 sec
[23.3 23.3 23.3 23.3 23.3]


**Catatan**: Anda telah menguasai semua teknik untuk iterate melalui Pandas DataFrame dan menerapkan fungsi pada nilainya! Jika Anda bertanya-tanya, itu diharapkan untuk mendapatkan 5 nilai yang identik. Dataset berisi semua kemungkinan kombinasi 5 kartu dari setumpuk kartu standar: semua kolom berisi kartu yang sama, meskipun dalam urutan yang berbeda, sehingga variansnya sama untuk semua kolom.