# Selecting columns and rows efficiently

Bab ini akan memberi Anda gambaran tentang mengapa kode efisien penting, serta memilih baris, kolom tertentu dan acak secara efisien.

## The need for eficient coding

### How do we measure time?

Fungsi `time.time()` menunjukkan waktu (dalam detik) sejak waktu yang ditentukan sebelumnya, yang dalam sistem berbasis Unix adalah 12:00 pagi, 1 Januari 1970.

In [1]:
import time

# record time before execution
start_time = time.time()
# execute operation
result = 5 + 2
# record time after execution
end_time = time.time()
print("Result calculated in {} sec".format(end_time - start_time))

Result calculated in 4.9114227294921875e-05 sec


### For loop vs List comprehension

In [5]:
# List comprehension
list_comp_start_time = time.time()
result = [i*i for i in range(0, 1000000)]
list_comp_end_time = time.time()
print("Time using the list_comprehension: {} sec".format(list_comp_end_time -
list_comp_start_time))

Time using the list_comprehension: 0.11320018768310547 sec


In [8]:
# For loop
for_loop_start_time= time.time()
result = []
for i in range(0,1000000):
    result.append(i*i)
    
for_loop_end_time= time.time()
print("Time using the for loop: {} sec".format(for_loop_end_time - for_loop_start_time))

Time using the for loop: 0.21865391731262207 sec


### For loop vs List comprehension II

In [9]:
list_comp_time = list_comp_end_time - list_comp_start_time
for_loop_time = for_loop_end_time - for_loop_start_time
print("Difference in time: {} %".format((for_loop_time - list_comp_time) / list_comp_time*100))

Difference in time: 93.15685052106589 %


### Where time matters I

Calculate 1 + 2 + ... + 1000000.

* Menambahkan angka satu per satu:

In [10]:
def sum_brute_force(N):
    res = 0
    for i in range(1,N+1):
        res+=i
    return res

* Menggunakan 1 + 2 + ... + (N * (N + 1) / 2)

In [11]:
def sum_formula(N):
    return N * (N + 1) / 2

### Where time matters II

In [13]:
# Using the formula
formula_start_time = time.time()
formula_result = sum_formula(1000000)
formula_end_time = time.time()
print("Time using the formula: {}sec".format(formula_end_time - formula_start_time))

Time using the formula: 5.984306335449219e-05sec


In [14]:
# Using brute force
bf_start_time = time.time()
bf_result = sum_brute_force(1000000)
bf_end_time = time.time()
print("Time using brute force: {}sec".format(bf_end_time - start_time))

Time using brute force: 730.5696580410004sec


In [15]:
formula_time = formula_end_time - formula_start_time
brute_force_time = bf_end_time - bf_start_time
print("Difference in time: {} %".format((brute_force_time - formula_time) / formula_time * 100))

Difference in time: 123255.37848605576 %


### Practice: Measuring time I

Dalam slide, Anda melihat bagaimana fungsi `time.time()` dapat dimuat dan digunakan untuk menilai waktu yang diperlukan untuk melakukan operasi matematika dasar.

Sekarang, Anda akan menggunakan strategi yang sama untuk menilai dua metode yang berbeda untuk menyelesaikan masalah yang sama: menghitung jumlah kuadrat dari semua bilangan bulat positif dari 1 hingga 1 juta (1.000.000).

Mirip dengan apa yang Anda lihat di slide, Anda akan membandingkan dua metode; yang menggunakan kekuatan kasar (*brute force*) dan yang lebih canggih secara matematis (*formula*).

Dalam rumus fungsi (`formula`), kami menggunakan rumus standar:

* `N ∗ (N + 1) * (2N + 1) / 6`

where `N` = 1,000,000

Dalam fungsi `brute_force` kita mengulang setiap angka dari 1 hingga 1 juta dan menambahkannya ke hasilnya.

In [16]:
# Function formula
def formula(N):
    return N * (N + 1) * (2 * N + 1) / 6

In [18]:
# Function brute force
def brute_force(N):
    res = 0
    UL = N+1
    for i in range(1,UL):
        res+=i^2
    return res

In [19]:
# Calculate the result of the problem using formula() and print the time required
N = 1000000
fm_start_time = time.time()
first_method = formula(N)
print("Time using formula: {} sec".format(time.time() - fm_start_time))

# Calculate the result of the problem using brute_force() and print the time required
sm_start_time = time.time()
second_method = brute_force(N)
print("Time using the brute force: {} sec".format(time.time() - sm_start_time))

Time using formula: 6.389617919921875e-05 sec
Time using the brute force: 0.10359954833984375 sec


**Catatan** : Anda baru saja menemukan betapa pentingnya kecepatan ketika mengembangkan masalah yang bahkan sederhana, mengurangi waktu yang dibutuhkan untuk menyelesaikan operasi!

### Measuring time II

**Dalam sebagian besar kasus**, `list comprehension` lebih cepat daripada `for` loop.

Dalam demonstrasi ini, Anda akan melihat kasus di mana `list comprehension` dan `for` loop memiliki perbedaan efisiensi yang sangat kecil sehingga memilih metode mana pun akan melakukan tugas sederhana ini secara instan.

Dalam list `words`, ada kata-kata acak yang diunduh dari Internet. Kami tertarik untuk membuat list lain yang disebut `listlet` di mana kami hanya menyimpan kata-kata yang dimulai dengan huruf `b`.

Jika Anda tidak terbiasa berurusan dengan string dengan Python, setiap string memiliki atribut `.startswith()`, yang mengembalikan pernyataan True/False apakah string dimulai dengan huruf/frasa tertentu atau tidak.

In [34]:
import pandas as pd

df = pd.read_csv("datasets/Popular_Baby_Names.csv")

In [69]:
df["Child's First Name"] = df["Child's First Name"].str.lower()

In [70]:
words = df["Child's First Name"].tolist()

In [71]:
# Store the time before the execution
start_time = time.time()

# Execute the operation
letlist = [wrd for wrd in words if wrd.startswith('b')]

# Store and print the difference between the start and the current time
total_time_lc = time.time() - start_time
print('Time using list comprehension: {} sec'.format(total_time_lc))

# Store the time before the execution
start_time = time.time()

# Execute the operation
letlist = []
for wrd in words:
    if wrd.startswith('b'):
        letlist.append(wrd)
        
# Print the difference between the start and the current time
total_time_fl = time.time() - start_time
print('Time using for loop: {} sec'.format(total_time_fl))

Time using list comprehension: 0.0019664764404296875 sec
Time using for loop: 0.0027475357055664062 sec


## Locate rows: `.iloc[]` and `.loc[]`

### The poker dataset

In [74]:
poker = pd.read_csv("datasets/poker_hand.csv")
poker.head()

Unnamed: 0,S1,R1,S2,R2,S3,R3,S4,R4,S5,R5,Class
0,1,10,1,11,1,13,1,12,1,1,9
1,2,11,2,13,2,10,2,12,2,1,9
2,3,12,3,11,3,13,3,10,3,1,9
3,4,10,4,11,4,1,4,13,4,12,9
4,4,1,4,13,4,12,4,11,4,10,9


### Locate targeted rows

`.loc[]` — index name locator

In [76]:
# Specify the range of rows to select
rows = range(0, 500)
# Time selecting rows using .loc[]
loc_start_time = time.time()
poker.loc[rows]
loc_end_time = time.time()

print("Time using .loc[] : {} sec".format(loc_end_time - loc_start_time))

Time using .loc[] : 0.003938198089599609 sec


`.iloc[]` — index number locator

In [78]:
# Specify the range of rows to select
rows = range(0, 500)
# Time selecting rows using .iloc[]
iloc_start_time = time.time()
poker.iloc[rows]
iloc_end_time = time.time()

print("Time using .iloc[]: {} sec".format(iloc_end_time - iloc_start_time))

Time using .iloc[]: 0.001444101333618164 sec


In [81]:
loc_time = loc_end_time - loc_start_time
iloc_time = iloc_end_time - iloc_start_time
print("Difference in speed: {} %".format((loc_time - iloc_time) / iloc_time * 100))

Difference in speed: 172.70926201089648 %


### Locate targeted columns

`.iloc[]` — index number locator

In [83]:
iloc_start_time = time.time()
poker.iloc[:,:3]
iloc_end_time = time.time()
iloc_time = iloc_end_time - iloc_start_time

print("Time using .iloc[]: {} sec".format(iloc_time))

Time using .iloc[]: 0.0014255046844482422 sec


Locating columns by names

In [84]:
names_start_time = time.time()
poker[['S1', 'R1', 'S2']]
names_end_time = time.time()
names_time = names_end_time - names_start_time

print("Time using selection by name: {} sec".format(names_time))

Time using selection by name: 0.0029189586639404297 sec


In [86]:
# Function different time
def diff_time(a, b):
    if a > b:
        print("Difference in speed: {} %".format((a - b) / b * 100))
    if b > a:
        print("Difference in speed: {} %".format((b - a) / a * 100))

In [89]:
diff_time(names_time, iloc_time)

Difference in speed: 104.76668339187154 %


### Practice: Row selection: `loc[]` vs `iloc[]`

Sebagian besar bekerja dengan DataFrames adalah untuk menemukan entri spesifik dalam dataset. Anda dapat menemukan baris dengan dua cara:

* Dengan nilai kolom tertentu (feature).
* Dengan index baris (index). Dalam latihan ini, kita akan fokus pada cara kedua.

Jika Anda memiliki pengalaman sebelumnya dengan pandas, Anda harus terbiasa dengan pengindeksan `.loc` dan `.iloc`, yang merupakan singkatan dari **'location'** dan **'index location'**. Dalam kebanyakan kasus, index akan sama dengan posisi setiap baris dalam Dataframe (mis. Baris dengan indeks 13 akan menjadi entri ke-14).

Meskipun kami dapat menggunakan kedua fungsi untuk melakukan tugas yang sama, kami tertarik yang mana yang paling efisien dalam hal kecepatan.

In [90]:
# Define the range of rows to select: row_nums
row_nums = range(0, 1000)

# Select the rows using .loc[] and row_nums and record the time before and after
loc_start_time = time.time()
rows = poker.loc[row_nums]
loc_end_time = time.time()

# Print the time it took to select the rows using .loc
print("Time using .loc[]: {} sec".format(loc_end_time - loc_start_time))

# Select the rows using .iloc[] and row_nums and record the time before and after
iloc_start_time = time.time()
rows = poker.iloc[row_nums]
iloc_end_time = time.time()

# Print the time it took to select the rows using .iloc
print("Time using .iloc[]: {} sec".format(iloc_end_time - iloc_start_time))

Time using .loc[]: 0.0021758079528808594 sec
Time using .iloc[]: 0.0009708404541015625 sec


**Question**

Jika Anda perlu memilih baris tertentu dari DataFrame, fungsi mana yang lebih efisien, apakah itu syarat kecepatan?

* `.iloc`, Ada penjelasan untuk itu, `.iloc()` mengambil keuntungan dari posisi yang diurutkan dari setiap baris, menyederhanakan perhitungan yang dibutuhkan.

### Column selection: `.iloc[]` vs by name

Dalam latihan sebelumnya, Anda melihat bagaimana fungsi `.loc[]` dan `.iloc[]` dapat digunakan untuk menemukan baris tertentu dari DataFrame (berdasarkan index). Ternyata, fungsi `.iloc[]` melakukan jauh lebih cepat (~2 kali) untuk tugas ini!

Tugas penting lainnya adalah menemukan fungsi yang lebih cepat untuk memilih fitur yang ditargetkan (`columns`) dari DataFrame. Dalam latihan ini, kami akan membandingkan yang berikut:

* Menggunakan index locator `.iloc()`
* Menggunakan nama kolom Meskipun kami dapat menggunakan kedua fungsi untuk melakukan tugas yang sama, kami tertarik yang mana yang paling efisien dalam hal kecepatan.

In [92]:
# Use .iloc to select the first 6 columns and record the times before and after
iloc_start_time = time.time()
cols = poker.iloc[:,0:6]
iloc_end_time = time.time()

# Print the time it took
print("Time using .iloc[] : {} sec".format(iloc_end_time - iloc_start_time))

# Use simple column selection to select the first 6 columns 
names_start_time = time.time()
cols = poker[['S1', 'R1', 'S2', 'R2', 'S3', 'R3']]
names_end_time = time.time()

# Print the time it took
print("Time using selection by name : {} sec".format(names_end_time - names_start_time))

Time using .iloc[] : 0.0012907981872558594 sec
Time using selection by name : 0.002351999282836914 sec


**Catatan** : Ada penjelasan untuk itu: dengan `.iloc` kita perlu menentukan baris dan kolom yang diperlukan, dan ini membutuhkan lebih banyak waktu! **Jadi memilih kolom berdasarkan lama lebih efisien dari pada index.**

## Select random rows

### Sampling random rows using pandas

In [93]:
start_time = time.time()
poker.sample(100, axis=0)
print("Time using sample: {} sec".format(time.time() - start_time))

Time using sample: 0.0036711692810058594 sec


### Sampling random rows using numpy

In [95]:
import numpy as np

In [96]:
start_time = time.time()
poker.iloc[np.random.randint(low=0, high=poker.shape[0], size=100)]
print("Time using .iloc[]: {} sec".format(time.time() - start_time))

Time using .iloc[]: 0.004773855209350586 sec


### Sampling random columns

In [97]:
start_time = time.time()
poker.sample(3, axis=1)
print("Time using .sample(): {} sec".format(time.time() - start_time))

Time using .sample(): 0.002283334732055664 sec


In [98]:
N = poker.shape[1]
start_time = time.time()
poker.iloc[:,np.random.randint(low=0, high=N, size=3)]
print("Time using .iloc[]: {} sec".format(time.time() - start_time))

Time using .iloc[]: 0.0017936229705810547 sec


### Practice: Random row selection

Dalam latihan ini, Anda akan membandingkan dua metode untuk memilih baris acak (entri) dengan pandas DataFrame:

* Fungsi pandas bawaan `.sample()`
* Generator angka integer acak NumPy `np.random.randint()`

Secara umum, di bidang statistik dan pembelajaran mesin, ketika kita perlu melatih suatu algoritma, kita melatih algoritma pada 75% dari data yang tersedia dan kemudian menguji kinerja pada 25% data yang tersisa.

Untuk latihan ini, kami akan secara acak memilih sampel 75% persen dari semua permainan poker yang tersedia, menggunakan masing-masing metode di atas, dan memeriksa metode mana yang lebih efisien dalam hal kecepatan.

In [102]:
# Extract number of rows in dataset
N = poker.shape[0]

# Select and time the selection of the 75% of the dataset's rows
rand_start_time = time.time()
poker.iloc[np.random.randint(low=0, high=N, size=int(0.75 * N))]
print("Time using Numpy: {} sec".format(time.time() - rand_start_time))

# Select and time the selection of the 75% of the dataset's rows using sample()
samp_start_time = time.time()
poker.sample(int(0.75 * N), axis=0, replace = True)
print("Time using .sample: {} sec".format(time.time() - samp_start_time))

Time using Numpy: 0.006788730621337891 sec
Time using .sample: 0.0021860599517822266 sec


**Catatan** : Anda menemukan cara paling efisien untuk sampel baris acak dari pandas DataFrame, dan itu selalu merupakan fungsi bawaan.

### Random column selection

In [103]:
# Extract number of columns in dataset
D = poker.shape[1]

# Select and time the selection of 4 of the dataset's columns using NumPy
np_start_time = time.time()
poker.iloc[:,np.random.randint(low=0, high=D, size=4)]
print("Time using NymPy's random.randint(): {} sec".format(time.time() - np_start_time))

# Select and time the selection of 4 of the dataset's columns using pandas
pd_start_time = time.time()
poker.sample(4, axis=1)
print("Time using panda's .sample(): {} sec".format(time.time() - pd_start_time))

Time using NymPy's random.randint(): 0.002376079559326172 sec
Time using panda's .sample(): 0.0011658668518066406 sec


**Catatan** : Anda menemukan cara paling efisien untuk mengambil sampel kolom acak dari pandas DataFrame yaitu `.sample()`