# **Modul 2: Kueri Data (*Data Query*)**

## **1. Mengambil Data dengan index <code>integer</code>**

Berikut ini merupakan tabel yang menjelaskan fungsi kueri dari data pada phyton
<table>
  <tr>
    <th>Fungsi</th>
    <th>Struktur</th>
    <th>Kegunaan</th>
  </tr>
  <tr>
    <td>iloc</td>
    <td><code>df.iloc[row_indexes,column indexes]</code></td>
    <td>mengambil data dengan index berupa <b>integer</b></td>
  </tr>
  <tr>
    <td>loc</td>
    <td><code>df.loc[row_indexes,column indexes]</code></td>
    <td>mengambil data denagn index berupa <b>non-integer</b></td>
  </tr>
  <table>
  
  <code>iloc</code> sendiri merupakan singkatan dari "integer location"

Contoh beberapa kasus dan struktur dari fungsi <code>iloc</code> untuk mengambil data integer
<table>
  <tr>
    <th>Kasus</th>
    <th>Struktur</th>
    <th>Contoh</th>
  </tr>
  <tr>
    <td>Mengambil satu baris/kolom saja</td>
    <td><code>df.iloc[single_row_index,single_column_index]</code></td>
    <td><code>df.iloc[100,3]</code> -> baris ke-101, kolom ke 4</td>
  </tr>
  <tr>
    <td>Mengambil beberapa baris/kolom dengan index berupa list</td>
    <td><code>df.iloc[row_indexes_list,column_index_list]</code></td>
    <td><code>df.iloc[[20,30,40],[4,5]]</code> -> baris ke-21, 31, 41 pada kolom 5 dan 6</td>
  </tr>
  <tr>
    <td>Mengambil beberapa baris/kolom dengan index berupa range</td>
    <td><code>df.iloc[row_indexes_range,column_index_range]</code></td>
    <td><p><code>df.iloc[15:20,2:5]</code> -> baris ke-16 hingga 21 pada kolom 3 sampai 6 
        </p>
        <p><code>df.iloc[:5,3:]</code> -> tanpa angka di <b>depan</b> range artinya semua index sebelum baris ke 6, tanpa angka di <b>belakang</b> range artinya semua index pada kolom 3 dan setelahnya</p></td>
  </tr>
  <tr>
    <td>Mengambil satu baris/kolom terakhir saja</td>
    <td><code>df.iloc[-1,-1]</code></td>
    <td>
        <ul>
          <li>
           -1 dalam Python, negatif mengindikasi kepada element dari akhir list maupun array. Jadi, -1 merujuk kepada element terakhir.
          </li>
          <li>
          <b>indikasi negatif -1 </b> merujuk kepada masing-masing elemen (baris atau kolom)
          </li>
        </ul>
    </td>
  </tr>
  <tr>
  <td>Mengambil beberapa baris/kolom terakhir</td>
    <td><code>df.iloc[-row_index,-column_index]</code></td>
    <td>
      <code>df.iloc[-100,-3:]</code> -> 100 baris terakhir, 3 kolom terakhir
    </td>
  </tr>
</table>

Berikut ini merupakan contoh pengaplikasiannya

In [None]:
# mengambil beberapa baris tertentu dengan index berupa list
df.iloc[[100,200,300]]

# mengambil 1 (satu) baris tertentu
df.iloc[1]

# mengambil beberapa baris tertentu dengan index berupa range
df.iloc[100:105]

# mengambil semua baris dari baris tertentu ke bawahnya
df.iloc[49000:]

# mengambil semua baris di atas baris tertentu
df.iloc[:10] # mengambil 10 baris pertama 

# mengambil 1 (satu) baris terakhir
df.iloc[-1]

# mengambil beberapa baris terakhir
df.iloc[-5:]

# mengambil semua baris di atas beberapa baris terakhir
df.iloc[:-10] # mengambil 10 baris terakhir

# mengambil 1 (satu) kolom tertentu
df.iloc[:,2]

# mengambil beberapa kolom tertentu dengan index berupa list
df.iloc[:,[0,2,3,5]]

# mengambil beberapa kolom tertentu dengan index berupa range
df.iloc[:,2:5]

# mengambil 1 (satu) kolom terakhir
df.iloc[:,-1]

# mengambil beberapa kolom terakhir
df.iloc[:,-3:]



## **2. Mengambil Data dengan Index <code>non-integer</code>**

Mengkueri data dengan index <code>non-integer</code> yang sering digunakan.
<table>
  <tr>
    <th>Kasus</th>
    <th>Struktur</th>
    <th>Contoh</th>
  </tr>
  <tr>
    <td>Mengambil satu baris/kolom</td>
    <td><code>df.loc[single_row_index,single_column_index]</code></td>
    <td>df.loc[<code>'Tea','product_name'</code>] -> baris dengan index 'Tea', pada kolom 'nama_produk'</td>
  </tr>
  <tr>
    <td>Mengambil beberapa baris/kolom dengan index berupa list</td>
    <td><code>df.loc[row_indexes_list,column_indexes_list]</code></td>
    <td> df.loc[<code>['Tea','Coffee','Cookie'],['product_name','quantity']</code>] baris dengan index 'Tea','Coffee','Cookie' pada kolom 'nama_produk' dan kolom 'quantity'</td>
  </tr>
  <table>

  Berikut ini merupakan contoh pengaplikasiannya

In [None]:
# mengambil baris dengan index non-integer tertentu
df_index_noninteger.loc[['493413','C493411','539991']]

# mengambil 1 (satu) kolom dengan index non-integer tertentu
df.loc[:,'product_name']

# mengambil beberapa kolom dengan index non-integer tertentu
df.loc[:,['order_id','product_code','product_name']]


## **3. Mengambil Data dengan <code>Logical Expression</code>**

### **3.1. Mengambil baris dengan kondisi tertentu berupa integer dan non-integer**

Mengambil baris dengan kondisi tertentu berupa integer

In [None]:
# mengambil baris dengan kondisi tertentu berupa integer
df[df['order_id']=='539991']

Mengambil baris dengan kondisi tertentu berupa non integer

In [None]:
# mengambil baris dengan kondisi tertentu berupa non integer menggunakan logical expression
df.loc[df['order_id']=='539991']

Mengambil baris dengan kondisi tertentu pada baris dan kolom

In [None]:
# mengambil baris dengan kondisi tertentu pada baris dan kolom
df.loc[df['order_id']=='539991', ['product_code','product_name','quantity']]

### **3.2 Mengkueri tabel khusus berdasarkan kriteria tertentu dengan logical expression**

Mengkueri tabel khusus berdasarkan kriteria tertentu dengan logical expression

order_id | order_id = '539991'?
--- | ---
539991 | True
10 | False

Pada tabel contoh diatas yang sebenarnya terjadi adalah kita membuat 1 binary array yang berisi nilai <code>False</code> untuk semua baris, kecuali baris yang memenuhi kondisi tersebut diberi nilai <code>True</code>, kemudian menjadikannya non-integer index untuk mengkueri data

In [None]:
df['order_id']=='539991'

# alternatif penulisan df['order_id']
df.loc[df.order_id=='539991']

# Mengkueri data berdasarkan kondisi string tertentu pada non integer
df['product_name'].str.contains('TEA')

# Mengkueri data berdasarkan kondisi tertentu pada integer
df['quantity']==1

namun penulisan <code>df.order_id</code> (menggunakan titik) tidak dapat digunakan pada kondisi nama kolom mengandung spasi seperti <code>df.order id</code>
sehingga penulisan <code>df.['order id']</code> perlu digunakan dan sifatnya lebih general (berlaku di semua kondisi, dengan atau tanpa spasi sebagai nama/index kolom)

### **3.3 Mengambil beberapa baris dengan kondisi tertentu menggunakan logical expression dan syntax operator "|" (<code>OR</code>), "&" (<code>AND</code>)**

#### **3.3.1. Mengambil beberapa baris dengan kondisi tertentu menggunakan logical expression dan operator "&"**

Seperti pada satu kondisi tertentu, pada dua atau lebih kondisi pun yang sebenarnya terjadi adalah kita mengkueri untuk menampilkan tabel berdasarkan binary array untuk setiap kondisi dan mengevaluasinya berdasarkan konsep kombinasi logika. 

>Pada operasi <code>"&" ("DAN")</code> menampilkan tabel yang memiliki nilai <code>TRUE</code> pada kombinasi dari kondisi yang diberikan pada setiap kolomnya. Kueri dibawah menampilkan hasil dataframe dari <code>dataframe product</code> yang memiliki string berupa 'TEA' <code>DAN</code> mengandung <code>dataframe kuantitas</code> yang sama dengan satu

product_name | quantity | product_name mengandung 'TEA'? | quantity = 1? | true/false
--- | --- | --- | --- | ---
TEA | 1 | True | True | True
TEA | 10 | True | False | False
CAKE | 1 | False | True | False
CAKE | 15 | False | False | False

In [None]:
# Mengambil beberapa baris dengan kondisi tertenu menggunakan "&"
df[(df['product_name'].str.contains('TEA')) & (df['quantity']==1)]

#### **3.3.2. Mengambil data berdasarkan kriteria menggunakan operasi "OR" ("|")**

Seperti pada satu kondisi tertentu, pada dua atau lebih kondisi pun yang sebenarnya terjadi adalah kita mengkueri untuk menampilkan tabel berdasarkan binary array untuk setiap kondisi dan mengevaluasinya berdasarkan konsep kombinasi logika. 

>Pada operasi <code>"|" (atau)</code> menampilkan tabel yang memiliki nilai <code>TRUE</code> dari hasil evaluasi binary array yang diberikan pada kombinasi kolom tertentu. 

Kueri dibawah menampilkan hasil dataframe dari <code>dataframe product_name</code> yang memiliki string berupa 'TEA' <code>ATAU</code> mengandung <code>dataframe product_name</code> yang mengandung string berupa 'COFFEE'
product_name | product_name mengandung 'TEA'? | product_name mengandung 'COFFEE'? | true/false
--- | --- | --- | ---
TEA | True | False | True
COFFEE | False | True | True
CAKE | False | False | False

In [None]:
# Mengkueri data berdasarkan kondisi tertentu dengan operator "OR" ("|")
df[(df['product_name'].str.contains('TEA')) | (df['product_name'].str.contains('COFFEE'))]

#### **3.3.3. Mengambil baris menggunakan operasi gabungan "&" dan "|"**

>Mengombinasikan operasi gabungan <code>&</code> dan <code>|</code> evaluasi pada tabel binary array yang terjadi seperti tabel dibawah ini.

product_name | quantity | product_name mengandung 'TEA'? | product_name mengandung 'COFFEE'? | quantity > 10? | true/false
--- | --- | --- | --- | --- | ---
TEA | 12 | True | False | True | True
TEA | 5 | True | False | False | False
COFFEE | 50 | False | True | True | True
COFFEE | 7 | False | True | False | False
CAKE | 12 | False | False | True | False
CAKE | 6 | False | False | False | False

Hasil dataframe yang muncul merupakan hasil evaluasi binary array yang memiliki nilai <code>TRUE</code> pada kondisi gabungan dari kueri operasi yang diberikan. 

In [None]:
# Kueri gabungan menggunakan operasi "|" dan "&"
df[(df['product_name'].str.contains('TEA') | df['product_name'].str.contains('COFFEE')) & (df['quantity']>10)]

Kueri diatas dapat diartikan bahwa dataframe merupakan hasil dari <code>dataframe product_name</code> yang mengandung string berupa 'TEA' <code>atau</code> <code>dataframe product_name</code> yang mengandung string berupa 'COFFEE' <code>dan</code> yang memiliki <code>dataframe quantity</code> yang memiliki nilai lebih dari 10