# Python for Data Analysts
**Inclass for Week 1**

## Training Objectives

- Introduction to the `pandas` library. 
- Introduction to `DataFrame`  
- Data Types
- Exploratory Data Analysis I
- Indexing and Subsetting

Kumpulan shortcut: **CTRL + SHIFT + P**

Tipe cell dalam notebook:
1. Markdown
2. Code

Mode cell dalam notebook:
1. Command mode (cell berwarna BIRU)
    - B: menambahkan cell baru di Bawah (Below)
    - A: menambahkan cell baru di Atas (Above)
    - DD: Delete cell
    - C: Copy cell
    - V: Paste cell
    - Y: Mengubah ke code cell
    - M: Mengubah ke markdown cell
    - Enter: Mengubah command mode menjadi edit mode


2. Edit mode (cell berwarna HIJAU)
    - Ctrl + Enter: eksekusi satu cell
    - Esc: Mengubah edit mode menjadi command mode

**START OF DAY 2**

# Variables and Keywords

**Variable** adalah sebuah nama yang dipakai untuk menunjukkan sebuah nilai. Tanda `=` dipakai untuk membuat variable baru. Proses ini sering disebut sebagai **assignment**.

In [27]:
##code here

penjumlahan = 1+1
print(penjumlahan)

pengurangan = 2-1
print(pengurangan)


2
1


Python adalah bahasa pemrograman yang **case-sensitive** sehingga penamaan variable menjadi hal yang perlu diperhatikan. Misal penulisan variable `activity` dengan awalan huruf `a` kecil berbeda dengan yang diawali dengan huruf `A` besar.

In [28]:
##code here
activity = "programming"
activity

'programming'

In [29]:
#perintah di bawah ini akan menghasilkan error ketika dijalankan

activity = Activity

NameError: name 'Activity' is not defined

Berikut beberapa anjuran dalam memberikan nama variable pada Python:
- Menggunakan kombinasi dari huruf kapital (A-Z), huruf nomina (a-z), angka (0-9).
- Special character `!, $ , &, dll` tidak dapat digunakan dalam penamaan variabel.
- Tidak boleh menggunakan angka di awal.
- Tidak boleh menggunakan keyword pada Python
- Bersifat case-sensitive sehingga penamaan variable `algoritma`, `ALGORITMA`, dan `Algoritma` adalah 3 variable yang berbeda

**Keywords** adalah kata kunci yang sudah ditetapkan oleh Python sebagai nama yang tidak bisa dipakai baik untuk penamaan fungsi, variabel, dan lainnya. Keyword ditulis dalam lower-case (huruf kecil semua) kecuali keyword `True`, `False`, dan `None`. Sejauh ini (Python 3.8) keyword yang ada pada Python adalah sebagai berikut:

In [None]:
#Cek daftar keyword
import keyword
keyword.kwlist

Untuk membuktikan bahwa keyword tidak dapat digunakan sebagai nama variabel, mari kita coba untuk menyimpan nilai 1 pada variabel `True`.

In [None]:
##code here

True = 1

In [None]:
# penamaan seperti ini tidak disarankan
true = 1
true

# Introduction to Pandas Library

## Working with DataFrame

`pandas` adalah library yang powerful sebagai tools analisis data dan struktur pada Python. Dengan `pandas`, mengolah data menjadi mudah karena disediakan salah satu objek bernama **DataFrame**. Dengan dataframe kita dapat membaca sebuah file, mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya.

> Lebih lengkapnya silahkan kunjungi [official documentation](https://pandas.pydata.org/)

Untuk menggunakan `pandas`, kita perlu import terlebih dahulu library dengan cara berikut ini:

In [None]:
##code here
import pandas
pandas.__version__

Kita bisa menggunakan teknik **aliasing** agar pengetikan nama library tidak terlalu panjang, yaitu dengan `as`.

In [None]:
##code here
import pandas as pd
pd.__version__

Semua method pada `pandas` dapat dipanggil dengan syntax seperti: `pandas.function_name()`. Langkah pertama yang akan kita lakukan adalah membaca data. Kita dapat menggunakan method `.read_csv()` untuk membaca sebuah file dengan format `.csv`.

In [None]:
##code here
rice = pd.read_csv("data_input/rice.csv")
rice

In [None]:
type(rice)

In [None]:
rec = rice['receipt_id']
type(rec)

- Tanda `()` digunakan untuk fungsi/method atau bisa juga digunakan untuk sturktur data tuple
- Tanda `[]` digunakan untuk kebutuhan slicing/indexing atau bisa juga digunakan untuk sturktur data list
- Tanda `{}` biasanya digunakan pada dictionary

Kita coba set kolom pertama `Unnamed: 0` menjadi index dari dataframe, dengan cara menambahkan **parameter** `index_col=0`.

In [None]:
##code here
rice = pd.read_csv("data_input/rice.csv", index_col= 0)
rice

Intuisi dari parameter `index_col` pada `read_csv()` adalah menjadikan kolom pada Dataframe sebagai index pada baris. Berikut beberapa nilai yang dapat ditampung oleh parameter `index_col`.
- (0, 1, 2, dst) : Menunjukkan index kolom yang akan dijadikan sebagai index baris.
- `'nama_kolom'` : Selain menggunakan nilai index nya, kita juga dapat langsung mengetikkan nama kolomnya.
- `False` : Menggunakan index yang disediakan oleh `pandas`.

Selain menggunakan parameter indexnya, kita juga dapat mendefinisikan nama kolomnya langsung seperti contoh di bawah ini :

In [None]:
##code here
rice = pd.read_csv("data_input/rice.csv",  skiprows=1)
rice


**Additional Information:**

1. Python menggunakan sistem **zero based indexing** yang berarti, index pada python dimulai dari angka 0.
2. Terdapat beberapa parameter dalam method `.read_csv()`, dokumentasi selengkapnya ada [di sini](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

### Knowledge Check: Error

Mengacu pada konsep penulisan **python keywords** diatas, manakah diantara ke-4 kode program ini yang **tidak** menghasilkan error ketika dijalankan?

- [ ] `pd.read_csv("data_input/rice.csv", index_col=false)`
- [ ] `Import pandas as pd`
- [ ] `print(100-2)`
- [ ] `None = 2`

In [None]:
#No 1 Mbak Putu
pd.read_csv("data_input/rice.csv", index_col=false) # error karna harusnya False bukan false


In [None]:
#No 2 Mas Sayid
Import pandas as pd # yang membuat error penulisan import dengan I besar

In [None]:
#No 3 Mbak Laras
print(100-2)

In [None]:
#No 4 Mas Stefanus
None = 2 # error keyword None tidak boleh digunakan sebagai nama variable


### Dive Deeper

1. Baca kembali data `rice` menggunakan perintah `pd.read_csv()`, kemudian simpan kedalam variable baru bernama `rice_new`. Dengan menggunakan parameter `index_col`, jadikan kolom `receipt_id` sebagai index baris nya!
2. `pandas.DataFrame.head(n)` dapat digunakan untuk menampilkan sebagian data teratas, dengan asumsi bahwa nilai `n` adalah jumlah baris yang ingin kita tampilkan. Silahkan set `head()` dengan nilai `n=8` pada data `rice_new`, kemudian lihat apa yang terjadi! 
3. Lawan dari `head()` adalah `tail()`. Method `tail()` akan menampilkan data dari urutan paling bawah. Silahkan set `tail()` dengan nilai `n=4`, kemudian lihat apa yang terjadi!

In [None]:
# code here
# Mas Calvin
rice_new = pd.read_csv("data_input/rice.csv", index_col = "receipt_id")
rice_new



In [None]:
# No 2 Mbak Ika

rice_new.head(n=8)


In [None]:
# No 3 Mas Bayu
rice_new.tail(4)

In [None]:
rice.head()

In [None]:
rice.tail()

## Tipe Data (Data Types)

Dataframe terdiri dari beberapa **Series** (mengacu pada satu kolom). Dalam satu series harus memiliki satu tipe data yang sama. `pandas`akan mencoba untuk infer tipe data dari masing-masing Series, tapi tidak selalu benar.

Cara cek tipe data: `dtypes` atau `.info()` untuk lebih lengkapnya

**_Soal 1:_** Dengan menggunakan data rice, silahkan cek tipe data menggunakan `dtypes`!

In [None]:
##code here
rice = pd.read_csv('data_input/rice.csv', index_col=0)

Object : 
- Method : head(7), tail(n=?)
- Atribut : dtypes

'1000'

In [None]:
rice.dtypes

**Notes:**

- `int64`: integer (bilangan bulat, tanpa koma)
- `float64`: bilangan desimal (berkoma)
- `object`: text (string)

In [None]:
# code here (inspect data types with info())
rice.info()

### Knowledge check: `.dtypes` and pandas attributes
Salin kode program di bawah ini, kemudian jalankan. 
```
x = [2019, 4, 'data science']
x.dtypes

```
Apa yang terjadi?

In [None]:
##code here
x = [2019, 4, 'data science']
x.dtypes


Ketikkan perintah `type(x)`, maka apa perbedaannya dengan sebelumnya?

In [None]:
##code here
type(x)


Kesimpulan: Atribut `dtypes` hanya dimiliki oleh objek dataframe sehingga `dtypes` tidak bisa diaplikasikan untuk list.

Perhatikan dataframe baru di bawah ini untuk contoh lain dari tipe data pada `pandas`!

In [None]:
employees = pd.DataFrame({
    'name': ['Anita', 'Brian'],
    'age': [34, 29],
    'joined': [pd.Timestamp('20190410'), pd.Timestamp('20171128')],
    'degree': [True, False],
    'hourlyrate': [35.5, 29],
    'division': ['HR', 'Product']
})
employees.dtypes

In [None]:
employees

- `name` [`object`]: store text values
- `age` [`int`]: integer values
- `joined` [`datetime`]: date and time values
- `degree` [`bool`]: True/False values
- `hourlyrate` [`float`]: floating point values
- `division` [`object`]: store text values

### Categorical and Numerical Variables

Tipe data categorical adalah tipe data yang memiliki karakteristik dimana nilainya dapat berulang pada sebuah Series di dataframe. 

Dua alasan mengapa kita perlu menggunakan tipe data categorical:

1. Dari sisi "business perspective", hal ini dapat menginformasikan dan memandu seorang Analyst pada pertanyaan seperti metode statistik atau tipe plot mana yang digunakan untuk mengolah data.

2. Dari sisi teknikal, ketika kita bekerja dengan tipe data categorical pada pandas, hal ini akan jauh menghemat memori dan menambah kecepatan komputasional.

Dikutip dari official documentation:

> Categoricals are a pandas data type corresponding to categorical variables in statistics. A categorical variable takes on a limited, and usually fixed, number of possible values (categories; levels in R). Examples are gender, social class, blood type, country affiliation or rating via Likert scales.

Untuk mengubah tipe data ke categorical pada pandas, Anda dapat melakukannya dengan method `astype()` berikut:

**Formula** 
```
df['column_name'] = df['column_name'].astype('new_data_types')
```

**Contoh**
```
employees['marital_status'] = employees['marital_status'].astype('category')
```

In [None]:
employees

In [None]:
employees.dtypes

**_Soal 2:_** Perhatikan dataframe `employees`. Adakah kolom yang tipe datanya belum tersimpan dengan benar? Ubahlah ke tipe data yang tepat dengan menggunakan method `astype()`!

In [None]:
##code here
employees['division'] = employees['division'].astype('category')


In [None]:
employees.dtypes

In [None]:
employees['name'].astype('category')

In [None]:
employees.dtypes

**Notes**

- `type()` adalah sebuah **fungsi** pada python. Fungsi `type()` digunakan untuk mengecek struktur/tipe objek atau variabel dimana penggunaannya tidak didahului dengan pemanggilan nama objek.
- `dtypes` adalah **atribut** yang dimiliki oleh objek dataframe. `dtypes` digunakan untuk melihat tipe data dari masing-masing kolom yang ada pada dataframe. Penggunaan `dtypes` diawali dengan memanggil nama objeknya (karena dia adalah atribut sebuah objek)

### Rangkuman Data Types

Fokus pada kolom Pandas dtype dan usage-nya:

| Pandas dtype  | Python type  | NumPy type                                                     | Usage                                        |
|---------------|--------------|----------------------------------------------------------------|----------------------------------------------|
| object        | str or mixed | string_, unicode_, mixed types                                 | Text or mixed numeric and non-numeric values |
| int64         | int          | int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64 | Integer numbers                              |
| float64       | float        | float_, float16, float32, float64                              | Floating point numbers                       |
| bool          | bool         | bool_                                                          | True/False values                            |
| datetime64    | NA           | datetime64[ns]                                                 | Date and time values                         |
| timedelta[ns] | NA           | NA                                                             | Differences between two datetimes            |
| category      | NA           | NA                                                             | Finite list of text values                   |

Referensi: [Overview of Pandas Data Types](https://pbpython.com/pandas_dtypes.html)

## Exploratory Data Analysis I

Exploratory Data Analysis (**EDA**) mengacu pada proses melakukan investigasi awal pada data, seringkali dengan tujuan untuk lebih mengenal dengan karakteristik data tertentu. EDA dilakukan dengan bantuan ringkasan statistik dan teknik grafis sederhana untuk melihat struktur data yang kita miliki.

Beberapa tools sederhana pada `pandas` yang dapat digunakan untuk melakukan EDA adalah sebagai berikut:
- `.head()` and `.tail()`
- `.describe()`
- `.shape` and `.size`
- `.axes`
- `.dtypes`

### `head()` and `tail()`

- `head(n)` digunakan untuk inspeksi `n` data teratas dari sebuah dataframe.
- `tail(n)` digunakan untuk inspeksi `n` data terbawah dari sebuah dataframe.

In [None]:
##code here

rice.head()

In [None]:
##code here
rice.tail()


EDA:
- MElihat struktur data
- MElihat secara statistik dari data-data yang ada
- MElihat statistika data secara visual

### `describe()`

Method `describe()` menampilkan 8 ringkasan statistika deskriptif. Secara default menampilkan ringkasan untuk kolom numerik. 

Ringkasan statistika yang dimaksud adalah sebagai berikut:
- Count: banyaknya baris pada dataframe
- Mean: rata-rata nilai
- Standard Deviation: jarak rata-rata antara data ke mean (titik pusat data)
- Minimum Value: nilai terkecil dari keseluruhan data
- 25th Percentile (Q1)
- 50th Percentile (Q2/Median)
- 75th Percentile (Q3)
- Maximum Value: nilai terbesar dari keseluruhan data

In [None]:
rice.describe()

Kode program untuk mengobah notasi scientific ke dalam bentuk float numeric dengan 3 angka di belakang koma :

In [None]:
pd.set_option('display.float_format', lambda x: '%.3f' % x)

In [None]:
rice.describe()

Ringkasan seperti count, mean, std, min, dan max memiliki method nya masing-masing:

In [None]:
rice.head()

In [None]:
#count
rice['unit_price'].count()


In [None]:
#mean
rice['unit_price'].mean()

In [None]:
#std
rice['unit_price'].std()

In [None]:
#min
rice['unit_price'].min()

In [None]:
#max
rice['unit_price'].max()

Untuk ringkasan seperti Q1, Q2, Q3 kita dapat menggunakan method `quantile()`. Secara default adalah nilai Q2.

In [None]:
#untuk nilai Q1 atau data ke 25%
rice['unit_price'].quantile(0.25)

In [None]:
#untuk nilai Q1 atau data ke 50%
rice['unit_price'].quantile()

In [None]:
#untuk nilai Q1 atau data ke 75%
rice['unit_price'].quantile(0.75)

**Additional Information**

Kita bisa menambahkan parameter `include` ataupun `exclude` pada `describe()` untuk melihat statistika deskriptif dari variable non-numeric:

In [None]:
rice.dtypes

In [None]:
##code here
rice.describe(exclude='number') #menampilkan statistik desriptif untuk kolom non-numeric

- unique: nilai unik di setiap kolom atau variabel
- top: nilai terbanyak (modus)
- freq: banyaknya kemunculan modus

Misal kita tertarik melihat unique pada kolom `format`:

In [None]:
#code here
rice['format'].unique()


In [None]:
rice['format'].nunique()

**NOTE:** : Kita tidak dapat menggunakan `top` atau `freq` untuk melakukan pengecekan manual seperti halnya `unique`. Hal ini dikarenakan `top` dan `freq` bukanlah sebuah method ataupun atribut pada `pandas`, sedangkan `unique` adalah sebuah method dari `pandas`.

### Summary Day 2
- variabel : nama untuk menyimpan sebuah nilai
- keyword : kata kunci yang ditetapkan oleh python. 

- Pandas
cara import pandas bisa menggunkaan syntax : import pandas as pd
- Dataframe : Data yang terdiri dari kolom dan baris/spesial list.
- Series : unit terkecil dari sususnan DF (1 kolom) 
- Membaca file csv : pd.read_csv()
dimana kita bisa menambahkan parameter index_col untuk setting index row

- Tipe data di pandas:
    - object : menyimpan text atau string
    - int64 : menyimpan angka dikrit
    - float64 : menyimpan angka/bilangan desimal
    - bool : menyimpan bilang logika (True/False)
    - datetime64 : menyimpan informasi tanggal dan waktu
    - category : menyimpan nilai(string) yang sifatnya berulan/fixed-
- Cek tipe data : dtypes
- Cek struktur data : type()
- Mengubah tipe data : astype()

EDA : inspeksi /mengeksplor data untuk kebutuhan penarikan insight/informasi baru
- head() : inspeksi 5 data teratas secara default
- tail() : inspeksi 5 data terbawah secara default
- describe() : menampilkan 8 ringkasan statistik dari kolom-kolom yang tipe datanya dalah numerik
- Parameter include/exclude yang ada di describe() bisa ditambahkan untuk memilih kolom-kolom tertentu
- unique() : melihat nilai unik pada sebuah kolom

===================================== END OF DAY 2 =============================================

**_Soal 3:_** Melihat statistika deskriptif untuk kolom bertipe data **selain** 'object' menggunakan `exclude`

In [None]:
#code here


**_Soal 4:_** Melihat statistika deskriptif untuk kolom bertipe data **numeric** menggunakan `include`

In [None]:
##code here


**_Soal 5:_** Bagaimana menampilkan statistika deskriptif hanya kolom yang bertipe data **int64** dan **object** saja?

In [None]:
##code here


### `shape` dan `size`

`shape` dan `size` adalah atribut dari sebuah dataframe yang memberikan informasi terkait dimensi data dan ukuran data

In [30]:
##code here
rice.shape()

NameError: name 'rice' is not defined

Angka pertama menunjukkan banyaknya row/observasi, angka kedua menunjukkan banyaknya kolom.

In [None]:
##code here


`size` = banyaknya row dikali banyaknya kolom.

### `axes`

`axes` adalah atribut dataframe yang memberikan informasi terkait index dataframe (baik index kolom maupun index baris)

In [None]:
##code here


### `dtypes`

Atribut `dtypes` digunakan untuk melakukan inspeksi tipe data.

In [None]:
##code here



**_Soal 6:_** Kolom mana yang tipe datanya belum sesuai? Silahkan ubah dengan method `.astype()`!

In [None]:
##code here


### Knowledge Check: Data types

Misalkan saja kita memiliki sebuah DataFrame dengan nama `inventory`.

1. Ketika menjalankan perintah `inventory.dtypes`, maka pandas akan menampilkan tipe data pada setiap kolom (series). Manakah kolom dibawah ini yang mungkin memiliki tipe data yang salah?
 - [ ] `units_instock`: int64
 - [ ] `discount_price`: float64
 - [ ] `item_name`: object
 - [ ] `units_sold`: object
 
 
2. Kita ingin mengetahui jumlah kolom yang terdapat pada `inventory` DataFrame, manakah dibawah ini perintah yang tepat untuk menampilkan jumlah kolom `inventory`? Pilih beberapa kode program yang mungkin!
 - [ ] `print(len(inventory.columns))`
 - [ ] `print(inventory.shape[1])`
 - [ ] `print(len(rice.axes[1]))`

In [None]:
inventory = pd.DataFrame({
    'units_instock': [50, 40, 30],
    'discount_price': [15, 5, 7],
    'item_name': ['bawang', 'garam', 'gula'],
    'unit_sold': ['123', '456', '789']
})
inventory.dtypes

In [None]:
##code here


## Indexing and Subsetting with Pandas

Indexing digunakan untuk memilih dan mengambil sebagian data yang hanya diperlukan dalam proses analisa data yang sedang dikerjakan. Contohnya:
- Compare sales pada tahun 2018 vs 2019
- Identifikasi peluang penjualan pada segment pasar (ex : Wholesale vs Retail)
- Melihat quarter terbaik untuk setiap tahun yang dapat digunakan untuk tujuan promosi
- dan sebagainya

Untuk melakukan indexing dan subsetting (slicing data) pada `pandas`, kita dapat menggunakan cara sebagai berikut:
- `head()` and `tail()`  
- `select_dtypes()`  
- Using `.drop()` 
- The `[]` operator
- `.loc`  
- `.iloc`
- Conditional subsetting

### `select_dtypes()`

Method `select_dtypes()` digunakan untuk memilih kolom sesuai dengan tipe datanya. Ada 2 parameter yang dapat digunakan di dalam method `select_dtypes()` yaitu parameter `include` dan `exclude` (seperti pada `describe()`.

Misal:
- parameter `include = 'category'` artinya kita memilih semua kolom dengan tipe data 'category'
- sebaliknya, ketika menggunakan parameter `exclude = 'category'` maka kolom-kolom dengan tipe data selain 'category' akan ditampilkan.


In [None]:
rice.dtypes

In [None]:
#Menampilkan data dengan tipe data category saja



**_Soal 7:_** Bagaimana cara Anda untuk menyeleksi kolom dengan tipe data `int64` dan `float64` untuk ditampilkan?

In [None]:
#code here



### `drop()`

Method `drop()` digunakan untuk membuang baris atau kolom yang tidak ingin digunakan untuk tujuan analisis. Secara default method ini akan menghapus baris

**_Soal 8:_** Hapus baris pertama pada DataFrame!

In [None]:
#code here



**_Soal 9:_** Hapus baris ke-2 dan ke-3 pada data!

In [None]:
#code here



**_Soal 9b:_** Menghapus baris ke 1 sampai ke 6

In [None]:
#disini berlaku start inclusive dan end exclusive



**_Soal 10:_** Hapus kolom `receipt_id` dan `receipts_item_id`!

In [None]:
#code here



**_Soal 11:_** Hapus baris ke 2 dan kolom `sub_category`!

In [None]:
#code here
#Cara 1


In [None]:
#Cara 2 dengan menggunakan chaining code


**NOTE:** Method `drop()` tidak mengubah objek dataframenya. Apabila ingin mengubah objek semulanya:
- Melakukan assignment kembali dengan nama objek yang sama: `rice = rice.drop(...)`, atau
- Menambahkan parameter inplace: `rice.drop(..., inplace=True)` 

In [None]:
#code here
#Malakukan assignment


In [None]:
#Menambahkan parameter inplace=True


### Slicing: **`[]` operator**

Digunakan untuk melakukan subsetting dengan cara mengiris (slicing) index pada dataframe. Formula penulisannya adalah `[start:end]` dengan mengikuti aturan indexing pada python (dimulai dari 0) dimana `start` inclusive dan `end` exclusive.

**_Soal 12:_** Dengan menggunakan metode slicing, silahkan tampilkan baris ke 1 dan ke 2

* baris ke 1 memiliki urutan index 0
* baris ke 2 memiliki urutan index 1

ambil baris x sampai y

rice[x-1:y]

In [None]:
#code here


**_Soal 13:_** Dengan menggunakan metode slicing, silahkan tampilkan baris ke 10 sampai ke 15

In [None]:
#code here


**_Soal 14:_** Dengan menggunakan metode slicing, silahkan tampilkan baris ke 17 sampai ke 21

In [None]:
#code here


**_Soal 15:_** Dengan menggunakan metode slicing, silahkan tampilkan baris ke 30 sampai ke 40

In [None]:
#code here


**_Soal 16:_** Dengan menggunakan metode slicing, silahkan tampilkan baris ke 50 dan ke 51

In [None]:
#code here


**_Soal 17:_** Dengan menggunakan metode slicing, silahkan tampilkan baris ke 64 sampai ke 71

In [None]:
#code here


### Knowledge Check: Slicing

Dengan memperhatikan `end` exclusive pada metode indexing, tampilkan baris ke 8 sampai ke 12 pada data rice. Pilih jawaban yang tepat dibawah ini!

- [ ] `rice[7:12]`
- [ ] `rice[8:12]`
- [ ] `rice[7:13]`
- [ ] `rice[8:13]`

In [None]:
#code here


### `.loc` dan `.iloc`

Dengan menggunakan `.loc` dan `iloc` kita dapat melakukan pengirisan pada index **baris dan kolom**. 

Perbedaan yang mendasar dari kedua operator ini adalah:
- `.iloc` merujuk pada lokasi **index** baris atau kolomnya sehingga harus **integer**, sedangkan
- `.loc` merujuk pada lokasi **nama** baris atau kolomnya

**Mari berfokus pada .iloc terlebih dahulu**

> Syntax: `df.iloc[baris, kolom]` 

Contoh: Kita ingin memilih baris pertama sampai kelima pada dataframe `rice`

In [None]:
#code here
#Menggunakan method .head() 
rice.head()

In [None]:
#Menggunakan slicing
rice[0:5]

In [None]:
#Menggunakan perintah .iloc


**_Soal 18:_** Tampilkan baris dengan index 1 dan kolom dengan index 2, artinya adalah data pada baris kedua dan kolom `purchase_time`.

In [None]:
#code here



**_Soal 19:_** Mengambil baris ke 2 sampai 5 dan kolom dengan `receipt_id` sampai `purchase_time`

In [None]:
#code here


**_Soal 19b:_** Menampilkan baris ke 1 dalam bentuk DataFrame

**_Soal 20:_** Menampilkan baris ke 10 dan 15

In [None]:
#code here


**_Soal 21:_** Menampilkan semua data pada kolom `sub_category` dan `yearmonth` saja

In [None]:
#code here


**Note :** parameter colon (:) digunakan untuk menampilkan semua data baik pada baris ataupun kolom

In [None]:
rice.iloc[:,:] 
# colon (:) ke 1 untuk mengambil semua baris
# colon (:) ke 2 untuk mengambil semua kolom

**_Soal 22:_** Menampilkan baris ke 20 dan 30, dengan kolom `category` dan `format` saja

In [None]:
#code here


**_Soal 23:_** Menampilkan data pada baris ke 14 dengan kolom `receipt_id` sampai `sub_category`

In [None]:
#code here


#### Extra Challenge
Lakukan subsetting untuk menampilkan **2 baris terbawah** dan **4 kolom pertama**.

Gunakan beberapa metode subsetting dibawah ini :
1. Menggunakan `.iloc[ , ]`
2. Menggunakan method `tail(2)` untuk mendapatkan 2 baris terbawah, kemudian lakukan chaining dengan `.iloc`
3. Gunakan `.iloc` kemudian tambahkan `(rice.shape[0]-2):` didalamnya, untuk mendapatkan 2 baris terakhir.


In [None]:
#code here



**Mari kita pergi ke .loc**

> Syntax: `df.loc[baris, kolom]` 

Menggunakan `.loc`, kita bisa mengambil baris dan kolom berdasarkan namanya. Contoh kita ingin mengambil baris dengan `receipt_id` 9643416 dan 9706953, serta mengambil semua kolom.

In [None]:
rice = pd.read_csv("data_input/rice.csv", index_col=1)
rice = rice.drop('Unnamed: 0', axis=1)
rice.head(8)

In [None]:
#code here
rice.loc[[9643416,9706953]]

**_Soal 24:_** Mengambil baris dengan `receipt_id` 9643416 dan 9706953 dari kolom `category` sampai `quantity`

In [None]:
#code here


**_Soal 25a:_** Mengambil baris dari `receipt_id` 9622257 sampai 9504155

In [None]:
#code here


**Note:** Akan menghasilkan error dikarenakan `receipt_id` 9622257 memiliki 2 nilai

In [None]:
#code here

**_Soal 25b:_** Mengambil baris dari `receipt_id` 9643416 sampai 9504155

In [None]:
#code here



**_Soal 26:_** Tampilkan nilai `unit_price` untuk `receipt_id` 9622257

In [None]:
# code here



#### Dive Deeper:
Baca data `companies.csv`dan gunakan `index_col=1`, kemudian tampilkan beberapa baris menggunakan method `head()` atau `tail()`

Dengan menggunakan metode indexing, jawab pertanyaan dibawah ini!

1. Tampilkan lokasi kantor *Li and Partners*?
2. Tampilkan nilai `Returns` yang dihasilkan oleh PT. Algoritma Data Indonesia?
3. Tampilkan nilai `Forecasted Growth` untuk Palembang Konsultansi?

In [None]:
#code here


### Conditional Subsetting

Selain menggunakan `.loc` dan `.iloc`, kita dapat melakukan subsetting berdasarkan kondisi tertentu. Misal pada dataframe `rice`, kita ingin mengambil beberapa data dengan kondisi sebagai berikut:

- Transaksi yang terjadi di supermarket: `.format == 'supermarket'`
- Transaksi dengan produk yang harganya lebih dari sama dengan 200000: `.unit_price >= 200000`
- Transaksi dimana kuantitas tidak sama dengan 0: `.quantity != 0`

Syntax penulisan untuk conditional subsetting adalah:

**`df[df['column_name'] <comparison_operator> <value>]`**

atau

**`df[df.column_name <comparison_operator> <value>]`**

Contoh comparison_operator adalah seperti `==`, `!=`, `>`, `>=`, `<`, `<=`.

**_Soal 27:_** Tampilkan data yang memiliki `format` Supermarket!

In [None]:
#code here



**_Soal 28:_** Tampilkan data yang memiliki `unit_price` lebih besar sama dengan 200000

In [None]:
#code here



**_Soal 29:_** Tampilkan data yang memiliki `unit_price` kurang dari 100000

In [None]:
#code here



**_Soal 30:_** Tampilkan data yang memiliki `format` selain Supermarket!

In [None]:
#code here



**Additional Information:**

Kita juga dapat menggunakan operator `&` (AND) dan `|` (OR) untuk melakukan subsetting lebih dari 1 kondisi. Misalnya kita ingin melihat data penjualan dari seorang pegawai bernama Moana yang jumlahnya lebih dari 5000, maka kita dapat menggunakan syntax:
```
sales[(sales.salesperson == 'Moana') & (sales.amount > 5000)]
```

Untuk subsetting dengan kondisi lebih dari 1, setiap kondisi diletakkan **di dalam tanda kurung `()`** atau bisa ditulis dengan syntax berikut:

```
df[(kondisi pertama) operator (kondisi kedua) operator (kondisi ketiga) dan seterusnya...]
```

**Poin:**
- Operator AND: harus semua kondisi terpenuhi dalam satu baris agar muncul
- Operator OR: salah satu kondisi saja sudah terpenuhi maka baris tsb muncul

**Contoh sederhana penggunaan OR dan AND**

In [None]:
df = pd.DataFrame({
    'angka': [1,2,3],
    'huruf': ['a','b','c']
})
df

**OPERATOR AND**

Menampilkan baris dengan `angka` 1 dan `huruf` a

In [None]:
#code here



Menampilkan baris dengan `angka` 1 dan `huruf` b

In [None]:
#code here



**OPERATOR OR**

Menampilkan baris dengan `angka` 1 atau `huruf` b

In [None]:
#code here



**_Soal 31:_** Lakukan subsetting untuk mengambil semua transaksi di supermarket yang `unit_price`nya di atas 200000.

In [None]:
#code here



**_Soal 32:_** Tampilkan pembelian barang di supermarket dan pembeliannya kurang dari 5 barang(units)

In [None]:
#code here



**_Soal 33:_** Subset baris yang `format`nya supermarket dan minimarket

In [None]:
#code here



### Dive Deeper

Dengan menggunakan metode conditional subsetting, jawab pertanyaan dibawah ini:

1. Berapa jumlah transaksi yang terjadi pada pembelian **minimal 8 units** (mengacu pada kolom `quantity`)?
2. Berapa jumlah transaksi yang terjadi di **minimarket**?
3. Berapa jumlah transaksi yang terjadi di **hypermarket** dan memiliki pembelian **minimal 10 units** (mengacu pada kolom `quantity`)?

In [None]:
#code here



In [None]:
#code here



In [None]:
#code here



**Bonus Challenge**

Berapa banyak transaksi pada dataframe `rice` yang terjadi pada bulan Juli tahun 2018 baik di `minimarket` maupun `supermarket`?

In [None]:
#code here



# Referencing and Copying

Pada python, tanda sama dengan (`=`) bisa digunakan untuk me-**refer** sebuah Dataframe. Sekarang mari kita lihat kembali dataframe `rice`:

In [None]:
rice = pd.read_csv("data_input/rice.csv", index_col=1)
rice = rice.drop('Unnamed: 0', axis=1)
rice.head()

**Reference**

Membuat dataframe baru dengan nama `rice_second` yang menyimpan semua transaksi seperti `rice`. Kemudian misalnya kita ingin update kolom `discount` agar menjadi 15 pada semua barisnya.

In [None]:
#code here



Cek dataframe `rice`

In [None]:
#code here



**Copy**

Membuat dataframe baru dengan nama `rice_second` yang menyimpan semua transaksi seperti `rice`. Kemudian misalnya kita ingin update kolom `discount` agar menjadi 15 pada semua barisnya.

In [None]:
#code here



Cek dataframe `rice`

In [None]:
#code here

