# Introduction to Python

**Python** merupakan bahasa pemrograman yang pertama kali diliris pada tahun 1991 dan dirancang oleh Guido Van Rossum. 
Bahasa pemrograman ini umum digunakan dalam bidang data science dan artificial intelligence. Hal tersebut disebabkan oleh sintaks (penulisan code) yang intuitif dan mudah dipelajari serta banyak resources yang mendukung pengembangan analisis data, visualisasi, machine learning dan sebagainya (Pandas, Numpy, Matplotlib dll.) [Python 3.10 Official Documentation](https://docs.python.org/3.10/).

## A. Jupyter Notebook

### A.1 Markdown Cell and Code Cell

Tipe cell dalam notebook:
1. Markdown -> untuk menulis teks dan narasi.
2. Code -> untuk menulis code dan dijalankan. 

### A.2 Command Mode and Edit Mode

Mode cell dalam notebook:
1. Command mode
    - `a` : add cell above 
    - `b` : add cell below 
    - `d` + `d` : delete selected cell 
    - `x` : cut selected cell 
    - `c` : copy selected cell 
    - `v` : paste selected cell 
    - `z` : undo 
    - `m` : change cell type to markdown 
    - `y` : change cell type to code
    - `enter` : enter Edit Mode
    - `h` : show keyboard shortcuts

2. Edit mode
    - `Ctrl + Enter`: eksekusi satu cell
    - `Esc`: Mengubah edit mode menjadi command mode

- Menulis tebal = **bold**
- Menulis miring = *italic*

## B. Python Variable

**Variable** adalah sebuah nama yang dipakai untuk menunjukkan sebuah nilai. Tanda `=` dipakai untuk membuat variable baru, proses ini sering disebut sebagai **assignment**.

In [76]:
# code


Python merupakan bahasa pemrograman yang bersifat **case-sensitive** artinya penamaan variabel perlu diperhatikan. Misal penulisan variable `Toni` dengan awalan huruf `T` besar berbeda dengan yang diawali dengan huruf `t` kecil.

In [None]:
"Toni" == "toni"

Panduan pemberian nama variabel dalam bahasa Python : 
- Tidak boleh menggunakan angka di awal. 
- Menggunakan kombinasi dari huruf kapital (A-Z), huruf nomina (a-z), angka (0-9).
- Special character `!, $ , &, dll` tidak dapat digunakan dalam penamaan variabel.
- Bersifat case-sensitive sehingga penamaan variable `Python`, `PYTHON`, dan `python` adalah 3 variable yang berbeda
- Tidak boleh menggunakan keyword pada Python.

**Keywords** merupakan kumpulan kata kunci yang digunakan oleh Python sebagai nama sehingga tidak bisa digunakan untuk penamaan variabel, fungsi dan lainnya, contohnya `True`, `False`, dan `None`. Lengkapnya sebagai berikut : 

In [None]:
import keyword
keyword.kwlist

## C. Python Data Structure

Mengetahui struktur data Python pada umumnya dan menyesuaikan tipe data (*data formatting*).

### 1. String

Python memiliki tipe data berupa tulisan atau string sebagai objek `str`. Ada beberapa cara untuk membuat nilai string:

- menggunakan `''` (yaitu: `'Data Analyst'`)
- menggunakan `""` (yaitu : `"Hari ini adalah hari Jum'at"`)
- menggunakan `'''` atau `"""` (yaitu: `'''Budi berkata "Itu ada kegiatan Jum'at Bersih"'''`)

In [79]:
# code

In [80]:
# type()

### 2. Number

Untuk menyimpan number, python memiliki dua tipe data asli yang disebut `int` dan `float`.
- `int` digunakan untuk menyimpan bilangan bulat (yaitu: 1,2,-3)
- `float` digunakan untuk menyimpan bilangan berkoma atau real (yaitu: 0.7, -1.8, -1000.0).

**Operasi Angka** \
Operator Aritmatika:
- `+` - Penjumlahan
- `-` - Pengurangan
- `*` - Perkalian
- `/` - Pembagian
- `//` - Floor Division (hasil pembagian dibulatkan ke bawah)
- `%` - Modulus (hasil sisa pembagian)
- `**` - Eksponen (Pangkat)

Operator Perbandingan:
- `<` - Lebih kecil dari (yaitu : a < b)
- `<=` - Lebih kecil atau sama dengan (yaitu : a <= b)
- `>` - Lebih besar dari (yaitu: a > b)
- `>=` - Lebih besar atau sama dengan (yaitu: a >= b)
- `==` - Sama dengan (yaitu: a == b)
- `!=` - Tidak Sama dengan (yaitu: a != b)

In [81]:
# code

In [82]:
# type int

In [83]:
# type float

### 3. Boolean

Boolean menyimpan nilai yang sangat sederhana dalam komputer dan pemrograman, `True` atau `False`.

**Operasi Boolean** \
Python menyediakan operator logika seperti:
- and (yaitu: a and b) -> Semua kondisi harus benar maka hasilnya True
- or (yaitu: a or c) -> Hanya salah satu kondisi benar maka hasilnya True
- not (yaitu: not a) -> Lawan kata

In [84]:
# Jenjang pendidikan tinggi bapak Rudi
undergraduate = True
master = True
phd = False

In [85]:
# Apakah bapak Rudi menyelesaikan pendidikan S1 DAN S2?


# Apakah bapak Rudi menyelesaikan pendidikan S1 DAN S3?


# Apakah bapak Rudi menyelesaikan pendidikan S2 ATAU S3?


# Bapak Rudi TIDAK menyelesaikan pendidikan S1?


In [86]:
# type()


### 4. List

`list` digunakan untuk menyimpan beberapa nilai dalam python. Untuk membuatnya, cukup letakkan nilai di dalam tanda kurung (yaitu: `x = [10,08,2024]` )

**Operasi List**
- `data.append(2)` : tambahkan 2 ke data
- `data.remove(3)` : hapus 3 dari data

Selain operator yang dikenal sebelumnya, salah satu list yang paling berguna adalah dengan menerapkan fungsi agregasi seperti:
- `len(data)` : ekstrak panjang daftar
- `a in data` : memeriksa apakah nilai `a` ada di objek daftar `data`
- `max(data)` : mendapatkan nilai tertinggi dalam data
- `sum(data)` : mendapatkan jumlah nilai dalam data

Operasi lain yang harus diketahui dalam daftar adalah pengindeksan:
- `data[i]` : mengakses elemen ke-i dari data. **Zero Indexing Python.**

In [87]:
data = [2,"Mobile", True, 2.5]
data.append(2)
data

[2, 'Mobile', True, 2.5, 2]

In [None]:
# Zero Indexing Python.
data[2]

In [89]:
type(data)

list

### 5. Dictionaries

Kami telah belajar tentang urutan dalam Python, tetapi sekarang kami akan mengganti persneling dan belajar tentang pemetaan dengan Python. Jika Anda terbiasa dengan bahasa lain, Anda dapat menganggap Kamus ini sebagai tabel hash.

Dictionary Python terdiri dari **key** dan kemudian **value** terkait. Nilai itu bisa berupa hampir semua objek Python.

**Membuat Dictionary**

Mari kita lihat bagaimana kita dapat membuat dictionary untuk mendapatkan pemahaman yang lebih baik tentang cara kerjanya!

In [90]:
# Make a dictionary with {} and : to signify a key and a value
# my_dict = 

In [91]:
# my_dict['nama']

In [92]:
# type(my_dict)

## D. Introduction to Pandas Library

Library merupakan kumpulan alat-alat yang digunakan untuk membantu proses penyelesaian masalah.

- `pandas` merupakan salah satu library dalam bahasa pemrograma Python yang powerful sebagai tools analisis data. 

- `pandas` dapat mempermudah pengolahan data karena memiliki objek bernama **DataFrame**.

- Untuk informasi lebih lengkapnya dapat mengunjungi [official documentation](https://pandas.pydata.org/)

#### 1. Import Library

In [93]:
# Import Pandas + aliasing
import pandas as pd

In [94]:
# check versi pandas
pd.__version__

'2.1.4'

#### 2. Read Data

Kita dapat membaca data dengan format `.csv` melalui `.read_csv()`. Membaca data `sales.csv`. Sintaks : `pd.read_csv(path/data)`.

Silahkan baca data penjualan supermarket, [LEBIH LANJUT](https://www.kaggle.com/datasets/aungpyaeap/supermarket-sales). 

Apabila kita ingin set kolom pertama `Invoice ID` menjadi index dari dataframe. Caranya: menambahkan parameter index_col=0.

Parameter `index_col` dapat menerima beberapa nilai : 
- (0,1,2, dst) : menunjukkan index kolom yang dijadikan index baris. 
- `nama_kolom` : menunjukkan nama kolom yang dijadikan index baris. 
- `False` : Menggunakan index baris yang disediakan oleh `pandas` atau (default). 
- Beberapa parameter dalam method `.read_csv()`, dokumentasi selengkapnya ada [di sini](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html). 

In [95]:
# baca data\sales.csv simpan sales

In [96]:
# type(sales)

In [97]:
# Melihat 5 data teratas


Attribute information
- `Invoice id`: Computer generated sales slip invoice identification number
- `Branch`: Branch of supercenter (3 branches are available identified by A, B and C).
- `City`: Location of supercenters
- `Customer type`: Type of customers, recorded by Members for customers using member card and Normal for without member card.
- `Gender`: Gender type of customer
- `Product line`: General item categorization groups - Electronic accessories, Fashion accessories, Food and beverages, Health and beauty, - Home and lifestyle, Sports and travel
- `Unit price`: Price of each product in $
- `Quantity`: Number of products purchased by customer
- `Tax`: 5% tax fee for customer buying
- `Total`: Total price including tax
- `Date`: Date of purchase (Record available from January 2019 to March 2019)
- `Time`: Purchase time (10am to 9pm)
- `Payment`: Payment used by customer for purchase (3 methods are available – Cash, Credit card and Ewallet)
- `COGS`: Cost of goods sold
- `Gross margin percentage`: Gross margin percentage
- `Gross income`: Gross income
- `Rating`: Customer stratification rating on their overall shopping experience (On a scale of 1 to 10)

**Review Materi**

Berdasarkan pada berbagai materi penulisan code python di atas, manakah di antara ke-5 kdoe program ini yang tidak menghasilkan error ketika dijalankan?
- [ ] `import Pandas as pd`
- [ ] `print(100**2)`
- [ ] `pd.read_csv("data\sales.csv", index_col = false)`.
- [ ] `True = 1`

#### 3. Check Tipe Data `pandas`

In [98]:
# code

- Dataframe merupakan tabel/data tabular dua dimensi yaitu baris dan kolom.
- Dataframe terdiri dari beberapa **Series** (kolom).
- Dalam satu series harus memiliki tipe data yang sama.
- `pandas` akan menentukan tipe data dari masing-masing Series, tapi hasil dari pandas tidak selalu benar.



Berikut rangkuman tipe data `pandas`:

| Pandas dtype  | Python type  | Usage                                        |
|---------------|--------------|----------------------------------------------|
| object        | str or mixed | Text or mixed numeric and non-numeric values |
| int64         | int          | Integer numbers                              |
| float64       | float        | Floating point numbers                       |
| bool          | bool         | True/False values                            |
| datetime64    | NA           | Date and time values                         |
| timedelta[ns] | NA           | Differences between two datetimes            |
| category      | NA           | Finite list of text values                   |

Referensi: [Overview of Pandas Data Types](https://pbpython.com/pandas_dtypes.html)

In [99]:
# Tipe data setiap kolom / series  `.dtypes`

#### 4. Data Formatting

Data formatting merupakan proses untuk mengubah format suatu data menjadi format sebenarnya. Kita dapat menggunakan `astype()`. Contoh 
Sintaks : 

`df['column_name'] = df['column_name'].astype('new_data_types')`

In [100]:
#sales.nunique()

Data yang Perlu disesuaikan :
- `Branch` = `category`
- `City` = `category`
- `Customer type` = `category`
- `Gender` = `category`
- `Product line` = `category`
- `Date` = `datetime64[ns]`
- `Time` = `datetime64[ns]`
- `Payment` = `category`

In [101]:
# Copy dulu datanya agar data aslinya tidak berubah ke df 

In [102]:
# df['Branch'] = df['Branch'].astype('category')

# df.dtypes

#### 5. Feature Engineering - Datetime Partition (**Complement**)

Kegunaan sebuah kolom menjadi tipe data `datetime64` adalah dapat mengambil bagian waktu informasi waktu secara lebih spesifik dan digunakan untuk analisis harian, mingguan, bulanan, dan sebagainya. 

**Date component (numeric)**
- `.dt.year` : tahun
- `.dt.month` : bulan (dalam angka)
- `.dt.day` : tanggal (dalam angka)
- `.dt.dayofweek` : hari ke berapa dalam seminggu (0-6)

**Data component (period)**
- `.dt.to_period('Y')`: periode quarter (12 bulanan)
- `.dt.to_period('Q')`: periode quarter (3 bulanan)
- `.dt.to_period('M')`: periode bulanan (1 bulanan)
- `.dt.to_period('D')`: periode harian (1 harian)


**Date component (string)**
- `.dt.month_name()` : nama bulan
- `.dt.day_name()` : nama hari


**Time component**
- `.dt.hour` : jam
- `.dt.minute` : menit
- `.dt.second` : detik

> [Dokumentasi: datetime properties](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#datetimelike-properties)

In [103]:
# Menambahkan kolom Tahun, Bulan, Nama Hari dan simpan ke category


In [104]:
# cek 5 data teratas

## E. Data Cleansing

### Missing Value

##### 1. Check Missing Value 

In [105]:
# Read data
miss_dup = pd.read_csv("data/sales_missing_duplicate.csv", index_col="Invoice ID")
miss_dup

Unnamed: 0_level_0,Branch,City,Customer type,Gender,Product line,Unit price,Quantity,Tax 5%,Total,Date,Time,Payment,cogs,gross margin percentage,gross income,Rating
Invoice ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
750-67-8428,A,Yangon,Member,Female,Health and beauty,,7,26.1415,548.9715,1/5/2019,13:08,Ewallet,475.7753,9.89011,47.0547,9.1
226-31-3081,C,Naypyitaw,Normal,Female,Electronic accessories,15.28,5,3.82,80.22,3/8/2019,10:29,Cash,69.524,9.89011,6.876,
631-41-3108,A,Yangon,Normal,Male,Home and lifestyle,46.33,7,16.2155,340.5255,3/3/2019,13:23,Credit card,295.1221,9.89011,29.1879,7.4
123-19-1176,,Yangon,Member,Male,Health and beauty,58.22,8,23.288,489.048,1/27/2019,20:33,Ewallet,423.8416,9.89011,41.9184,8.4
373-73-7910,,Yangon,Normal,Male,Sports and travel,,7,30.2085,634.3785,2/8/2019,10:37,Ewallet,549.7947,9.89011,54.3753,5.3
699-14-3026,C,Naypyitaw,Normal,Male,Electronic accessories,85.39,7,29.8865,627.6165,3/25/2019,18:30,Ewallet,543.9343,9.89011,53.7957,4.1
355-53-5943,A,Yangon,Member,Female,Electronic accessories,68.84,6,20.652,433.692,2/25/2019,14:36,Ewallet,375.8664,9.89011,37.1736,5.8
315-22-5665,C,Naypyitaw,Normal,Female,Home and lifestyle,73.56,10,36.78,772.38,2/24/2019,11:38,Ewallet,669.396,9.89011,66.204,8.0
665-32-9167,A,Yangon,Member,Female,Health and beauty,36.26,2,3.626,76.146,1/10/2019,17:15,Credit card,65.9932,9.89011,6.5268,7.2
692-92-5582,B,Mandalay,Member,Female,Food and beverages,54.84,3,8.226,172.746,2/20/2019,13:27,Credit card,149.7132,9.89011,14.8068,5.9


In [106]:
# cek missing value .info()

In [107]:
# cek missing value .isna().sum()

##### 2. Treatment Missing Value

Terdapat beberapa cara umum untuk menangani missing values :

- Hapus baris atau kolom: Menggunakan metode `dropna()` dengan ambang batas yang wajar untuk menghapus setiap baris yang berisi nilai missing, NA < 5%
- Imputasi: Mengisi nilai NA dengan sebuah nilai

**Treatment Drop yang Missing Value**

- `.dropna(how='any')` : Hapus baris ketika memiliki **minimal 1 kolom** nilai missing. 
- `.dropna(how='all')` : Hapus baris ketika memiliki **semua kolom** nilai missing.
- `.dropna(tresh='...')`: Hapus baris ketika memiliki **angka yang dimasukan** nilai missing.

In [108]:
# code

In [109]:
# thresh = 15, minimal harus ada 15 kolom yang TIDAK missing agar dipertahankan
# alias apabila missing value cuma 1 kolom akan dipertahankan 


**Treatment Imputasi yang Missing Value**

Imputasi dipilih apabila kita ingin mengisi nilai dari sebuah missing value melalui metode `.fillna()`. Informasi untuk mengisi nilai yang hilang memiliki banyak cara, baik berupa pengecekkan history, pengetahuan bisnis, metode statistik dan sebagainya. 

Untuk Kolom Numerik : 
- Isi dengan pusat data seperti `mean` atau `median`.
- Isi dengan model prediktif (regresi).

Untuk Kolom Kategorikal : 
- Isi dengan pusta data `modus` (`mode`).
- Isi dengan model prediktif (klasifikasi).

In [110]:
miss_dup.isna().sum()

Branch                     3
City                       0
Customer type              0
Gender                     0
Product line               0
Unit price                 5
Quantity                   0
Tax 5%                     0
Total                      0
Date                       0
Time                       0
Payment                    0
cogs                       0
gross margin percentage    0
gross income               0
Rating                     3
dtype: int64

Data yang Missing Value : 
1. `Branch` : 3 Kolom -> **object / kategorikal**
2. `Unit price` : 5 kolom -> **pengetahuan bisnis**
3. `Rating` : 3 kolom -> **numerik**

In [111]:
# 1. Branch dengan .mode()
input_branch = miss_dup['Branch'].mode()[0]
input_branch

'A'

In [112]:
# .fillna(value='...')

In [113]:
# 2. Unit price dengan pengetahuan bisnis
"""
    Total Sales = Total - Tax 5%
    Total Sales = Unit price x Quantity
    Total Sales / Quantity = Unit price
"""


'\n    Total Sales = Total - Tax 5%\n    Total Sales = Unit price x Quantity\n    Total Sales / Quantity = Unit price\n'

In [114]:
# 3. Rating dengan .mean()


In [115]:
# code

### Duplicate Data

##### 1. Check Duplicated Value 

Untuk melakukan pengecekan terhadap ada atau tidaknya data yang duplikat, kita dapat menggunakan method `duplicated()`.

In [116]:
# code

> Terdapat dua baris yang memiliki informasi sama persis (duplikasi).

##### 2. Treatment Duplicated Value

In [117]:
# .drop_duplicates()


In [118]:
# cek data .info()

## F. Exploratory Data Analysis (EDA) - Basic

Exploratory Data Analysis (**EDA**) mengacu pada proses melakukan investigasi dan mencari informasi penting dalam suatu data. Kita dapat melihat struktur/bentuk data, gambaran statistik data dan sebagainya. 

**Method vs. Atribut**
- Secara penulisan/sintaks:
    - Method menggunakan tanda kurung `()`
    - Atribut **tidak** menggunakan tanda kurung

- Secara kegunaan:
    - Method memiliki nilai parameter yang dapat disesuaikan
    - Atribute **tidak** ada parameter

Library `pandas` memiliki method dan attribute untuk melakukan EDA : 
- `.head()` and `.tail()`
- `.describe()`
- `.dtypes`
- `.info()`

#### 1. `.head()` dan `.tail()`

- `.head()` digunakan untuk melihat data teratas (default = 5)
- `.tail()` digunakan untuk melihat data terbawah (default = 5)

In [119]:
# df.head(3)

In [120]:
# df.tail(2)

#### 2. `.describe()`

Method `.describe()` merupakan sebuah method yang dapat memberikan ringkasan statistik deskriptif dari suatu kumpulan data. 

**Statistik deskriptif** adalah metode statistik yang digunakan untuk meringkas, mendeskripsikan, dan menyajikan data sehingga dapat dengan mudah dipahami dan dianalisis. 

**Komponen Utama Statistik Deskriptif:**

##### 1. **Ukuran Pemusatan (Measures of Central Tendency)** -> memberikan informasi tentang nilai tengah atau pusat dari data. 
- **Mean (Rata-rata)**: Jumlah semua nilai dibagi dengan jumlah nilai.  $$Mean = \frac{\sum_{i=1}^n x_i}{n}$$
- **Median (Median)**: Nilai tengah dari data yang diurutkan. Jika jumlah nilai genap, median adalah rata-rata dari dua nilai tengah.
- **Mode (Modus)**: Nilai yang paling sering muncul dalam dataset.


##### 2. **Ukuran Posisi (Measures of Position)** -> Ukuran ini memberikan informasi tentang posisi nilai-nilai dalam data relatif terhadap yang lain.

- **Quartiles (Kuartil)**: Tipe khusus dari ukuran posisi yang membagi data menjadi empat bagian yang sama, jadi ada kuartil 1 (25%), 2 (50% atau median), 3 (75%).
- **Decile (Desil)**: Tipe khusus dari ukuran posisi yang membagi data menjadi sepuluh bagian yang sama, jadi ada desil 1 (10%), 2(20%), 3(30%), 4(40%), 5(50%)...9(90%).
- **Percentiles (Persentil)**: Tipe khusus dari ukuran posisi yang membagi data menjadi seratus bagian yang sama, jadi ada persentil 1,2,3........99. 


##### 3. **Ukuran Dispersi (Measures of Dispersion)** -> memberikan informasi seberapa tersebar nilai-nilai dalam data.
- **Range (Rentang)**: Selisih antara nilai maksimum dan nilai minimum. $$Range = \text{Max} - \text{Min}$$
- **Variance (Variansi)**: Rata-rata kuadrat dari selisih setiap nilai terhadap mean. Mengukur seberapa besar nilai dalam data tersebar di sekitar mean. $$Variance = \frac{\sum (x_i - \mu)^2}{n}$$
- **Standard Deviation (Standar Deviasi)**: Akar kuadrat dari variansi. Ini memberikan ukuran seberapa banyak data bervariasi dari mean. $$Standard Deviation = \sqrt{\text{Variance}}$$
- **Interquartile Range (Rentang Antar Kuartil, IQR)**: Selisih antara kuartil pertama (Q1) dan kuartil ketiga (Q3). Mengukur seberapa besar nilai tersebar di sekitar median.
$$IQR = Q3 - Q1$$



**Parameter `desribe(include = '....')`** 
- None: Semua tipe data yang kompatibel
- 'all': Semua kolom, tanpa memandang tipe
- 'number': Hanya kolom numerik
- 'object': Hanya kolom objek (string)
- 'category': Hanya kolom kategorikal
- 'datetime': Hanya kolom datetime

**describe(include='number')**
- count : jumlah data.
- mean : nilai rata-rata dari data.
- std : nilai standar deviasi dari data.
- min : nilai terkecil dari data.
- 25% : nilai kuartil 1 dari data.
- 50% : nilai kuartil 2 atau median dari data
- 75% : nilai kuartil 3 dari data.
- max : nilai terbesar dari data. 

In [121]:
# code df.

> Insight : 

...

**df.describe(include='category')**
- count : jumlah keseluruhan kolom data.
- unique : nilai unik dari kumpulan data.
- top : nilai yang paling sering muncul (modus). 
- freq : jumlah frekuensi dari nilai modus. 

In [122]:
# code

> Insight : 

...

#### 3. `.dtypes`

Atribut yang digunakan untuk mengecek tipe data. 

In [128]:
# df.dtypes

#### 4. `info()`

Method yang memberikan kumpulan berbagai informasi, jumlah kolom dan rincian, jumlah baris, tipe data, penggunaan memori dsb.

In [129]:
# df.info()

## G. Data Wrangling dan Exploratory Data Analysis (EDA) - Intermediate

### 1 `value_counts()`

Melalui method `value_counts(ascending = False)`, kita dapat menghitung jumlah baris pada setiap category dalam 1 kolom (nilai frekuensi/kemunculan data), dan defaultnya akan diurutkan secara descending (besar ke kecil). 

parameter tambahan : 
- `sort=False`: untuk mencegah pengurutan apapun sehingga hanya berdasarkan indeks. 
- `ascending=True`: Mengurutkan nilai dari kecil ke besar / menaik.

In [130]:
# code

In [131]:
# code

### 2. `pd.crosstab()`

Melalui method `pd.crosstab()`, kita dapat menghitung frekuensi suatu data (fungsi dari value_counts()) dan juga agregasi data. 

```
pd.crosstab(index=....,
            columns=....,
            values=....,
            aggfunc=agg_function)
```

Parameter : 
- `index` : kolom yang akan menjadi baris (axis 0)
- `columns` : kolom yang akan menjadi kolom (axis 1)
- `values` : kolom yang dijadikan landasan menerapkan aggfunc (*optional*)
- `aggfunc` : agregasi fungsi, sebuah fungsi yang akan dieksekusi (*optional*)

Contoh `aggfunc`:
- `mean` : nilai rata-rata
- `median` : nilai tengah
- `min` : nilai minimum 
- `max` : nilai maksimum
- `count` : jumlah kemunculan baris (tabel frekuensi)
- `sum` : jumlah suatu nilai 

##### Cabang manakah yang memiliki transaksi terbesar dan terkecil ❓

In [132]:
# Hanya tabel frekuensi 


Menambahkan method `sort_values()` untuk mengurukan data frame berdasarkan kolom tertentu. 

- `by` : di isi dengan nama kolom
- `ascending` : secara default = True (diurutkan berdasarkan nilai terkecil ke terbesar).

In [133]:
# Hanya tabel frekuensi + diurutkan


> ...

##### Pada hari apa yang memiliki transaksi tertinggi dan terendah❓

In [134]:
# code

> JAWABANNYA :

...

##### Produk line apa yang paling tinggi transaksinya di setiap cabang ❓

In [135]:
# mengetahui frekuensi kombinasi 


**Margins** 

Dapat menambahkan parameter `margins=True` agar menampilkan total frekuensi transaksi di setiap baris dan kolomnya.

In [136]:
# mengetahui frekuensi kombinasi + margins


> JAWABANNYA :

...

##### Kota apa yang memiliki nilai `gross_income` tertinggi dan Terendah❓

In [137]:
# Membuat tabel agregasi


> JAWABANNYA


...


### 3. `groupby()`

Operasi `groupby()` digunakan untuk mengelompokkan suatu kumpulan data berdasarkan hal-hal tertentu. Fungsi agregasi yang dapat digunakan `sum()`, `mean()`, `count()`, `median()`, `min()`, dan `max()`.

In [138]:
# Mengelompokkan cuma berdasarkan 1 hal


In [139]:
# Mengelompokkan berdasarkan > 1 hal


> 

...

##### Berapa total `gross income` setiap bulan di masing-masing kota❓

In [140]:
# code

## H. Indexing and Subsetting Data 

Indexing dan Subsetting Data merupakan sebuah proses memilih sebagian data yang hanya diperlukan (baris atau kolom tertentu) dalam proses analisa data.

Prose ini dapat dilakukan dengan menggunakan library `pandas` sebagai berikut :

1. `.iloc[]` operator
2. `select_dtypes()`
3. `.drop()`
4. conditional subsetting. 

In [141]:
latihan_sub = pd.read_csv("data\sales.csv")
latihan_sub.head(3)

Unnamed: 0,Invoice ID,Branch,City,Customer type,Gender,Product line,Unit price,Quantity,Tax 5%,Total,Date,Time,Payment,cogs,gross margin percentage,gross income,Rating
0,750-67-8428,A,Yangon,Member,Female,Health and beauty,74.69,7,26.1415,548.9715,1/5/2019,13:08,Ewallet,475.7753,9.89011,47.0547,9.1
1,226-31-3081,C,Naypyitaw,Normal,Female,Electronic accessories,15.28,5,3.82,80.22,3/8/2019,10:29,Cash,69.524,9.89011,6.876,9.6
2,631-41-3108,A,Yangon,Normal,Male,Home and lifestyle,46.33,7,16.2155,340.5255,3/3/2019,13:23,Credit card,295.1221,9.89011,29.1879,7.4


### H.1. `.iloc`

`.iloc`/**(index)** merujuk pada urutan **index baris atau kolom** sehingga berupa bilangan bulat. `.iloc` juga menerapkan konsep python berhitung  (*Zero-based indexing*). 

Contoh :

`df.iloc[index baris, index kolom]`

`df.iloc[0:10, 7:9]` artinya hanya menampilkan baris urutan ke 0 hingga ke 9, dan kolom ke 7 dan 8. 

In [142]:
# Hanya menampilkan baris dan kolom


Unnamed: 0,Invoice ID,Branch,City,Customer type,Gender
10,351-62-0822,B,Mandalay,Member,Female
11,529-56-3974,B,Mandalay,Member,Male
12,365-64-0515,A,Yangon,Normal,Female
13,252-56-2699,A,Yangon,Normal,Male
14,829-34-3910,A,Yangon,Normal,Female


### H.2. `select_dtypes()`

Method `select_dtypes()` berfungsi untuk memilih kolom berdasarkan tipe data yang dipilih. `select_dtypes()` memiliki 2 parameter yang digunakan :
- `include` : yang termasuk kolom tipe data dipilih akan ditampilkan kolomnya.
- `exclude` : yang tidak termasuk / yang dikecualikan maka kolom tersebut tidak ditampilkan.

Pilihan argummen : 
- `object`, `int64`, `float64`, `bool`, `datetime64`, `timedelta[ns]`, dan `category`.


In [143]:
# Hanya kolom yang termasuk tipe category yang akan di tampilkan


In [144]:
# Selain kolom tipe category, maka akan di tampilkan


In [145]:
# Memilih kolom lebih dari satu tipe data


### H.3. `.drop()`

Method `drop()` berfungsi untuk memotong atau membuang baris atau kolom. Secara default method ini akan menghapus baris (index) dan dapat menghapus kolom menggunakan parameter (columns). 

In [146]:
# Menghapus baris pertama


In [147]:
# Hapus baris ke 1 (226-31-3081) dan 2 (631-41-3108) yang baru 


In [148]:
# Bakal error ketika ingin menghapus 'City' karena default dikira baris


In [149]:
# df.drop(columns='City')

In [150]:
# df.drop(columns=['Branch', 'City', 'Customer type'])

Catatan :

Ketika menggunakan method `.drop()` maka belum akan mengubah data kita (mengurangi data) karena belum di assigment. Perubahan dapat dilakukan dengan meng-assign perubahan :

- `df = df.drop(columns=['Branch', 'City', 'Customer type'])`

atau menambahkan parameter `inplace=True` : 

- `df.drop(columns=['Branch', 'City', 'Customer type'], inplace=True)`

### H.4.  Conditional Subsetting

Subsetting dapat dilakukan berdasarkan kondisi tertentu. Kondisi ini dapat berupa operator pembanding seperti `==`, `!=`, `>`, `>=`, `<`, `<=`. 

- Contohnya : `latihan_sub[latihan_sub['nama kolom']] <operator pembanding> value`

##### Berapa banyak transaksi di kota Naypyitaw dan menghasilkan keuntungan lebih atau sama dengan 50❓

In [None]:
# Definisikan kondisi

> ....

##### Berapa banyak transaksi pelanggan Member yang memberikan rating kurang dari atau sama dengan 5❓

> ....

##### Berapa banyak transaksi pelanggan Member dan Payment Cash yang memberikan rating lebih dari atau sama dengan 5❓

In [153]:
# Kondisi


# Persentase pembayaran yang dilakukan secara tunai


# Menghitung persentase pelanggan cash yang merasa puas


In [154]:
# Hasil 


## I. Introduction to Data Visualization

Visualisasi (*Visualization*) merupakan suatu cara untuk menyajikan data dalam bentuk visual agar mempermudah kita dan orang lain memahami data. Poin utama dari visualisasi data adalah bagaimana kita bisa menyampaikan sebuah informasi dengan efektif (*insight*) sehingga berguna dalam pembuatan keputusan apapun. 

Visualisasi data memiliki tiga kategori 
1. Univariate Visualization
2. Bivariate Visualization
3. Multivariate Visualization

Pemilihan berbagai jenis atau bentuk visualisasi data sangat bergantung pada kondisi data yang akan disajikan, [Guidance Penentuan Jenis Visualisasi](https://www.data-to-viz.com/). 

In [155]:
import seaborn as sns
import matplotlib.pyplot as plt

### 1. Univariate Visualization
Bentuk visualisasi data yang memvisualisasikan hanya satu variabel dalam suatu waktu.

#### Histogram Chart

Histogram adalah jenis grafik yang menampilkan distribusi frekuensi dari satu variabel kontinyu (*Satu Data Numerik*). Penggunaan :
- Menganalisis distribusi atau sebaran data numerik.
- Mengidentifikasi pola seperti distribusi normal, bimodal, atau skewness.
- Mengetahui frekuensi data dalam interval tertentu.

##### Hari apakah yang memiliki Jumlah Transaksi Terbesar dan Terkecil❓

In [156]:
# Menentukan ukuran canvas


# Mengisi visualisasi dengan data


# Menambahkan atribut pendukung


# Tampilkan



> Kesimpulan 

...

### 2. Bivariate Visualization
Bentuk visualisasi data yang memvisualisasikan hanya dua variabel dalam suatu waktu. Terdapat beberapa tipe kombinasi yang dapat terjadi dari gabungan dua variabel : 
1. Data Kategorikal (Nilai Berulang) dan Numerik (Nilai Angka)
2. Data Numerik (Nilai Angka) dan Numerik (Nilai Angka)
3. Data Kategorikal (Nilai Berulang) dan Kategorik (Nilai Berulang) 

#### 2.A Bar Chart

Bar chart adalah jenis grafik yang menggunakan batang untuk mewakili nilai atau frekuensi dari kategori data tertentu. Batang-batang tersebut terpisah dan tidak bersebelahan satu sama lain, menunjukkan perbandingan antar kategori yang berbeda. Penggunaan :
- Membandingkan nilai atau frekuensi antar kategori yang berbeda.
- Menganalisis data diskrit atau kategorikal.

**Note :**
- Histogram: Cocok untuk menganalisis distribusi data numerik, melihat frekuensi dalam interval, dan memahami pola penyebaran data.
- Bar Chart: Ideal untuk membandingkan nilai di antara beberapa kategori atau kelompok data yang berbeda.

##### Cabang manakah yang memiliki Total Nilai Penjualan Terbesar ❓

In [157]:
# Agregasi Data


In [158]:
# Menentukan ukuran canvas


# Mengisi visualisasi dengan data


# Menambahkan atribut pendukung


# Tampilkan


##### Product Line apa yang memberikan gross income terbesar dan terkecil ❓

In [159]:
# Agregasi Data


In [160]:
# Visualisasi data - Horizontal


> Kesimpulan

...

#### 2.B Line Chart

Diagram garis adalah grafik yang menggunakan garis untuk menghubungkan titik-titik data yang biasanya diambil pada interval yang berurutan. Grafik ini digunakan untuk menunjukkan bagaimana nilai suatu variabel berubah seiring waktu atau kondisi lainnya. Penggunaan : 
- Menampilkan tren data dari waktu ke waktu.
- Melihat pola, misalnya kenaikan atau penurunan dalam data.
- Memantau perubahan data harian, mingguan, bulanan, atau tahunan.

##### Tren mingguan gross income di setiap kota ❓

In [161]:
# Ekstrak fitur mingguan 


# Menghitung Kota Yangon


# Menghitung Kota Naypyitaw


# Menghitung Kota Mandalay


In [162]:
# Plot untuk setiap kota


#### 2.C Boxplot Chart

Boxplot adalah grafik yang menunjukkan distribusi data berdasarkan lima angka ringkasan: minimum, kuartil pertama (Q1), median, kuartil ketiga (Q3), dan maksimum. Biasanya digunakan untuk melihat rentang, sebaran dan outlier dalam data. Penggunaan : 
- Menilai distribusi data, termasuk outlier atau pencilan.
- Membandingkan distribusi antar kelompok atau kategori.
- Memahami rentang interkuartil dan sebaran data.

In [163]:
# Membuat boxplot


In [164]:


# Data contoh untuk boxplot



# Data contoh untuk scatter plot



# Menampilkan plot



#### 2.D Scatter Chart

Diagram pencar adalah grafik yang menggunakan titik-titik untuk mewakili nilai dua variabel yang berbeda. Titik-titik ini kemudian dipetakan pada sumbu x dan y untuk melihat apakah ada hubungan atau korelasi antara dua variabel. Penggunaan:
- Menganalisis hubungan atau korelasi antara dua variabel.
- Mengidentifikasi pola, tren, atau anomali dalam data.
- Melihat distribusi dan kepadatan data.

In [165]:
# Membuat scatter plot



#### 2.E Heatmap Chart

Heatmap adalah grafik yang menggunakan skema warna untuk mewakili nilai atau frekuensi data dalam matriks atau tabel. Warna-warna yang berbeda menunjukkan intensitas atau nilai yang berbeda dari data. Penggunaan:
- Memvisualisasikan korelasi antara dua set data.
- Menyajikan data dalam bentuk matriks yang mudah dipahami secara visual.

In [166]:
# Persiapan data


In [167]:
# Membuat heatmap


### 3. Multivariate Visualization
Bentuk visualisasi data yang memvisualisasikan lebih dari dua variabel dalam suatu waktu.



In [168]:
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import numpy as np

# Data contoh: Tiga variabel (x, y, z)
np.random.seed(0)
x = np.random.rand(100)
y = np.random.rand(100)
z = np.random.rand(100) * 100

# Membuat 3D scatter plot
fig = plt.figure(figsize=(10, 8))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(x, y, z, s=50, c=z, cmap='viridis', alpha=0.8)
ax.set_xlabel('X')
ax.set_ylabel('Y')
ax.set_zlabel('Z')
ax.set_title('3D Scatter Plot')
plt.show()

Beberapa opsi visualisasi di Python yang dapat dieksplorasi lebih lanjut :

- `matplotlib`: semua elemen pada visualisasi dapat dikustomisasi, namun membutuhkan code yang lebih panjang. [Dokumentasi Matplotlib](https://matplotlib.org/3.2.2/tutorials/index.html). 
- `seaborn`: dikembangkan dari `matplotlib`, lebih sedikit yang dapat dikustomisasi namun lebih mudah. [Dokumentasi Seaborn](https://seaborn.pydata.org/introduction.html).
- `plotly`: plot interaktif serta kompatibilitas dengan bahasa lain yang tinggi. [Dokumentasi Plotly](https://plotly.com/python/).

## J. Interactive Visualization

Visualisasi interaktif digunakan untuk memberikan kesan yang menarik dan insight lebih baik karena kita dapat melihat informasi detail langsung, tinggal di klik. Kita akan membuat visualisasi interaktif menggunakan [`plotly`](https://plotly.com/python/).

In [169]:
import plotly
import plotly.express as px

### 1. Bagaimana Performa (Total, Quantity, Gross Income) Sales Perusahaan dalam Rentang Tertentu?
Jadi ntr ada 3 opsi yang bisa dilihat dalam rentang waktu tertentu (Total, Quantity, dan Gross Income). Baru di rekapkan total nilainya / keseluruhan atau total per hari berapa.

In [170]:
# Persiapan Data


In [171]:
# plot

### 2. Bagaimana Performa (Total, Quantity, Gross Income) pada Setiap Product Line?

In [172]:
# Persiapan Data


In [173]:
# plot


### 3. Bagaimana Persebaran Total Penjualan dalam Hari maupun Jam Tertentu?

In [174]:
# Feature Engineering kolom Hour

# df['Hour'] = 

In [175]:
# Urutkan nama-nama hari

'''
ordered_days = ['Monday', 'Tuesday', 'Wednesday', 'Thursday',
                'Friday','Saturday','Sunday']

df['Day of Week'] = pd.Categorical(df['Day of Week'], 
                                   categories=ordered_days,
                                   ordered=True)
                                   
'''

"\nordered_days = ['Monday', 'Tuesday', 'Wednesday', 'Thursday',\n                'Friday','Saturday','Sunday']\n\ndf['Day of Week'] = pd.Categorical(df['Day of Week'], \n                                   categories=ordered_days,\n                                   ordered=True)\n                                   \n"

In [None]:
# Persiapan data

### 4. Bagaimana Perbandingan Gender Pembeli di Setiap Product Line?

In [None]:
# persiapan data


In [None]:
# melt()

In [None]:
# Plot

In [370]:
# df = df.rename(columns={'gross income':'Gross Income'})         
# df = df.rename(columns={'cogs':'COGS'})

## Dashboard - Streamlit

![Alt text](asset/Dashboard.png)

In [371]:
# save pickle

In [372]:
# coba baca ulang
df = pd.read_pickle('data_sales_dash.pkl')

In [None]:
# cek tipe data
df.info()

Save to pickel pas persiapan ke pembuatan dashboard untuk mengamankan format. 

## Final Project

Dear Rekan-Rekan,

Selamat atas keberhasilannya menyelesaikan Bootcamp Data Science. Dalam rangka untuk mendapatkan sertifkat kegiatan yang sudah diikuti dan meningkatkan kemampuan rekan-rekan dalam mengimplementasikan ilmu yang didapatkan di kelas, Rekan-rekan dapat mengumpulkan hasil latihan berdasarkan tahapan yang sudah kita pelajari di kelas. Adapun untuk referensi pengerjaan, Bapak dan Ibu dapat mengacu pada materi di kelas. Berikut ketentuannya : 
- Anda di wajibkan untuk menampilkan minimal 2 **visualisasi data interaktif** - bebas (line, bar, scatter dsb).
- Anda di wajibkan untuk menerapkan minimal 1 input data dalam visualisasi data interaktif.
- Terakhir anda diwajibkan untuk mendeploy projek anda melalui akun Github. 

Sumber Data yang dapat digunakan :
- [Vehicle Sales Data](https://www.kaggle.com/datasets/syedanwarafridi/vehicle-sales-data)
- [NYC Property Sales](https://www.kaggle.com/datasets/new-york-city/nyc-property-sales)
- Atau data lainnya yang sesuai dengan ketertarikan anda, bisa explorasi di [Kaggle](kaggle.com), dsb.



Mohon untuk mengumpulkan hasil LBB paling lambat pada hari Minggu, 08 September 2024, 11:59 WIB, dengan melampirkan link dashboard anda.

Selamat mengeksplorasi !

**Note :**
- Materi yang dipelajari selama 4 hari ini memang masih sangat terbatas tetapi sangat baik sebagai bagian proses untuk pengembangan diri lebih lanjut.
- Anda diharapkan dapat belajar secara aktif melalui pembuatan berbagai project baru dengan mencari data dari berbagai sumber [Kaggle](kaggle.com), [UC Irvine Machine Learning Repository](https://archive.ics.uci.edu/v), dsb.
- Anda juga dapat mengembangkan skill anda ke ranah pengolahan data yang lebih dalam (Machine Learning, Artificial Intelligence dsb).

# Reference

https://medium.com/@gfakhira9/to-period-909ee90ce6c1

https://www.geeksforgeeks.org/what-is-univariate-bivariate-multivariate-analysis-in-data-visualisation/