<a href="https://colab.research.google.com/github/richardcsuwandi/ppsdcw2/blob/main/template_cw2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data Analysis with Python

By: [Richard Cornelius Suwandi](https://richardcsuwandi.github.io/)

<img src="https://www.digitalvidya.com/wp-content/uploads/2018/01/Image.jpg" width="400" height="250" />


## Apa itu Data Analysis?
> A process of inspecting, cleansing, transforming, and modeling data with the goal of **discovering useful information, informing conclusion, and supporting decision-making**. ([Wikipedia)](https://en.wikipedia.org/wiki/Data_analysis)

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/b/ba/Data_visualization_process_v1.png/525px-Data_visualization_process_v1.png" width=400 height=300/>

## Mengapa Python?
Berikut adalah 3 alasan mengapa Python cocok untuk data analysis:
1. Python adalah salah satu bahasa pemrograman yang relatif **mudah untuk dipelajari**
2. Python dilengkapi dengan **banyak libraries dan tools** yang memudahkan proses data analysis
3. Python didukung oleh **komunitas yang besar dan aktif**

## Libraries dan Tools untuk Data Analysis
Python memiliki banyak libraries dan tools yang dapat digunakan dalam proses data analysis, antara lainnya yaitu:
- **NumPy & SciPy**: Numerical computing
- **Pandas**: Data manipulation
- **Matplotlib & Seaborn**: Data visualization
- **Scikit-learn**: Machine learning

<img src="https://i2.wp.com/makemeanalyst.com/wp-content/uploads/2017/09/Python-libraries-for-data-analysis.png?zoom=1.5&resize=602%2C253" width=500 height=200/>

## Studi Kasus
Pada workshop kali ini, kita akan menganalisa data *'Bike Sales'* yaitu data penjualan dari sebuah toko sepeda. Dataset yang akan kita gunakan dapat didownload melalui link [ini](https://github.com/richardcsuwandi/ppsdcw2/blob/main/bike_sales.csv)

<img src="https://www.flokq.com/blog/wp-content/uploads/2020/07/bicycle.jpg" width=500 height=300/>

Pertama-tama, mari kita import terlebih dahulu library-library yang akan kita gunakan dalam proses data analysis:

In [None]:
# Import library-library yang akan digunakan


### Membaca Data
Selanjutnya, kita dapat membaca data kita menggunakan fungsi `pd.read_<file type>()` yang terdapat di Pandas. Sebagai contoh, untuk membaca file `.csv` kita dapat menggunakan fungsi `pd.read_csv()`

Baca lebih lanjut [disini](https://pandas.pydata.org/pandas-docs/stable/reference/io.html)

In [None]:
# Membaca data


### Melihat Data
Berikut adalah beberapa fungsi dasar untuk melihat data di Pandas:
- `head(n)` : Berfungsi untuk melihat data sebanyak n pada baris awal (jika tidak diisi, secara default n = 5)
- `tail(n)`: Berfungsi untuk melihat data sebanyak n pada baris akhir (jika tidak diisi, secara default n = 5)
- `shape` : Melihat jumlah baris dan kolom
- `info()` : Menampilkan nomor index beserta tipe datanya
- `describe()` : Menunjukkan rangkuman statistik seperti rata-rata, median, dll pada kolom

In [None]:
# Menggunakan head


In [None]:
# Menggunakan tail


In [None]:
# Menggunakan shape


In [None]:
# Menggunakan info


In [None]:
# Menggunakan describe


### Memilih Data
Terdapat dua metode untuk memilih baris dan kolom di Pandas, yaitu menggunakan `iloc` dan `loc`. Secara singkat, `iloc` memilih data berdasarkan indeks/posisi nya, sedangkan `loc` memilih data berdasarkan dengan labelnya.

#### 1. iloc
Kita dapat memilih baris dan kolom dengan `iloc` menggunakan syntax seperti berikut:

`data.iloc[indeks baris, indeks kolom]`

In [None]:
# Memilih baris dan kolom menggunakan iloc


In [None]:
# Memilih baris menggunakan iloc


In [None]:
# Memilih kolom menggunakan iloc


In [None]:
# Memilih beberapa baris dan kolom menggunakan iloc


#### 2. loc
Kita dapat memilih baris dan kolom dengan `loc` menggunakan syntax seperti berikut:

`data.loc[indeks baris, nama kolom]`

In [None]:
# Memilih baris dan kolom menggunakan loc


In [None]:
# Memilih kolom menggunakan loc


In [None]:
# Memilih beberapa baris dan kolom menggunakan loc


Note: 

`iloc` menggunakan aturan indexing yang sama dengan Python dimana elemen pertama pada range diikutkan sedangkan elemen terakhir tidak diikutkan Sehingga untuk range `0:5`, `iloc` akan memilih  elemen 0,1,2,3,4. 

Sedangkan, `loc` mengikutsertakan elemen terakhir pada range sehingga untuk range `0:5` yang dipilih adalah elemen 0,1,2,3,4,5.

#### **Latihan**
Gunakan `iloc` atau `loc` untuk memilih 100 baris pertama dengan kolom `Product`, `Unit_Price`, dan 'Order_Quantity`

In [None]:
# Jawaban:


### Memfilter Data
Kita bisa memfilter atau menyeleksi data berdasarkan kondisi. Beberapa orang menyebutnya *Boolean Selection* atau *Boolean Indexing* karena kita menggunakan logika yang sama seperti ketika kita ingin membuat kondisi pada if else.

In [None]:
# Memfilter data berdasarkan jenis kelamin


In [None]:
# Memfilter data berdasarkan usia


Untuk memfilter data dengan lebih dari satu kondisi, kita dapat menggunakan:
- Simbol `&` untuk `dan`
- Simbol `|` untuk `atau`

In [None]:
# Memfilter data berdasarkan jenis kelamin dan usia


Kita dapat menggunakan fungsi `isin` untuk memilih data yang nilainya terdapat dalam sebuah list.

In [None]:
# Menggunakan isin


#### **Latihan**
Dapatkan seluruh data penjualan di negara `Australia` untuk pelanggan dalam kelompok umur `Adults (35-64)`

In [None]:
# Jawaban:


### Sorting dan Grouping
Kita dapat melakukan sorting data dengan menggunakan fungsi `sort_values()` pada Pandas. Secara default, data akan diurutkan dari nilai yang rendah ke tinggi (secara ascending). Akan tetapi, kita juga dapat mengurutkan data dari tinggi ke rendah (descending) dengan cara menambahkan argumen `ascending = False`

In [None]:
# Menggunakan sort_values


In [None]:
# Menggunakan sort_values dengan beberapa kolom


Di Pandas, kita juga dapat melakukan pengelompokan data berdasarkan kolom tertentu menggunakan fungsi `groupby()`

In [None]:
# Grouping berdasarkan product


Setelah melakukan grouping, kita akan mendapatkan `DataFrameGroupBy object` yang dapat kita gunakan untuk melakukan berbagai analisis dan perhitungan statistik

In [None]:
# Menghitung jumlah dengan count


In [None]:
# Menghitung rata-rata pada masing-masing kategori


In [None]:
# Menghitung nilai maksimum/minimum


Kita juga dapat melakukan beberapa perhitungan sekaligus menggunakan fungsi `agg()`

In [None]:
# Menggunakan agg


#### **Latihan**
Berapakah nilai minimum, maksimum, dan rata-rata `Order_Quantity` untuk setiap kategori produk?

In [None]:
# Jawaban:


### Visualisasi Data
Kita juga dapat melakukan data visualisasi di Pandas yang didukung oleh library [Matplotlib](https://matplotlib.org).

Dengan fungsi `plot`, kita dapat menghasilkan berbagai jenis visualisasi data melalui argumen `kind` sebagai berikut:

- "bar" untuk bar chart (vertikal)
- "barh" untuk bar chart (horizontal)
- "pie" untuk pie chart
- "hist" untuk histogram
- "box" untuk box plot

List lebih lengkap dapat dilihat di link [ini](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html)

In [None]:
# Membuat bar chart (vertikal)


Salah satu fungsi lain yang berguna untuk plotting adalah `value_counts`. Dengan fungsi ini, kita dapat dengan mudah memperoleh jumlah observasi berdasarkan kategori/kolom tertentu

In [None]:
# Menggunakan value_counts


In [None]:
# Menambahkan title, xlabel, dan ylabel


In [None]:
# Membuat histogram


In [None]:
# Membuat box plot


#### **Latihan**
Buatlah sebuah pie chart untuk menunjukkan pembagian kategori `Age_Group` pada data penjualan. Tambahkan judul yang sesuai pada pie chart yang dihasilkan.

In [None]:
# Jawaban:


### References:
- https://pandas.pydata.org/pandas-docs/stable/getting_started/index.html
- https://www.kaggle.com/learn/pandas