<a href="https://colab.research.google.com/github/richardcsuwandi/ppsd-coding-workshop/blob/main/template.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introduction to Data Analysis with Pandas

By: [Richard Cornelius Suwandi](https://richardcsuwandi.github.io/)

<p align="center">
  <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png" width=300/>
</p>


## Apa itu Pandas?
Pandas merupakan sebuah package/library dalam Python yang dapat digunakan untuk melakukan analisis, manipulasi, dan pembersihan data. 

Pandas juga mendukung pembacaan dan penulisan data dengan berbagai format file (seperti `.txt`, `.csv`, dan `.xlsx`) yang kemudian akan dijadikan sebagai objek Python dengan baris dan kolom yang disebut `DataFrame` seperti gambar berikut:

<p align="center">
  <img src="https://pandas.pydata.org/pandas-docs/stable/_images/01_table_dataframe1.svg" width=400/>
</p>

## Menginstall Pandas
Pandas secara default tidak tersedia pada modul standar disaat pertama kali instalasi Python dan kita diharuskan untuk melakukan instalasi terlebih dahulu sebelum menggunakan. Untuk dapat menginstall Pandas, kita bisa menjalankan perintah:

`pip install pandas`

Atau dengan menggunakan library Anaconda, kita bisa menginstallnya dengan perintah berikut:

`conda install pandas`

In [None]:
# Menginstall Pandas
!pip install pandas

Note: 

Dalam Google Colab, beberapa library untuk data science dan machine learning (seperti NumPy, Pandas, Matplotlib, dan Scikit-Learn) sudah terinstalasi secara otomatis sehingga kita dapat langsung menggunakannya.

## Menggunakan Pandas
Sebelum kita mulai, mari kita import terlebih dahulu library pandas. Kita melakukan `import pandas as pd` untuk mempermudah penulisan, sehingga kita dapat menulis `pd` sebagai alias dari `pandas`

In [None]:
# Import library pandas
import pandas as pd

### Struktur Data di Pandas
Pandas memiliki dua tipe struktur data:
- Series
- DataFrame


#### **Series**
Series merupakan struktur data dasar dalam Pandas. Series bisa juga diibaratkan sebagai array satu dimensi yang mempunyai index sehingga kita dapat mengontrol index dari setiap elemen tersebut. Tipe data yang bisa ditampung berupa integer, float, dan juga string.

#### **DataFrame**
DataFrame merupakan array dua dimensi dengan baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data. Setiap kolom pada DataFrame merupakan objek dari Series, dan baris terdiri dari elemen yang ada pada Series. Baris berguna untuk menyimpan informasi dan kolom untuk menyimpan nama dari informasi tersebut.

Sebagai contoh, berikut adalah perbandingan antara Series dan DataFrame:

<p align="center">
  <img src="https://petruknisme.com/wp-content/uploads/2019/04/series-and-dataframe.width-1200.png" width=600 />
</p>

#### Membuat Series di Pandas
Series pada Pandas bisa dibuat dengan menggunakan fungsi `pd.Series`. Kita bisa menggunakan Python list ataupun NumPy array sebagai data untuk membuat Series. Berbeda dengan Python list, Series hanya dapat berisi data dengan tipe yang sama

In [None]:
# Series dengan data
data = ["a", "b", "c", "d"]
series = pd.Series(data)
series

Kita bisa mengakses data pada Series menggunakan indeks seperti halnya pada Python list

In [None]:
# Akses data dengan indeks
series[0]

Seperti halnya Python list, Pandas juga mendukung operasi slicing dengan format `start:stop:step`

In [None]:
# Data dari indeks 0 hingga 4 dengan step 2
series[0:4:2]

In [None]:
# Data dari indeks ke-2 dan setelahnya
series[2:]

In [None]:
# Data sebelum indeks ke-3
series[:3]

Untuk menampilkan data dengan indeks berbeda, kita bisa menggunakan *multi-indexing*

In [None]:
# Data pada indeks 0 dan 3
series[[0,3]]

#### Membuat DataFrame di Pandas
DataFrame pada Pandas bisa dibuat dengan menggunakan method `pd.DataFrame`. Kita bisa menggunakan Python dictionary sebagai data untuk membuat DataFrame

In [None]:
# Membuat DataFrame
data = {"Negara": ["Indonesia", "Jepang", "India"],
        "Ibukota": ["Jakarta", "Tokyo", "New Delhi"]}

df = pd.DataFrame(data)
df

#### **Latihan**
Gunakan Pandas DataFrame untuk membuat tabel seperi berikut:

|Nama  |Usia|Jenis Kelamin |
|------|----|-------------|
|John  |20  |Laki-Laki    |
|Emily |18  |Perempuan    |
|Anna  |17  |Perempuan    |
|Kevin |21  |Laki-Laki    |

In [None]:
# Jawaban:


### Membaca Data di Pandas
Kita dapat membaca file dengan menggunakan fungsi `pd.read_<file type>`. Sebagai contoh, untuk membaca file .csv kita dapat menggunakan fungsi `pd.read_csv`

Baca lebih lanjut: https://pandas.pydata.org/pandas-docs/stable/reference/io.html

Kita akan menggunakan data Titanic dari [Kaggle](https://www.kaggle.com/c/titanic/data), yang berisi informasi mengenai penumpang kapal Titanic.

<p align="center">
  <img src="https://miro.medium.com/max/945/1*jbSpcYChTyfeT1fmr9AHAQ.png" width=600 />
</p>

Data juga bisa di download melalui GitHub repository untuk coding workshop ini [disini](https://github.com/richardcsuwandi/ppsd-coding-workshop/blob/main/titanic.csv)

In [None]:
  # Membaca data
  url = "https://raw.githubusercontent.com/richardcsuwandi/ppsd-coding-workshop/main/titanic.csv"
  df = pd.read_csv(url)
  df

### Melihat Data
Berikut adalah beberapa fungsi dasar untuk melihat data di Pandas:
- `head(n)` : Berfungsi untuk melihat data sebanyak n pada baris awal (jika tidak diisi, secara default n = 5).
- `tail(n)` : Berfungsi untuk melihat data sebanyak n pada baris akhir (jika tidak diisi, secara default n = 5).
- `shape` : Melihat jumlah baris dan kolom.
- `info()` : Menampilkan nomor index beserta tipe datanya.
- `describe()` : Menunjukkan rangkuman statistik seperti rata-rata, median, dll pada kolom.

In [None]:
# Menggunakan head
df.head()

In [None]:
# Menggunakan tail
df.tail()

In [None]:
# Menggunakan shape
df.shape

In [None]:
# Menggunakan info
df.info()

In [None]:
# Menggunakan describe
df.describe()

### Memilih Baris dan Kolom

Terdapat dua metode untuk memilih baris dan kolom di Pandas, yaitu menggunakan `iloc` dan `loc`. Secara singkat, `iloc` memilih data berdasarkan indeks/posisi nya, sedangkan `loc` memilih data berdasarkan dengan labelnya.

#### iloc
Kita dapat memilih baris dan kolom dengan `iloc` menggunakan syntax seperti berikut:

`df.iloc[indeks baris, indeks kolom]`

In [None]:
# Memilih baris dan kolom menggunakan iloc
df.iloc[0, 1]

In [None]:
# Memilih baris menggunakan iloc
df.iloc[0]

In [None]:
# Memilih kolom menggunakan iloc
df.iloc[:, 0]

In [None]:
# Memilih beberapa baris dan kolom menggunakan iloc
df.iloc[0:5, [1,3,4]]

#### loc
Kita dapat memilih baris dan kolom dengan `loc` menggunakan syntax seperti berikut:

`df.loc[indeks baris, nama kolom]`

In [None]:
# Memilih baris dan kolom menggunakan loc
df.loc[0, "Name"]

In [None]:
# Memilih kolom menggunakan loc
df.loc[:, "Name"]

In [None]:
# Memilih beberapa baris dan kolom menggunakan loc
df.loc[0:4, ["Name", "Sex", "Age"]]

Note: 

`iloc` menggunakan aturan indexing yang sama dengan Python dimana elemen pertama pada range diikutkan sedangkan elemen terakhir tidak diikutkan Sehingga untuk range `0:10`, `iloc` akan memilih  elemen 0,...,9. 

Sedangkan, `loc` mengikutsertakan elemen terakhir pada range sehingga untuk range `0:10` yang dipilih adalah elemen 0,...,10.

#### **Latihan**
Gunakan `iloc` atau `loc` untuk memilih 100 baris pertama dengan kolom `Name`, `Age`, `Sex` dan `Survived`

In [None]:
# Jawaban:


### Memfilter Data di Pandas
Kita bisa memfilter atau memilih data berdasarkan kondisi. Beberapa orang menyebutnya *Boolean Selection* atau *Boolean Indexing* karena kita menggunakan logika yang sama seperti ketika kita ingin membuat kondisi pada if else.

In [None]:
# Data dengan jenis kelamin female
df["Sex"] == "female"

In [None]:
# Memfilter data berdasarkan jenis kelamin
kondisi = df["Sex"] == "female"
df[kondisi]

In [None]:
# Memfilter data berdasarkan usia
kondisi = df["Age"] > 20
df[kondisi]

Kita juga dapat menggunakan lebih dari satu kondisi:
- Simbol `&` untuk `dan`
- Simbol `|` untuk `atau`

In [None]:
# Memfilter data berdasarkan jenis kelamin dan usia
kondisi = (df["Sex"] == "female") & (df["Age"] > 20)
df[kondisi]

Kita dapat menggunakan fungsi `isin` untuk memilih data yang nilainya terdapat dalam sebuah list.

In [None]:
# Menggunakan isin
kondisi = df["Pclass"].isin([1, 2])
df[kondisi]

#### Sorting dan Grouping
Kita melakukan sorting data dengan menggunakan function `sort_values` pada Pandas 

In [None]:
# Sort data berdasarkan 1 kolom
df.sort_values(by = "Fare")

Secara default, data akan diurutkan dari nilai yang rendah ke tinggi (secara ascending). Akan tetapi, kita juga dapat mengurutkan data dari tinggi ke rendah (descending) dengan cara menambahkan argumen `ascending = False`

In [None]:
# Sort data secara descending
df.sort_values(by="Fare", ascending=False) 

In [None]:
# Sort data berdasarkan beberapa kolom
df.sort_values(by=["Age", "Fare"], ascending=False)

Di Pandas, kita juga dapat melakukan pengelompokan data berdasarkan kolom tertentu menggunakan fungsi `groupby`

In [None]:
# Grouping berdasarkan jenis kelamin
df_by_sex = df.groupby("Sex")
df_by_sex

Setelah melakukan grouping, kita akan mendapatkan `DataFrameGroupBy object` yang dapat kita gunakan untuk melakukan berbagai analisis dan perhitungan statistik

In [None]:
# Menghitung jumlah dengan size
df_by_sex.size()

In [None]:
# Menghitung jumlah dengan count
df_by_sex.count()

In [None]:
# Menghitung rata-rata masing-masing kategori
df_by_sex.mean()

In [None]:
# Menghitung nilai maksimum
df_by_sex["Age"].max()

In [None]:
# Menghitung nilai minimum
df_by_sex["Age"].min()

Kita juga dapat melakukan beberapa perhitungan sekaligus menggunakan fungsi `agg`

In [None]:
# Menggunakan agg
df_by_sex["Age"].agg(["mean", "max", "min"])

#### **Latihan**
Berapakah nilai minimum, maksimum, dan rata-rata usia untuk setiap kategori `Pclass`?

In [None]:
# Jawaban:


### Visualisasi Data di Pandas
Kita juga dapat melakukan data visualisasi di Pandas yang didukung oleh library [Matplotlib](https://matplotlib.org).

Dengan fungsi `plot`, kita dapat menghasilkan berbagai jenis visualisasi data melalui argumen `kind` sebagai berikut:

- "bar" untuk bar chart (vertikal)
- "barh" untuk bar chart (horizontal)
- "pie" untuk pie chart
- "hist" untuk histogram
- "box" untuk box plot

List lebih lengkap dapat dilihat disini: https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html

In [None]:
# Membuat bar chart (vertikal)
df.groupby("Pclass").count()["Name"].plot(kind="bar")

Salah satu fungsi lain yang berguna untuk plotting adalah `value_counts`. Dengan fungsi ini, kita dapat dengan mudah memperoleh jumlah observasi berdasarkan kategori/kolom tertentu

In [None]:
# Menggunakan value_counts
df["Pclass"].value_counts()

Kita juga dapat memberi keterangan seperti judul dan label untuk sumbu x dan y dengan menambahkan argumen `title`, `xlabel`, dan `ylabel`

In [None]:
# Menambahkan title, xlabel, dan ylabel
df["Pclass"].value_counts().plot(kind="bar",
                                 title="Jumlah Penumpang Berdasarkan Pclass",
                                 xlabel="Pclass",
                                 ylabel="Jumlah")

In [None]:
# Membuat bar chart (horizontal) 
df["Pclass"].value_counts().plot(kind="barh")

In [None]:
# Membuat pie chart
df["Sex"].value_counts().plot(kind="pie")

In [None]:
# Membuat histogram
df["Age"].plot(kind="hist")

In [None]:
# Membuat box plot
df["Age"].plot(kind="box")

References:
- https://pandas.pydata.org/pandas-docs/stable/getting_started/index.html
- https://www.kaggle.com/learn/pandas