# MFM: Basic Data Science Library

Aktivitas yang paling sering dilakukan oleh data scientist ataupun data analyst melakukan **eksplorasi data**. Untuk melakukannya, data scientist umumnya tidak cukup hanya menggunakan *built-in library*, diperlukan *third-party library* yang harus dipasang. Beberapa *library* yang umum digunakan seperti:

1. NumPy
2. Pandas
3. Matplotlib
4. Seaborn

Oleh karena itu, kita akan berkenalan dengan 4 *library* di atas dan mencoba melakukan data eksplorasi pada dataset publik.

## Outline

1. Intro to NumPy, Pandas, Matplotlib, & Seaborn

    1.1. The Power of NumPy

    1.2. Pandas Is All You Need

    1.3. Visualizing Data with Matplotlib & Seaborn

2. Exploratory Data Analysis: [Stackoverflow Survey 2020](https://insights.stackoverflow.com/survey/)

In [None]:
# import things
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

## 1. Intro to NumPy, Pandas, Matplotlib, & Seaborn

Sebelum kita mulai menggunakan ke-4 *library* ini, pastikan semuanya sudah terpasang. Kita bisa cek menjalankan perintah berikut pada cell baru:

```bash
!pip list | grep -E "numpy|matplotlib|pandas|seaborn"
```

Perintah di atas akan menampilkan nama *library* beserta angka *version* yang terpasang. Jika belum, kita bisa pasang menggunakan perintah:

```bash
!pip install numpy matplotlib pandas seaborn
```

In [None]:
# uncomment below code to check installed packages
#!pip list | grep -E "numpy|matplotlib|pandas|seaborn"

In [None]:
# uncomment below code to install necessary packages, if you haven't
#!pip install numpy matplotlib pandas seaborn

Untuk kemudahan, kita bisa memasang package yang ditulis dalam file `requirements.txt` dengan perintah `!pip install -r requirements.txt`.

### 1.1. The Power of NumPy

> [NumPy](https://numpy.org/) is an open source project aiming to enable numerical computing with Python. It was created in 2005, building on the early work of the Numerical and Numarray libraries - [numpy official site](https://numpy.org/about/)

Dari definisi resmi di atas, kita sudah paham bahwa NumPy adalah sebuah package yang digunakan untuk **komputasi numerik**.

#### Why NumPy (instead of built-in List)?

Dengan menggunakan NumPy array, kita bisa melakukan operasi matematika yang tidak bisa dilakukan oleh List. Selain itu, NumPy array lebih cepat daripada List ([*referensi*](https://towardsdatascience.com/how-fast-numpy-really-is-e9111df44347#:~:text=Even%20for%20the%20delete%20operation,also%20frees%20the%20memory%20faster.)).

#### Array

![](https://numpy.org/devdocs/_images/np_array.png)
[*Source*](https://numpy.org/devdocs/user/absolute_beginners.html#how-to-create-a-basic-array)

Array adalah struktur data utama dalam NumPy. NumPy array juga mengonsumsi lebih sedikit memori dan mempunyai mekanisme menentukan tipe data ([*referensi*](https://numpy.org/devdocs/user/absolute_beginners.html#what-is-an-array)).

In [None]:
arr_1 = np.array([1, 2, 3])
arr_1

In [None]:
type(arr_1)

> `numpy.ndarray` adalah sebuah *class* yang merepresentasikan vektor dan juga matriks

In [None]:
# dimensi array
arr_1.shape

**Vektor** adalah array berdimensi satu (vektor baris = vektor kolom), sedangkan **matriks** adalah array berdimensi dua.

In [None]:
arr_2 = np.array([[0, 1, 2], [1, 2, 3]])
arr_2

In [None]:
arr_2.shape

#### Pembuatan Array Otomatis

Selain dengan `np.array`, kita juga bisa membuat array secara otomatis dengan nilai dan pola tertentu.

In [None]:
arr_zeros = np.zeros((3, 3))
arr_zeros

In [None]:
arr_ones = np.ones((2, 2))
arr_ones

In [None]:
arr_empty = np.empty(2)
arr_empty

In [None]:
arr_arange = np.arange(start=-3, stop=4, step=1)
arr_arange

In [None]:
arr_space = np.linspace(start=1, stop=2)
arr_space

In [None]:
arr_identity = np.eye(4)
arr_identity

In [None]:
arr_full = np.full((4, 4), 5)
arr_full

#### Indexing dan Slicing

NumPy array juga memberikan kita keleluasaan untuk mengambil sebagian nilai dalam suatu array.

![](https://www.oreilly.com/library/view/python-for-data/9781449323592/httpatomoreillycomsourceoreillyimages2172112.png)
[*Source*](https://www.oreilly.com/library/view/python-for-data/9781449323592/ch04.html)

In [None]:
arr_2

In [None]:
print("row 0:", arr_2[0, ...])    # atau arr_2[2, ...] = arr_2[2, :]
print("row 1:", arr_2[1, :])

In [None]:
# TODO: ambil semua baris pada kolom 0 dan kolom 1
print(arr_2[...])

# TODO: ambil dari `arr_2` sehingga jadi [[3, 1], [2, 0]]
print(arr_2[...])

#### Fungsi yang Sering Digunakan

Beberapa fungsi yang sering digunakan saat eksplorasi data.

**Pengambilan sampel acak**: `np.random`

In [None]:
arr_random = np.random.rand(5, 5)    # bilangan acak berdistribusi uniform dengan ukuran 5x5
arr_random

In [None]:
arr_randn = np.random.randn(4, 10)
arr_randn

In [None]:
arr_randint = np.random.randint(low=-10, high=10, size=(2, 3))
arr_randint

> <span style="color: red">! NEW API !</span> Sebagai catatan, versi terbaru NumPy menyarankan untuk menggunakan `np.random.default_rng()` setiap kali kita ingin membangkitkan bilangan acak.

**Pengubahan ukuran array**: `np.reshape`, `arr.flatten`

In [None]:
print("ukuran array:", arr_randn.shape)

arr_randn_2 = arr_randn.reshape(5, 8)    # atau dengan np.reshape
print("ukuran array baru:", arr_randn_2.shape)
print(arr_randn_2)

In [None]:
arr_flatten = arr_randn.flatten()
print("ukuran array flatten:", arr_flatten.shape)
print(arr_flatten)

**Penggabungan array**: `np.concatenate`

In [None]:
arr_randint_2 = np.concatenate([arr_randint, arr_randint[-1].reshape(1, arr_randint.shape[1])*-1])
arr_randint_2

In [None]:
arr_ero = np.concatenate([np.eye(arr_randint_2.shape[0]), arr_randint_2], axis=1)
arr_ero

**Pengurutan**: `np.sort`

In [None]:
np.sort(arr_2)    # mengurutkan nilai column-wise (default)

In [None]:
np.sort(arr_2, axis=0)

#### Mathematical Formula

Salah satu keunggulan NumPy array adalah kemampuannya untuk melakukan komputasi numerik dengan cepat. Mari kita coba menghitung nilai MSE dengan NumPy array.

<img src="https://numpy.org/devdocs/_images/np_MSE_formula.png" style="width: 50%"/>

[*Source*](https://numpy.org/devdocs/user/absolute_beginners.html#working-with-mathematical-formulas)

In [None]:
generator = np.random.default_rng(41)

y = generator.random((1, 10))
print(y)

yhat = generator.random((1, 10))
print(yhat)

In [None]:
# TODO: hitung nilai MSE dengan fungsi numpy
mse = ...

### 1.2. Pandas Is All You Need

> pandas is a software library written for the Python programming language for **data manipulation** and **analysis**. In particular, it offers data structures and operations for manipulating numerical tables and time series - [wikipedia](https://en.wikipedia.org/wiki/Pandas_(software))

[Pandas](https://pandas.pydata.org/) (dari *panel data*) berfungsi sebagai pondasi dasar tingkat tinggi untuk melakukan analisis data secara praktis ([*source*](https://pandas.pydata.org/about/)). Perbedaan dengan NumPy adalah pandas didesain untuk bekerja dengan data tabular atau heterogen, sedangkan NumPy didesain untuk bekerja dengan data numerik homogen.

## Series

**Series** adalah struktur data berdimensi satu (seperti array 1 dimensi pada NumPy) yang memiliki sebuah label yang biasa disebut ***index***.

![](https://pandas.pydata.org/docs/_images/01_table_series.svg)
[*Source*](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html#each-column-in-a-dataframe-is-a-series)

In [None]:
series_1 = pd.Series([-3, -2, -1, 0, 1, 2, 3])

In [None]:
series_1

In [None]:
series_1.name = "integers"

In [None]:
series_1

In [None]:
print("index:", series_1.index)

# ubah index dengan alfabet
series_1.index = ["a", "b", "c", "d", "e", "f", "g"]

print("index baru:", series_1.index)

In [None]:
series_1

In [None]:
dict_population = {"Texas": 71000, "Oregon": 16000, "Ohio": 35000, "Utah": 500}
states = ["California", "Texas", "Ohio", "Utah"]
s_population = pd.Series(dict_population, index=states, name="population")

In [None]:
s_population

## DataFrame

**DataFrame** merepresentasikan sebuah data berbentuk tabel yang terdiri dari beberapa **kolom** dengan tipe data tertentu dan **baris** dengan *index*-nya.

![](https://pandas.pydata.org/docs/_images/01_table_dataframe.svg)
[*Source*](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html#min-tut-01-tableoriented)

In [None]:
df_marvel = pd.DataFrame({
    "Name": ["Tony Stark", "Strange", "Peter Parker", "Natasha"],
    "Age": [35, 34, 22, 30],
    "Sex": ["Male", "Male", "Male", "Female"]
})
df_marvel

In [None]:
df_array = pd.DataFrame(arr_ero)
df_array

In [None]:
col_array = ["eye_0", "eye_1", "eye_2", "val_0", "val_1", "val_2"]
df_array = pd.DataFrame(arr_ero, columns=col_array)
df_array

In [None]:
print("Nama kolom:", df_array.columns)
print("Nama index:", df_array.index)

Seperti NumPy array, kita bisa mendapatkan ukuran dari sebuah DataFrame/Series dengan variabel `shape`.

In [None]:
n_row, n_col = df_array.shape
print("Jumlah baris:", n_row)
print("Jumlah kolom:", n_col)

## Membaca File

Salah satu keunggulan Pandas adalah kemampuan untuk membaca sebuah file data dan menampilkannya dalam format DataFrame. Pandas menyediakan beberapa function untuk membaca file sesuai dengan [formatnya](https://pandas.pydata.org/pandas-docs/stable/reference/io.html), `read_csv` untuk file `.csv`, `read_excel` untuk file Excel, `read_gbq` untuk membaca tabel dari Google BigQuery, dan lainnya. Sebagai contoh, kita coba baca sebuah data [covid](https://www.kaggle.com/ardisragen/indonesia-coronavirus-cases) di Indonesia.

Kita asumsikan data ada dalam direktori `data/covid-id/` relatif terhadap file notebook.

In [None]:
df_patient = pd.read_csv("data/covid-id/patient.csv")

In [None]:
df_patient.head()    # menampilkan pratinjau 5 baris pertama data

In [None]:
df_patient.tail()    # menampilkan pratinjau 5 baris terakhir data

Jika data berhasil dibaca dengan benar, kita akan temui beberapa kolom dengan nilai `NaN` atau singkatan dari *Not a number*. Jenis nilai ini diturunkan dari NumPy array (`np.nan`) yang juga digunakan dalam Pandas. Salah satu method yang bisa kita gunakann untuk mendapatkan pratinjau keseluruhan tipe data tiap kolom pada DataFrame adalah `info`.

#### Ringkasan DataFrame

In [None]:
df_patient.info()

Informasi di atas menjelaskan beberapa hal:

1. `RangeIndex: 893 entries, 0 to 892` menjelaskan bahwa terdapat **893** baris dengann indeks 0 sampai 892.
2. `Data columns (total 11 columns):` menjelaskan terdapat total 11 kolom yang diikuti informasi tiap kolom di bawahnya
3. Pada tabel di atas, kolom paling kanan, `Dtype` menjelaskan tipe data yang ada pada masing-masing kolom. Beberapa tipe data yang didukung oleh Pandas bisa dilihat di [sini](https://pandas.pydata.org/pandas-docs/stable/getting_started/basics.html#dtypes).
4. Kolom kedua dari kanan merepresentasikan jumlah nilai `non-null` atau nilai yang bukan `NaN` atau `NaT` (nilai N/A untuk tipe data `datetime`).
5. Dua kolom paling kiri sudah jelas menjelaskan nama kolom serta indeks kolom.

Dari informasi yang disediakan oleh method `info` di atas, kita sudah bisa membuat pertanyaan-pertanyaan awal seperti:
* Kolom mana saja yang memiliki *missing value*? **...**
* Berapa persentase *missing value* pada masing-masing kolom? **...**
* Apakah semua kolom sudah berasosiasi dengan tipe data yang benar? **...**

In [None]:
cols_with_missing = df_patient.columns[df_patient.isna().any()].tolist()
cols_without_missing = df_patient.columns[df_patient.notna().all()].tolist()

print("Kolom dengan missing value:", cols_with_missing)
print("Kolom tanpa missing value:", cols_without_missing)

In [None]:
# TODO: hitung persentase missing value tiap kolom
...

In [None]:
df_patient["confirmed_date"].astype("datetime64[ns, Asia/Jakarta]")    # belum tersimpan

In [None]:
df_patient["confirmed_date"]

In [None]:
df_patient["confirmed_time"] = df_patient["confirmed_date"].astype("datetime64[ns, Asia/Jakarta]")
df_patient.head(10)

In [None]:
# TODO: ubah tipe data kolom `released_date` dan `deceased_date` ke dalam tipe data yang seharusnya
...

Selain method `info`, Pandas juga menyediakan function untuk menunjukkan *statistics summary* sesuai dengan tipe data tiap kolom, yaitu [*`describe`*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html).

In [None]:
df_patient.describe()    # stats summary untuk kolom bertipe data numerik

In [None]:
df_patient.describe(exclude="number")    # stats summary untuk kolom-kolom selain kolom numerik

Dari ringkasan statistik di atas, ada 2 kolom dengan persentase *missing value* yang sangat besar, yaitu `released_date` dan `deceased_date`. Ada 2 cara untuk menangani *missing value* pada suatu data, yaitu kita bisa *drop* kolom atau baris dengan *missing value* tersebut atau kita bisa beri nilai berdasarkan rata-rata, median, modus, atau cara lain, sesuai dengan kebutuhan. Untuk kali ini, karena tujuan kita adalah eksplorasi data, kita bisa "buang" 2 kolom tersebut dengan method `drop` atau `dropna`.

> `drop` mengizinkan kita untuk membuang data dengan menentukan baris atau kolom yang hendak dibuang. Sedangkan, `dropna` akan membuang baris atau kolom berdasarkan kondisi ada atau tidaknnya *missing value* pada baris atau kolom tersebut.

In [None]:
df_patient.drop(columns=["released_date", "deceased_date"])

---

Selanjutnya, kita akan coba membaca data dari file Excel, yaitu data kasus harian covid19 di kabupaten kutai timur yang bisa diunduh melalui [Satu Data](https://data.go.id/dataset/data-kasus-harian-covid19).

In [None]:
df_kutai = pd.read_excel("data/covid-id/covid-kutai-timur.xlsx")

In [None]:
df_kutai.describe()

In [None]:
# TODO:
# 1. Tampilkan jumlah baris dan kolom dari data
# 2. Tampilkan 10 baris pertama dan terakhir data
# 3. Tampilkan ringkasan informasi dari data
# 4. Tampilkan statistics summary dari data

Terdapat kolom `Kategori` yang berisi nilai dengan tipe data `object`. Kita bisa mendapatkan ragam nilai dalam kolom tersebut dengan menggunakan method `nunique`, `unique`, dan `value_counts`.

In [None]:
print("Jumlah jenis nilai dalam kolom Kategori:", df_kutai["Kategori"].nunique())

In [None]:
print("Ragam nilai dalam kolom Kategori:", df_kutai["Kategori"].unique())

In [None]:
print("Frekuensi kemunculan tiap nilai dalam Kategori:", df_kutai["Kategori"].value_counts())

In [None]:
# TODO: Dapatkan frekuensi kemunculan tanggal pada kolom `Date`

Sekarang, kita coba tampilkan seluruh data pada tanggal `2020-03-22` dan `2020-03-23`.

In [None]:
df_kutai.loc[df_kutai["Date"]=="2020-03-22"]

In [None]:
df_kutai.loc[df_kutai["Date"]=="2020-03-23"]

Ternyata, setiap tanggal berasosiasis dengan `total_odp`, `total_pdp`, `total_terkonfirmasi`, `total_meninggal`, dan `total_sembuh`. Sehingga, kita bisa asumsikan bahwa jumlah baris dalam data tidak merepresentasikan jumlah data sebenarnya, yaitu data per hari. Kita bisa melakukan perubahan terhadap data sehingga data baru memiiliki bentuk seperti:

| Date | total_odp | total_pdp | total_terkonfirmasi | total_meninggal | total_sembuh |
| ----: | ---------: | ---------: | -------------------: | ---------------: | ------------: |
| 2020-03-23 | 112.0 | 3.0 | 2.0 | 0.0 | 0.0 |
| ... | ... | ... | ... | ... | ... |

Untuk melakukan ini, kita bisa menggunakan method [*`pivot`*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pivot.html#pandas.DataFrame.pivot) atau [*`pivot_table`*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pivot_table.html#pandas.DataFrame.pivot_table).

In [None]:
df_kutai.pivot(index="Date", columns="Kategori", values="total")

In [None]:
pd.pivot_table(df_kutai, values="total", index="Date", columns="Kategori")

In [None]:
pivot_kutai = df_kutai.pivot(index="Date", columns="Kategori", values="total").reset_index().rename_axis(None, axis=1)
pivot_kutai.head(10)

Dalam dataframe `df_kutai`, sekilas memang terdapat banyak duplikasi data. Tapi karena kita tahu representasi satu data dengan nilai `Date` atau `Kategori` yang sama berbeda, kita bisa langsung menggunakan `pivot` untuk membuat dataframe baru yang lebih representatif. Akan tetapi, kita mungkin akan menjumpai dataframe yang memiliki data yang nilai pada tiap kolomnya sama. Kita bisa cek kondisi seperti ini dengan method `duplicated`.

In [None]:
df_kutai.duplicated(subset="Date")

In [None]:
df_kutai[~df_kutai.duplicated(subset="Date")]

In [None]:
df_kutai.drop_duplicates(subset="Date")

### 1.3. Visualizing Data with Matplotlib & Seaborn

Visualisasi data sebenanrya sebagian seni dan sebagian lagi sains. Tantangannya adalah bagaimana menghasilkan visual (seni) yang benar tanpa merusak sains dalam data dan sebaliknya. Visualisasi bisa kita bagi menjadi **just right**, **ugly**, **bad**, dan **wrong** ([*referensi*](https://serialmentor.com/dataviz/introduction.html)).

<img src="https://serialmentor.com/dataviz/introduction_files/figure-html/ugly-bad-wrong-examples-1.png" style="width: 50%"/>

> “Matplotlib is a Python 2D plotting library which produces publication quality figures in a variety of hardcopy formats and interactive environments across platforms. Matplotlib can be used in Python scripts, the Python and IPython shells, the Jupyter notebook, web application servers, and four graphical user interface toolkits.” - [TDS](https://medium.com/analytics-vidhya/a-beginners-guide-to-matplotlib-for-data-visualization-and-exploration-in-python-3fb32d03c3cd)


Sebagai latihan untuk visualisasi data, kita akan menggunakan data dari [*Food Demand Forecasting*](https://datahack.analyticsvidhya.com/contest/genpact-machine-learning-hackathon-1/). Pertama, kita coba baca data dari file `data/food-demand-forecasting/`. Ada 3 data yang akan kita muat:

1. `fulfilment_center_info.csv`: informasi tentang dapur kota (*fulfilment center*)
2. `meal_info.csv`: informasi tentang makanan yang disediakan
3. `train.csv` atau `food_demand.csv`: histori data permintaan makanan

**Perlu diketahui, tujuan kita bukan untuk membuat model machine learning, tapi eksplorasi data yang dibantu dengan visualisasi.**

In [None]:
df_center = pd.read_csv("data/food-demand-forecasting/fulfilment_center_info.csv")
df_center.head()

In [None]:
df_meal = pd.read_csv("data/food-demand-forecasting/meal_info.csv")
df_meal.head()

In [None]:
df_demand = pd.read_csv("data/food-demand-forecasting/food_demand.csv")
df_demand.head()

Pada `df_demand`, kolom `center_id` dan `meal_id` berturut-turut merepresentasikan *identifier* pada `df_center` dan `df_meal`. Daripada kita harus melihat 3 tabel sepanjang melakukan eksplorasi, kita bisa menggabungkan ketiga data ini menjadi satu tabel berdasarkan `center_id` dan `meal_id` menggunakan method [*`merge`*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html) dari Pandas.

In [None]:
df = pd.merge(df_demand, df_center, on="center_id")
df.head()

In [None]:
df = pd.merge(df, df_meal, on="meal_id")
df.head()

#### What to Visualize

Ada beberapa jenis visualisasi yang bisa dibuat sesuai dengan jenis data dan tujuan yang ingin disampaikan.

**Kuantitas**: Bentuk visualisasi yang sering digunakan untuk menunjukkan sebuah *jumlah/kuantitas* dalam suatu kategori adalah **bar plot** (vertikal atau horizontal)

<img src="https://serialmentor.com/dataviz/directory_of_visualizations_files/figure-html/amounts-1.png" style="width: 50%"/>

[*Source*](https://serialmentor.com/dataviz/directory-of-visualizations.html)

Jika terdapat beberapa grup kategori yang ditampilkan nilai jumlahnya, kita bisa membuat **grouped bar** atau **stacked bar**.

<img src="https://serialmentor.com/dataviz/directory_of_visualizations_files/figure-html/amounts_multi-1.png" style="width: 50%"/>

[*Source*](https://serialmentor.com/dataviz/directory-of-visualizations.html)

**Distribusi**: Bentuk visualisasi yang sering digunakan untuk menunjukkan *distribusi* dari suatu kolom adalah *histogram* atau *density plot*.

<img src="https://serialmentor.com/dataviz/directory_of_visualizations_files/figure-html/single-distributions-1.png" style="width: 50%"/>

[*Source*](https://serialmentor.com/dataviz/directory-of-visualizations.html)

Jika kita ingin menampilkan beberapa distribusi untuk dibandingkan satu sama lain, kita bisa menggunakan visualisasi seperti *boxplot*, *violins*, dan lainnya seperti contoh di bawah ini.

<img src="https://serialmentor.com/dataviz/directory_of_visualizations_files/figure-html/multiple-distributions-1.png" style="width: 50%"/>

[*Source*](https://serialmentor.com/dataviz/directory-of-visualizations.html)

**Proporsi**: Untuk tujuan proporsi, kita bisa menggunakan beberapa bentuk visualisasi seperti di bawah ini.

<img src="https://serialmentor.com/dataviz/directory_of_visualizations_files/figure-html/proportions-1.png" style="width: 50%"/>

[*Source*](https://serialmentor.com/dataviz/directory-of-visualizations.html)

**Relasi *x-y***: Untuk tujuan ini, kita bisa menggunakan visualisasi seperti *scatter plot*, *line plot*, ataupun juga *bubble chart* (3 variabel). Berikut beberapa contoh visualisasinya.

<img src="https://serialmentor.com/dataviz/directory_of_visualizations_files/figure-html/basic-scatter-1.png" style="width: 50%"/>

[*Source*](https://serialmentor.com/dataviz/directory-of-visualizations.html)

#### Bar Plot

Misal kita ingin menunjukkan kategori makanan terpopuler dari semua permintaan makanan pada tiap kota. Kita harus menghitung jumlah permintaan untuk setiap kategori terlebih dahulu menggunakan method `groupby`.

Selanjutnya, untuk membuat bar plot, kita gunakan function [`plt.bar`](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.bar.html).

In [None]:
grouped_category = df.groupby(by="category")

In [None]:
sum_category_orders = grouped_category.aggregate({
    "num_orders": np.sum
})

In [None]:
plt.bar(sum_category_orders.index, sum_category_orders["num_orders"])

In [None]:
# ukuran canvas
plt.figure(figsize=(12, 6))

plt.bar(sum_category_orders.index, sum_category_orders["num_orders"])

# konfigurasi di x-axis
plt.xticks(rotation=75)
plt.xlabel("Food Category")

# konfigurasi di y-axis
plt.ylabel("Quantity Sold")

# judul plot
plt.title("Most Popular Food")

plt.show()

In [None]:
plt.figure(figsize=(12, 6))
sns.barplot(sum_category_orders.index, sum_category_orders["num_orders"])
plt.xticks(rotation=75)
plt.xlabel("Food Category")
plt.ylabel("Quantity Sold")
plt.title("Most Popular Food")
plt.show()

#### Pie Chart

Mari kita lihat presentase pesanan untuk setiiap *cuisine*.

In [None]:
total_orders = df["num_orders"].sum()
dict_cuisine = {
    cuisine: df.loc[df['cuisine']==cuisine, "num_orders"].sum() / total_orders
    for cuisine in df["cuisine"].unique()
}

In [None]:
plt.figure(figsize=(12, 6))
plt.pie(
    dict_cuisine.values(),
    labels=dict_cuisine.keys(),
    autopct="%.1f",
    explode=[0., 0., .1, 0.]
)
plt.title("Cuisine Share %")
plt.show()

#### Histogram

Histogram digunakan untuk menampilkan distribusi dari suatu data numerik.

In [None]:
plt.hist(df["base_price"])
plt.show()

In [None]:
plt.figure(figsize=(15, 6))
plt.hist(
    df["base_price"],
    bins=15,
    rwidth=.9,
    color="#F57C01",
    edgecolor="blue"
)
plt.show()

In [None]:
plt.figure(figsize=(15, 6))
sns.distplot(df["base_price"])
plt.show()

#### Line Plot

*Line plot* sering digunakan untuk menampilkan data tren. Dalam kasus ini, kita akan menggunakan data `pivot_kutai`.

In [None]:
plt.figure(figsize=(15, 6))
plt.plot(pivot_kutai["Date"], pivot_kutai["total_odp"], label="total_odp")
plt.plot(pivot_kutai["Date"], pivot_kutai["total_pdp"], label="total_pdp")
plt.title("Pertumbuhan Kasus ODP dan PDP di Kabupaten Kutai Timur")
plt.xlabel("Tanggal")
plt.ylabel("Total Kasus")
plt.legend()
plt.show()

In [None]:
plt.figure(figsize=(15, 6))
sns.lineplot(pivot_kutai["Date"], pivot_kutai["total_odp"], label="total_odp")
sns.lineplot(pivot_kutai["Date"], pivot_kutai["total_pdp"], label="total_pdp")
plt.show()

In [None]:
plt.figure(figsize=(18, 9))
sns.lineplot(x="Date", y="total", hue="Kategori", data=df_kutai)
plt.show()

## Stackoverflow 2020 Survey Data Exploration

Data survey tahun 2020 (dan tahun-tahun sebelumnya), dapat diakses di [sini](https://insights.stackoverflow.com/survey/).

## 📑 Referensi

* VanderPlas, J. 2016. [*Python Data Science Handbook: Essential Tools for Working with Data*](https://www.amazon.com/Python-Data-Science-Handbook-Essential/dp/1491912057). O'Reilly.
* McKinney,W. 2018. [*Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython, 2nd edition,*](https://www.amazon.com/Python-Data-Analysis-Wrangling-IPython-dp-1491957662/dp/1491957662/). O'Reilly.
* Wilke, C.O. 2019. [*Fundamentals of Data Visualization: A Primer on Making Informative and Compelling Figures*](https://serialmentor.com/dataviz/). O'Reilly.
* [*A Beginner’s Guide to matplotlib for Data Visualization and Exploration in Python*](https://medium.com/analytics-vidhya/a-beginners-guide-to-matplotlib-for-data-visualization-and-exploration-in-python-3fb32d03c3cd). Towards Data Science.