<img src="../images/ilmudatapy-logo.png" width="350" align="center">
<br>

<center><h1>Histogram</h1></center>
<hr>

__Halo, Learners!__ Di notebook ini, kita akan membahas __Histogram__. Disini kita akan membuat histogram menggunakan dataset asli, termasuk di antaranya juga <i>plotting multiple histogram</i> dalam satu plot dan juga cara membuat <i>subplots</i>.

<h2>Table of Contents</h2>
<div class="alert alert-block alert-info" style="margin-top: 25px">
    <ul>
        <li>
            Load Dataset
        </li>
        <li>
            Visualisasi data dengan <b>Histogram</b>
            <ul>
                <li>Mendapatkan rentang bin dan frekuensinya dengan Numpy</li>
                <li>Plotting Histogram dengan Matplotlib</li>
                <li>Mengatur rentang bin</li>
                <li>Menambahkan 'best fit' line</li>
            </ul>
        </li>
        <li>
            Multiple Histogram dalam satu plot
            <ul>
                <li>Mengatur transparansi dan warna</li>
                <li>Menyesuaikan min dan max label x-axis</li>
                <li>Stacked histogram</li>
            </ul>
        </li>
        <li>
            Subplots
        </li>
    </ul>
</div>

<hr>
<div class="alert alert-success" style="margin-top: 20px">
    <strong>Catatan:</strong> Untuk menjalankan kode program Python di Jupyter Notebook, klik pada <i>cell</i> yang ingin di-<i>run</i> lalu tekan <kbd>Shift</kbd> + <kbd>Enter</kbd>.
</div>

<div class="alert alert-danger" style="margin-top: 20px">
    <strong>Warning!:</strong> Jika ada kode program yang <i>error</i> atau output yang dihasilkan tidak sesuai, silahkan <b>Restart & Run All</b> kernel pada bagian menu <b>Kernel</b> di menu bar Jupyter Notebook, atau <b>Restart & Clear Output</b> kernel kemudian jalankan satu per satu <i>cell</i> secara berurutan dari atas ke bawah.
</div>
<hr>

## Load dataset

Dataset yang akan kita gunakan dalam praktek kali ini adalah <a href="https://archive.ics.uci.edu/ml/datasets/ILPD+(Indian+Liver+Patient+Dataset)">ILPD (Indian Liver Patient Dataset</a> yang terdiri dari 11 fitur/kolom.

__Attribute Information:__

1. __Age__ : Age of the patient
2. __Gender__ : Gender of the patient
3. __TB__ : Total Bilirubin
4. __DB__ : Direct Bilirubin
5. __Alkphos__ : Alkaline Phosphotase
6. __Sgpt__ : Alamine Aminotransferase
7. __Sgot__ : Aspartate Aminotransferase
8. __TP__ : Total Protiens
9. __ALB__ : Albumin
10. __A/G__ : Ratio Albumin and Globulin Ratio
11. Selector field used to split the data into two sets (labeled by the experts) 

Seperti biasa, kita harus meng-<i>import</i> dulu <i>library</i> yang dibutuhkan. Untuk praktek kali ini, selain Pandas, Numpy dan Matplotlib, kita juga akan membutuhkan Scipy untuk proses penambahan <i>'best fit' line</i>.

In [None]:
# Import libraries

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats

%matplotlib inline

plt.style.use('fivethirtyeight')

Kemudian kita <i>load</i> dataset __ILPD__ dengan <i>method</i> <code>read_csv()</code> dan beri parameter <code>header=None</code> karena dataset ini belum ada <i>header</i>-nya.

In [None]:
# Load dataset

df = pd.read_csv("../datasets/Indian-Liver-Patient-Dataset-(ILPD).csv", header = None)
df.head(10)

Untuk lebih memudahkan kita dalam memproses data, disini kita akan memberikan nama kolom pada dataframe <code>df</code> sesuai dengan informasi dataset di atas.

In [None]:
# Membuat list nama kolom
column_names = ['Age', 'Gender', 'TB', 'DB', 'Alkphos', 'Sgpt', 'Sgot', 'TP', 'ALB', 'A/G', 'Label']

# Mengubah nama kolom
df.columns = column_names
df.head(10)

Selanjutnya kita akan langsung ke praktek membuat Histogram.

<hr>

## Visualisasi data dengan Histogram

__Histogram__ adalah jenis visualisasi data untuk merepresentasikan distribusi frekuensi dari dataset numerik. Sumbu X merepresentasikan bin dari <i>data point</i>, sedangkan sumbu Y merepresentasikan frekuensi atau banyaknya <i>data point</i> pada setiap bin. Ukuran bin dapat disesuaikan agar distribusinya terlihat bagus. Namun, <i>default</i>-nya Python akan membagi menjadi 10 bin.

### Mendapatkan rentang bin dan frekuensinya dengan Numpy

Sebelum mulai memvisualisasikan histogram dengan Matplotlib, mari kita cek terlebih dahulu rentang bin dan masing-masing frekuensinya dengan menggunakan <i>method</i> dari Numpy yaitu <code>histogram()</code>. Misalnya disini kita ingin melihat distribusi frekuensi dari kolom <code>Age</code>.

In [None]:
# Mendapatkan rentang bin dan frekuensinya

count, bin_edges = np.histogram(df['Age'])

print(count)     # menampilkan jumlah frekuensi tiap bin
print(bin_edges) # rentang bin, default = 10

<code>np.histogram</code> akan mengembalikan dua nilai, oleh karena itu kita harus mendefinisikan dua variabel untuk menyimpan hasilnya, misalnya dalam hal ini kita menyimpannya dalam variabel <code>count</code> dan <code>bin_edges</code>. Setelah itu, kita dapat <code>print()</code> untuk melihat hasil rentang bin dan frekuensinya.

Seperti yang kita lihat, jika tidak mendefinisikan jumlah bin, Python akan otomatis membaginya menjadi 10 bin. Namun, jika kita ingin kurang atau lebih dari 10 bin, kita dapat menambahkan parameter <code>bins</code> dan memberikan nilai berupa integer sesuai yang diinginkan seperti di bawah ini.

In [None]:
# Mendapatkan rentang bin dan frekuensinya dengan mendefinisikan jumlah bin

count, bin_edges = np.histogram(df['Age'], bins=15)

print(count)     # menampilkan jumlah frekuensi tiap bin
print(bin_edges) # rentang bin, default = 10

Kita menambahkan parameter <code>bins = 15</code> sehingga Python akan membaginya menjadi 15 bin.

### Plotting Histogram dengan Matplotlib

Selanjutnya, mari kita lakukan <i>plotting</i> Histogram. Ada dua cara yang dapat digunakan, yaitu dengan <i>method</i> <code>hist()</code> dari Matplotlib atau <i>method</i> <code>plot()</code> dari Pandas dengan mendefinisikan <code>kind = 'hist'</code>.

Pertama kita akan praktekkan membuat Histogram dengan <code>hist()</code>. Perhatikan kode di bawah ini.

In [None]:
# Membuat histogram dengan hist()

plt.figure(figsize=(8,5))
plt.hist(df['Age'])     # Membuat histogram

plt.title("Histogram of Indian Liver Patients' Ages") 
plt.ylabel('Number of Patients') 
plt.xlabel('Ages') 
plt.show()

Kita juga dapat menggunakan <i>method</i> <code>plot()</code> dari Pandas seperti di bawah ini.

In [None]:
# Membuat histogram dengan plot()

df['Age'].plot(kind='hist', figsize=(8, 5))

plt.title("Histogram of Indian Liver Patients' Ages") 
plt.ylabel('Number of Patients') 
plt.xlabel('Ages') 

plt.show()

Seperti yang kita lihat, dua cara tersebut menghasilkan plot histogram yang sama persis. Jadi, Anda dapat memilih cara yang paling Anda sukai.

### Mengatur jumlah bin

Jika tidak ingin membagi bin menjadi 10, maka kita harus mendefinisikan sendiri jumlah binnya menggunakan parameter <code>bins</code>. Misalnya pada contoh di bawah ini, kita ingin menvisualisasikan histogram dari kolom <code>Age</code> dengan 15 bin.

In [None]:
# Membuat histogram dengan hist() dan mengatur jumlah bin

plt.figure(figsize=(8,5))
plt.hist(df['Age'], bins=15)     # Membuat histogram

plt.title("Histogram of Indian Liver Patients' Ages") 
plt.ylabel('Number of Patients') 
plt.xlabel('Ages') 
plt.show()

Cara yang sama dalam mengatur bin juga dapat diterapkan pada pembuatan histogram dengan <i>method</i> <code>plot()</code>.

In [None]:
# Membuat histogram dengan 15 bin

df['Age'].plot(kind='hist', figsize=(8, 5), bins=15)

plt.title("Histogram of Indian Liver Patients' Ages") 
plt.ylabel('Number of Patients') 
plt.xlabel('Ages') 

plt.show()

### Mengatur xticks

Seperti yang kita lihat dari histogram di atas, label __xticks__-nya ditempatkan bukan pada batasan tiap bin. Nah, kita dapat mengatur label <i>xticks</i> tersebut dengan parameter <code>xticks</code>. Misalnya pada contoh di bawah ini, kita akan beri nilai <code>xticks = bin_edges</code>.

In [None]:
# Mengatur label xticks

count, bin_edges = np.histogram(df['Age'])

df['Age'].plot(kind='hist', figsize=(8, 5), xticks=bin_edges)

plt.title("Histogram of Indian Liver Patients' Ages") 
plt.ylabel('Number of Patients') 
plt.xlabel('Ages') 

plt.show()

Bagaimana jika jumlah bin-nya ingin selain dari <i>default</i>-nya yakni 10?

Jika seperti itu, pada <code>np.histogram()</code> harus didefinisikan dahulu <code>bins</code>-nya, dan juga saat visualisasi data dengan <code>plot()</code> atau <code>hist()</code> jumlah bin-nya didefinisikan lagi.

In [None]:
# Mengatur bin dan label xticks

count, bin_edges = np.histogram(df['Age'], bins=15)

df['Age'].plot(kind='hist', figsize=(10, 7), bins=15, xticks=bin_edges)

plt.title("Histogram of Indian Liver Patients' Ages") 
plt.ylabel('Number of Patients') 
plt.xlabel('Ages') 

plt.show()

### Menambahkan 'best fit' line

Untuk menambahkan <i>'best fit' line</i>, kita membutuhkan <i>library</i> <code>spipy.stats</code> untuk menampilkan distribusi data. Perhatikan kode berikut.

In [None]:
# Menambahkan 'best fit' line pada histogram

plt.figure(figsize=(10,7))
n, bins, pathes = plt.hist(df['ALB'], 20, density=True)

mu, sigma = scipy.stats.norm.fit(df['ALB'])
best_fit_line = scipy.stats.norm.pdf(bins, mu, sigma)

plt.plot(bins, best_fit_line)
plt.show()

Dalam contoh di atas, kita menggunakan <code>scipy.stats.norm.fit()</code> untuk <i>fitting</i> distribusi normal ke histogram. Sementara itu, <code>scipy.stats.norm.pdf()</code> digunakan untuk menghitung <i>probability density function</i>-nya. Setelah itu, kita plotkan sebagai <i>line plot</i>.

Kita juga dapat mengubah warna dan jenis garisnya seperti di bawah ini.

In [None]:
# Mengubah warna dan jenis garis distribusi normal

plt.figure(figsize=(10,7))
n, bins, pathes = plt.hist(df['ALB'], 20, density=True, alpha=0.5)

mu, sigma = scipy.stats.norm.fit(df['ALB'])
best_fit_line = scipy.stats.norm.pdf(bins, mu, sigma)

plt.plot(bins, best_fit_line, '--', color='gold')
plt.show()

<hr>

## Multiple Histogram dalam satu plot

<i>Plotting</i> lebih dari satu histogram ke dalam satu plot yang sama terkadang diperlukan untuk perbandingan. Kita dapat dengan mudah melakukannya dengan langsung menuliskan nama-nama kolomnya seperti di bawah ini. Misalnya disini kita ingin menempatkan histogram dari kolom <code>TP</code> dan <code>ALB</code>.

In [None]:
# Membuat multiple histogram dalam satu plot

count, bin_edges = np.histogram(df[['TP', 'ALB']])

df[['TP', 'ALB']].plot(kind='hist', figsize=(10, 7), xticks=bin_edges)

plt.title("Histogram of Indian Liver Patients' TP & ALB") 
plt.ylabel('Number of Patients') 
plt.xlabel('TP & ALB') 
plt.legend(['TP: Total Protein', 'ALB: Albumin'], fontsize=14)

plt.show()

Jika kita amati, dua histogram tersebut saling tumpang tindih. Kita dapat mengatur transparansinya untuk melihat batas dari masing-masing histogram.

### Mengatur transparansi dan warna

Sama seperti sebelumnya, kita dapat menggunakan parameter <code>alpha</code> untuk mengatur transparansi. Selain itu, kita juga dapat mengubah warna sesuai keinginan dengan menggunakan parameter <code>color</code>. Perhatikan kode berikut.

In [None]:
# Mengatur transparansi dan warna

count, bin_edges = np.histogram(df[['TP', 'ALB']])

df[['TP', 'ALB']].plot(kind='hist', 
                       figsize=(10, 7), 
                       xticks=bin_edges,
                       alpha=0.6,
                       color=['gold', 'yellowgreen'])

plt.title("Histogram of Indian Liver Patients' TP & ALB") 
plt.ylabel('Number of Patients') 
plt.xlabel('TP & ALB') 
plt.legend(['TP: Total Protein', 'ALB: Albumin'], fontsize=14)

plt.show()

Setelah mengatur transparansi, jadi terlihat batasannya, kan?!

### Menyesuaikan min dan max label x-axis

Menyesuaikan min dan max label x-axis maksudnya menyesuaikan jarak dari nilai minimum histogram atau nilai bin terkecil, dalam kasus ini __0.90__, dengan batas <i>figure</i> kiri, serta jarak nilai maksimum histogram atau nilai bin terbesar, dalam kasus ini __9.60__, dengan batas <i>figure</i> kanan.

Kita perlu mendefinisikan jarak yang diinginkan, misalnya disini kita definisikan dalam variabel <code>xmin</code> dan <code>xmax</code>. Setelah itu, kita perlu menambahkan parameter <code>xlim</code> untuk mengaplikasikan jarak yang sudah diatur tersebut. Perhatikan kode berikut.

In [None]:
# Menyesuaikan min dan max label xticks

count, bin_edges = np.histogram(df[['TP', 'ALB']])
xmin = bin_edges[0] - 0.2     # mengatur ruas kosong antara ujung figure kiri dan bin terkecil sebesar 0.2 
xmax = bin_edges[-1] + 0.2    # mengatur ruas kosong antara ujung figure kanan dan bin terbesar sebesar 0.2

df[['TP', 'ALB']].plot(kind='hist', 
                       figsize=(10, 7), 
                       xticks=bin_edges,
                       alpha=0.6,
                       color=['gold', 'yellowgreen'],
                       xlim=(xmin, xmax))      # menambahkan parameter xlim untuk mengaplikasikan nilai xmin dan xmax        

plt.title("Histogram of Indian Liver Patients' TP & ALB") 
plt.ylabel('Number of Patients') 
plt.xlabel('TP & ALB') 
plt.legend(['TP: Total Protein', 'ALB: Albumin'], fontsize=14)

plt.show()

Sekarang ruas kosong antara ujung <i>figure</i> dengan bin terkecil dan terbesarnya menjadi lebih mengecil dari sebelumnya.

### Stacked histogram

Jika kita tidak ingin membuat histogram yang saling tumpang tindih, kita dapat membuat histogram yang bersusun atau <i>stacked histogram</i> dengan menambahkan parameter <code>stacked = True</code>. Perhatikan kode berikut.

In [None]:
count, bin_edges = np.histogram(df[['TP', 'ALB']])
xmin = bin_edges[0] - 0.2     # mengatur ruas kosong antara ujung figure kiri dan bin terkecil sebesar 0.2 
xmax = bin_edges[-1] + 0.2    # mengatur ruas kosong antara ujung figure kanan dan bin terbesar sebesar 0.2

df[['TP', 'ALB']].plot(kind='hist', 
                       figsize=(10, 7), 
                       xticks=bin_edges,
                       color=['gold', 'yellowgreen'],
                       xlim=(xmin, xmax),
                       stacked=True)

plt.title("Histogram of Indian Liver Patients' TP & ALB") 
plt.ylabel('Number of Patients') 
plt.xlabel('TP & ALB') 
plt.legend(['TP: Total Protein', 'ALB: Albumin'], fontsize=14)

plt.show()

<hr>

## Subplots

Selanjutnya kita akan mempraktekkan cara membuat subplots. Subplots ini tidak hanya dapat kita gunakan untuk histogram, namun juga bisa digunakan untuk jenis visualisasi data lainnya. Jadi misalnya kita ingin membuat subplots yang terdiri dari berbagai jenis plot juga sangat memungkinkan.

Disini kita akan membuat subplots yang terdiri dari 6 histogram dari berbagai kolom di dataframe <code>df</code>. Misalnya kita ingin membuat histogram untuk kolom <code>TB</code>, <code>DB</code>, <code>Sgpt</code>, <code>Sgot</code>, <code>TP</code>, dan <code>ALB</code>. Perhatikan kode berikut.

In [None]:
# Membuat subplot

fig, ax = plt.subplots(ncols=2, nrows=3, figsize=(16, 15)) 

# Menambahkan subplot dengan indexing
ax0 = fig.add_subplot(ax[0,0]) 
ax1 = fig.add_subplot(ax[0,1])  
ax2 = fig.add_subplot(ax[1,0])  
ax3 = fig.add_subplot(ax[1,1]) 
ax4 = fig.add_subplot(ax[2,0])  
ax5 = fig.add_subplot(ax[2,1])  

# Subplot ax[0,0]: TB
df['TB'].plot(kind='hist', ax=ax0)
ax0.set_title("Histogram of Indian Liver Patients' TB (Total Bilirubin)")
ax0.set_ylabel('Number of Patients')
ax0.set_xlabel('Total Bilirubin (TB)')

# Subplot ax[0,1]: DB
df['DB'].plot(kind='hist', ax=ax1) 
ax1.set_title("Histogram of Indian Liver Patients' DB (Direct Bilirubin)")
ax1.set_ylabel('Number of Patients')
ax1.set_xlabel('Direct Bilirubin (DB)')

# Subplot ax[1,0]: Sgpt
df['Sgpt'].plot(kind='hist', ax=ax2) 
ax2.set_title("Histogram of Indian Liver Patients' Sgpt")
ax2.set_ylabel('Number of Patients')
ax2.set_xlabel('Alamine Aminotransferase (Sgpt)') 

# Subplot ax[1,1]: Sgot
df['Sgot'].plot(kind='hist', ax=ax3) 
ax3.set_title("Histogram of Indian Liver Patients' Sgot")
ax3.set_ylabel('Number of Patients')
ax3.set_xlabel('Aspartate Aminotransferase (Sgot)')

# Subplot ax[2,0]: TP
df['TP'].plot(kind='hist', ax=ax4) 
ax4.set_title("Histogram of Indian Liver Patients' TP (Total Protein)")
ax4.set_ylabel('Number of Patients')
ax4.set_xlabel('Total Protein (TB)')

# Subplot ax[2,1]: ALB
df['ALB'].plot(kind='hist', ax=ax5) 
ax5.set_title("Histogram of Indian Liver Patients' ALB (Albumin)")
ax5.set_ylabel('Number of Patients')
ax5.set_xlabel('Albumin (ALB)')

plt.subplots_adjust(wspace=0.2, hspace=0.4)
plt.show()

Kita dapat membuat subplots dengan <code>plt.subplots()</code> yang diberikan argumen berupa: 

* <code>ncols</code> : jumlah kolom yang diinginkan.
* <code>nrows</code> : jumlah baris yang diinginkan.
* <code>figsize</code> : ukuran figure.

Kemudian, kita tambahkan subplots pada <i>figure</i> tersebut dengan <code>fig.add_subplot()</code> yang diberikan argumen berupa posisi tiap axes.

Dalam contoh di atas, kita membuat subplots yang terdiri dari 6 plot dengan 3 baris dan 2 kolom. Selanjutnya, kita buat plotnya pada masing-masing subplot. Kita juga dapat menyesuaikan jarak antar subplot dengan <i>method</i> <code>subplots_adjust()</code> dan memberikan parameter <code>wspace</code> untuk mengatur lebar kanan-kiri, serta <code>hspace</code> untuk mengatur tinggi atas-bawah.

Selanjutnya, mari kita coba membuat subplots dengan 2 baris dan 3 kolom!

In [None]:
# Membuat subplot

fig, ax = plt.subplots(ncols=3, nrows=2, figsize=(16, 10)) 

# Menambahkan subplot dengan indexing
ax0 = fig.add_subplot(ax[0,0])  
ax1 = fig.add_subplot(ax[0,1])  
ax2 = fig.add_subplot(ax[0,2])  
ax3 = fig.add_subplot(ax[1,0]) 
ax4 = fig.add_subplot(ax[1,1])  
ax5 = fig.add_subplot(ax[1,2])  

# Subplot ax[0,0]: TB
df['TB'].plot(kind='hist', ax=ax0) 
ax0.set_title("Histogram of TB (Total Bilirubin)")
ax0.set_ylabel('Number of Patients')
ax0.set_xlabel('Total Bilirubin (TB)')

# Subplot ax[0,1]: DB
df['DB'].plot(kind='hist', ax=ax1) 
ax1.set_title("Histogram of DB (Direct Bilirubin)")
ax1.set_ylabel('Number of Patients')
ax1.set_xlabel('Direct Bilirubin (DB)')

# Subplot ax[0,2]: Sgpt
df['Sgpt'].plot(kind='hist', ax=ax2) 
ax2.set_title("Histogram of Sgpt")
ax2.set_ylabel('Number of Patients')
ax2.set_xlabel('Alamine Aminotransferase (Sgpt)') 

# Subplot ax[1,0]: Sgot
df['Sgot'].plot(kind='hist', ax=ax3) 
ax3.set_title("Histogram of Sgot")
ax3.set_ylabel('Number of Patients')
ax3.set_xlabel('Aspartate Aminotransferase (Sgot)')

# Subplot ax[1,1]: TP
df['TP'].plot(kind='hist', ax=ax4) 
ax4.set_title("Histogram of TP (Total Protein)")
ax4.set_ylabel('Number of Patients')
ax4.set_xlabel('Total Protein (TB)')

# Subplot ax[1,2]: ALB
df['ALB'].plot(kind='hist', ax=ax5) 
ax5.set_title("Histogram of ALB (Albumin)")
ax5.set_ylabel('Number of Patients')
ax5.set_xlabel('Albumin (ALB)')

plt.subplots_adjust(wspace=0.2, hspace=0.4)
plt.show()

<hr>

Copyright @ <a href="https://ilmudatapy.com/">ilmudatapy.com</a>