<img src="../images/ilmudatapy-logo.png" width="350" align="center">
<br>

<center><h1>Scatter Plot</h1></center>
<hr>

__Halo, Learners!__ Di notebook ini, kita akan membahas __Scatter Plot__. Disini kita akan membuat <i>scatter plot</i> menggunakan dataset asli dan mengatur warna <i>data point</i> berdasarkan kategori dan nilai kontinue serta mengatur ukuran <i>data point</i>.

<h2>Table of Contents</h2>
<div class="alert alert-block alert-info" style="margin-top: 25px">
    <ul>
        <li>
            Load Dataset
        </li>
        <li>
            Visualisasi data dengan <b>Scatter Plot</b>
        </li>
        <li>
            Mengatur warna berdasarkan kategori
            <ul>
                <li>Menambahkan legend</li>
            </ul>
        </li>
        <li>
            Mengatur warna berdasarkan nilai kontinu
            <ul>
                <li>Colormap</li>
                <li>Colorbar</li>
            </ul>
        </li>
        <li>
            Bubble Plot
        </li>
    </ul>
</div>

<hr>
<div class="alert alert-success" style="margin-top: 20px">
    <strong>Catatan:</strong> Untuk menjalankan kode program Python di Jupyter Notebook, klik pada <i>cell</i> yang ingin di-<i>run</i> lalu tekan <kbd>Shift</kbd> + <kbd>Enter</kbd>.
</div>

<div class="alert alert-danger" style="margin-top: 20px">
    <strong>Warning!:</strong> Jika ada kode program yang <i>error</i> atau output yang dihasilkan tidak sesuai, silahkan <b>Restart & Run All</b> kernel pada bagian menu <b>Kernel</b> di menu bar Jupyter Notebook, atau <b>Restart & Clear Output</b> kernel kemudian jalankan satu per satu <i>cell</i> secara berurutan dari atas ke bawah.
</div>
<hr>

## Load dataset

Dataset yang digunakan adalah dataset <a href='https://www.kaggle.com/grubenm/austin-weather'>Austin Weather</a> yang terdiri dari 43776 baris dan 6 kolom.

__Feature Information:__

* __Date__ (YYYY-MM-DD)
* __TempHighF__ (High temperature, in Fahrenheit)
* __TempAvgF__ (Average temperature, in Fahrenheit)
* __TempLowF__ (Low temperature, in Fahrenheit)
* __DewPointHighF__ (High dew point, in Fahrenheit)
* __DewPointAvgF__ (Average dew point, in Fahrenheit)
* __DewPointLowF__ (Low dew point, in Fahrenheit)
* __HumidityHighPercent__ (High humidity, as a percentage)
* __HumidityAvgPercent__ (Average humidity, as a percentage)
* __HumidityLowPercent__ (Low humidity, as a percentage)
* __SeaLevelPressureHighInches__ (High sea level pressure, in inches)
* __SeaLevelPressureAvgInches__ (Average sea level pressure, in inches)
* __SeaLevelPressureLowInches__ (Low sea level pressure, in inches)
* __VisibilityHighMiles__ (High visibility, in miles)
* __VisibilityAvgMiles__ (Average visibility, in miles)
* __VisibilityLowMiles__ (Low visibility, in miles)
* __WindHighMPH__ (High wind speed, in miles per hour)
* __WindAvgMPH__ (Average wind speed, in miles per hour)
* __WindGustMPH__ (Highest wind speed gust, in miles per hour)
* __PrecipitationSumInches__ (Total precipitation, in inches) ('T' if Trace)
* __Events__ (Adverse weather events. ' ' if None) 

Pertama kita <i>import</i> dahulu <i>library</i> yang akan digunakan. Dalam praktek ini, kita akan menggunakan Pandas dan Matplotlib.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

Kemudian kita <i>load</i> dataset menggunakan <code>read_csv()</code> dan menyimpannya dalam variabel <code>df</code>.

In [None]:
df = pd.read_csv('../datasets/austin_weather.csv')
df.head(10)

Sekarang mari kita lihat info dari dataset tersebut.

In [None]:
# Cek info dataset

df.info()

Dilihat dari output di atas, tipe data dari sebagian kolom banyak yang belum sesuai. Hampir semua kolom (kecuali <code>Events</code>) bertipe numerik, namun pada dataset tersebut masih bertipe 'object' yang berarti dianggap string. Jika kita cek dataframenya ada beberapa data yang memiliki <i>missing values</i> yang berupa simbol <code>-</code>. Ini yang menyebabkan tipenya terdeteksi sebagai 'object'.

Sekarang mari kita cek apakah ada <i>missing values</i> yang berupa <code>-</code> ?

In [None]:
# Mengecek keberadaan '-' di dataframe

df.isin(['-']).any()

Ternyata sebagian besar kolom dalam dataframe mengandung <code>-</code>. Sebelum lanjut ke visualisasi data, kita harus menangani <i>missing values</i> tersebut terlebih dahulu.

Pertama, kita harus <i>replace</i> simbol <code>-</code> dengan <code>NaN</code>, kemudian mengisi <code>NaN</code> dengan nilai yang sama dengan <i>cell</i> sebelumnya (di atasnya) menggunakan <i>method</i> <code>ffill</code>.

In [None]:
# Replace dan fill missing values

df = df.replace('-', np.NaN).fillna(method='ffill')

Setelah itu kita ubah tipe datanya.

Dalam praktek visualisasi data kali ini, saya nantinya hanya akan menggunakan empat kolom tertentu yaitu <code>TempAvgF</code>, <code>DewPointAvgF</code>, <code>HumidityAvgPercent</code>, dan <code>WindAvgMPH</code> sehingga kita akan mengubah tipe data dari kolom-kolom tersebut saja.

Tipe data <code>TempAvgF</code> sudah sesuai, karena itu kita tidak perlu mengubahnya. Sementara itu untuk tiga kolom lainnya, kita akan mengubahnya menjadi bertipe float.

In [None]:
# Mengubah tipe data

df['DewPointAvgF'] = df['DewPointAvgF'].astype('float')
df['HumidityAvgPercent'] = df['HumidityAvgPercent'].astype('float')
df['WindAvgMPH'] = df['WindAvgMPH'].astype('float')

Sekarang data yang diperlukan sudah siap divisualisasi. 

<hr>

## Visualisasi data dengan Scatter Plot

__Scatter plot__ adalah jenis visualisasi data untuk menunjukkan hubungan antara dua variabel. Dengan <i>scatter plot</i>, Anda dapat melihat distribusi data dan bagaimana <i>trend</i>-nya. Kita dapat membuat <i>scatter plot</i> dengan cara <i>explicit</i> dan <i>implicit</i>. 

Misalnya disini kita ingin membuat <i>scatter plot</i> untuk melihat hubungan antara variabel <code>HumidityAvgPercent</code> dan <code>TempAvgF</code>. 

In [None]:
# Membuat scatter plot dengan cara implicit

plt.scatter(df['HumidityAvgPercent'], df['TempAvgF'])
plt.show()

Selain cara <i>implicit</i> yang terbilang mudah seperti di atas, kita juga dapat menggunakan cara <i>explicit</i> seperti di bawah ini.

In [None]:
# Membuat scatter plot dengan cara explicit

fig, ax = plt.subplots()
ax.scatter(df['HumidityAvgPercent'], df['TempAvgF'])

plt.show()

Kita dapat mengatur ukuran <i>figure</i>, label, serta menambahkan judul.

In [None]:
# Mengatur figsize, label, dan judul

fig, ax = plt.subplots(figsize=(12,8))
ax.scatter(df['HumidityAvgPercent'], df['TempAvgF'])

ax.set_title('Austin Weather', size=18)
ax.set_xlabel('Humidity Avg %', size=14)
ax.set_ylabel('Temp Avg (F)', size=14)

plt.show()

<hr>

## Mengatur warna berdasarkan kategori

kita dapat menggunakan <i>scatter plot</i> untuk melihat hubungan dari beberapa kelompok data dengan memberikan warna yang berbeda untuk membedakan tiap kelompok data. 

Misalnya kita ingin melihat hubungan antara variabel <code>HumidityAvgPercent</code>, <code>TempAvgF</code>, dan <code>Events</code>. Kita dapat meletakkan <code>HumidityAvgPercent</code> di sumbu X, <code>TempAvgF</code> di sumbu Y, dan <code>Events</code> sebagai warnanya.

Sebelumnya, kita cek terlebih dahulu nilai unik dari kolom <code>Events</code>.

In [None]:
# Menampilkan nilai unik dari kolom Events

df['Events'].unique()

Ada 9 kategori di kolom <code>Events</code> dimana salah satunya adalah berupa string kosong. Agar lebih dapat dipahami, mari kita ganti terlebih dahulu string kosong tersebut menjadi __None__ sesuai penjelasan dataset di awal.

In [None]:
# Replace string kosong dengan None

df['Events'] = df['Events'].replace(' ', 'None')
df['Events'].unique()

Setelah itu kita harus menentukan warna yang akan merepresentasikan setiap kategori tersebut dengan mendefinisikannya di dalam sebuah <i>dictionary</i>. Misalnya disini kita akan membuat <i>dictionary</i> dengan nama variabel <code>colors</code>.

In [None]:
# Menentukan warna untuk setiap kategori

colors = {'Rain , Thunderstorm':'red', 
          'None':'magenta', 
          'Rain':'yellow',
          'Fog':'blue', 
          'Rain , Snow':'purple', 
          'Fog , Rain':'orange',
          'Thunderstorm':'navy', 
          'Fog , Rain , Thunderstorm':'green', 
          'Fog , Thunderstorm':'lime'}

Sekarang kita dapat membuat <i>scatter plot</i> dan menambahkan parameter <code>c</code> dengan diberikan nilai berupa <code>df['Event'].map(colors)</code> untuk <i>mapping</i> warna berdasarkan kategori.

In [None]:
# Mengatur warna scatter plot berdasarkan kategori

fig, ax = plt.subplots(figsize=(14,9))
x = ax.scatter(df['HumidityAvgPercent'], df['TempAvgF'], c=df['Events'].map(colors))

ax.set_title('Austin Weather', size=18)
ax.set_xlabel('Humidity Avg %', size=14)
ax.set_ylabel('Temp Avg (F)', size=14)

plt.show()

### Menambahkan Legend

Untuk menambahkan legend dengan Matplotlib, kita dapat memodifikasi kode menjadi seperti di bawah ini.

In [None]:
# Mengatur warna berdasarkan kategori dan menambahkan legend

fig, ax = plt.subplots(figsize=(14,9))

group = df.groupby('Events')     # Mengelompokkan berdasarkan kolom Events

for name, category in group:
    category.plot(ax=ax, kind='scatter', x='HumidityAvgPercent', y='TempAvgF',  c=colors[name], label=name)

ax.set_title('Austin Weather', size=18)
ax.set_xlabel('Humidity Avg %', size=14)
ax.set_ylabel('Temp Avg (F)', size=14)

plt.legend(fontsize=12)    # Mengatur ukuran legend
plt.show()

<hr>

## Mengatur warna berdasarkan nilai kontinu

Selain berdasarkan kategori, kita juga dapat mengatur warna berdasarkan kolom yang berisi nilai kontinue. Misalnya disini kita akan membuat <i>scatter plot</i> dan mengatur kolom <code>DewPointAvgF</code> sebagai warnanya.

### Colormap

Untuk memberikan warna pada <i>scatter plot</i> berdasarkan kolom yang bernilai kontinue, kita dapat menggunakan <i>Colormap</i> di Matplotlib dengan menambahkan variabel <code>cmap</code>. Ada banyak jenis <i>colormap</i> yang dapat Anda lihat di website <a href='https://matplotlib.org/3.1.0/tutorials/colors/colormaps.html'>Matplotlib Colormap</a>. 

Misalnya kita ingin menggunakan <i>color map</i> jenis <code>viridis</code>.

In [None]:
# Mengatur warna scatter plot dengan color map

fig, ax = plt.subplots(figsize=(12,8))
ax.scatter(df['HumidityAvgPercent'], df['TempAvgF'], c=df['DewPointAvgF'], cmap='viridis')

ax.set_title('Austin Weather', size=18)
ax.set_xlabel('Humidity Avg %', size=14)
ax.set_ylabel('Temp Avg (F)', size=14)

plt.show()

### Colorbar

Untuk melihat rentang nilai dari kolom yang di-<i>set</i> sebagai warna, kita dapat menggunakan <i>colorbar</i>. Anda cukup menambahkan <i>method</i> <code>colorbar</code> pada <i>figure</i>.

In [None]:
# Menambahkan colorbar

fig, ax = plt.subplots(figsize=(14,8))
x = ax.scatter(df['HumidityAvgPercent'], df['TempAvgF'], c=df['DewPointAvgF'], cmap='cool')

ax.set_title('Austin Weather', size=18)
ax.set_xlabel('Humidity Avg %', size=14)
ax.set_ylabel('Temp Avg (F)', size=14)

# Menambakan color bar
fig.colorbar(x)

plt.show()

<hr>

## Bubble Plot

__Bubble plot__ adalah salah satu variasi dari <i>scatter plot</i> yang menampilkan data tiga dimensi (x, y, z). <i>Data point</i> pada <i>scatter plot</i> digantikan oleh <i>bubble</i>, dimana ukuran dari <i>bubble</i> ditentukan oleh variabel ke tiga yaitu __'z'__ yang disebut juga sebagai bobotnya. Di Matplotlib, Anda dapat menambahkan parameter <code>s</code> yang berarti <i>scalar</i> pada <code>plot()</code> atau <code>scatter()</code>. Perhatikan contoh penggunaannya di bawah ini.

Misalnya disini kita memberikan nilai pada parameter <code>s</code> dengan nilai dari kolom <code>WindAvgMPH</code> yang dikalikan 50.

In [None]:
# Membuat bubble plot

fig, ax = plt.subplots(figsize=(16,8))
x = ax.scatter(df['HumidityAvgPercent'], df['TempAvgF'], c=df['DewPointAvgF'], cmap='Paired', s=df['WindAvgMPH']*50)

ax.set_title('Austin Weather', size=18)
ax.set_xlabel('Humidity Avg %', size=14)
ax.set_ylabel('Temp Avg (F)', size=14)

fig.colorbar(x)
plt.show()

Kita juga dapat mengatur transparansi <i>bubble</i> dengan menambahkan parameter <code>alpha</code>. Lihat contoh di bawah ini.

In [None]:
# Membuat bubble plot dengan mengatur transparansi

fig, ax = plt.subplots(figsize=(16,8))
x = ax.scatter(df['HumidityAvgPercent'], df['TempAvgF'], c=df['DewPointAvgF'], cmap='Paired', s=df['WindAvgMPH']*50, alpha=0.6)

ax.set_title('Austin Weather', size=18)
ax.set_xlabel('Humidity Avg %', size=14)
ax.set_ylabel('Temp Avg (F)', size=14)

fig.colorbar(x)
plt.show()

<hr>

Copyright @ <a href="https://ilmudatapy.com/">ilmudatapy.com</a>