### Deklarasi pustaka yang digunakan

In [1]:
# Load library yang digunakan
# Lib untuk manipulasi data
import numpy as np
import pandas as pd

# lib untuk model statistik
import scipy.stats as sc
import statsmodels.api as sm

# lib untuk visualisasi data
import seaborn as sns
import matplotlib.pyplot as plt
#%matplotlib inline

### Fungsi membaca dataset

In [2]:
# fungsi membaca csv
def load_dataset_csv(nm_dataset):
    # windows
    df = pd.read_csv("D:/Materi Kuliah - Machine Learning v1/dataset/"+nm_dataset)
    
    # linux
    # df = pd.read_csv("/home/lunox/Documents/Bahan Ajar Big Data/dataset/"+nm_dataset)
    return df

# fungsi membaca xlsx
def load_dataset_xlsx(nm_dataset, nm_sheet):
    # windows
    df = pd.read_excel("D:/Materi Kuliah - Machine Learning v1/dataset/"+nm_dataset, sheet_name=nm_sheet)
    
    # linux
    # df = pd.read_excel("/home/lunox/Documents/Bahan Ajar Big Data/dataset/"+nm_dataset, sheet_name=nm_sheet)
    return df

In [3]:
def covid_indonesia():
    # ket. data sudah di pra-proses (seleksi fitur dan reduksi dimensi)
    # load dataset windows
    # df_indo = load_dataset_xlsx("dataset_covid.xlsx", "data covid indonesia")
    
    # load dataset linux
    df_indo = load_dataset_xlsx("dataset_covid.xlsx", "data covid indonesia")

    # Tujuannya agar dapat dilakukan plot time series positif, sembuh dan meninggal
    df_indo["tanggal"] = pd.to_datetime(df_indo["tanggal"], format="%Y/%m/%d")
    
    # memalukan indexing berdasarkan tanggal
    df_indo = df_indo.set_index("tanggal")

    return df_indo

In [4]:
def covid_provinsi():
    # ket. data sudah di pra-proses (seleksi fitur dan reduksi dimensi)
    # load dataset
    df_prov = load_dataset_xlsx("dataset_covid.xlsx", "data covid provinsi")
    #df_prov = df_prov.set_index("provinsi")
    return df_prov

### fungsi membuat visualisasi data

In [5]:
# fungsi menampilkan visualisasi time serie
def visual_time_series(df, nm_color, nm_marker, nm_label, nm_xlabel, nm_ylabel, nm_title):
    
    # membuat frame
    fig, ax = plt.subplots(figsize = (20,7))
    
    for x in range(len(df.columns.values)):
        ax.plot(df.index.values, df.iloc[:, x:x+1], color="tab:"+nm_color[x], marker=nm_marker, label=nm_label[x], linewidth=2.5)
    
    # membuat label-label
    ax.set_title(nm_title, fontsize=14)
    ax.set_xlabel(nm_xlabel, fontsize=14)
    ax.set_ylabel(nm_ylabel, fontsize=14)
    ax.legend(loc='upper right')
    ax.grid(True)
    
    # menampilkan plot
    plt.show()

In [6]:
# fungsi menampilkan viusalisasi barplot
def visual_barplot(nilai_x, nilai_y, nm_color, nm_title):
    # Membuat frame barplot
    fig, ax = plt.subplots(figsize=(20, 7))

    # Membuat barplot jumlah positif
    ax.bar(nilai_x, nilai_y, color=nm_color)

    # membuat label-label
    ax.set_title(nm_title, fontsize=16)
    
    # Menampilkan hasilnya
    plt.xticks(rotation=90)
    plt.yticks(rotation=0)
    plt.grid(True)
    plt.show()

In [7]:
# fungsi menampilkan viusalisasi pie chart
def visual_pie(sizes, nm_labels):
    # Membuat frame pie chart
    fig, ax = plt.subplots(figsize=(20, 7))
    
    # membuat pie chart
    ax.pie(sizes, labels=nm_labels, explode=(0.1, 0, 0, 0, 0), autopct='%.2f%%', startangle=90)
    ax.axis('equal')
    
    # menampilkan pie chart
    plt.show()

In [8]:
# fungsi menampilkan viusalisasi scatter plot
def visual_scatter(nilai_x, nilai_y, nm_color, nm_label, nm_xlabel, nm_ylabel, nm_title):
    # membuat frame scatter plot
    fig, ax = plt.subplots(figsize = (20,7))

    # membuat scatter plot
    ax.scatter(nilai_x, nilai_y, color="tab:"+nm_color, label=nm_label, linewidth=5, alpha=0.5)

    # membuat label-label
    ax.set_title(nm_title, fontsize=14)
    ax.set_xlabel(nm_xlabel, fontsize=12)
    ax.set_ylabel(nm_ylabel, fontsize=12)
    ax.legend(loc='upper left')
    ax.grid(True)

    # Menampilkan Hasil Visualisasi
    plt.show()

In [9]:
# fungsi menampilkan viusalisasi heatmap correlation
def visual_heatmap(df, nm_corr):
    # menghilangkan format indexing tanggal
    df = df.reset_index(drop=True)
    
    # membuat perhitungan korelasi terlebih dahulu
    df_corr = df.corr(method=nm_corr)
    
    # membuat frame heatmap
    fig,ax = plt.subplots(figsize=(20,10))
    
    # proses visual heatmap
    # => pilihan warna lain untuk visual heatmap (coolwarm, Blues, RdYlGn_r, viridis, YlGnBu)
    sns.heatmap(df_corr, cmap="viridis", vmax=1, vmin=-1, annot=True, linewidths=1, fmt='.4f', ax=ax)
    
    # membuat title atau judul
    plt.title("Heatmap Correlation Data Covid-19 Indonesia", fontsize=16)
    
    # Menampilkan hasil visualisasi
    plt.show()