#### Data Preparation

Access data from another file

In [53]:
%store -r dataRaw_Harian

data_raw = dataRaw_Harian
type(data_raw)

list

In [54]:
from dateutil.parser import parse 
import pandas as pd
import numpy as py
import datetime as dt

In [55]:
# normalize json
data_raw_normalize = pd.json_normalize(data_raw, max_level=1)

# Cek data setelah melakukan normalization
data_raw_normalize.head(3)

Unnamed: 0,key_as_string,key,doc_count,jumlah_meninggal.value,jumlah_sembuh.value,jumlah_positif.value,jumlah_dirawat.value,jumlah_positif_kum.value,jumlah_sembuh_kum.value,jumlah_meninggal_kum.value,jumlah_dirawat_kum.value
0,2020-03-02T00:00:00.000Z,1583107200000,1,0,0,2,2,2,0,0,2
1,2020-03-03T00:00:00.000Z,1583193600000,1,0,0,0,0,2,0,0,2
2,2020-03-04T00:00:00.000Z,1583280000000,1,0,0,0,0,2,0,0,2


Data Cleansing and Transforming

In [56]:
# Cek data types sebelum melakukan convert
data_raw_normalize.dtypes

key_as_string                 object
key                            int64
doc_count                      int64
jumlah_meninggal.value         int64
jumlah_sembuh.value            int64
jumlah_positif.value           int64
jumlah_dirawat.value           int64
jumlah_positif_kum.value       int64
jumlah_sembuh_kum.value        int64
jumlah_meninggal_kum.value     int64
jumlah_dirawat_kum.value       int64
dtype: object

In [57]:
# Convert data types 'key_as_string' to datetime and normalize the data
data_raw_normalize['key_as_string'] = pd.to_datetime(data_raw_normalize['key_as_string']).dt.date
data_raw_normalize['key_as_string'] = pd.to_datetime(data_raw_normalize['key_as_string']).dt.normalize()

In [58]:
# data types setelah convert
data_raw_normalize.dtypes

key_as_string                 datetime64[ns]
key                                    int64
doc_count                              int64
jumlah_meninggal.value                 int64
jumlah_sembuh.value                    int64
jumlah_positif.value                   int64
jumlah_dirawat.value                   int64
jumlah_positif_kum.value               int64
jumlah_sembuh_kum.value                int64
jumlah_meninggal_kum.value             int64
jumlah_dirawat_kum.value               int64
dtype: object

In [59]:
# Cek data
data_raw_normalize.head(3)

Unnamed: 0,key_as_string,key,doc_count,jumlah_meninggal.value,jumlah_sembuh.value,jumlah_positif.value,jumlah_dirawat.value,jumlah_positif_kum.value,jumlah_sembuh_kum.value,jumlah_meninggal_kum.value,jumlah_dirawat_kum.value
0,2020-03-02,1583107200000,1,0,0,2,2,2,0,0,2
1,2020-03-03,1583193600000,1,0,0,0,0,2,0,0,2
2,2020-03-04,1583280000000,1,0,0,0,0,2,0,0,2


In [60]:
# Cek nama columns sebelum diubah
print('dataFrame columns: ', data_raw_normalize.columns)

dataFrame columns:  Index(['key_as_string', 'key', 'doc_count', 'jumlah_meninggal.value',
       'jumlah_sembuh.value', 'jumlah_positif.value', 'jumlah_dirawat.value',
       'jumlah_positif_kum.value', 'jumlah_sembuh_kum.value',
       'jumlah_meninggal_kum.value', 'jumlah_dirawat_kum.value'],
      dtype='object')


In [61]:
data_raw_normalize = data_raw_normalize.rename(columns={"key_as_string":"date"}) # key_as_string
data_raw_normalize = data_raw_normalize.rename(columns={"jumlah_meninggal.value":"kasus_meninggal"}) # jumlah_meninggal.value
data_raw_normalize = data_raw_normalize.rename(columns={"jumlah_sembuh.value":"kasus_sembuh"}) # jumlah_sembuh.value
data_raw_normalize = data_raw_normalize.rename(columns={"jumlah_positif.value":"kasus_positif"}) # jumlah_positif.value
data_raw_normalize = data_raw_normalize.rename(columns={"jumlah_dirawat.value":"kasus_dirawat"}) # jumlah_dirawat.value
data_raw_normalize = data_raw_normalize.rename(columns={"jumlah_positif_kum.value":"kumulatif_kasus_positif"}) # jumlah_positif_kum.value
data_raw_normalize = data_raw_normalize.rename(columns={"jumlah_sembuh_kum.value":"kumulatif_kasus_sembuh"}) # jumlah_positif.value
data_raw_normalize = data_raw_normalize.rename(columns={"jumlah_meninggal_kum.value":"kumulatif_kasus_meninggal"}) # jumlah_positif.value
data_raw_normalize = data_raw_normalize.rename(columns={"jumlah_dirawat_kum.value":"kumulatif_kasus_dirawat"}) # jumlah_positif.value

In [62]:
# Setelah mengubah nama kolom
print('dataFrame columns: ', data_raw_normalize.columns)

dataFrame columns:  Index(['date', 'key', 'doc_count', 'kasus_meninggal', 'kasus_sembuh',
       'kasus_positif', 'kasus_dirawat', 'kumulatif_kasus_positif',
       'kumulatif_kasus_sembuh', 'kumulatif_kasus_meninggal',
       'kumulatif_kasus_dirawat'],
      dtype='object')


In [63]:
# Selecting columns and reformat order columns
df = data_raw_normalize[['date', 'kasus_positif', 'kasus_sembuh', 'kasus_dirawat', 'kasus_meninggal']]

In [64]:
df.head(5)

Unnamed: 0,date,kasus_positif,kasus_sembuh,kasus_dirawat,kasus_meninggal
0,2020-03-02,2,0,2,0
1,2020-03-03,0,0,0,0
2,2020-03-04,0,0,0,0
3,2020-03-05,0,0,0,0
4,2020-03-06,2,0,2,0


In [65]:
# Info jumlah data
print(df.shape)

# Data Info & Nullabel
print(df.isnull().sum())

(757, 5)
date               0
kasus_positif      0
kasus_sembuh       0
kasus_dirawat      0
kasus_meninggal    0
dtype: int64


In [66]:
%store df

Stored 'df' (DataFrame)
