# **Analisis Data Covid-19 Jakarta dan Indonesia**
*by Georhapsody | Submisi Data Science Academy Compfest 15*

# **Daftar Isi**

1.   [Pendahuluan](#Pendahuluan)
2.   [Rumusan Masalah](#Rumusan-Masalah)
3.   [Hipotesis](#Hipotesis)
4.   [Metodologi](#Metodologi)
5.   [Data Preparation](#Data-Preparation)
5.   [Data Profiling](#Data-Profiling)
7.   [Data Cleansing](#Data-Cleansing)
8.   [Feature Engineering](#Feature-Engineering)
9.   [Exploratory Data Analysis](#Exploratory-Data-Analysis)
10.  [Analisis Lanjutan](#Analisis-Lanjutan)
11.  [Kesimpulan dan Rekomendasi](#Kesimpulan-dan-Rekomendasi)

# **Pendahuluan**

Pandemi Covid-19 memberikan dampak yang besar pada berbagai lini kehidupan masyarakat. Untuk menangani pandemi ini, pemerintah di telah melakukan berbagai upaya, seperti membentuk gugus tugas dan memberlakukan pembatasan aktivitas masyarakat berskala nasional.

Meski telah dilakukan berbagai upaya, kita telah banyak mendengar jumlah masyarakat yang terinfeksi dan meninggal akibat Covid-19 masih sangat banyak. Selain itu, perekonomian dan tingkat mobilitas masyarakat juga terkena dampak buruk kebijakan pemerintah terhadap pandemi. 

Apakah kebijakan yang diambil pemerintah untuk menekan pandemi telah tepat? Apa saja efek akibat kebijakan seperti PPKM terhadap angka Covid-19, perekonomian, atau tingkat mobilitas masyarakat? Apakah kebijakan PPKM diberlakukan terlambat atau tepat waktu? Diperlukan analisis terhadap data-data untuk menjawab persoalan tersebut.

# **Rumusan Masalah**
1. Bagaimana tren angka Covid-19 di DKI Jakarta?
2. Bagaimana tren angka Covid-19 nasional?
3. Bagaimana efektivitas kebijakan PPKM dalam menekan angka Covid-19?
4. Bagaimana efek kebijakan PPKM Covid-19 terhadap PDB nasional?
5. Bagaimana efek kebijakan PPKM Covid-19 terhadap tingkat mobilitas masyarakat?

# **Hipotesis**
1. Kebijakan PPKM efektif dan tepat waktu ditandai dengan menurunnya angka Covid-19 tidak lama setelah diberlakukan.
2. Kebijakan PPKM berdampak negatif terhadap angka PDB nasional.
3. Kebijakan PPKM berdampak negatif pada tingkat mobilitas masyarakat.

# **Metodologi**

Dalam menentukan hubungan antarvariabel serta menentukan pola dalam data, akan digunakan analisis statistik. Untuk menentukan pola serta prediksi pada, dilakukan regresi polinomial.

# **Data Preparation**

Dalam analisis ini digunakan *dataset* Covid-19, PDB, serta mobilitas nasional. Data telah diproses terlebih dahulu, seperti konversi ke .csv dan koreksi format data, sebelum dianalisis.

Seluruh *dataset* kemudian dimuat ke dalam *dataframe*.

In [98]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn import preprocessing
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# Import data Covid-19
df_covid_raw = pd.read_csv("https://raw.githubusercontent.com/reza-nugraha32/covid-19-analysis/main/dataset/raw-covid-data.csv",
                          na_values="NaN")

# Import data PDB Indonesia
df_PDB_raw = pd.read_csv("https://raw.githubusercontent.com/reza-nugraha32/covid-19-analysis/main/dataset/raw-PDB-data.csv",
                        na_values="NaN")

# Import data mobility Indonesia 2020, 2021, dan 2022
mob_2020 = pd.read_csv("https://raw.githubusercontent.com/reza-nugraha32/covid-19-analysis/main/dataset/2020_mobility_report.csv",
                      na_values="NaN")
mob_2021 = pd.read_csv("https://raw.githubusercontent.com/reza-nugraha32/covid-19-analysis/main/dataset/2021_mobility_report.csv",
                       na_values="NaN")
mob_2022 = pd.read_csv("https://raw.githubusercontent.com/reza-nugraha32/covid-19-analysis/main/dataset/2022_mobility_report.csv",
                       na_values="NaN")
df_mobility_raw = pd.concat([mob_2020, mob_2021, mob_2022], axis=0)

SyntaxError: expression cannot contain assignment, perhaps you meant "=="? (2624968450.py, line 11)

In [67]:
# Set tanggal sebagai index
df_covid_raw = df_covid_raw.set_index("Tanggal")

# Set tahun sebagai index
df_PBD_raw = df_PDB_raw.set_index("tahun")

# Set tanggal sebagai index
df_mobility_raw = df_mobility_raw.set_index("date")

In [68]:
df_PDB_raw.head()

Unnamed: 0,tahun,triwulan,PDB_harga_konstan,perubahan_harga_konstan,PDB_harga_berlaku,perubahan_harga_berlaku
0,2019,triwulan-1,2625180.5,-0.52,3782618.3,-0.44
1,2019,triwulan-2,2735414.1,4.2,3964074.7,4.8
2,2019,triwulan-3,2818812.7,3.05,4067358.0,2.61
3,2019,triwulan-4,2769748.1,-1.74,4018606.2,-1.2
4,2020,triwulan-1,2703027.1,-2.41,3923347.9,-2.37


In [69]:
df_mobility_raw.head()

Unnamed: 0_level_0,country_region_code,country_region,sub_region_1,sub_region_2,metro_area,iso_3166_2_code,census_fips_code,place_id,retail_and_recreation_percent_change_from_baseline,grocery_and_pharmacy_percent_change_from_baseline,parks_percent_change_from_baseline,transit_stations_percent_change_from_baseline,workplaces_percent_change_from_baseline,residential_percent_change_from_baseline
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
2020-02-15,ID,Indonesia,,,,,,ChIJtwRkSdcHTCwRhfStG-dNe-M,-2.0,-2.0,-8.0,1.0,5,1
2020-02-16,ID,Indonesia,,,,,,ChIJtwRkSdcHTCwRhfStG-dNe-M,-3.0,-3.0,-7.0,-4.0,2,2
2020-02-17,ID,Indonesia,,,,,,ChIJtwRkSdcHTCwRhfStG-dNe-M,-3.0,-4.0,-7.0,-1.0,3,1
2020-02-18,ID,Indonesia,,,,,,ChIJtwRkSdcHTCwRhfStG-dNe-M,-3.0,-2.0,-4.0,1.0,2,1
2020-02-19,ID,Indonesia,,,,,,ChIJtwRkSdcHTCwRhfStG-dNe-M,-3.0,-4.0,-3.0,0.0,1,1


In [70]:
df_covid_raw.head()

Unnamed: 0_level_0,Positif (Indonesia),Dirawat (Indonesia),Sembuh (Indonesia),Meninggal (Indonesia),Meninggal (Jakarta),Sembuh (Jakarta),Self-Isolation (Jakarta),Dirawat (Jakarta),Positif (Jakarta),Positif Aktif (Jakarta),Positif Harian (Indonesia),Dirawat Harian (Indonesia),Sembuh Harian (Indonesia),Meninggal Harian (Indonesia),Meninggal Harian (Jakarta),Sembuh Harian (Jakarta),Self-Isolation Harian (Jakarta),Dirawat Harian (Jakarta),Positif Harian (Jakarta),Positif Aktif Harian (Jakarta)
Tanggal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
29/01/2020,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
01/03/2020,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
02/03/2020,2,2,0,0,0,0,0,0,0,0,2,2,0,0,0,0,0,0,0,0
03/03/2020,2,2,0,0,1,0,0,2,3,2,0,0,0,0,1,0,0,2,3,2
04/03/2020,2,2,0,0,1,0,0,2,3,2,0,0,0,0,0,0,0,0,0,0


In [96]:
# Konversi data Covid-19 ke integer
for column in df_covid_raw.columns:
    for data in df_covid_raw[column]:
        if data == nan : 
            #df_covid_raw[column].values=0
            print(True)
        print(data)
        #df_covid_raw[column].values = int(data.replace(',', ''))
        #print(column)
        #print(int(data.replace(',', '')))
        
df_covid_raw.tail(1).dtypes

NameError: name 'nan' is not defined

In [90]:
df_covid_raw[column].values ==

array(['0', '0', '2', ..., nan, nan, nan], dtype=object)

In [86]:
df_covid_raw["Meninggal (Jakarta)"].isna()

Tanggal
29/01/2020     False
01/03/2020     False
02/03/2020     False
03/03/2020     False
04/03/2020     False
               ...  
26/06/2023     False
27/06/2023     False
28/06/2023     False
29/06/2023     False
30/06/2023     False
Name: Meninggal (Jakarta), Length: 1218, dtype: bool

# **Data Profiling**

Cek deskripsi statistik data, *datatypes*, *missing values*, serta duplikasi pada data.

In [31]:
# Cek datatypes data Covid
print("Datatypes data Covid-19")
print(df_covid_raw.dtypes)

# Cek missing values data Covid
print("\nMissing values data Covid-19")
print(df_covid_raw.isna().any())

# Deskripsi statistik data Covid
print("\nDeskripsi statistik data Covid-19")
print(df_covid_raw.describe())

Datatypes data Covid-19
Tanggal                            object
Positif (Indonesia)                object
Dirawat (Indonesia)                object
Sembuh (Indonesia)                 object
Meninggal (Indonesia)              object
Meninggal (Jakarta)                object
Sembuh (Jakarta)                   object
Self-Isolation (Jakarta)           object
Dirawat (Jakarta)                  object
Positif (Jakarta)                  object
Positif Aktif (Jakarta)            object
Positif Harian (Indonesia)         object
Dirawat Harian (Indonesia)         object
Sembuh Harian (Indonesia)          object
Meninggal Harian (Indonesia)       object
Meninggal Harian (Jakarta)          int64
Sembuh Harian (Jakarta)            object
Self-Isolation Harian (Jakarta)    object
Dirawat Harian (Jakarta)           object
Positif Harian (Jakarta)           object
Positif Aktif Harian (Jakarta)     object
dtype: object

Missing values data Covid-19
Tanggal                            False
Positif (