### Non-Graded Challenge 8

# Introduction

Nama: Muhammad Nur Alamsyah

Batch: RMT-023

Objective: Menggunakan Pandas untuk melakukan data loading cleaning, dan exploration.

Latar Belakang: Diberikan data kasus Covid-19 yang terjadi di Malaysia dan Singapura.

Problem Statement: 
- Pada tanggal berapa kasus kematian mencapai puncaknya?
- Pada tanggal berapa kasus aktif mencapai puncaknya?
- Berapa total kematian keseluruhan?

# Import Libraries

Pengerjaan memanfaatkan DataFrame dari library Pandas

In [37]:
import pandas as pd

# Data Loading

Memuat data dari 'data_ngc.csv'

In [38]:
df = pd.read_csv('data_ngc.csv')
df.head()

Unnamed: 0,province_state,country_region,date,latitude,longitude,location_geom,confirmed,deaths,recovered,active,fips,admin2,combined_key
0,,Malaysia,2020-03-08,2.5,112.5,POINT(112.5 2.5),99.0,0.0,24.0,,,,
1,,Malaysia,2020-03-10,2.5,112.5,POINT(112.5 2.5),129.0,0.0,24.0,,,,
2,,Singapore,2020-03-13,1.3521,103.8198,POINT(103.8198 1.3521),200.0,0.0,97.0,,,,
3,,Malaysia,2020-03-13,4.2105,101.9758,POINT(101.9758 4.2105),197.0,0.0,26.0,,,,
4,,Malaysia,2020-03-15,4.2105,101.9758,POINT(101.9758 4.2105),428.0,0.0,42.0,,,,


Dari tabel di atas, terdapat beberapa kolom yang tidak relevan dengan problem. Yaitu kolom `province_state`, `latitude`, `longitude`, `location_geom`, `fips`, `admin2`, dan `combined_key`.

In [39]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11930 entries, 0 to 11929
Data columns (total 13 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   province_state  9078 non-null   object 
 1   country_region  11930 non-null  object 
 2   date            11930 non-null  object 
 3   latitude        11321 non-null  float64
 4   longitude       11321 non-null  float64
 5   location_geom   11321 non-null  object 
 6   confirmed       11929 non-null  float64
 7   deaths          11913 non-null  float64
 8   recovered       1640 non-null   float64
 9   active          1520 non-null   float64
 10  fips            0 non-null      float64
 11  admin2          0 non-null      float64
 12  combined_key    11793 non-null  object 
dtypes: float64(8), object(5)
memory usage: 1.2+ MB


Ada banyak null dari beberapa column, serta datatype yang tidak sesuai.

# Data Cleaning

Pertama, hapus kolom `province_state`, `latitude`, `longitude`, `location_geom`, `fips`, `admin2`, dan `combined_key`.

In [40]:
df = df.drop(columns=["province_state", "latitude", "longitude", "location_geom", "combined_key", "admin2","fips"])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11930 entries, 0 to 11929
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   country_region  11930 non-null  object 
 1   date            11930 non-null  object 
 2   confirmed       11929 non-null  float64
 3   deaths          11913 non-null  float64
 4   recovered       1640 non-null   float64
 5   active          1520 non-null   float64
dtypes: float64(4), object(2)
memory usage: 559.3+ KB


Kolom `confirmed`, `deaths`, `recovered`, dan `active` memiliki null value. Karena tipe data numeric, maka null value bisa diganti dengan 0.

In [41]:
df = df.fillna(0)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11930 entries, 0 to 11929
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   country_region  11930 non-null  object 
 1   date            11930 non-null  object 
 2   confirmed       11930 non-null  float64
 3   deaths          11930 non-null  float64
 4   recovered       11930 non-null  float64
 5   active          11930 non-null  float64
dtypes: float64(4), object(2)
memory usage: 559.3+ KB


Tipe data date masih berupa object, perlu diconvert ke datetime (tipe data untuk date pada Pandas)

In [42]:
df['date'] = pd.to_datetime(df['date'])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11930 entries, 0 to 11929
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   country_region  11930 non-null  object        
 1   date            11930 non-null  datetime64[ns]
 2   confirmed       11930 non-null  float64       
 3   deaths          11930 non-null  float64       
 4   recovered       11930 non-null  float64       
 5   active          11930 non-null  float64       
dtypes: datetime64[ns](1), float64(4), object(1)
memory usage: 559.3+ KB


Data sudah clean, siap untuk dieksplorasi.

# Data Exploration

Menjawab pertanyaan pertama, yaitu tanggal dengan kasus kematian mencapai puncaknya. Pertama data dikelompokkan (group) berdasarkan kolom `date`, kemudian dihitung banyaknya `deaths` menggunakan fungsi `sum()`. Setelah itu, data diurutkan dari yang terbesar.

In [43]:
df.groupby('date')['deaths'].sum().reset_index().sort_values(by='deaths', ascending = False).head()

Unnamed: 0,date,deaths
608,2021-09-22,2058107.0
1141,2023-03-09,199630.0
1140,2023-03-08,199626.0
1139,2023-03-07,199622.0
1138,2023-03-06,199620.0


Didapat tanggal 2021-09-22 adalah tanggal dengan kasus kematian terbanyak. Total kematian pada tanggal tersebut adalah 2058107 jiwa.

Menjawab pertanyaan kedua, yaitu tanggal dengan kasus kematian mencapai puncaknya. Pertama data dikelompokkan (group) berdasarkan kolom `date`, kemudian dihitung banyaknya `active` menggunakan fungsi `sum()`. Setelah itu, data diurutkan dari yang terbesar.

In [44]:
df.groupby('date')['active'].sum().reset_index().sort_values(by='active', ascending = False).head()

Unnamed: 0,date,active
555,2021-07-31,737137.0
559,2021-08-04,736547.0
549,2021-07-25,736348.0
553,2021-07-29,735669.0
552,2021-07-28,735394.0


Didapat tanggal 2021-07-31 adalah tanggal dengan kasus aktif terbanyak. Total kasus aktif pada tanggal tersebut adalah 737137 jiwa.

Banyaknya kematian didapat dengan melakukan `sum()` pada kolom `deaths` sebagai berikut.

In [45]:
df['deaths'].sum()

122633747.0

Jumlah kematian keseluruhan adalah 122633747 jiwa.

# Conclusion

Pada tanggal 31 Juli 2021, jumlah kasus aktif mencapai puncaknya dengan 737.137 kasus. Sementara itu, pada tanggal 22 September 2021, jumlah kematian mencapai rekor tertingginya, yakni 2.058.107 jiwa. Secara keseluruhan, total kematian telah mencapai 122.633.747 jiwa.

Mengingat tingginya jumlah kasus aktif dan tingkat kematian, penting bagi pemerintah atau otoritas yang berwenang untuk mengambil tindakan serius dalam menangani pandemi ini. Tindakan yang diambil dapat berupa peningkatan fasilitas kesehatan, pengendalian mobilitas, dan implementasi kebijakan Work From Home (WFH).