# About Data

Data Banjir DKI tahun 2018\
Dataset ini berisi tentang Data Rekapitulasi Bulanan Kejadian Banjir di Provinsi DKI Jakarta Tahun 2018 yang terjadi pada\
bulan Januari, Februari, Maret, April, Mei, Juni, Oktober, November, Desember 

Import library

In [1]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

Read data before rename

In [2]:
path_relative ='data/data-kejadian-bencana-banjir-di-provinsi-dki-jakarta-tahun-2018-bulan-januari.csv'
df_data = pd.read_csv(path_relative)
df_data.head()

Unnamed: 0,kota_administrasi,kecamatan,kelurahan,rw,jumlah_terdampak_rw,jumlah_terdampak_rt,jumlah_terdampak_kk,jumlah_terdampak_jiwa,ketinggian_air,tanggal_kejadian,lama_genangan,jumlah_meninggal,jumlah_hilang,jumlah_luka_berat,jumlah_luka_ringan,jumlah_pengungsi_tertinggi,jumlah_tempat_pengungsian,nilai_kerugian
0,Jakarta Barat,PENJARINGAN,KAMAL MUARA,"01, 04",2,12,0,0,20 s/d 30 cm,tgl. 02,0,0,0,0,0,0,0,0
1,Jakarta Utara,KALIDERES,KAMAL,"1, 4",2,3,0,0,10 s/d 25 cm,"tgl. 03, 04, 05, 18, 31",0,0,0,0,0,0,0,0
2,Jakarta Utara,GROGOL PETAMBURAN,JELAMBAR BARU,1,1,2,0,0,15 cm,tgl. 03,0,0,0,0,0,0,0,0
3,Jakarta Utara,GROGOL PETAMBURAN,JELAMBAR,7,1,1,0,0,20 cm,tgl. 03,0,0,0,0,0,0,0,0
4,Jakarta Utara,KEMBANGAN,KEMBANGAN UTARA,"3, 4, 5, 6",4,2,0,0,5 s/d 20 cm,tgl. 18,0,0,0,0,0,0,0,0


Read data after rename

In [3]:
data = []
for file_number in range(1,13):
    filename = f'data_rename/{file_number}.csv'
    try:
        df = pd.read_csv(filename)
        df['bulan_kejadian'] = str(file_number).zfill(2) #menambahkan angka 0 jika 1 angka
        data.append(df)
    except FileNotFoundError:
        continue #Jika (FileNotFoundError), iterasi akan dilanjutkan ke iterasi selanjutnya dgn continue

df = pd.concat(data, axis=0, ignore_index=True)
df.head()

Unnamed: 0,kota_administrasi,kecamatan,kelurahan,rw,jumlah_terdampak_rw,jumlah_terdampak_rt,jumlah_terdampak_kk,jumlah_terdampak_jiwa,ketinggian_air,tanggal_kejadian,lama_genangan,jumlah_meninggal,jumlah_hilang,jumlah_luka_berat,jumlah_luka_ringan,jumlah_pengungsi_tertinggi,jumlah_tempat_pengungsian,nilai_kerugian,bulan_kejadian
0,Jakarta Barat,PENJARINGAN,KAMAL MUARA,"01, 04",2,12,0,0,20 s/d 30 cm,tgl. 02,0,0,0,0,0,0,0,0,1
1,Jakarta Utara,KALIDERES,KAMAL,"1, 4",2,3,0,0,10 s/d 25 cm,"tgl. 03, 04, 05, 18, 31",0,0,0,0,0,0,0,0,1
2,Jakarta Utara,GROGOL PETAMBURAN,JELAMBAR BARU,1,1,2,0,0,15 cm,tgl. 03,0,0,0,0,0,0,0,0,1
3,Jakarta Utara,GROGOL PETAMBURAN,JELAMBAR,7,1,1,0,0,20 cm,tgl. 03,0,0,0,0,0,0,0,0,1
4,Jakarta Utara,KEMBANGAN,KEMBANGAN UTARA,"3, 4, 5, 6",4,2,0,0,5 s/d 20 cm,tgl. 18,0,0,0,0,0,0,0,0,1


# Data Understanding

- Column bulan_kejadian harusnya int
- Data pada column kecamatan, kelurahan dan ketinggian air tidak konsisten
- Ada data 0 pada jumlah_terdampak_rt tp di jumlah_terdampak_rw tidak ada data 0
- Column ketinggian air dapat dibagi menjadi ketinggian minimal dan ketinggian maksimal 
- Pada column jumlah_meninggal, jumlah_luka_berat, jumlah_tempat_pengungsian dan nilai_kerugian hanya berisi nilai 0 

In [4]:
for col in df.columns:
    nama_kolom = col + ' : ' + str(df[col].dtypes)
    print('-'*len(nama_kolom))
    print(nama_kolom)
    print('-'*len(nama_kolom))
    print('Statistika Deskriptif')
    print(df[col].describe(), '\n')
    print('Value Counts')
    print(df[col].value_counts(), '\n')
    print('Unique Value')
    print(df[col].unique(), '\n')

--------------------------
kota_administrasi : object
--------------------------
Statistika Deskriptif
count               135
unique                5
top       Jakarta Timur
freq                 48
Name: kota_administrasi, dtype: object 

Value Counts
Jakarta Timur      48
Jakarta Selatan    45
Jakarta Barat      21
Jakarta Utara      18
Jakarta Pusat       3
Name: kota_administrasi, dtype: int64 

Unique Value
['Jakarta Barat' 'Jakarta Utara' 'Jakarta Pusat' 'Jakarta Selatan'
 'Jakarta Timur'] 

------------------
kecamatan : object
------------------
Statistika Deskriptif
count                 135
unique                 45
top       KEC. JATINEGARA
freq                    9
Name: kecamatan, dtype: object 

Value Counts
KEC. JATINEGARA          9
KEC. PASAR MINGGU        8
CENGKARENG               8
KEC. PANCORAN            6
KRAMAT JATI              6
KEC. KRAMAT JATI         6
JATINEGARA               5
CAKUNG                   5
KEC. PENJARINGAN         5
KEC. CILANDAK            

In [5]:
#Melihat jumlah_terdampak_rt yang nilainya 0
df[df['jumlah_terdampak_rt'] == 0].value_counts()

kota_administrasi  kecamatan          kelurahan         rw                  jumlah_terdampak_rw  jumlah_terdampak_rt  jumlah_terdampak_kk  jumlah_terdampak_jiwa  ketinggian_air  tanggal_kejadian  lama_genangan  jumlah_meninggal  jumlah_hilang  jumlah_luka_berat  jumlah_luka_ringan  jumlah_pengungsi_tertinggi  jumlah_tempat_pengungsian  nilai_kerugian  bulan_kejadian
Jakarta Barat      GROGOL PETAMBURAN  JELAMBAR BARU     1                   1                    0                    0                    0                      10 s/d 30 cm    tgl. 15, 16       0              0                 0              0                  0                   0                           0                          0               02                1
Jakarta Selatan    JAGAKARSA          LENTENG AGUNG     02, 03, 04, 06, 07  5                    0                    0                    0                      50 s/d 200 cm   tgl. 05           0              0                 0              0            

- Ada beberapa yang kota administrasinya tidak sesuai

In [6]:
df[df['kelurahan'] == 'JELAMBAR BARU'] #di jkt barat

Unnamed: 0,kota_administrasi,kecamatan,kelurahan,rw,jumlah_terdampak_rw,jumlah_terdampak_rt,jumlah_terdampak_kk,jumlah_terdampak_jiwa,ketinggian_air,tanggal_kejadian,lama_genangan,jumlah_meninggal,jumlah_hilang,jumlah_luka_berat,jumlah_luka_ringan,jumlah_pengungsi_tertinggi,jumlah_tempat_pengungsian,nilai_kerugian,bulan_kejadian
2,Jakarta Utara,GROGOL PETAMBURAN,JELAMBAR BARU,1,1,2,0,0,15 cm,tgl. 03,0,0,0,0,0,0,0,0,1
26,Jakarta Barat,GROGOL PETAMBURAN,JELAMBAR BARU,1,1,0,0,0,10 s/d 30 cm,"tgl. 15, 16",0,0,0,0,0,0,0,0,2


In [7]:
df[df['kelurahan'] == 'LENTENG AGUNG']

Unnamed: 0,kota_administrasi,kecamatan,kelurahan,rw,jumlah_terdampak_rw,jumlah_terdampak_rt,jumlah_terdampak_kk,jumlah_terdampak_jiwa,ketinggian_air,tanggal_kejadian,lama_genangan,jumlah_meninggal,jumlah_hilang,jumlah_luka_berat,jumlah_luka_ringan,jumlah_pengungsi_tertinggi,jumlah_tempat_pengungsian,nilai_kerugian,bulan_kejadian
35,Jakarta Selatan,JAGAKARSA,LENTENG AGUNG,"02, 03, 04, 06, 07",5,0,0,0,50 s/d 200 cm,tgl. 05,0,0,0,0,0,0,0,0,2


In [8]:
df[df['kelurahan'] == 'CAWANG']

Unnamed: 0,kota_administrasi,kecamatan,kelurahan,rw,jumlah_terdampak_rw,jumlah_terdampak_rt,jumlah_terdampak_kk,jumlah_terdampak_jiwa,ketinggian_air,tanggal_kejadian,lama_genangan,jumlah_meninggal,jumlah_hilang,jumlah_luka_berat,jumlah_luka_ringan,jumlah_pengungsi_tertinggi,jumlah_tempat_pengungsian,nilai_kerugian,bulan_kejadian
46,Jakarta Timur,KRAMAT JATI,CAWANG,"01, 02, 03, 05, 08, 12",6,27,1066,3584,20 s/d 270 cm,"tgl. 05, 06, 07, 26",0,0,0,0,557,4,0,0,2
56,Jakarta Timur,KRAMAT JATI,CAWANG,"01, 02, 03, 05, 08",5,0,0,0,10 - 50 cm,"tgl. 4, 10, 13",0,0,0,0,0,0,0,0,3


In [9]:
df[df['kelurahan'] == 'CILILITAN']

Unnamed: 0,kota_administrasi,kecamatan,kelurahan,rw,jumlah_terdampak_rw,jumlah_terdampak_rt,jumlah_terdampak_kk,jumlah_terdampak_jiwa,ketinggian_air,tanggal_kejadian,lama_genangan,jumlah_meninggal,jumlah_hilang,jumlah_luka_berat,jumlah_luka_ringan,jumlah_pengungsi_tertinggi,jumlah_tempat_pengungsian,nilai_kerugian,bulan_kejadian
47,Jakarta Timur,KRAMAT JATI,CILILITAN,"05, 06, 07, 15, 16",5,10,251,806,30 s/d 250 cm,"tgl. 05, 06, 07",0,0,0,0,350,3,0,0,2
57,Jakarta Timur,KRAMAT JATI,CILILITAN,"06, 07",2,0,0,0,50 - 100 cm,tgl. 4,0,0,0,0,0,0,0,0,3


In [10]:
df[(df['kelurahan'] == 'KEL. PENJARINGAN') | (df['kelurahan'] == 'PENJARINGAN')]

Unnamed: 0,kota_administrasi,kecamatan,kelurahan,rw,jumlah_terdampak_rw,jumlah_terdampak_rt,jumlah_terdampak_kk,jumlah_terdampak_jiwa,ketinggian_air,tanggal_kejadian,lama_genangan,jumlah_meninggal,jumlah_hilang,jumlah_luka_berat,jumlah_luka_ringan,jumlah_pengungsi_tertinggi,jumlah_tempat_pengungsian,nilai_kerugian,bulan_kejadian
11,Jakarta Utara,PENJARINGAN,PENJARINGAN,"12, 17",2,3,0,0,10 s/d 35 cm,tgl. 15,0,0,0,0,0,0,0,0,2
115,Jakarta Utara,KEC. PENJARINGAN,KEL. PENJARINGAN,17,1,0,0,0,5 s/d 10 cm,tgl. 07,0,0,0,0,0,0,0,0,12


Cek nilai unique dari masing2 kota administrasi berdasarkan kecamatan

In [11]:
df[df['kota_administrasi'] == 'Jakarta Pusat']['kecamatan'].unique() #Sudah sesuai

array(['CEMPAKA PUTIH', 'KEMAYORAN', 'KEC. SAWAH BESAR'], dtype=object)

In [12]:
print(f"Jakarta Utara : {df[df['kota_administrasi'] == 'Jakarta Utara']['kecamatan'].unique()}")
#kalideres,grogol petamburan,kembangan,cengkareng (Jakarta Barat)

Jakarta Utara : ['KALIDERES' 'GROGOL PETAMBURAN' 'KEMBANGAN' 'CENGKARENG' 'PENJARINGAN'
 'CILINCING' 'KELAPA GADING' 'KOJA' 'KEC. PENJARINGAN']


In [13]:
df[df['kota_administrasi'] == 'Jakarta Timur']['kecamatan'].unique() #sudah sesuai

array(['CAKUNG', 'JATINEGARA', 'MAKASAR', 'KRAMAT JATI', 'PASAR REBO',
       'MATRAMAN', 'PULOGADUNG', 'JATINEGARA ', 'KEC. JATINEGARA',
       'KEC. KRAMAT JATI', 'KEC. MAKASAR', 'KEC. CIRACAS', 'KEC. CAKUNG'],
      dtype=object)

In [14]:
df[df['kota_administrasi'] == 'Jakarta Selatan']['kecamatan'].unique() #sudah sesuai 

array(['CILANDAK', 'PANCORAN', 'PASAR MINGGU', 'TEBET', 'JAGAKARSA',
       'MAMPANG PRAPATAN', 'PESANGGRAHAN', 'KEC. PASAR MINGGU',
       'KEC. MAMPANG PRAPATAN', 'KEC. PANCORAN', 'KEC. CILANDAK',
       'KEC. KEBAYORAN BARU', 'KEC. TEBET', 'KEC. KEBAYORAN LAMA',
       'KEC. PESANGGRAHAN'], dtype=object)

In [15]:
print(f"Jakarta Barat : {df[df['kota_administrasi'] == 'Jakarta Barat']['kecamatan'].unique()}")
#penjaringan = Jakarta Utara 

Jakarta Barat : ['PENJARINGAN' 'KALIDERES' 'CENGKARENG' 'KEMBANGAN' 'KEBON JERUK'
 'GROGOL PETAMBURAN' 'PALMERAH' 'KEC. KALIDERES' 'KEC. CENGKARENG'
 'KEC. KEMBANGAN']


# Data Cleaning

### Mengubah tipe data

In [16]:
df['bulan_kejadian'] = df['bulan_kejadian'].astype(int)
print(f"bulan_kejadian: {df['bulan_kejadian'].dtype}")

bulan_kejadian: int32


### Handle inconsistent data

Menghilangkan kata KEC., KEL., cm, dan mengganti s/d dengan -

In [17]:
df['kecamatan'] = df['kecamatan'].str.replace('KEC.', '').str.strip()

  df['kecamatan'] = df['kecamatan'].str.replace('KEC.', '').str.strip()


In [18]:
df['kecamatan'].unique()

array(['PENJARINGAN', 'KALIDERES', 'GROGOL PETAMBURAN', 'KEMBANGAN',
       'CENGKARENG', 'CEMPAKA PUTIH', 'KEMAYORAN', 'CILINCING',
       'KELAPA GADING', 'KOJA', 'KEBON JERUK', 'PALMERAH', 'CILANDAK',
       'PANCORAN', 'PASAR MINGGU', 'TEBET', 'JAGAKARSA',
       'MAMPANG PRAPATAN', 'CAKUNG', 'JATINEGARA', 'MAKASAR',
       'KRAMAT JATI', 'PASAR REBO', 'MATRAMAN', 'PESANGGRAHAN',
       'PULOGADUNG', 'KEBAYORAN BARU', 'KEBAYORAN LAMA', 'SAWAH BESAR',
       'CIRACAS'], dtype=object)

In [19]:
for col in ['kelurahan', 'ketinggian_air']:
    df[col] = df[col].str.replace('KEL.', '').str.strip()
    df[col] = df[col].str.replace('s/d', '-', case=False).str.replace('cm', '', case=False)

  df[col] = df[col].str.replace('KEL.', '').str.strip()


In [20]:
df['kelurahan'] = df['kelurahan'].str.replace('RAWA JATI', 'RAWAJATI').str.strip()
df['kelurahan'] = df['kelurahan'].str.replace('PANGADEGAN', 'PENGADEGAN').str.strip()

In [21]:
df['kelurahan'].unique()

array(['KAMAL MUARA', 'KAMAL', 'JELAMBAR BARU', 'JELAMBAR',
       'KEMBANGAN UTARA', 'KAPUK', 'RAWA BUAYA', 'CENGKARENG TIMUR',
       'CEMPAKA PUTIH TIMUR', 'SERDANG', 'PENJARINGAN', 'KAPUK MUARA',
       'SUKAPURA', 'PEGANGSAAN DUA', 'TUGU SELATAN', 'TEGAL ALUR',
       'DURI KOSAMBI', 'CENGKARENG BARAT', 'DURI KEPA', 'WIJAYA KUSUMA',
       'JATI PULO', 'PONDOK LABU', 'PENGADEGAN', 'RAWAJATI',
       'PEJATEN TIMUR', 'KEBON BARU', 'MANGGARAI', 'BUKIT DURI',
       'LENTENG AGUNG', 'SRENGSENG SAWAH', 'BANGKA', 'RAWA TERATE',
       'CAKUNG BARAT', 'JATINEGARA', 'KAMPUNG MELAYU', 'BIDARA CINA',
       'CIPINANG MUARA', 'CIPINANG MELAYU', 'MAKASAR', 'CAWANG',
       'CILILITAN', 'BALE KAMBANG', 'GEDONG', 'KEBON MANGGIS', 'ULUJAMI',
       'PENGGILINGAN', 'RAWAMANGUN', 'JATI PADANG', 'RAGUNAN',
       'CILANDAK TIMUR', 'DUREN TIGA', 'CIPETE SELATAN', 'PETOGOGAN',
       'PONDOK PINANG', 'CIPULIR', 'GUNUNG SAHARI UTARA', 'PLUIT',
       'GANDARIA SELATAN', 'RAMBUTAN', 'CILANDAK BARAT', 

In [22]:
df['ketinggian_air'].unique()

array(['20 - 30 ', '10 - 25 ', '15 ', '20 ', '5 - 20 ', '5 - 30 ',
       '15 - 20 ', '10 - 40 ', '10 - 35 ', '10 - 50 ', '5 - 10 ',
       '05 - 15 ', '60 - 70 ', '40 ', '30 - 50 ', '5 - 60 ', '10 - 80 ',
       '15 - 30 ', '15 - 60 ', '10 - 30 ', '40 - 50 ', '10 - 300 ',
       '10 - 250 ', '30 - 200 ', '20 - 80 ', '50 - 200 ', '100 - 300 ',
       '30 - 40 ', '10 - 120 ', '30 - 70 ', '10 - 220 ', '20 - 90 ',
       '20 - 50 ', '20 - 270 ', '30 - 250 ', '60 - 300 ', '50 - 150 ',
       '30 - 80 ', '30 ', '10 - 100 ', '50 - 100 ', '10 ', '50 - 90 ',
       '05 - 60 ', '10 - 60 ', '100 - 150 ', '30 - 60 ', '20 - 40 ',
       '10 - 20 ', '70 - 110 ', '10 - 70 ', '10 - 15 ', '50 - 75 ',
       '20 - 30', '50 - 60 ', '2 - 15 ', '40 - 70 ', '60 - 80 ',
       '20 - 60 ', '3 - 10 ', '6 - 10 ', '50 ', '70 ', '50 - 80 ',
       '10 - 50'], dtype=object)

Split column ketinggian_air dengan ketinggian_min, ketinggian_max

In [23]:
df[['ketinggian_air_min', 'ketinggian_air_max']] = df['ketinggian_air'].str.split('-', expand=True) #menjadi kolom terpisah

In [24]:
df['ketinggian_air_min'] = df['ketinggian_air_min'].str.strip() #menghapus spasi di awal dan akhir
df['ketinggian_air_max'] = df['ketinggian_air_max'].str.strip()

Imputasi nilai ketinggian_max dengan ketinggian_min

In [25]:
df['ketinggian_air_max'].fillna(df['ketinggian_air_min'], inplace=True) #merubah lgsg df

Mengubah type data ketinggian_min dan ketinggian_max

In [26]:
df['ketinggian_air_min'].unique()

array(['20', '10', '15', '5', '05', '60', '40', '30', '50', '100', '70',
       '2', '3', '6'], dtype=object)

In [27]:
df['ketinggian_air_max'].unique()

array(['30', '25', '15', '20', '40', '35', '50', '10', '70', '60', '80',
       '300', '250', '200', '120', '220', '90', '270', '150', '100',
       '110', '75'], dtype=object)

In [28]:
df[['ketinggian_air_min', 'ketinggian_air_max']] = df[['ketinggian_air_min', 'ketinggian_air_max']].astype(int)
df[['ketinggian_air_min', 'ketinggian_air_max']].dtypes

ketinggian_air_min    int32
ketinggian_air_max    int32
dtype: object

In [29]:
df[['ketinggian_air_min', 'ketinggian_air_max']].head()

Unnamed: 0,ketinggian_air_min,ketinggian_air_max
0,20,30
1,10,25
2,15,15
3,20,20
4,5,20


Replace beberapa kota_administrasi yang sesuai 

In [30]:
df.loc[(df['kecamatan'] == 'KALIDERES') | (df['kecamatan'] == 'GROGOL PETAMBURAN') | 
       (df['kecamatan'] == 'KEMBANGAN') | (df['kecamatan'] == 'CENGKARENG'), 'kota_administrasi'] = 'Jakarta Barat'

In [31]:
df.loc[df['kecamatan'] == 'PENJARINGAN', 'kota_administrasi'] = 'Jakarta Utara'

In [32]:
print(f"Jakarta Barat : {df[df['kota_administrasi'] == 'Jakarta Barat']['kecamatan'].unique()}")

Jakarta Barat : ['KALIDERES' 'GROGOL PETAMBURAN' 'KEMBANGAN' 'CENGKARENG' 'KEBON JERUK'
 'PALMERAH']


In [33]:
print(f"Jakarta Utara : {df[df['kota_administrasi'] == 'Jakarta Utara']['kecamatan'].unique()}")

Jakarta Utara : ['PENJARINGAN' 'CILINCING' 'KELAPA GADING' 'KOJA']


In [34]:
df['kota_administrasi'] = df['kota_administrasi'].str.strip()

Add column 'terjadi_banjir' untuk mengetahui jumlah banjir berdasarkan tgl kejadian

In [35]:
df['tanggal_kejadian'] = df['tanggal_kejadian'].replace('tgl.', '',regex=True)
df['terjadi_banjir'] = df['tanggal_kejadian'].str.split(',').apply(lambda x: len(x))
df

Unnamed: 0,kota_administrasi,kecamatan,kelurahan,rw,jumlah_terdampak_rw,jumlah_terdampak_rt,jumlah_terdampak_kk,jumlah_terdampak_jiwa,ketinggian_air,tanggal_kejadian,...,jumlah_hilang,jumlah_luka_berat,jumlah_luka_ringan,jumlah_pengungsi_tertinggi,jumlah_tempat_pengungsian,nilai_kerugian,bulan_kejadian,ketinggian_air_min,ketinggian_air_max,terjadi_banjir
0,Jakarta Utara,PENJARINGAN,KAMAL MUARA,"01, 04",2,12,0,0,20 - 30,02,...,0,0,0,0,0,0,1,20,30,1
1,Jakarta Barat,KALIDERES,KAMAL,"1, 4",2,3,0,0,10 - 25,"03, 04, 05, 18, 31",...,0,0,0,0,0,0,1,10,25,5
2,Jakarta Barat,GROGOL PETAMBURAN,JELAMBAR BARU,1,1,2,0,0,15,03,...,0,0,0,0,0,0,1,15,15,1
3,Jakarta Barat,GROGOL PETAMBURAN,JELAMBAR,7,1,1,0,0,20,03,...,0,0,0,0,0,0,1,20,20,1
4,Jakarta Barat,KEMBANGAN,KEMBANGAN UTARA,"3, 4, 5, 6",4,2,0,0,5 - 20,18,...,0,0,0,0,0,0,1,5,20,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
130,Jakarta Selatan,PESANGGRAHAN,ULUJAMI,1,1,8,0,0,20 - 40,11,...,0,0,0,0,0,0,12,20,40,1
131,Jakarta Timur,CAKUNG,RAWA TERATE,5,1,1,0,0,10 - 100,3,...,0,0,0,0,0,0,12,10,100,1
132,Jakarta Timur,CAKUNG,CAKUNG TIMUR,9,1,4,210,800,20,3,...,0,0,0,0,0,0,12,20,20,1
133,Jakarta Timur,MAKASAR,CIPINANG MELAYU,4,1,1,0,0,10 - 30,6,...,0,0,0,0,0,0,12,10,30,1


Drop column 

jumlah_meninggal, jumlah_luka_berat, jumlah_tempat_pengungsian dan nilai_kerugian

In [36]:
print(f"Banyaknya kolom : {len(df.columns)}")
print(f"Nama kolom : {df.columns}")

Banyaknya kolom : 22
Nama kolom : Index(['kota_administrasi', 'kecamatan', 'kelurahan', 'rw',
       'jumlah_terdampak_rw', 'jumlah_terdampak_rt', 'jumlah_terdampak_kk',
       'jumlah_terdampak_jiwa', 'ketinggian_air', 'tanggal_kejadian',
       'lama_genangan', 'jumlah_meninggal', 'jumlah_hilang',
       'jumlah_luka_berat', 'jumlah_luka_ringan', 'jumlah_pengungsi_tertinggi',
       'jumlah_tempat_pengungsian', 'nilai_kerugian', 'bulan_kejadian',
       'ketinggian_air_min', 'ketinggian_air_max', 'terjadi_banjir'],
      dtype='object')


In [37]:
df.drop(['ketinggian_air','jumlah_meninggal','jumlah_luka_berat','jumlah_tempat_pengungsian','nilai_kerugian'],axis=1,inplace=True)

In [38]:
print(f"Banyaknya kolom : {len(df.columns)}")
print(f"Nama kolom : {df.columns}")

Banyaknya kolom : 17
Nama kolom : Index(['kota_administrasi', 'kecamatan', 'kelurahan', 'rw',
       'jumlah_terdampak_rw', 'jumlah_terdampak_rt', 'jumlah_terdampak_kk',
       'jumlah_terdampak_jiwa', 'tanggal_kejadian', 'lama_genangan',
       'jumlah_hilang', 'jumlah_luka_ringan', 'jumlah_pengungsi_tertinggi',
       'bulan_kejadian', 'ketinggian_air_min', 'ketinggian_air_max',
       'terjadi_banjir'],
      dtype='object')


### Cek duplicate

In [39]:
df.duplicated().sum()

0

In [40]:
df

Unnamed: 0,kota_administrasi,kecamatan,kelurahan,rw,jumlah_terdampak_rw,jumlah_terdampak_rt,jumlah_terdampak_kk,jumlah_terdampak_jiwa,tanggal_kejadian,lama_genangan,jumlah_hilang,jumlah_luka_ringan,jumlah_pengungsi_tertinggi,bulan_kejadian,ketinggian_air_min,ketinggian_air_max,terjadi_banjir
0,Jakarta Utara,PENJARINGAN,KAMAL MUARA,"01, 04",2,12,0,0,02,0,0,0,0,1,20,30,1
1,Jakarta Barat,KALIDERES,KAMAL,"1, 4",2,3,0,0,"03, 04, 05, 18, 31",0,0,0,0,1,10,25,5
2,Jakarta Barat,GROGOL PETAMBURAN,JELAMBAR BARU,1,1,2,0,0,03,0,0,0,0,1,15,15,1
3,Jakarta Barat,GROGOL PETAMBURAN,JELAMBAR,7,1,1,0,0,03,0,0,0,0,1,20,20,1
4,Jakarta Barat,KEMBANGAN,KEMBANGAN UTARA,"3, 4, 5, 6",4,2,0,0,18,0,0,0,0,1,5,20,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
130,Jakarta Selatan,PESANGGRAHAN,ULUJAMI,1,1,8,0,0,11,0,0,0,0,12,20,40,1
131,Jakarta Timur,CAKUNG,RAWA TERATE,5,1,1,0,0,3,0,0,0,0,12,10,100,1
132,Jakarta Timur,CAKUNG,CAKUNG TIMUR,9,1,4,210,800,3,0,0,0,0,12,20,20,1
133,Jakarta Timur,MAKASAR,CIPINANG MELAYU,4,1,1,0,0,6,0,0,0,0,12,10,30,1


# Exploratory Data Analysis

In [41]:
df.columns

Index(['kota_administrasi', 'kecamatan', 'kelurahan', 'rw',
       'jumlah_terdampak_rw', 'jumlah_terdampak_rt', 'jumlah_terdampak_kk',
       'jumlah_terdampak_jiwa', 'tanggal_kejadian', 'lama_genangan',
       'jumlah_hilang', 'jumlah_luka_ringan', 'jumlah_pengungsi_tertinggi',
       'bulan_kejadian', 'ketinggian_air_min', 'ketinggian_air_max',
       'terjadi_banjir'],
      dtype='object')

Kejadian banjir berdasarkan kota administrasi - pie chart

In [42]:
df_pie_label = df.groupby('kota_administrasi', as_index=False)[['terjadi_banjir']].sum()
fig = px.pie(values= df_pie_label['terjadi_banjir'], names= df_pie_label['kota_administrasi'], hole=0.4,
             color_discrete_sequence = px.colors.sequential.Blues_r)
fig.update_layout(height = 320,
                  width = 700,
                  showlegend = True)
fig.update_traces(textposition = 'outside', textinfo = 'percent+label+value',
                  pull= [0.01,0.01,0.01,0.01,0.01]) 
fig.show()

Kejadian banjir berdasarkan kecamatan - hist chart

In [43]:
def create_hist(col):
    df_hist = df.groupby(['kota_administrasi', col])['terjadi_banjir'].sum().reset_index()
    fig = px.histogram(df_hist, x=col, y='terjadi_banjir', color='kota_administrasi', 
                       color_discrete_sequence=px.colors.sequential.Blues_r, text_auto=True)
    fig.update_layout(width=800, legend_title_text='Kota Administrasi',
                      title=f'{col.title()} Bar Chart')
    fig.update_xaxes(title='')
    fig.update_yaxes(title='Jumlah')
    return fig

In [44]:
create_hist('kecamatan')

Kejadian banjir berdasarkan kelurahan - hist chart

In [45]:
create_hist('kelurahan')

Jumlah terdampak RW per Kota Administrasi

In [46]:
def create_bar(col):
    df_bar = df.groupby('kota_administrasi', as_index=False)[[col]].sum()
    fig_bar = px.bar(df_bar, x='kota_administrasi', y=[col],
                            color_discrete_sequence = px.colors.sequential.Blues_r, color='kota_administrasi',
                            title = f'{col.title()} per Kota Administrasi', text_auto=True)
    fig_bar.update_xaxes(title = '')
    fig_bar.update_yaxes(title = 'Jumlah')
    return fig_bar

In [47]:
create_bar('jumlah_terdampak_rw')

Jumlah Terdampak RT per Kota Administrasi

In [48]:
create_bar('jumlah_terdampak_rt')

Jumlah Terdampak KK per Kota Administrasi

In [49]:
create_bar('jumlah_terdampak_kk')

Jumlah Terdampak Jiwa per Kota Administrasi

In [50]:
create_bar('jumlah_terdampak_jiwa')

Jumlah Kejadian Banjir per bulan berdasarkan Kota Administrasi

Jumlah Luka Ringan per Kota Administrasi

In [51]:
create_bar('jumlah_luka_ringan')

Jumlah Pengungsi Tertinggi per Kota Administrasi

In [52]:
create_bar('jumlah_pengungsi_tertinggi')

Lama Genangan

In [53]:
create_bar('lama_genangan')

Jumlah Orang Hilang

In [54]:
create_bar('jumlah_hilang')

Maksimal Ketinggian Air

In [55]:
df_bar = df.groupby('kota_administrasi', as_index=False)[['ketinggian_air_max']].max()
fig_bar = px.bar(df_bar, x='kota_administrasi', y=['ketinggian_air_max'],
                        color_discrete_sequence = px.colors.sequential.Blues_r, color='kota_administrasi',
                        title = f'Maksimal Ketinggian Air per Kota Administrasi', text_auto=True)
fig_bar.update_xaxes(title = '')
fig_bar.update_yaxes(title = 'Nilai Maksimal')
fig_bar.show()

Minimal Ketinggian Air

In [56]:
df_bar = df.groupby('kota_administrasi', as_index=False)[['ketinggian_air_min']].min()
fig_bar = px.bar(df_bar, x='kota_administrasi', y=['ketinggian_air_min'],
                        color_discrete_sequence = px.colors.sequential.Blues_r, color='kota_administrasi',
                        title = 'Minimal Ketinggian Air per Kota Administrasi', text_auto=True)
fig_bar.update_xaxes(title = '')
fig_bar.update_yaxes(title = 'Nilai Minimal')
fig_bar.show()

In [57]:
df

Unnamed: 0,kota_administrasi,kecamatan,kelurahan,rw,jumlah_terdampak_rw,jumlah_terdampak_rt,jumlah_terdampak_kk,jumlah_terdampak_jiwa,tanggal_kejadian,lama_genangan,jumlah_hilang,jumlah_luka_ringan,jumlah_pengungsi_tertinggi,bulan_kejadian,ketinggian_air_min,ketinggian_air_max,terjadi_banjir
0,Jakarta Utara,PENJARINGAN,KAMAL MUARA,"01, 04",2,12,0,0,02,0,0,0,0,1,20,30,1
1,Jakarta Barat,KALIDERES,KAMAL,"1, 4",2,3,0,0,"03, 04, 05, 18, 31",0,0,0,0,1,10,25,5
2,Jakarta Barat,GROGOL PETAMBURAN,JELAMBAR BARU,1,1,2,0,0,03,0,0,0,0,1,15,15,1
3,Jakarta Barat,GROGOL PETAMBURAN,JELAMBAR,7,1,1,0,0,03,0,0,0,0,1,20,20,1
4,Jakarta Barat,KEMBANGAN,KEMBANGAN UTARA,"3, 4, 5, 6",4,2,0,0,18,0,0,0,0,1,5,20,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
130,Jakarta Selatan,PESANGGRAHAN,ULUJAMI,1,1,8,0,0,11,0,0,0,0,12,20,40,1
131,Jakarta Timur,CAKUNG,RAWA TERATE,5,1,1,0,0,3,0,0,0,0,12,10,100,1
132,Jakarta Timur,CAKUNG,CAKUNG TIMUR,9,1,4,210,800,3,0,0,0,0,12,20,20,1
133,Jakarta Timur,MAKASAR,CIPINANG MELAYU,4,1,1,0,0,6,0,0,0,0,12,10,30,1


# Normalization Table

In [58]:
df.columns

Index(['kota_administrasi', 'kecamatan', 'kelurahan', 'rw',
       'jumlah_terdampak_rw', 'jumlah_terdampak_rt', 'jumlah_terdampak_kk',
       'jumlah_terdampak_jiwa', 'tanggal_kejadian', 'lama_genangan',
       'jumlah_hilang', 'jumlah_luka_ringan', 'jumlah_pengungsi_tertinggi',
       'bulan_kejadian', 'ketinggian_air_min', 'ketinggian_air_max',
       'terjadi_banjir'],
      dtype='object')

In [59]:
# Dimension table 'Kota Administrasi'
kota_table = df[['kota_administrasi']]
kota_table = kota_table.drop_duplicates().reset_index(drop=True)
kota_table['kota_id'] = range(1, len(kota_table) + 1)

print("Tabel Kota Administrasi:")
kota_table

Tabel Kota Administrasi:


Unnamed: 0,kota_administrasi,kota_id
0,Jakarta Utara,1
1,Jakarta Barat,2
2,Jakarta Pusat,3
3,Jakarta Selatan,4
4,Jakarta Timur,5


In [60]:
kecamatan_table = df[['kecamatan','kota_administrasi']].drop_duplicates().reset_index(drop=True)
kecamatan_table = kecamatan_table.merge(kota_table, on=['kota_administrasi'])
kecamatan_table['kecamatan_id'] = range(1, len(kecamatan_table) + 1)
kecamatan_table = kecamatan_table[['kecamatan','kota_id','kecamatan_id']]

print("Tabel Kecamatan:")
kecamatan_table

Tabel Kecamatan:


Unnamed: 0,kecamatan,kota_id,kecamatan_id
0,PENJARINGAN,1,1
1,CILINCING,1,2
2,KELAPA GADING,1,3
3,KOJA,1,4
4,KALIDERES,2,5
5,GROGOL PETAMBURAN,2,6
6,KEMBANGAN,2,7
7,CENGKARENG,2,8
8,KEBON JERUK,2,9
9,PALMERAH,2,10


In [61]:
kelurahan_table = df[['kelurahan','kecamatan']].drop_duplicates().reset_index(drop=True)
kelurahan_table = kelurahan_table.merge(kecamatan_table, on=['kecamatan'])
kelurahan_table['kelurahan_id'] = range(1, len(kelurahan_table) + 1)
kelurahan_table = kelurahan_table[['kelurahan','kecamatan_id','kelurahan_id']]

print("Tabel Kelurahan:")
kelurahan_table

Tabel Kelurahan:


Unnamed: 0,kelurahan,kecamatan_id,kelurahan_id
0,KAMAL MUARA,1,1
1,PENJARINGAN,1,2
2,KAPUK MUARA,1,3
3,PLUIT,1,4
4,KAMAL,5,5
...,...,...,...
58,CIPETE UTARA,21,59
59,PONDOK PINANG,22,60
60,CIPULIR,22,61
61,GUNUNG SAHARI UTARA,13,62


In [62]:
dampak_banjir = df[['kelurahan', 'rw',
                  'jumlah_terdampak_rw', 'jumlah_terdampak_rt', 'jumlah_terdampak_kk','jumlah_terdampak_jiwa', 'tanggal_kejadian',
                  'lama_genangan','jumlah_hilang', 'jumlah_luka_ringan', 'jumlah_pengungsi_tertinggi','bulan_kejadian', 'terjadi_banjir', 
                  'ketinggian_air_min','ketinggian_air_max']].drop_duplicates().reset_index(drop=True)
dampak_banjir = dampak_banjir.merge(kelurahan_table, on=['kelurahan'])
dampak_banjir = dampak_banjir[['kelurahan_id','rw','jumlah_terdampak_rw','jumlah_terdampak_rt', 'jumlah_terdampak_kk',
                               'jumlah_terdampak_jiwa','tanggal_kejadian','lama_genangan','jumlah_hilang', 'jumlah_luka_ringan', 
                               'jumlah_pengungsi_tertinggi','bulan_kejadian', 'terjadi_banjir', 'ketinggian_air_min','ketinggian_air_max']]

print("Tabel Dampak Banjir:")
dampak_banjir

Tabel Dampak Banjir:


Unnamed: 0,kelurahan_id,rw,jumlah_terdampak_rw,jumlah_terdampak_rt,jumlah_terdampak_kk,jumlah_terdampak_jiwa,tanggal_kejadian,lama_genangan,jumlah_hilang,jumlah_luka_ringan,jumlah_pengungsi_tertinggi,bulan_kejadian,terjadi_banjir,ketinggian_air_min,ketinggian_air_max
0,1,"01, 04",2,12,0,0,02,0,0,0,0,1,1,20,30
1,1,"01, 02, 04",3,5,0,0,"01, 15",0,0,0,0,2,2,5,10
2,1,4,1,5,0,0,"26, 27",0,0,0,0,11,2,5,10
3,1,4,1,3,0,0,"4, 5, 6, 7, 8, 11, 13",0,0,0,0,12,7,3,10
4,5,"1, 4",2,3,0,0,"03, 04, 05, 18, 31",0,0,0,0,1,5,10,25
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
130,63,"03, 05",2,4,0,0,11,0,0,0,0,12,1,10,50
131,26,"02, 06",2,2,0,0,4,0,0,0,0,12,1,20,60
132,30,9,1,5,0,0,10,0,0,0,0,12,1,30,30
133,59,6,1,1,0,0,13,0,0,0,0,12,1,20,40


In [63]:
kota_table.to_csv('Banjir/Kota_Table.csv', index=False)
kecamatan_table.to_csv('Banjir/Kecamatan_Table.csv', index=False)
kelurahan_table.to_csv('Banjir/Kelurahan_Table.csv', index=False)
dampak_banjir.to_csv('Banjir/Dampak_Banjir.csv', index=False)

In [64]:
angka = range(1,13)
nama_bulan = ['Januari', 'Februari', 'Maret', 'April', 'Mei', 'Juni', 'Juli','Agustus','September','Oktober','November','Desember']
dict_bulan = {'angka':list(angka), 'bulan': nama_bulan}
dict_bulan

{'angka': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
 'bulan': ['Januari',
  'Februari',
  'Maret',
  'April',
  'Mei',
  'Juni',
  'Juli',
  'Agustus',
  'September',
  'Oktober',
  'November',
  'Desember']}

In [65]:
df_bulan = pd.DataFrame(dict_bulan)
df_bulan

Unnamed: 0,angka,bulan
0,1,Januari
1,2,Februari
2,3,Maret
3,4,April
4,5,Mei
5,6,Juni
6,7,Juli
7,8,Agustus
8,9,September
9,10,Oktober


In [66]:
df_bulan.to_csv('Banjir/Bulan.csv', index=False)