In [None]:
### Initialization
### Import Library Pandas
# Untuk dapat menginstall pandas, kamu bisa menjalankan perintah dengan menggunakan pip


# ```
# pip install pandas
# ```


#  pip install pandas
# Jika sudah berhasil melakukan instalasi Pandas, kita dapat menggunakannya dengan cara import modul tersebut.


# ```
# import pandas as pd
# import numpy as np
# ```


import pandas as pd
import numpy as np
## Creating Dataframe
# DataFrame adalah struktur data tabular yang disusun pada kolom dan baris berurut. Dataframe layaknya seperti 2-dimensi array, You can think of a data frame is like a table.

# <img src="https://www.w3resource.com/w3r_images/pandas-data-structure.svg">
# Create dataframe using dictionary
data_penjualan = {
  "product": ["product A", "product B", "product C", "product X"],
  "hasil_penjualan": [500000, 700000, 125000, 350000]
}
data_penjualan


#load data into a DataFrame object:
df = pd.DataFrame(data_penjualan)

print(df)
### Reading or loading the data from file

# Untuk membaca data dari file berupa csv kita dapat melakukannya dengan command:

# ```
pd.read_csv
# ```


# get the data from https://data.jakarta.go.id/dataset/data-jumlah-siswa-dan-guru-sma-provinsi-dki-jakarta
df = pd.read_csv('data-jumlah-siswa-dan-guru-sma-provinsi-dki-jakarta-tahun-2019.csv')
df.head()
## Informasi Struktur Data

# Property shape dapat digunakan untuk mengetahui dimensi dari dataframe
df.shape
# Dari nilai property shape yang terlihat diatas, memberikan informasi bahwa DataFrame memiliki 31 baris/record dan 5 kolom.




# Property DataFrame lainnya adalah `dtypes`, yang dapat digunakan untuk melihat struktur dari data

# `df.dtypes`
df.dtypes
# Informasi lebih detail mengenai struktur DataFrame dapat dilihat menggunakan fungsi info()
# `df.info()`

df.info()
print(df.columns)
df['kecamatan ']


# Ubah nama columnya supaya mudah dibaca dan dipahami,

# 'pd' => 'jumlah_siswa'

# 'bp' => 'jenjang_sekolah'

# 'guru' => 'jumlah_guru'

# 'wilayah ' => 'wilayah'

# 'kecamatan '=>'kecamatan'

# gunakan `df.rename()`
print(df.columns)
df = df.rename(columns={'pd': 'jumlah_siswa', 'bp': 'jenjang_sekolah', 'guru':'jumlah_guru', 'wilayah ':'wilayah', 'kecamatan ': 'kecamatan'})
print(df.columns)
print(df.columns)
df.head()

## Informasi Statistik
# Informasi statistik untuk setiap kolom seperti nilai minimum, nilai maksimum, standar deviasi, rata-rata dan sebagainya, dapat ditampilkan dengan mengikuti perintah berikut
df.describe()
# Cek unique value dari object/string column, wilayah dan kecamatan
df['wilayah'].unique()
df['kecamatan'].unique()
# Cek aggregate data by status dan wilayah
df.groupby(['status', 'wilayah'])['jumlah_guru'].max()
# Selanjutnya, buat agregate menggunakan column status, wilayah, dan tahun. perlu mengambil data di tahun lainnya yang ada pada https://data.jakarta.go.id/dataset/data-jumlah-siswa-dan-guru-sma-provinsi-dki-jakarta


# extract masing masing dataset di tahun 2019, 2020, 2021
# Copy address link nya, masukan ke dalam dictionary utk diextract tanpa perlu menjalankan satu per satu
link_siswa_guru = {
    '2021':'https://data.jakarta.go.id/dataset/098d3b48-b0f9-4ba7-9f69-d9d5652fee96/resource/ff7cfab09837b722d612e45164d1d7de/download/Data-Jumlah-Siswa-dan-Guru-SMA-Provinsi-DKI-Jakarta-Tahun-2021.csv',
    '2020': 'https://data.jakarta.go.id/dataset/098d3b48-b0f9-4ba7-9f69-d9d5652fee96/resource/dc480aa7-49d8-42ab-aeda-2d4eebfd02d4/download/Data-Jumlah-Siswa-dan-Guru-SMA-Provinsi-DKI-Jakarta-Tahun-2020.csv',
    '2019': 'https://data.jakarta.go.id/dataset/098d3b48-b0f9-4ba7-9f69-d9d5652fee96/resource/f77445ce-79a5-48c5-95dc-6b083238355a/download/Data-Jumlah-Siswa-dan-Guru-SMA-Provinsi-DKI-Jakarta-Tahun-2019.csv'
}
df_siswa_guru_all = pd.DataFrame()

for tahun, link in link_siswa_guru.items():
  df_siswa_guru_temp = pd.read_csv(link)
  df_siswa_guru_temp['tahun'] = int(tahun)
  df_siswa_guru_all = df_siswa_guru_all.append(df_siswa_guru_temp)

df_siswa_guru_all
# Ubah nama columnya supaya mudah dibaca dan dipahami,

# 'pd' => 'jumlah_siswa'

# 'bp' => 'jenjang_sekolah'

# 'guru' => 'jumlah_guru'

# 'wilayah ' => 'wilayah'

# 'kecamatan '=>'kecamatan'

# gunakan `df.rename()`
df_siswa_guru_all.rename(columns = {'pd' :'jumlah_siswa', 'bp': 'jenjang_sekolah', 'guru':'jumlah_guru', 'wilayah ':'wilayah', 'kecamatan ':'kecamatan'},inplace= True)
# Cek unique value dari object/string column, wilayah
df_siswa_guru_all['wilayah'].unique()
# Ubah value colum wilayah supaya terstandarisasi,

# 'Kota Jakarta Barat' => 'Jakarta Barat'

# 'Kota Jakarta Timur' => 'Jakarta Timur'

# ... dst

def standardize_wilayah(x):
  if x == 'Kota Jakarta Barat':
    return 'Jakarta Barat'
  elif x == 'Kota Jakarta Timur':
    return 'Jakarta Timur'
  elif x == 'Kota Jakarta Selatan':
    return 'Jakarta Selatan'
  elif x == 'Kota Jakarta Pusat':
    return 'Jakarta Pusat'
  elif x == 'Kota Jakarta Utara':
    return 'Jakarta Utara'
  elif x == 'Kab. Kepulauan Seribu':
    return 'Kep. Seribu'
  else:
    return x

df_siswa_guru_all['wilayah'] = df_siswa_guru_all['wilayah'].apply(standardize_wilayah)
df_siswa_guru_all['wilayah'].unique()
df_siswa_guru_all.head()
# Cek aggregate data by status, wilayah, dan tahun

df_siswa_guru_all.groupby(['status', 'wilayah', 'tahun'])['jumlah_siswa','jumlah_guru'].sum()
# Simpan hasil ke dalam json
export_df = df_siswa_guru_all.groupby(['status', 'wilayah', 'tahun']).sum()
export_df.to_json('./test_result.json', orient='records')
# Simpan hasil ke dalam json, dengan mengembalikan index aggregate menjadi column.

# ```
as_index=False
# ```
export_df = df_siswa_guru_all.groupby(['status', 'wilayah', 'tahun'], as_index=False).sum()
export_df.to_json('./test_result.json', orient='records')