In [None]:
# Python Pandas

# **Covered Topics**

# - Initialization
# - Column selection, addition, deletion
# - Data Indexing & Selecting
# - Handling Missing Value
# - Combining Datasets
# - Grouping and Sorting
# - Pivot table
# - Working with string
# - Working with time series

### Initialization
### Import Library Pandas
# Untuk dapat menginstall pandas, kamu bisa menjalankan perintah dengan menggunakan pip



# pip install pandas



#  pip install pandas
# Jika sudah berhasil melakukan instalasi Pandas, kita dapat menggunakannya dengan cara import modul tersebut.



# import pandas as pd
# import numpy as np



import pandas as pd
import numpy as np

## Creating Dataframe
# DataFrame adalah struktur data tabular yang disusun pada kolom dan baris berurut. Dataframe layaknya seperti 2-dimensi array, You can think of a data frame is like a table.

# <img src="https://www.w3resource.com/w3r_images/pandas-data-structure.svg">
# Create dataframe using dictionary

data_penjualan = {
  "product": ["product A", "product B", "product C", "product X"],
  "hasil_penjualan": [500000, 700000, 125000, 350000]
}
data_penjualan
#load data into a DataFrame object:
# df = pd.DataFrame(data_penjualan)

# print(df)
## Reading or loading the data from file

# Untuk membaca data dari file berupa csv kita dapat melakukannya dengan command:

pd.read_csv



# download file from https://data.jakarta.go.id/dataset/data-penumpang-bus-sekolah-kpi
# df.
# from google.colab import drive
# drive.mount('/content/drive')

## Menulis pandas dataframe ke json file

# gunakan `df.to_json` untuk menulis dataframe ke json file. format JSON disajikan dalam *key/value pair*

# contoh:

# `{"key":"value","key":"value","key":"value".}`


# ---


# Note:

# *JSON (JavaScript Object Notation) adalah format file berbasis teks yang umumnya digunakan dalam proses pertukaran data antara server dan klien.*

# baca json file ke dataframe menggunakan `pd.read_json`.

# coba baca json file yang sudah di-export sebelumnya `./test_result.json`

# ## cek sample data

# `df.head()` dapat digunakan untuk melihat sample data row paling atas
# # df.head()
# # df.head(10)
# Untuk menampilkan n record terakhir, dapat menggunakan perintah `tail(n)`. Jika tidak diberi parameter jumlah recordnya, maka secara default akan menampilkan 5 record
# # df.tail()
# Fungsi `sample()` pada Pandas dapat digunakan jika kita ingin menampilkan dataframe secara acak. Misalkan menampilkan 10 dataframe secara acak
# # df.sample(10)
# ## Informasi Struktur Data

# Property shape dapat digunakan untuk mengetahui dimensi dari dataframe
# # df.shape
# Dari nilai property shape yang terlihat diatas, memberikan informasi bahwa DataFrame memiliki 31 baris/record dan 5 kolom.




# Property DataFrame lainnya adalah `dtypes`, yang dapat digunakan untuk melihat struktur dari data

# `df.dtypes`
# # df.dtypes
# Informasi lebih detail mengenai struktur DataFrame dapat dilihat menggunakan fungsi info()

# `df.info()`
# # df.info()
# ## Informasi Statistik
# Informasi statistik untuk setiap kolom seperti nilai minimum, nilai maksimum, standar deviasi, rata-rata dan sebagainya, dapat ditampilkan dengan mengikuti perintah berikut
# # df.describe()
# ## Column selection, addition, deletion
# Untuk melihat list column gunakan `df.columns`
# # df.columns
# Kita dapat memilih kolom mana saja yang akan ditampilkan, yaitu dengan menyebutkan nama kolom yang akan ditampilkan.


# Sebagai contoh kita hanya ingin menampilkan daerah_operasi

# Contoh lain kita ingin menampilkan type_operasi, daerah_operasi, dan jumlah_penumpang

# **adding column**

# untuk menambahkan column, sama seperti dictionary, cukup definisikan column baru nya
# # df["column baru"] = "New column"
# # df.head()
# **deleting column**

# untuk menghapus column, gunakan `df.drop`
# df = df.drop(columns=["column baru"])
# df.head()
## Data Indexing and Selection
# Salah satu bagian penting yang digunakan dalam penyiapan data dan analisis data adalah filtering, yaitu pemilihan data dengan kriteria tertentu.
# **Python loc() function**

# *Example 1*

# Bagi mereka yang terbiasa menggunakan SQL, ini adalah bagian dari pernyataan WHERE.

# Misalnya, ingin menampilkan data untuk rute bus dengan jumlah bus >= 70

# Misalnya, ingin menampilkan data untuk rute bus dengan jumlah bus >= 70, namun hanya column type_operasi dan daerah_operasi saja yang ditampilkan

# Penggabungkan beberapa kondisi dapat menggunakan operator logika `AND("&")` dan operator logika `OR("|")` untuk memilih baris dengan lebih dari satu kriteria.

# Misalnya kita ingin menampilkan data dengan jumlah bus > 70 dan jumlah penumpang > 20000

# Penggunaan operator logika `AND ("&")` di atas, akan mengambil data yang cocok dengan kedua kriteria tersebut. Jika Anda ingin mendapatkan data yang cocok hanya untuk salah satu kriteria, dapat menggunakan operator logika `OR("|")`
# Fungsi `isin()` dapat digunakan untuk memfilter kolom jika nilainya ditentukan dalam bentuk list/daftar.

# Untuk penyataan negasi atau NOT menggunakan tanda '~'

# **Memfilter data menggunakan index**

# Kita dapat menampilkan data berdasarkan index nya dengan menggunakan `loc` dan `iloc`
# # df.loc[10:15]
# # df.iloc[10:15]
# ## Handling missing data

# Perbedaan antara data yang ditemukan di banyak tutorial dan data di dunia nyata adalah bahwa data di dunia nyata jarang sekali bersih dan homogen. Lebih rumit lagi, sumber data yang berbeda mungkin menunjukkan data yang hilang dengan cara yang berbeda.

# terdapat beberapa function yang dipakai untuk menghandle null values dalam Pandas data structures.


# ```
# isnull(): Generate a boolean mask indicating missing values
# notnull(): Opposite of isnull()
# dropna(): Return a filtered version of the data
# fillna(): Return a copy of the data with missing values filled or imputed
# ```


### Detecting Null

# Untuk mengecek data yang null atau tidak, gunakan `isnull() and notnull()`

data_penjualan = {
  "product": ["product A", "product B", "product C", "product X"],
  "hasil_penjualan": [500000, None, 125000, np.nan]
}
df = pd.DataFrame(data_penjualan)

print(df)
# df.isnull()
# df.notnull()
### Dropping null values

# terdapat function `dropna()` untuk menghapus null data dan fillna() untuk mengisi null value
# df.dropna()
# Sometimes rather than dropping NA values,
# you'd rather replace them with a valid value.
# This value might be a single number like zero,
# or it might be some sort of imputation
# or interpolation from the good values.

# df.fillna(1000000)
## Menggabungkan data
### concat

# `concat()` dapat digunakan pada data frame yang ditujukan untuk penggabungan.

data_penjualan_1 = {
  "product": ["product A", "product B", "product C", "product X"],
  "hasil_penjualan": [500000, None, 125000, np.nan]
}
df_1 = pd.DataFrame(data_penjualan_1)
df_1
data_penjualan_2 = {
  "product": ["product Z", "product Y", "product V", "product W"],
  "hasil_penjualan": [500000, 750000, 125000, 1000000]
}
df_2 = pd.DataFrame(data_penjualan_2)
df_2
# pd.concat([df_1,df_2])
# By default, the join is a union of the input columns (`join='outer'`), but we can change this to an intersection of the columns using `join='inner'`

data_penjualan_1 = {
  "product": ["product A", "product B", "product C", "product X"],
  "hasil_penjualan": [500000, None, 125000, np.nan],
  # "company": ["company A", "company A", "company B", "company A"]
}
df_1 = pd.DataFrame(data_penjualan_1)
df_1
data_penjualan_2 = {
  "product": ["product Z", "product Y", "product V", "product W"],
  "hasil_penjualan": [500000, 750000, 125000, 1000000],
  # "region": ["region A", "region C", "region B", "region A"]
}
df_2 = pd.DataFrame(data_penjualan_2)
df_2
# pd.concat([df_1,df_2])
# pd.concat([df_1,df_2], join='inner')
### Merge

# `merge()` digunakan untuk menggabungkan Series atau Data Frame yang bentuknya mirip dengan syntax join di SQL
df_pelanggan = pd.DataFrame({'cust_id':[1, 2, 3, 4, 5],
                          'nama':['nana','nini','nunu','nene','nono']})
print(df_pelanggan)
df_transaksi = pd.DataFrame({'transaksi_id': [3, 4, 8],
                          'cust_id' : [1, 3, 5],
                          'prod_id' : [8, 10, 11],
                          'jumlah' : [3, 4, 2] })
print(df_transaksi)
df_product = pd.DataFrame({'product_id' : [8, 9, 10, 11, 12],
                          'product_name' : ['Biskuit', 'Kopi', 'Gula', 'Beras', 'Minyak Goreng'],
                       'harga' : [1000, 2000, 15000, 12000, 15000]})
print(df_product)
# Menggabungkan DataFrame dengan inner join
# df1 = pd.merge(df_pelanggan,df_transaksi, on = 'cust_id', how='inner')
# df1
# Menggabungkan DataFrame dengan left join
# df1 = pd.merge(df_pelanggan,df_transaksi, on = 'cust_id', how='left')
# df1
# Menggabungkan DataFrame dengan right join dengan key name yang berbeda
# df1 = pd.merge(df_transaksi,df_product, left_on = 'prod_id', right_on = 'product_id', how='right')
# df1
# Join 3 DataFrame
# new_df = pd.merge(df_pelanggan, df_transaksi, on = 'cust_id', how='inner')
# final_df = pd.merge(new_df, df_product, left_on = 'prod_id', right_on = 'product_id', how='inner')
# final_df
## Grouping dan Aggregation

# Pandas memiliki fungsi `groupby()` untuk melakukan perhitungan kelompok berdasarkan nilai unik sesuai kolom yang dipilih.
# Menghitung rata-rata menggunakan `mean()`

# Fungsi groupby() dapat digabungkan dengan fungsi agg().

# Untuk melakukan bebrapa perhitungan statistik yang dikelompokkan berdasarkan nilai unik sebuah kolom, dapat dilakukan sebagai berikut
# df.groupby('type_operasi').agg(
#     avg_jumlah_penumpang=('jumlah_penumpang', 'mean'),
#     sum_jumlah_penumpang=('jumlah_penumpang', 'sum'),
#     max_jumlah_penumpang=('jumlah_penumpang', 'max')
#     )
# Perhitungan aggregasi untuk kolom yang berbeda
# df.groupby('type_operasi').agg(
#     avg_jumlah_penumpang=('jumlah_penumpang', 'mean'),
#     sum_jumlah_bus=('jumlah_bus', 'sum'),
#     max_jumlah_bus=('jumlah_bus', 'max')
#     )
# Supaya kolom grouping tidak ditampilkan sebagai index, maka parameter as_index diset False
# df.groupby('type_operasi', as_index=False).agg(
#     avg_jumlah_penumpang=('jumlah_penumpang', 'mean'),
#     sum_jumlah_bus=('jumlah_bus', 'sum'),
#     max_jumlah_bus=('jumlah_bus', 'max')
#     )
### Mengurutkan Data
# Fungsi `sort_values()` digunakan untuk melakukan pengurutan data berdasarkan dengan kolom yang disebutkan mulai dari nilai terkecil.
df.sort_values('jumlah_bus').head()
# df.groupby('type_operasi', as_index=False).agg(
#     avg_jumlah_penumpang=('jumlah_penumpang', 'mean'),
#     sum_jumlah_bus=('jumlah_bus', 'sum'),
#     max_jumlah_bus=('jumlah_bus', 'max')
#     )
# df.groupby('type_operasi').agg(
#     avg_jumlah_penumpang=('jumlah_penumpang', 'mean'),
#     sum_jumlah_bus=('jumlah_bus', 'sum'),
#     max_jumlah_bus=('jumlah_bus', 'max')
# ).sort_values('sum_jumlah_bus', ascending=True)
# Jika ingin mengurutkan data dengan menggunakan lebih dari satu kolom maka perlu ditentukan daftar nama kolom
# df.sort_values(['jumlah_bus', 'jumlah_penumpang']).head(10)
# Setiap kolom juga dapat memiliki tipe pengurutannya masing-masing, misalkan jumlah_bus diurutkan secara DESC dan jumlah_penumpang secara ASC
# df.sort_values(['jumlah_bus', 'jumlah_penumpang'], ascending=[0, 1]).head(10)
## Working with string
df_pelanggan = pd.DataFrame({'cust_id':[1, 2, 3, 4, 5],
                          'nama':['Kak nana','Kak nini','mba nunu','mpo nene','mba nono']})
print(df_pelanggan)
df_pelanggan['nama'].str.lower()
df_pelanggan['nama'].str.len()
df_pelanggan['nama'].str.startswith('m')
df_pelanggan['nama'].str.split()
df_pelanggan['nama'].str.split().str.get(-1)
# Mencari data dengan huruf awal kapital menggunakan regex

# More info: https://regex101.com/
df_pelanggan['nama'].str.findall(r'^[A-Z].*')
## Working with time series
df_sample = pd.DataFrame(
    {'date_fmt1' :['4/1/20', '4/2/20', '4/3/20', '4/4/20', '4/5/20', '4/6/20', '4/7/20'],
     'date_fmt2' :['20200401', '20200402', '20200403', '20200404', '20200405', '20200406', '20200407'],
     'date_fmt3' :['Apr.01.2020', 'Apr.02.2020', 'Apr.03.2020', 'Apr.04.2020', 'Apr.05.2020', 'Apr.06.2020', 'Apr.07.2020'],
     'value' :[103, 112, 134, 150, 164, 192, 204]
    })

df_sample
df_sample.dtypes
### Merubah format string ke tipe date

# Panda memiliki fungsi to_datetime yang bisa digunakan untuk mengkonversi STRING menjadi tipe data DATETIME. Format pembacaan tanggal dapat disesuaikan dengan menggunakan parameter format.
df_sample['date01'] = pd.to_datetime(df_sample['date_fmt1'], format='%m/%d/%y')
df_sample
df_sample['date02'] = pd.to_datetime(df_sample.date_fmt2, format='%Y%m%d')
df_sample
# Jika penulisan bulan dengan menggunakan format singkatan 3 karakter nama bulan, seperti Apr untuk April, maka parameter format untuk pembacaannya dapat menggunakan %b
df_sample['date03'] = pd.to_datetime(df_sample['date_fmt3'], format='%b.%d.%Y')
df_sample
# Terlihat dibawah, bahwa field date01, date02 dan date03 memiliki tipe data datetime64


df_sample.dtypes
### Mengekstrak Feature Pada Date
df = df_sample[['date01', 'value']].copy()
df.rename(columns={'date01': 'date_id'}, inplace=True)
df.dtypes
df['year'] = df['date_id'].dt.year
df['month'] = df['date_id'].dt.month
df['day'] = df['date_id'].dt.day
df['querter-of-year'] = df['date_id'].dt.quarter
df
df['week-of-year'] = df['date_id'].dt.isocalendar().week
df
### Menghitung Selisih Antar Tanggal
# Menghitung selisih hari biasanya digunakan ketika menghitung durasi dalam satuan hari.
df['diff'] = df.date_id - pd.to_datetime('20200330', format='%Y%m%d')
df
# Untuk mengkonversikan menjadi numerik, dapat menngunakan atribut dt.days

df['diff-in-days'] = df['diff'].dt.days
df
df.dtypes


### Operasi Penambahan n Hari
# Jika ingin melakukan penambahan hari, maka dapat dilakukan seperti kode dibawah ini

df['seven-days-later'] = df.date_id + pd.Timedelta(days=7)
df


### Date Filtering
# Secara umum fungsi-fungsi yang telah dijelaskan diatas dapat digunakan untuk memfilter data. Misalkan kita akan memfilter untuk menampilkan data-data antara tanggal 3 April hingga 7 April

df[['date_id', 'value']] [(df.date_id > '04-03-2020') & (df.date_id < '04-07-2020')]

# Perintah diatas memiliki 2 bagian:

# 1. `[['date_id', 'value']]` 
# adalah nama field yang akan ditampilkan
# 2. `[(df.date_id > '04-03-2020') & (df.date_id < '04-09-2020')]`
# adalah filter yang digunakan, dalam hal ini adalah untuk menampilkan data-data antara tanggal 3 April hingga 9 April


# Contoh lain adalah menampilkan data-data pada hari Rabu

df[['date_id', 'value']] [(df.date_id.dt.strftime('%a') == 'Wed')]
### Filtering menggunakan index
# Jika akan melakukan banyak filtering menggunakan field date_id, akan lebih cepat jika field tanggal digunakan sebagai index, sehingga dapat memanfaatkan optimasi yang disediakan oleh Pandas.
df = df.set_index(['date_id'])
df
df.loc['2020-04-05' : '2020-04-07']