### Import Library & Dataset
Mengimport library yang dibutuhkan dan dataset yang akan digunakan. Lalu tampilkan 5 data pertama dari dataset.

In [1]:
import pandas as pd
from itertools import combinations
from collections import Counter
import matplotlib.pyplot as plt
import seaborn as sns

# mengambil data dari file csv
data = pd.read_csv('transaksi_buku.csv')

# menampilkan 5 data pertama dari dataset
print(data.head())

   No              Nota       Nama Anggota  Kode Anggota  Barcode  \
0   1  PNJM-230102-0001      WENNY WINALTI     1010306.0   113536   
1   2  PNJM-230102-0001      WENNY WINALTI     1010306.0   119570   
2   3  PNJM-230102-0002              NOFRI     1011248.0   118005   
3   4  PNJM-230102-0003  TRIKA ADINDA SARI     1011168.0    60999   
4   5  PNJM-230102-0003  TRIKA ADINDA SARI     1011168.0   141286   

                                          Judul Buku Tgl. Pinjam  \
0  Mewarnai, Menggunting & Membuat Topeng Monster...  02/01/2023   
1  Komik Sufi Rumi: Kisah & Hikmah Pencerah Hati/...  02/01/2023   
2  Budidaya & Pemasteran Kacer Siap Menjadi Jawar...  02/01/2023   
3  LIMA SEKAWAN: SARJANA MISTERIUS/ ENID BLYTON; ...  02/01/2023   
4             Somewhere Called Home/ Dhamala Shobita  02/01/2023   

  Tgl. Perpanjang Batas Kembali Tgl. Kembali  Telat              Status  \
0             NaN    09/01/2023   03/01/2023    NaN  Sudah Dikembalikan   
1             NaN    09/01

### Delete Unused Columns
Menghapus kolom yang tidak diperlukan dari dataset.

In [2]:
columns_to_drop = ['No','Nama Anggota', 'Kode Anggota', 'Barcode', 'Tgl. Pinjam', 'Tgl. Perpanjang', 'Batas Kembali', 'Tgl. Kembali', 'Telat', 'Status', 'Keterangan']
data_reduced = data.drop(columns=columns_to_drop)

data_reduced.head()

Unnamed: 0,Nota,Judul Buku
0,PNJM-230102-0001,"Mewarnai, Menggunting & Membuat Topeng Monster..."
1,PNJM-230102-0001,Komik Sufi Rumi: Kisah & Hikmah Pencerah Hati/...
2,PNJM-230102-0002,Budidaya & Pemasteran Kacer Siap Menjadi Jawar...
3,PNJM-230102-0003,LIMA SEKAWAN: SARJANA MISTERIUS/ ENID BLYTON; ...
4,PNJM-230102-0003,Somewhere Called Home/ Dhamala Shobita


### Cek Typedata, Missing Value, Duplicates Data
Mengecek tipe data, missing value, dan duplikasi data pada dataset yang telah diubah.

In [4]:
data_info = data_reduced.info()
missing_values = data_reduced.isnull().sum()
duplicates = data_reduced[data_reduced.duplicated(subset=['Nota','Judul Buku'], keep = False)]

print(data_info)
print(missing_values)
duplicates

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4023 entries, 0 to 4022
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Nota        4023 non-null   object
 1   Judul Buku  4022 non-null   object
dtypes: object(2)
memory usage: 63.0+ KB
None
Nota          0
Judul Buku    1
dtype: int64


Unnamed: 0,Nota,Judul Buku
11,PNJM-230102-0008,Labirin Sang Penyihir/ Maya Lestari GF
12,PNJM-230102-0008,Labirin Sang Penyihir/ Maya Lestari GF
127,PNJM-230110-0081,My Passion My Career: Rahasia Karier Sukses Be...
128,PNJM-230110-0081,My Passion My Career: Rahasia Karier Sukses Be...
149,PNJM-230111-0093,Belajar Mandiri Bahasa Mandarin Untuk Pemula/ ...
...,...,...
2673,PNJM-230916-0196,Konvensi Perserikatan Bangsa-Bangsa Tentang Hu...
3096,PNJM-231017-0115,PANDUAN LENGKAP: MENDESAIN KARYA GRAFIS DENGAN...
3097,PNJM-231017-0115,PANDUAN LENGKAP: MENDESAIN KARYA GRAFIS DENGAN...
3098,PNJM-231017-0116,PANDUAN LENGKAP: MENDESAIN KARYA GRAFIS DENGAN...


### Preprocessing Data
Melakukan preprocessing data, seperti menghapus duplikasi dan baris dengan nilai yang hilang.

In [5]:
data_reduced = data_reduced.drop_duplicates(subset=['Nota', 'Judul Buku'], keep='first')
data_cleaned = data_reduced.dropna()

data_cleaned


Unnamed: 0,Nota,Judul Buku
0,PNJM-230102-0001,"Mewarnai, Menggunting & Membuat Topeng Monster..."
1,PNJM-230102-0001,Komik Sufi Rumi: Kisah & Hikmah Pencerah Hati/...
2,PNJM-230102-0002,Budidaya & Pemasteran Kacer Siap Menjadi Jawar...
3,PNJM-230102-0003,LIMA SEKAWAN: SARJANA MISTERIUS/ ENID BLYTON; ...
4,PNJM-230102-0003,Somewhere Called Home/ Dhamala Shobita
...,...,...
4018,PNJM-231230-0226,"Seni Berbicara Kepada Siapa Saja, Kapan Saja, ..."
4019,PNJM-231230-0227,Membaca Sastra: Pengantar Memahami Sastra Untu...
4020,PNJM-231230-0227,"AKU MEMBACA, AKU TERSENYUM/ AM WASKITO"
4021,PNJM-231230-0228,My Bastard Prince/ Daasa


### Cek Missing Value & Duplicates Data After Preprocessing
Mengecek kembali missing value dan duplikasi data setelah preprocessing.

In [6]:
missing_values = data_cleaned.isnull().sum()
duplicates = data_cleaned[data_cleaned.duplicated(subset=['Nota','Judul Buku'], keep = False)]

print(missing_values)
duplicates


Nota          0
Judul Buku    0
dtype: int64


Unnamed: 0,Nota,Judul Buku


### Aggregation Data
Menggabungkan data yang memiliki nota yang sama menjadi satu baris.

In [7]:
transactions = data_cleaned.groupby('Nota')['Judul Buku'].apply(list).reset_index()

transactions

Unnamed: 0,Nota,Judul Buku
0,PNJM-230102-0001,"[Mewarnai, Menggunting & Membuat Topeng Monste..."
1,PNJM-230102-0002,[Budidaya & Pemasteran Kacer Siap Menjadi Jawa...
2,PNJM-230102-0003,[LIMA SEKAWAN: SARJANA MISTERIUS/ ENID BLYTON;...
3,PNJM-230102-0004,"[Duet Series: Me Love Exo/ Iwok Abqary, Dhabit..."
4,PNJM-230102-0005,"[Pink Berry Club:, Deja Vu, Kenangan Mempersat..."
...,...,...
2506,PNJM-231230-0225,[Menulis Untuk Dibaca Feature dan Kolom/ Zulha...
2507,PNJM-231230-0226,[Cerdas Berbicara: Menakar Dengan Hati Menebar...
2508,PNJM-231230-0227,[Membaca Sastra: Pengantar Memahami Sastra Unt...
2509,PNJM-231230-0228,[My Bastard Prince/ Daasa]
