# Data & Algoritma Understanding

## Data Understanding

### 📊 Nama Dataset
liputan6_data.tar.gz

### 🌍 Languages
- Indonesian

### 🧩 Data Structure
|Nama Kolom|Tipe Data|
|----|--------|
|`id`|`string`|
|`url`|`string`|
|`clean_article`|`string`|
|`clean_summary`|`string`|
|`extractive_summary`|`string`|

### ⚙️ Data Instances
|Nama Kolom|Contoh Data|
|----------|-----------|
|`id`|26408|
|`url`|https://www.liputan6.com/news/read/26408/pbb-siap-membantu-penyelesaian-konflik-ambon|
|`clean_article`|Liputan6.com, Ambon: Partai Bulan Bintang wilayah Maluku bertekad membantu pemerintah menyelesaikan konflik di provinsi tersebut. Syaratnya, penanganan penyelesaian konflik Maluku harus dimulai dari awal kerusuhan, yakni 19 Januari 1999. Demikian hasil Musyawarah Wilayah I PBB Maluku yang dimulai Sabtu pekan silam dan berakhir Senin (31/12) di Ambon. Menurut seorang fungsionaris PBB Ridwan Hasan, persoalan di Maluku bisa selesai asalkan pemerintah dan aparat keamanan serius menangani setiap persoalan di Maluku secara komprehensif dan bijaksana. Itulah sebabnya, PBB wilayah Maluku akan menjadikan penyelesaian konflik sebagai agenda utama partai. PBB Maluku juga akan mendukung penegakan hukum secara terpadu dan tanpa pandang bulu. Siapa saja yang melanggar hukum harus ditindak. Ridwan berharap, Ketua PBB Maluku yang baru, Ali Fauzi, dapat menindak lanjuti agenda politik partai yang telah diamanatkan dan mau mendukung penegakan hukum di Maluku. (ULF/Sahlan Heluth).|
|`clean_summary`|Konflik Ambon telah berlangsung selama tiga tahun. Partai Bulan Bintang wilayah Maluku siap membantu pemerintah menyelesaikan kasus di provinsi tersebut.|
|`extractive_summary`|Liputan6.com, Ambon: Partai Bulan Bintang wilayah Maluku bertekad membantu pemerintah menyelesaikan konflik di provinsi tersebut. Siapa saja yang melanggar hukum harus ditindak.|

### 📅 Data Fields
|Nama Kolom|Keterangan|
|----------|----------|
|`id`|Kolom id unique|
|`url`|URL Article|
|`clean_article`|Isi original article|
|`clean_summary`|Ringkasan Abstract|
|`extractive_summary`|Ringkasan Ekstractif|

## Algoritma Understanding

# Model Training & Evaluation

### Load Dataset & Convert Data

In [1]:
import pandas as pd
import glob

In [16]:
file_list = glob.glob('../data/liputan6_data/canonical/train/*.json')
df_list = []
total_rows = 0
limit = 30000

for f in file_list:
    # Baca satu file json
    temp_df = pd.read_json(f, lines=True)
    
    # Tambahkan dataframe sementara ke dalam list
    df_list.append(temp_df)
    
    # Update jumlah baris yang sudah terkumpul
    total_rows += len(temp_df)
    
    # Cek apakah jumlah baris sudah melebihi batas
    if total_rows >= limit:
        print(f"Batas {limit} baris tercapai. Berhenti membaca file.")
        break 

# Gabungkan semua dataframe yang ada di list
df_train = pd.concat(df_list, ignore_index=True)

# Karena file terakhir mungkin membuat total baris lebih dari 30000,
# potong dataframe agar ukurannya pas 30000
df_train = df_train.head(limit)

print(f"Total data yang berhasil diambil: {len(df_train)} baris")
df_train.head()

Batas 30000 baris tercapai. Berhenti membaca file.
Total data yang berhasil diambil: 30000 baris


Unnamed: 0,id,url,clean_article,clean_summary,extractive_summary
0,100000,https://www.liputan6.com/news/read/100000/yudh...,"[[Liputan6, ., com, ,, Jakarta, :, Presiden, S...","[[Menurut, Presiden, Susilo, Bambang, Yudhoyon...","[0, 1]"
1,100002,https://www.liputan6.com/news/read/100002/jepa...,"[[Liputan6, ., com, ,, Jakarta, :, Perdana, Me...","[[Pada, masa, silam, Jepang, terlalu, ambisius...","[2, 3]"
2,100003,https://www.liputan6.com/news/read/100003/pulu...,"[[Liputan6, ., com, ,, Kutai, :, Banjir, denga...","[[Puluhan, hektare, areal, persawahan, yang, s...","[1, 5]"
3,100004,https://www.liputan6.com/news/read/100004/pres...,"[[Liputan6, ., com, ,, Jakarta, :, Presiden, S...","[[Sekjen, PBB, Kofi, Annan, memuji, langkah, P...","[2, 5]"
4,100005,https://www.liputan6.com/news/read/100005/warg...,"[[Liputan6, ., com, ,, Solok, :, Warga, Kampun...","[[Untuk, mempercepat, pelaksanaan, belajar-men...","[0, 2]"


In [17]:
df_train.to_csv('../data/data2/data_train_30000.csv', index=False)
print('Data csv sudah disimpan ke ../data/data2/data_train_30000.csv')
print('Selesai')

Data csv sudah disimpan ke ../data/data2/data_train_30000.csv
Selesai
