In [None]:
#step 1 preprocessing data

# Import library
import pandas as pd
"""
Baris ini mengimpor library `pandas`, yang digunakan untuk manipulasi dan analisis data dalam format tabel (DataFrame).
`pandas` adalah salah satu library utama dalam Python untuk pemrosesan data.
"""

# Membaca dataset dari file .tsv
raw_data = pd.read_csv(r'E:\Kuliah\Tugas Akhir\AES\code\AES\data\asap-aes\training_set_rel3.tsv', sep='\t', encoding='ISO-8859-1')
"""
Baris ini membaca dataset yang berada di file `.tsv` (Tab Separated Values) menggunakan fungsi `read_csv` dari `pandas`.
- `r'E:\Kuliah\Tugas Akhir\AES\code\AES\data\asap-aes\training_set_rel3.tsv'` adalah path file dari dataset.
- `sep='\t'` menunjukkan bahwa file dipisahkan dengan tab (bukan koma seperti file CSV biasa).
- `encoding='ISO-8859-1'` digunakan untuk menangani karakter non-ASCII dalam file.
"""

# Menyaring data untuk hanya mengambil essay_set dengan nilai 7
filtered_dataset = raw_data[raw_data['essay_set'] == 7].copy()
"""
Baris ini menyaring data untuk memilih hanya data yang memiliki nilai `essay_set` sama dengan 7.
- `raw_data['essay_set'] == 7` adalah kondisi filter untuk memilih hanya baris yang memiliki kolom `essay_set` dengan nilai 7.
- Fungsi `.copy()` digunakan untuk membuat salinan dari data yang telah difilter, agar tidak mengubah data asli.
"""

# Menyimpan dataset yang telah disaring ke dalam file CSV
filtered_dataset.to_csv('aes_dataset_value_7.csv', index=False)
"""
Baris ini menyimpan dataset yang telah difilter ke dalam file CSV dengan nama `aes_dataset_value_7.csv`.
- `index=False` digunakan agar indeks dari DataFrame tidak disertakan dalam file CSV.
"""

# Menentukan kolom yang akan digabungkan untuk skor Struktur
skor_struktur = ['rater1_trait1', 'rater1_trait2', 'rater1_trait3', 'rater2_trait1', 'rater2_trait2', 'rater2_trait3']
"""
Baris ini menentukan kolom-kolom yang akan digunakan untuk menghitung skor struktur.
- Kolom-kolom yang dipilih adalah hasil evaluasi dari beberapa karakteristik yang diberikan oleh dua penilai (`rater1` dan `rater2`).
"""

# Menghitung skor struktur sebagai rata-rata dari 6 karakteristik yang ada
filtered_dataset.loc[:, 'skor_struktur'] = filtered_dataset[skor_struktur].sum(axis=1) / len(skor_struktur)
"""
Baris ini menghitung skor struktur dengan cara menjumlahkan nilai dari enam karakteristik yang ditentukan di atas dan kemudian membagi hasilnya dengan jumlah kolom yang digunakan (6 kolom).
- `sum(axis=1)` menjumlahkan nilai sepanjang baris (untuk setiap entri dalam DataFrame).
- `len(skor_struktur)` adalah jumlah kolom (6 kolom), yang digunakan untuk menghitung rata-rata.
- `.loc[:, 'skor_struktur']` digunakan untuk menambahkan kolom baru `skor_struktur` di DataFrame.
"""

# Menentukan kolom yang akan digabungkan untuk skor Tata Bahasa
skor_tata_bahasa = ['rater1_trait4', 'rater2_trait4']
"""
Baris ini menentukan kolom-kolom yang akan digunakan untuk menghitung skor tata bahasa.
- Kolom yang dipilih adalah hasil evaluasi tata bahasa dari dua penilai (`rater1` dan `rater2`).
"""

# Menghitung skor tata bahasa sebagai rata-rata dari 2 karakteristik yang ada
filtered_dataset.loc[:, 'skor_tata_bahasa'] = filtered_dataset[skor_tata_bahasa].sum(axis=1) / len(skor_tata_bahasa)
"""
Baris ini menghitung skor tata bahasa dengan cara menjumlahkan nilai dari dua karakteristik yang ditentukan di atas dan membaginya dengan jumlah kolom yang digunakan (2 kolom).
- `sum(axis=1)` menjumlahkan nilai sepanjang baris (untuk setiap entri dalam DataFrame).
- `len(skor_tata_bahasa)` adalah jumlah kolom (2 kolom), yang digunakan untuk menghitung rata-rata.
- `.loc[:, 'skor_tata_bahasa']` digunakan untuk menambahkan kolom baru `skor_tata_bahasa` di DataFrame.
"""

# Normalisasi skor Struktur dalam rentang 0-10
min_value_struktur = filtered_dataset['skor_struktur'].min()
max_value_struktur = filtered_dataset['skor_struktur'].max()
"""
Bagian ini digunakan untuk normalisasi nilai skor struktur ke dalam rentang 0 hingga 10.
- `min_value_struktur` menyimpan nilai minimum dari kolom `skor_struktur`.
- `max_value_struktur` menyimpan nilai maksimum dari kolom `skor_struktur`.
- Kedua nilai ini digunakan dalam proses normalisasi.
"""

filtered_dataset['skor_struktur_normalized'] = 10 * (filtered_dataset['skor_struktur'] - min_value_struktur) / (max_value_struktur - min_value_struktur)
"""
Baris ini melakukan normalisasi untuk kolom `skor_struktur` ke dalam rentang 0 hingga 10.
- Normalisasi dilakukan dengan rumus: `10 * (skor - min) / (max - min)`.
- Hasil normalisasi disimpan di kolom baru yang bernama `skor_struktur_normalized`.
"""

filtered_dataset['skor_struktur_normalized'] = filtered_dataset['skor_struktur_normalized'].round(1)
"""
Baris ini bertujuan untuk membulatkan nilai dalam kolom 'skor_struktur_normalized' pada dataset yang telah difilter, 
sehingga nilai tersebut hanya memiliki satu angka di belakang koma (desimal).
Fungsi `round(1)` digunakan untuk melakukan pembulatan.
"""

# Normalisasi skor Tata Bahasa dalam rentang 0-10
min_value_tata_bahasa = filtered_dataset['skor_tata_bahasa'].min()
max_value_tata_bahasa = filtered_dataset['skor_tata_bahasa'].max()
"""
Bagian ini digunakan untuk normalisasi nilai skor struktur ke dalam rentang 0 hingga 10.
- `min_value_struktur` menyimpan nilai minimum dari kolom `skor_tata_bahasa`.
- `max_value_struktur` menyimpan nilai maksimum dari kolom `skor_tata_bahasa`.
- Kedua nilai ini digunakan dalam proses normalisasi.
"""

filtered_dataset['skor_tata_bahasa_normalized'] = 10 * (filtered_dataset['skor_tata_bahasa'] - min_value_tata_bahasa) / (max_value_tata_bahasa - min_value_tata_bahasa)
"""
Baris ini melakukan normalisasi untuk kolom `skor_tata_bahasa` ke dalam rentang 0 hingga 10.
- Normalisasi dilakukan dengan rumus: `10 * (skor - min) / (max - min)`.
- Hasil normalisasi disimpan di kolom baru yang bernama `skor_tata_bahasa_normalized`.
"""

filtered_dataset['skor_tata_bahasa_normalized'] = filtered_dataset['skor_tata_bahasa_normalized'].round(1)
"""
Baris ini bertujuan untuk membulatkan nilai dalam kolom 'skor_tata_bahasa_normalized' pada dataset yang telah difilter, 
sehingga nilai tersebut hanya memiliki satu angka di belakang koma (desimal).
Fungsi `round(1)` digunakan untuk melakukan pembulatan.
"""

# Pilih kolom-kolom yang relevan untuk disimpan dalam dataset hasil pre-processing
pre_processing_data = ['essay_id', 'essay_set', 'essay', 'skor_struktur_normalized', 'skor_tata_bahasa_normalized']
"""
Baris ini mendefinisikan list kolom yang relevan yang akan disimpan dalam dataset hasil pre-processing.
Kolom yang dipilih adalah 'essay_id', 'essay_set', 'essay', 'skor_struktur_normalized', dan 'skor_tata_bahasa_normalized'.
Kolom-kolom ini berisi informasi penting yang telah diproses dan siap digunakan dalam analisis lebih lanjut.
"""

# Membuat dataset akhir yang berisi data yang sudah diproses
final_pre_processing_data = filtered_dataset[pre_processing_data]
"""
Baris ini memilih kolom-kolom yang telah ditentukan dalam 'pre_processing_data' dari dataset 'filtered_dataset',
kemudian menyimpannya dalam variabel 'final_pre_processing_data'.
Hanya kolom-kolom yang relevan yang akan dimasukkan ke dalam dataset akhir ini.
"""

# Menyimpan data hasil pre-processing ke dalam file CSV
final_pre_processing_data.to_csv('pre_processing_data.csv', index=False)
"""
Baris ini menyimpan dataset yang sudah diproses ke dalam file CSV dengan nama 'pre_processing_data.csv'.
`index=False` digunakan agar index DataFrame tidak disertakan dalam file CSV yang dihasilkan.
"""


print("Proses pre-processing selesai, file telah disimpan sebagai 'pre_processing_data.csv'")
"""
Baris ini mencetak pesan ke konsol yang menunjukkan bahwa proses pre-processing telah selesai 
dan file hasilnya telah disimpan dengan nama 'pre_processing_data.csv'.
Pesan ini memberi tahu pengguna bahwa langkah-langkah yang diperlukan telah selesai.
"""

     