# **MODELLING DATA**

# Created by : Putri Indo Nagari

# **1. Data Preparation**
**Importing data**

In [26]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

In [12]:
df_train = pd.read_csv('/content/data_training.csv')
df

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,Id
0,6.8,0.610,0.04,1.5,0.057,5.0,10.0,0.99525,3.42,0.60,9.500000,222
1,6.9,0.840,0.21,4.1,0.074,16.0,65.0,0.99842,3.53,0.72,9.233333,1514
2,7.0,0.580,0.12,1.9,0.091,34.0,124.0,0.99560,3.44,0.48,10.500000,417
3,7.8,0.480,0.68,1.7,0.415,14.0,32.0,0.99656,3.09,1.06,9.100000,754
4,12.5,0.600,0.49,4.3,0.100,5.0,14.0,1.00100,3.25,0.74,11.900000,516
...,...,...,...,...,...,...,...,...,...,...,...,...
281,10.0,0.410,0.45,6.2,0.071,6.0,14.0,0.99702,3.21,0.49,11.800000,1147
282,10.6,0.830,0.37,2.6,0.086,26.0,70.0,0.99810,3.16,0.52,9.900000,296
283,7.9,0.885,0.03,1.8,0.058,4.0,8.0,0.99720,3.36,0.33,9.100000,170
284,7.3,0.670,0.02,2.2,0.072,31.0,92.0,0.99566,3.32,0.68,11.066667,1439


In [13]:
df_test = pd.read_csv('/content/data_testing.csv')
df

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,Id
0,6.8,0.610,0.04,1.5,0.057,5.0,10.0,0.99525,3.42,0.60,9.500000,222
1,6.9,0.840,0.21,4.1,0.074,16.0,65.0,0.99842,3.53,0.72,9.233333,1514
2,7.0,0.580,0.12,1.9,0.091,34.0,124.0,0.99560,3.44,0.48,10.500000,417
3,7.8,0.480,0.68,1.7,0.415,14.0,32.0,0.99656,3.09,1.06,9.100000,754
4,12.5,0.600,0.49,4.3,0.100,5.0,14.0,1.00100,3.25,0.74,11.900000,516
...,...,...,...,...,...,...,...,...,...,...,...,...
281,10.0,0.410,0.45,6.2,0.071,6.0,14.0,0.99702,3.21,0.49,11.800000,1147
282,10.6,0.830,0.37,2.6,0.086,26.0,70.0,0.99810,3.16,0.52,9.900000,296
283,7.9,0.885,0.03,1.8,0.058,4.0,8.0,0.99720,3.36,0.33,9.100000,170
284,7.3,0.670,0.02,2.2,0.072,31.0,92.0,0.99566,3.32,0.68,11.066667,1439


In [14]:
# Simpan kolom 'Id' dari data testing untuk hasil akhir
test_ids = df_test['Id']

In [15]:
# Definisikan fitur (semua kolom kecuali 'Id' dan 'quality')
features = df_train.columns.drop(['Id', 'quality'])

In [49]:
# Separate features (X) and target (y) from the original training data
X = df_train.drop(["quality", "Id"], axis=1)
y = df_train["quality"]

# Split data training into train and validation sets before any preprocessing
X_train, X_valid, y_train, y_valid = train_test_split(
    X, y,
    test_size=0.2, # 20% for validation
    random_state=42,
    stratify=y     # Maintain the proportion of quality levels
)

# **2. Data Cleaning**

Pada data cleaning, terdapat dua tahap utama yang dilakukan yaitu: penanganan nilai yang hilang (missing values) dan normalisasi skala fitur (feature scaling).

In [44]:
# 2. (Missing Values)

# Inisialisasi imputer dengan strategi mean
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

# Fit imputer on the training data and transform both training and validation data
X_train = imputer.fit_transform(X_train)
X_valid = imputer.transform(X_valid)

# Transform the test data after dropping the 'Id' column
X_test_final = imputer.transform(df_test.drop('Id', axis=1))

Pada missing values:


*   Inisialisasi Imputer: digunakan SimpleImputer dengan strategi rata-rata (mean) untuk mengganti nilai np.nan yang ada.
*   Penerapan: Imputer di-fit (rata-rata dihitung) hanya pada data pelatihan (X_train). Nilai rata-rata yang dihitung dari data pelatihan ini kemudian digunakan untuk men-transform dan mengisi missing values pada data pelatihan, data validasi, dan data testing (X_test_final). Prosedur ini mencegah kebocoran data (data leakage) dan memastikan bahwa data testing diolah secara independen.



In [43]:
# 3. Pembersihan Data (Feature Scaling)
# Standard Scaling used because feature values vary

# Initialize Scaler
scaler = StandardScaler()

# Fit scaler on the training data and transform both training and validation data
X_train_scaled = scaler.fit_transform(X_train)
X_valid_scaled = scaler.transform(X_valid)


# Transform data testing
X_test_final_scaled = scaler.transform(X_test_final)

# Convert back to DataFrames (optional, but can be helpful)
X_train_scaled_df = pd.DataFrame(X_train_scaled, columns=X.columns)
X_valid_scaled_df = pd.DataFrame(X_valid_scaled, columns=X.columns)
X_test_final_scaled_df = pd.DataFrame(X_test_final_scaled, columns=X.columns)

Pada Feature Scaling:



*   Inisialisasi Scaler: Digunakan StandardScaler yang mengubah distribusi fitur agar memiliki rata-rata $\mu=0$ dan standar deviasi $\sigma=1$.
*  Penerapan: Scaler di-fit (parameter $\mu$ dan $\sigma$ dihitung) hanya pada data pelatihan yang sudah diimputasi. Parameter ini kemudian digunakan untuk men-transform data pelatihan, data validasi, dan data testing. Hasilnya, semua fitur berada pada skala yang seragam, memungkinkan model, seperti Random Forest, untuk memproses semua fitur secara adil.
*   Konversi DataFrame: Data yang telah di-scale dikonversi kembali ke DataFrame Pandas untuk memudahkan proses pelatihan model selanjutnya.



# **3. Model Creation/Training**

Sintaks ini merupakan langkah inti dalam proyek. Model klasifikasi Random Forest Classifier diinisialisasi, dikonfigurasi dengan teknik regularisasi, dan dilatih menggunakan data pelatihan yang sudah bersih dan diskalakan.

In [47]:
# 4. Pembuatan Model
# Menggunakan Random Forest Classifier
model_regularized = RandomForestClassifier(
    n_estimators=100,
    random_state=42,
    class_weight='balanced',
    max_depth=15,          # Batasi kedalaman pohon
    min_samples_leaf=5     # Batasi sampel minimum di daun
)

# Latih model yang sudah diregularisasi
model_regularized.fit(X_train_scaled_df, y_train)

Blok kode ini mendefinisikan dan melatih model Random Forest Classifier yang merupakan model ensemble berbasis pohon yang kuat, dibentuk dari 100 pohon keputusan (n_estimators=100).

Inisialisasi model (model_regularized = ...) mencakup beberapa penyesuaian (hyperparameter) kritis untuk memastikan model tidak hanya akurat tetapi juga dapat digeneralisasi (mengatasi overfitting):

class_weight='balanced': Model diinstruksikan untuk memberikan bobot lebih pada kelas kualitas yang jarang (minoritas). Ini sangat penting untuk mengatasi ketidakseimbangan kelas dalam data kualitas anggur.

Regularisasi (Overfitting Prevention): Parameter max_depth=15 (membatasi kedalaman pohon) dan min_samples_leaf=5 (mengharuskan minimal 5 sampel di daun) diterapkan secara sengaja. Tujuannya adalah untuk mengurangi risiko overfitting yang biasa terjadi pada Random Forest, sehingga model tidak hanya menghafal data pelatihan tetapi benar-benar belajar pola yang mendasarinya.

Reproducibility: Penggunaan random_state=42 memastikan bahwa hasil pelatihan model konsisten setiap kali kode dijalankan.

Setelah inisialisasi, model dilatih (model_regularized.fit(...)) menggunakan data fitur yang sudah diskalakan (X_train_scaled_df) dan variabel target kualitas yang sesuai (y_train). Proses pelatihan inilah yang memungkinkan model belajar pola kimiawi mana yang paling berkorelasi dengan tingkat kualitas anggur yang berbeda.

# **4. Test Data Prediction**

Bagian ini merupakan fase akhir dalam modelling, dimulai dengan evaluasi diagnostik pada data pelatihan untuk memverifikasi kinerja model, diikuti dengan penggunaan model pada data testing yang sebenarnya untuk menghasilkan output akhir.

In [48]:
# 5. Evaluasi Model (Opsional: pada data training)
y_train_pred_reg = model_regularized.predict(X_train_scaled_df)

print("--- Laporan Evaluasi pada Data Training (Setelah Regularisasi) ---")
print(f"Accuracy: {accuracy_score(y_train, y_train_pred_reg):.4f}") # Akurasi seharusnya < 1.0000
print("\nClassification Report:")
print(classification_report(y_train, y_train_pred_reg, zero_division=0))
print("--------------------------------------------------------------------")

--- Laporan Evaluasi pada Data Training (Setelah Regularisasi) ---
Accuracy: 0.8832

Classification Report:
              precision    recall  f1-score   support

           3       0.83      1.00      0.91         5
           4       0.78      1.00      0.88        21
           5       0.91      0.88      0.90       289
           6       0.92      0.84      0.88       273
           7       0.75      0.99      0.86        87
           8       0.91      1.00      0.95        10

    accuracy                           0.88       685
   macro avg       0.85      0.95      0.89       685
weighted avg       0.89      0.88      0.88       685

--------------------------------------------------------------------


Sintaks di atas berfungsi untuk menilai seberapa baik model Random Forest Classifier yang sudah diregularisasi berkinerja pada data pelatihan (X_train_scaled_df). Tujuannya adalah untuk mengukur kinerja dan memverifikasi bahwa overfitting telah berkurang.

In [52]:
# 6. Prediksi Data Uji menggunakan model yang lebih robust

predictions_reg = model_regularized.predict(X_test_final_scaled_df)

# Buat dan Simpan DataFrame hasil prediksi yang baru
results_df_reg = pd.DataFrame({
    'Id': test_ids,
    'quality': predictions_reg
})

output_filename_reg = "hasilprediksi_072.csv"
results_df_reg.to_csv(output_filename_reg, index=False)

print(f"\nPrediksi kualitas anggur baru telah disimpan di file: {output_filename_reg}")


Prediksi kualitas anggur baru telah disimpan di file: hasilprediksi_072.csv


Langkah terakhir dalam proses modelling, di mana model klasifikasi yang sudah terlatih dan teruji digunakan untuk menghasilkan prediksi nilai kualitas (quality) pada data yang sama sekali baru (data_testing.csv) dan menyimpan hasilnya sesuai format yang diminta.