#**Pertemuan 4 - DATASET APPLE_QUALITY**
---
<br>


In [78]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, precision_score, \
recall_score, accuracy_score, roc_curve, roc_auc_score

<small>1. Menggunakan dataset “apple_quality.csv”</small>

In [79]:
df = pd.read_csv('apple_quality.csv')

<small>2. Melakukan pengecekan apakah data tersebut memiliki data yang kosong atau tidak. Bila terdapat data kosong, hapus baris tersebut </small>

In [80]:
print(df.isnull().sum())
df.dropna(axis=0,inplace=True)

A_id           1
Size           1
Weight         1
Sweetness      1
Crunchiness    1
Juiciness      1
Ripeness       1
Acidity        0
Quality        1
dtype: int64


<small>3. Melakukan data preparation, perhatikan kolom-kolom yang bertipe data kategorikal, kita dapat menggunakan one-hot encoding/ordinal encoding/label encoder </small>

In [81]:
le = preprocessing.LabelEncoder()
df[['Acidity']] = df[['Acidity']].apply(pd.to_numeric, errors='coerce')
df['Quality'] = le.fit_transform(df['Quality'])

<small>4. Memisahkan dataset yang ada menjadi data train dan data test dengan rasio 70% dan 30% </small>

In [82]:
X = df.drop(['A_id','Quality'], axis=1)
y = df['Quality']
X_train, X_test, y_train, y_test = \
train_test_split(X,y, test_size=0.3, random_state=42)

<small>5. Melakukan pembentukan base model dengan menggunakan Logistic Regression dan tampilkan hasil akurasi yang didapat </small>

In [83]:
model = LogisticRegression(max_iter=10000)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print(f'Accuracy {accuracy * 100:.2f}%')

Accuracy 75.25%


<small>6. Melakukan pembentukan Grid Search untuk mencari paramter terbaik dengan cross-validation. Pilihan parameternya yaitu,<br>
a. Penalty : {‘l1’, ‘l2’, ‘elasticnet’, None} <br>
b. Solver : {‘lbfgs’, ‘liblinear’, ‘newton-cg’, ‘newton-cholesky’, ‘sag’, ‘saga’}</small>

In [84]:
from sklearn.model_selection import GridSearchCV

param_grid = {
    'penalty': ['l2',],
    'solver':  ['lbfgs', 'liblinear', 'newton-cg', \
               'newton-cholesky', 'sag', 'saga'],
}

In [85]:
grid_search = GridSearchCV(model, param_grid, cv=5)
grid_search.fit(X_train,y_train)

print(grid_search.best_params_)
print(grid_search.best_score_)

{'penalty': 'l2', 'solver': 'liblinear'}
0.745


<small>7. Lakukan pembentukan model menggunakan Logistic Regression dengan best parameter yang diambil dari hasil grid search dan tampilkan hasil akurasi yang didapat </small>

In [86]:
best_model = LogisticRegression(solver=grid_search.\
best_params_['solver'],\
max_iter=10000, random_state=42)

best_model.fit(X_train, y_train)

y_pred_best = best_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred_best)

print(f'Accuracy {accuracy * 100:.2f}%')

Accuracy 75.33%


<small>8. Menampilkan confusion matrix, precision, recall, accuracy, ROC curve, nilai coefficient dan intercept dari kedua model kita. </small>

In [87]:
conf = confusion_matrix(y_test, y_pred)
conf_best = confusion_matrix(y_test, y_pred_best)
print(f'Confusion matrix model pertama: {conf}')
print(f'Confusion matrix model kedua: {conf_best}')
print()

precision = precision_score(y_test, y_pred)
precision_best = precision_score(y_test, y_pred_best)
print(f'Precision model pertama: {precision}')
print(f'Precision model kedua: {precision_best}')
print()

recall = recall_score(y_test, y_pred_best)
recall_best = recall_score(y_test, y_pred_best)
print(f'Recall model pertama: {recall}')
print(f'Recall model kedua: {recall_best}')
print()

accuracy = accuracy_score(y_test, y_pred)
accuracy_best = accuracy_score(y_test, y_pred_best)
print(f'Accuracy model pertama: {accuracy}')
print(f'Accuracy model kedua: {accuracy_best}')
print()

fpr, tpr, thresholds = roc_curve(y_test, y_pred)
fpr_best, tpr_best, thresholds_best = roc_curve(y_test, y_pred_best)
print(f'ROC curve model pertama: {accuracy}')
print(f'ROC curve model kedua: {accuracy_best}')
print()

auc = roc_auc_score(y_test, y_pred)
auc_best = roc_auc_score(y_test, y_pred_best)
print(f'ROC curve model pertama: {auc}')
print(f'ROC curve model kedua: {auc_best}')

Confusion matrix model pertama: [[442 151]
 [146 461]]
Confusion matrix model kedua: [[442 151]
 [145 462]]

Precision model pertama: 0.7532679738562091
Precision model kedua: 0.7536704730831973

Recall model pertama: 0.7611202635914333
Recall model kedua: 0.7611202635914333

Accuracy model pertama: 0.7525
Accuracy model kedua: 0.7533333333333333

ROC curve model pertama: 0.7525
ROC curve model kedua: 0.7533333333333333

ROC curve model pertama: 0.7524176901856087
ROC curve model kedua: 0.7532414134146037


<small>9. analisis apakah hasilnya menjadi lebih baik, tetap atau malah terjadi penurunan performa terhadap model awalnya
</small>



Hasil menjadi lebih baik walaupun tidak terlalu signifikan, dimana:

1.   Akurasi: Meningkat dari 75.25% menjadi 75.33%.
2.   Precision: Meningkat dari 75.33% menjadi 75.37%.
3.   ROC curve: Meningkat dari 0.7525 menjadi 0.7533.

Artinya peningkatan performa ini mungkin tidak signifikan secara statistik dan
perlu dilakukan analisis lebih lanjut untuk memastikan signifikansi dan generalizability dari hasil tuning.



