# Glioma Prediction

## Deskripsi Dataset

Data diambil dari repository UCI : https://archive.ics.uci.edu/dataset/759/glioma+grading+clinical+and+mutation+features+dataset

Glioma adalah tumor primer otak yang paling umum. Mereka dapat dinilai sebagai LGG (Lower-Grade Glioma) atau GBM (Glioblastoma Multiforme) tergantung pada kriteria histologis/pencitraan. Faktor klinis dan molekuler/mutasi juga sangat penting dalam proses penilaian. Tes molekuler mahal untuk membantu mendiagnosis pasien glioma secara akurat.

Dalam kumpulan data ini, 20 gen dan 3 gambaran klinis yang paling sering bermutasi dipertimbangkan dari proyek glioma otak TCGA-LGG dan TCGA-GBM.

Tugas prediksinya adalah menentukan apakah seorang pasien LGG atau GBM dengan ciri klinis dan molekuler/mutasi tertentu. Tujuan utamanya adalah menemukan subset gen mutasi dan gambaran klinis yang optimal untuk proses penilaian glioma guna meningkatkan kinerja dan mengurangi biaya.

Jumlah Data : 839 Record data

Jumlah Fitur : 23 Fitur dan 1 Target

### Penjelasan Fitur

    1. Jenis Kelamin : terdapat 2 pilihan untuk mengisi form ini, yaitu Pria/Wanita.
    2. Usia saat di diagnosa : isikan dengan tipe angka sesuai umur pasien saat ini.
    3. Ras : isikan sesuai jenis kulit pasien. Terdapat 4 pilihan untuk mengisi form ini, yaitu Kulit Putih, Kulit Hitam, Asia, & Alaska.
    4. Mutasi Isocitrate Dehydrogenase :  Terdapat 2 pilihan untuk mengisi form ini, yaitu Bermutasi/Tidak Bermutasi.
    5. Mutasi Tumor Protein :  Terdapat 2 pilihan untuk mengisi form ini, yaitu Bermutasi/Tidak Bermutasi.
    6. Mutasi ATRX Chromatin Remodeler :  Terdapat 2 pilihan untuk mengisi form ini, yaitu Bermutasi/Tidak Bermutasi.
    7. Mutasi Phosphatase and Tensin Homolog :  Terdapat 2 pilihan untuk mengisi form ini, yaitu Bermutasi/Tidak Bermutasi.
    8. Mutasi Epidermal Growth Factor Receptor :  Terdapat 2 pilihan untuk mengisi form ini, yaitu Bermutasi/Tidak Bermutasi.
    9. Mutasi Capicua Transcriptional Repressor :  Terdapat 2 pilihan untuk mengisi form ini, yaitu Bermutasi/Tidak Bermutasi.
    10. Mutasi Mucin 16, Cell Surface Associated :  Terdapat 2 pilihan untuk mengisi form ini, yaitu Bermutasi/Tidak Bermutasi.
    11. Mutasi Phosphatidylinositol-4,5-bisphosphate 3-kinase Catalytic Subunit Alpha :  Terdapat 2 pilihan untuk mengisi form ini, yaitu Bermutasi/Tidak Bermutasi.
    12. Mutasi Neurofibromin 1 :  Terdapat 2 pilihan untuk mengisi form ini, yaitu Bermutasi/Tidak Bermutasi.
    13. Mutasi Phosphoinositide-3-kinase Regulatory Subunit 1 :  Terdapat 2 pilihan untuk mengisi form ini, yaitu Bermutasi/Tidak Bermutasi.
    14. Mutasi Far Upstream Element Binding Protein 1 :  Terdapat 2 pilihan untuk mengisi form ini, yaitu Bermutasi/Tidak Bermutasi.
    15. Mutasi Mutasi RB Transcriptional Corepressor 1 :  Terdapat 2 pilihan untuk mengisi form ini, yaitu Bermutasi/Tidak Bermutasi.
    16. Mutasi Mutasi Notch Receptor 1 :  Terdapat 2 pilihan untuk mengisi form ini, yaitu Bermutasi/Tidak Bermutasi.
    17. Mutasi Mutasi BCL6 Corepressor :  Terdapat 2 pilihan untuk mengisi form ini, yaitu Bermutasi/Tidak Bermutasi.
    18. Mutasi Mutasi CUB and Sushi Multiple Domains 3 :  Terdapat 2 pilihan untuk mengisi form ini, yaitu Bermutasi/Tidak Bermutasi.
    19. Mutasi Mutasi SWI/SNF Related, Matrix Associated, Actin Dependent Regulator of Chromatin, Subfamily a, Member 4 :  Terdapat 2 pilihan untuk mengisi form ini, yaitu Bermutasi/Tidak Bermutasi.
    20. Mutasi Glutamate Ionotropic Receptor NMDA Type Subunit 2A :  Terdapat 2 pilihan untuk mengisi form ini, yaitu Bermutasi/Tidak Bermutasi.
    21. Mutasi Isocitrate Dehydrogenase (NADP(+)) 2 :  Terdapat 2 pilihan untuk mengisi form ini, yaitu Bermutasi/Tidak Bermutasi.
    22. Mutasi FAT Atypical Cadherin 4 :  Terdapat 2 pilihan untuk mengisi form ini, yaitu Bermutasi/Tidak Bermutasi.
    23. Mutasi Platelet-Derived Growth Factor Receptor Alpha :  Terdapat 2 pilihan untuk mengisi form ini, yaitu Bermutasi/Tidak Bermutasi.

## Penjelasan Model dan preprocessing

In [1]:
import pandas as pd
import pickle
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.linear_model import RidgeClassifier
from sklearn.metrics import accuracy_score

In [2]:
# Load the data
url_data = "https://raw.githubusercontent.com/Robiahraaw/Data-PSD-Robi/main/glioma.csv"
df = pd.read_csv(url_data)

In [3]:
# Mendefinisikan Kolom Numerik
numerical_columns = ['Gender', 'Age_at_diagnosis', 'Race', 'IDH1', 'TP53', 'ATRX', 'PTEN', 'EGFR', 'CIC', 'MUC16',
                      'PIK3CA', 'NF1', 'PIK3R1', 'FUBP1', 'RB1', 'NOTCH1', 'BCOR', 'CSMD3', 'SMARCA4', 'GRIN2A',
                      'IDH2', 'FAT4', 'PDGFRA']

In [4]:
# Features (X) Target (y)
X = df[numerical_columns]
y = df['Grade']

In [5]:
# Normalisasi data menggunakan StandardScaler
scaler = StandardScaler()
X = scaler.fit_transform(X)

In [6]:
# Simpan Standard Scaler ke dalam file pickle
with open('scaler_model.pkl', 'wb') as scaler_file:
    pickle.dump(scaler, scaler_file)

In [7]:
# Reduksi dimensi menggunakan PCA
pca = PCA(n_components=6)  # Anda bisa mengubah jumlah komponen sesuai kebutuhan
X = pca.fit_transform(X)

In [8]:
# Simpan PCA model ke dalam file pickle
with open('pca_model.pkl', 'wb') as pca_file:
    pickle.dump(pca, pca_file)

In [9]:
# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=8756)

In [10]:
# Training Data
ridge_classifier = RidgeClassifier(alpha=1.0, class_weight=None, copy_X=True, fit_intercept=True,
                                   max_iter=None, positive=False, random_state=8756, solver='auto',
                                   tol=0.0001)
ridge_classifier.fit(X_train, y_train)

In [11]:
# Membuat Prediksi Data Testing
y_pred = ridge_classifier.predict(X_test)

In [12]:
# Evaluasi Akurasi
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

Accuracy: 0.85


In [13]:
# Simpan model RC ke dalam file pickle
with open('rc_model.pkl', 'wb') as rc_file:
    pickle.dump(ridge_classifier, rc_file)