# Import Library

In [1]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn import svm
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
import numpy as np 
import matplotlib.pyplot as plt 
import seaborn as sns
import linecache

# Import Dataset

In [2]:
df = pd.read_csv('dementia_dataset.csv')

In [3]:
df.head()

Unnamed: 0,Subject ID,MRI ID,Group,Visit,MR Delay,M/F,Hand,Age,EDUC,SES,MMSE,CDR,eTIV,nWBV,ASF
0,OAS2_0001,OAS2_0001_MR1,Nondemented,1,0,M,R,87,14,2.0,27.0,0.0,1987,0.696,0.883
1,OAS2_0001,OAS2_0001_MR2,Nondemented,2,457,M,R,88,14,2.0,30.0,0.0,2004,0.681,0.876
2,OAS2_0002,OAS2_0002_MR1,Demented,1,0,M,R,75,12,,23.0,0.5,1678,0.736,1.046
3,OAS2_0002,OAS2_0002_MR2,Demented,2,560,M,R,76,12,,28.0,0.5,1738,0.713,1.01
4,OAS2_0002,OAS2_0002_MR3,Demented,3,1895,M,R,80,12,,22.0,0.5,1698,0.701,1.034


# Business Understanding
Demensia adalah penyakit yang menyebabkan penurunan daya ingat dan cara berpikir. Kondisi ini berdampak pada gaya hidup, kemampuan bersosialisasi, hingga aktivitas sehari-hari penderitanya.sebelum adanya model ini ketika dokter atau profesional kesehatan lain nya untuk menganalisa pasien pengidap penyakit dementia atau tidak membutuhkan waktu relatif yang panjang.Dan tujuan utama dari membuat model ini adalah untuk membantu dokter atau profesional kesehatan untuk mendeteksi/memprediksi pasien dengan waktu relatif yang sangat singkat

# Data Understanding
Dataset ini berisi rangkuman kondisi kesehatan dan status pengidap penyakit atau tidak yang didapatkan melalui aktivitas konsultasi dari dokter di rumah sakit setempat.

terdapat beberapa atribut dari data set yang sudah di siapkan oleh dokter pada rumah sakit setempat.
- =Subject ID (nomer pasien)
- =MRI ID (nomer Magnetic Resonance Imaging/pencitraan resonansi magnetik )
- = Goup (terketegori pengidap/tidak)
- =Visit (berapa kali kunjungan ke rumah sakit setempat)
- =MR Delay (Nomer Magnetic Resonance Delay/keterlambatan resonansi magnetik)
- =M/F (gender)
- =Hand (pasien dominan menggunakan tangan kanan/kiri)
- =Age (umur pasien)
- =EDUC ( singkatan "EDUC" sering digunakan untuk merujuk pada tingkat pendidikan atau tingkat pendidikan formal pasien. Pendidikan dapat mempengaruhi perkembangan dan fungsi kognitif seseorang, dan pengukuran pendidikan digunakan sebagai faktor yang relevan dalam evaluasi demensia)
- =SES (hasil tes ingatan,bahasa,tempat)
- =MMSE (Tes MMSE membantu dokter atau profesional kesehatani untuk mengevaluasi tingkat keparahan pada pasien dengan pengidap dementia )
- =CDR ( Clinical Dementia Rating" atau Skor Klinis Demensia untuk mengukur tingkat keparahan dan jenis demensia pada pasien,penilaian CDR melibatkan wawancara dengan pasien dan orang-orang terdekatnya, serta observasi perilaku dan fungsi kognitif pasien.)
- =eTIV (eTIV adalah ukuran perkiraan volume total ruang intrakranial pada pasien)
- =nWBV (nWBV adalah ukuran yang digunakan untuk mengukur volume total otak secara relatif, dengan memperhitungkan perbedaan ukuran kepala atau tubuh pasien.nWBV digunakan dalam penelitian dan penilaian demensia untuk mengkaji perubahan volume otak secara objektif dan membandingkan antara individu dengan demensia dan individu sehat. )
- =ASF (hasl dari analisa dokter/profesional kesahatan)

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 373 entries, 0 to 372
Data columns (total 15 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Subject ID  373 non-null    object 
 1   MRI ID      373 non-null    object 
 2   Group       373 non-null    object 
 3   Visit       373 non-null    int64  
 4   MR Delay    373 non-null    int64  
 5   M/F         373 non-null    object 
 6   Hand        373 non-null    object 
 7   Age         373 non-null    int64  
 8   EDUC        373 non-null    int64  
 9   SES         354 non-null    float64
 10  MMSE        371 non-null    float64
 11  CDR         373 non-null    float64
 12  eTIV        373 non-null    int64  
 13  nWBV        373 non-null    float64
 14  ASF         373 non-null    float64
dtypes: float64(5), int64(5), object(5)
memory usage: 43.8+ KB


In [5]:
df.isna().sum()

Subject ID     0
MRI ID         0
Group          0
Visit          0
MR Delay       0
M/F            0
Hand           0
Age            0
EDUC           0
SES           19
MMSE           2
CDR            0
eTIV           0
nWBV           0
ASF            0
dtype: int64

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 373 entries, 0 to 372
Data columns (total 15 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Subject ID  373 non-null    object 
 1   MRI ID      373 non-null    object 
 2   Group       373 non-null    object 
 3   Visit       373 non-null    int64  
 4   MR Delay    373 non-null    int64  
 5   M/F         373 non-null    object 
 6   Hand        373 non-null    object 
 7   Age         373 non-null    int64  
 8   EDUC        373 non-null    int64  
 9   SES         354 non-null    float64
 10  MMSE        371 non-null    float64
 11  CDR         373 non-null    float64
 12  eTIV        373 non-null    int64  
 13  nWBV        373 non-null    float64
 14  ASF         373 non-null    float64
dtypes: float64(5), int64(5), object(5)
memory usage: 43.8+ KB


In [7]:
df['M/F'] = df['M/F'].str.replace('F','0')
df['M/F'] = df['M/F'].str.replace('M','1')

In [8]:
df['M/F'] = pd.to_numeric(df['M/F'])

In [9]:
df['Group'] = df['Group'].str.replace('Converted','Nondemented')

In [10]:
df.head()

Unnamed: 0,Subject ID,MRI ID,Group,Visit,MR Delay,M/F,Hand,Age,EDUC,SES,MMSE,CDR,eTIV,nWBV,ASF
0,OAS2_0001,OAS2_0001_MR1,Nondemented,1,0,1,R,87,14,2.0,27.0,0.0,1987,0.696,0.883
1,OAS2_0001,OAS2_0001_MR2,Nondemented,2,457,1,R,88,14,2.0,30.0,0.0,2004,0.681,0.876
2,OAS2_0002,OAS2_0002_MR1,Demented,1,0,1,R,75,12,,23.0,0.5,1678,0.736,1.046
3,OAS2_0002,OAS2_0002_MR2,Demented,2,560,1,R,76,12,,28.0,0.5,1738,0.713,1.01
4,OAS2_0002,OAS2_0002_MR3,Demented,3,1895,1,R,80,12,,22.0,0.5,1698,0.701,1.034


In [11]:
df['Group'] = df['Group'].str.replace('Demented','1')
df['Group'] = df['Group'].str.replace('Nondemented','0')

In [12]:
df['Group'] = pd.to_numeric(df['Group'])

In [13]:
df.head()

Unnamed: 0,Subject ID,MRI ID,Group,Visit,MR Delay,M/F,Hand,Age,EDUC,SES,MMSE,CDR,eTIV,nWBV,ASF
0,OAS2_0001,OAS2_0001_MR1,0,1,0,1,R,87,14,2.0,27.0,0.0,1987,0.696,0.883
1,OAS2_0001,OAS2_0001_MR2,0,2,457,1,R,88,14,2.0,30.0,0.0,2004,0.681,0.876
2,OAS2_0002,OAS2_0002_MR1,1,1,0,1,R,75,12,,23.0,0.5,1678,0.736,1.046
3,OAS2_0002,OAS2_0002_MR2,1,2,560,1,R,76,12,,28.0,0.5,1738,0.713,1.01
4,OAS2_0002,OAS2_0002_MR3,1,3,1895,1,R,80,12,,22.0,0.5,1698,0.701,1.034


# Merubah Kolom Data

In [14]:
df.rename(columns={'MR Delay':'MRDelay'}, inplace=True)
df.rename(columns={'M/F':'Gender'}, inplace=True)

# MODELING

In [15]:
features = ['Visit','MRDelay','Gender','Age','EDUC','CDR','eTIV','nWBV','ASF']
x = df[features]
y = df['Group']
x.shape, y.shape

((373, 9), (373,))

In [16]:
print(x)
print(y)

     Visit  MRDelay  Gender  Age  EDUC  CDR  eTIV   nWBV    ASF
0        1        0       1   87    14  0.0  1987  0.696  0.883
1        2      457       1   88    14  0.0  2004  0.681  0.876
2        1        0       1   75    12  0.5  1678  0.736  1.046
3        2      560       1   76    12  0.5  1738  0.713  1.010
4        3     1895       1   80    12  0.5  1698  0.701  1.034
..     ...      ...     ...  ...   ...  ...   ...    ...    ...
368      2      842       1   82    16  0.5  1693  0.694  1.037
369      3     2297       1   86    16  0.5  1688  0.675  1.040
370      1        0       0   61    13  0.0  1319  0.801  1.331
371      2      763       0   63    13  0.0  1327  0.796  1.323
372      3     1608       0   65    13  0.0  1333  0.801  1.317

[373 rows x 9 columns]
0      0
1      0
2      1
3      1
4      1
      ..
368    1
369    1
370    0
371    0
372    0
Name: Group, Length: 373, dtype: int64


# Split Data

In [17]:
x_train, x_test, y_train, y_test = train_test_split(x,y, test_size=0.2, stratify=y, random_state=2)

In [18]:
print(x.shape, x_train.shape, x_test.shape)

(373, 9) (298, 9) (75, 9)


In [19]:
lr = LogisticRegression()

In [20]:
lr.fit(x_train,y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


# Evaluasi Model

In [21]:
x_train_prediction = lr.predict(x_train)
training_data_accuracy = accuracy_score(x_train_prediction, y_train)

In [22]:
print('Akurasi data training adalah: ',training_data_accuracy)

Akurasi data training adalah:  0.9630872483221476


In [23]:
x_test_prediction = lr.predict(x_test)
test_data_accuracy = accuracy_score(x_test_prediction, y_test)

In [24]:
print('Akurasi data testing adalah: ',test_data_accuracy)

Akurasi data testing adalah:  0.96


In [25]:
input_data = (1,0,1,87,14,0.0,1987,0.696,0.883)
input_data_as_numpy_array = np.array(input_data)
input_data_reshape = input_data_as_numpy_array.reshape(1,-1)


pred = lr.predict(input_data_reshape)
print(pred)

if(pred[0] == 0):
    print('Pasien bukan penderita dementia')
else :
    print('Pasien penderita dementia')

[0]
Pasien bukan penderita dementia




In [26]:
input_data = (3,1895,1,80,12,0.5,1698,0.701,1.034)
input_data_as_numpy_array = np.array(input_data)
input_data_reshape = input_data_as_numpy_array.reshape(1,-1)


pred = lr.predict(input_data_reshape)
print(pred)

if(pred[0] == 0):
    print('Pasien bukan pengidap dementia')
else :
    print('Pasien pengidap dementia')

[1]
Pasien pengidap dementia




# Deployment

In [27]:
import pickle

In [28]:
filename = 'dementia_dataset.sav'
pickle.dump(lr,open(filename,'wb'))

# Streamlit Share Link
https://rahmatogi-uas-uasdm-g3tu3m.streamlit.app/
# link kaggle
https://www.kaggle.com/datasets/shashwatwork/dementia-prediction-dataset