In [6]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import joblib

# Membaca data dari file CSV
data = pd.read_csv("Reka_Medis.csv")

# Menggantikan nilai NaN dengan string kosong pada kolom keluhan
data['Keluhan'] = data['Keluhan'].fillna('')

# Menggantikan nilai NaN dengan string kosong pada kolom Diaknosa
data['Diaknosa'] = data['Diaknosa'].fillna('')

# Menggunakan TF-IDF untuk mengonversi keluhan menjadi vektor fitur
tfidf_vectorizer = TfidfVectorizer(stop_words='english')
X = tfidf_vectorizer.fit_transform(data['Keluhan'])

# Membangun model Decision Tree
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X, data['Diaknosa'])

# Menyimpan model ke dalam file
joblib.dump(clf, 'diagnosis_model.pkl')
joblib.dump(tfidf_vectorizer, 'tfidf_vectorizer.pkl')

# Meminta input dari pengguna
keluhan_user = input("Masukkan keluhan: ")

# Melakukan vektorisasi pada input pengguna
keluhan_user_tfidf = tfidf_vectorizer.transform([keluhan_user])

# Melakukan prediksi dan mendapatkan probabilitas
prediksi_diaknosa = clf.predict(keluhan_user_tfidf)
probabilitas_diaknosa = clf.predict_proba(keluhan_user_tfidf)

# Menampilkan hasil prediksi dan probabilitas untuk setiap kelas
kelas_diaknosa = clf.classes_

hasil_prediksi = pd.DataFrame({
    'Diaknosa': kelas_diaknosa,
    'Probabilitas': probabilitas_diaknosa[0]
})

print("Keluhan User: {}".format(keluhan_user))
print("Prediksi Diaknosa: {}".format(prediksi_diaknosa[0]))
print("Detail Prediksi:")
print(hasil_prediksi)

# Menghitung dan menampilkan akurasi
data_test = pd.read_csv("Reka_Medis.csv")  # Ganti dengan data test yang sebenarnya jika tersedia
data_test['Keluhan'] = data_test['Keluhan'].fillna('')  # Menggantikan nilai NaN dengan string kosong pada kolom Keluhan
data_test['Diaknosa'] = data_test['Diaknosa'].fillna('')  # Menggantikan nilai NaN dengan string kosong pada kolom Diaknosa
y_test = data_test['Diaknosa'].astype(str)  # Memastikan tipe data 'str'
y_pred = clf.predict(tfidf_vectorizer.transform(data_test['Keluhan']))
akurasi = accuracy_score(y_test, y_pred)
print("\nAkurasi: {:.2f}%".format(akurasi * 100))


# Menyimpan hasil prediksi dan akurasi ke dalam file CSV
hasil_prediksi.to_csv('hasil_prediksi.csv', index=False)

print("Hasil prediksi dan akurasi telah disimpan dalam file 'hasil_prediksi.csv'")


Keluhan User: Batuk, Sesak, Perokok
Prediksi Diaknosa: PPOK (Penyakit Paru Obstruktif Kronik)
Detail Prediksi:
                                             Diaknosa  Probabilitas
0                                           Bronkitis           0.0
1                       Bronkitis, Hipertensi Stage 1           0.0
2                                     Bronkopneumonia           0.0
3                                                 CHF           0.0
4   CHF Nyha 4 Kongestif, Pneumonia Bilateral, Efu...           0.0
5                             CHF, Kardiomegali Berat           0.0
6                                  Dalam Batas Normal           0.0
7                           Dermoid Cyst Ovarii Kanan           0.0
8                              Evaluasi TB Perbaikan            0.0
9                                  Hipertensi Grade 1           0.0
10                                 Hipertensi Grade 2           0.0
11  Kardiomegali Berat, Edema Pulmo Grade 2, Bronk...           0.0
12   