<a href="https://colab.research.google.com/github/IPonD2002/LiverDisease_DsPj/blob/main/LiverDiseaseClassificationModel.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# โหลดข้อมูล
file_path = "/content/LPD.csv"
df = pd.read_csv(file_path, encoding='ISO-8859-1')

# ทำความสะอาดชื่อคอลัมน์
df.columns = df.columns.str.strip().str.replace(" ", "_")

# 1️⃣ Histogram - การกระจายตัวของอายุผู้ป่วย
plt.figure(figsize=(8, 5))
sns.histplot(df["Age_of_the_patient"], bins=20, kde=True)
plt.title("Age Distribution of Patients")
plt.xlabel("Age")
plt.ylabel("Count")
plt.show()

# 2️⃣ Boxplot - เปรียบเทียบค่าชีวเคมีระหว่างผู้ป่วยโรคตับกับผู้ที่ไม่มีโรค
biochemical_features = ["Total_Bilirubin", "Direct_Bilirubin", "Alkphos_Alkaline_Phosphotase",
                        "Sgpt_Alamine_Aminotransferase", "Sgot_Aspartate_Aminotransferase",
                        "Total_Protiens", "ALB_Albumin", "A/G_Ratio_Albumin_and_Globulin_Ratio"]

plt.figure(figsize=(12, 6))
df_melted = df.melt(id_vars=["Result"], value_vars=biochemical_features, var_name="Feature", value_name="Value")
sns.boxplot(x="Feature", y="Value", hue="Result", data=df_melted)
plt.xticks(rotation=45, ha="right")
plt.title("Comparison of Biochemical Features Between Liver Disease and Healthy Patients")
plt.xlabel("Biochemical Feature")
plt.ylabel("Value")
plt.legend(title="Diagnosis", labels=["Liver Disease", "Healthy"])
plt.show()

# 3️⃣ Heatmap - ความสัมพันธ์ระหว่างค่าทางชีวเคมี
plt.figure(figsize=(10, 6))
correlation_matrix = df[biochemical_features].corr()
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Correlation Heatmap of Biochemical Features")
plt.show()

# 4️⃣ Boxplot - เปรียบเทียบค่าชีวเคมีของเลือดระหว่างเพศชายและหญิง
plt.figure(figsize=(12, 6))
df_melted_gender = df.melt(id_vars=["Gender_of_the_patient"], value_vars=biochemical_features, var_name="Feature", value_name="Value")
sns.boxplot(x="Feature", y="Value", hue="Gender_of_the_patient", data=df_melted_gender)
plt.xticks(rotation=45, ha="right")
plt.title("Comparison of Biochemical Features Between Male and Female Patients")
plt.xlabel("Biochemical Feature")
plt.ylabel("Value")
plt.legend(title="Gender")
plt.show()

# 5️⃣ Pie Chart - อัตราส่วนผู้ป่วยโรคตับเทียบกับกลุ่มสุขภาพดี
plt.figure(figsize=(6, 6))
df["Result"].value_counts().plot.pie(autopct="%1.1f%%", labels=["Liver Disease", "Healthy"], colors=["red", "green"], startangle=90)
plt.title("Percentage of Liver Disease Patients vs Healthy Patients")
plt.ylabel("")
plt.show()


In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns


filepath = "/content/LPD.csv"
df = pd.read_csv(filepath,encoding='latin-1')

In [None]:
df.head()

In [None]:
print("\nขนาดของข้อมูล (Rows x Columns):", df.shape)

In [None]:
df.describe()

In [None]:
df.info()

In [None]:
duplicate_rows = df[df.duplicated()]
print(f"พบข้อมูลที่ซ้ำกันทั้งหมด {duplicate_rows.shape[0]} แถว")

In [None]:
df[df.duplicated()]


In [None]:
# เลือกคอลัมน์ที่เป็นตัวเลข (float และ int)
num_cols = df.select_dtypes(include=['float64', 'int64']).columns

# ลบคอลัมน์ Result ออกจาก num_cols เพราะจะแยกไปทำกราฟแท่ง
num_cols = [col for col in num_cols if col != 'Result']

# คำนวณจำนวนแถวและคอลัมน์สำหรับ subplot (แถวละ 2 กราฟ)
n_rows = (len(num_cols) + 1) // 2  # หารปัดขึ้น
n_cols = 2

# สร้าง subplot
fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5 * n_rows))
axes = axes.flatten()  # ทำให้เป็นอาร์เรย์ 1 มิติ

# วนลูปสร้าง histogram สำหรับแต่ละคอลัมน์ตัวเลข
for i, col in enumerate(num_cols):
    # ใช้ bw_adjust เพื่อให้เส้น KDE ไม่ขาด (ค่าต่ำทำให้เส้นเรียบขึ้น, ค่าสูงทำให้เส้นแสดงรายละเอียดมากขึ้น)
    sns.histplot(df[col], bins=30, kde=True, kde_kws={'bw_adjust': 1.5}, ax=axes[i])
    axes[i].set_title(f"Histogram of {col}")
    axes[i].set_xlabel(col)
    axes[i].set_ylabel("Frequency")

    # ปรับค่าขอบเขตของแกน x ให้ครอบคลุมข้อมูลทั้งหมด แต่ไม่กว้างเกินไป
    x_min, x_max = df[col].min(), df[col].max()
    margin = (x_max - x_min) * 0.05  # เพิ่ม margin 5%
    axes[i].set_xlim(x_min - margin, x_max + margin)

# ถ้ามีกราฟเหลือ (กรณีที่จำนวน num_cols เป็นเลขคี่) ให้ซ่อนกราฟที่เหลือ
for i in range(len(num_cols), len(axes)):
    axes[i].set_visible(False)

plt.tight_layout()
plt.show()

# สร้างกราฟแท่งสำหรับ Gender (สลับแกน x, y)
plt.figure(figsize=(10, 5))
gender_counts = df['Gender of the patient'].value_counts().reset_index()
gender_counts.columns = ['Gender', 'Count']

# ใช้ barplot โดยสลับแกน x, y
ax = sns.barplot(y='Gender', x='Count', data=gender_counts, color='royalblue')
plt.title('Gender Comparison')
plt.ylabel('Gender of the patient')
plt.xlabel('Count')

# เพิ่มข้อความจำนวนข้างแท่ง
for i, count in enumerate(gender_counts['Count']):
    ax.text(count + 100, i, str(count), va='center')

plt.tight_layout()
plt.show()

# สร้างกราฟแท่งสำหรับ Result พร้อมคำอธิบาย (สลับแกน x, y)
plt.figure(figsize=(12, 6))

# สร้างข้อมูลสำหรับกราฟ Result
result_counts = df['Result'].value_counts().reset_index()
result_counts.columns = ['Result', 'Count']

# สร้าง labels ที่มีทั้งตัวเลขและคำอธิบาย
result_counts['Result_Label'] = result_counts['Result'].apply(
    lambda x: f"{int(x)} ({'Liver Patient' if x == 1 else 'non Liver Patient'})"
)

# ใช้ barplot โดยสลับแกน x, y และใช้ Result_Label แทน Result
ax = sns.barplot(y='Result_Label', x='Count', data=result_counts, color='royalblue')

plt.title('Result Comparison', fontsize=14)
plt.ylabel('Result', fontsize=12)
plt.xlabel('Count', fontsize=12)

# เพิ่มจำนวนข้างแท่ง
for i, count in enumerate(result_counts['Count']):
    ax.text(count + 100, i, str(count), va='center')

plt.tight_layout()
plt.show()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
# เพิ่มการ import Patch
from matplotlib.patches import Patch

# เลือกเฉพาะตัวแปรที่เป็นตัวเลข และไม่นับ 'result' กับ 'gender'
num_cols = df.select_dtypes(include=['float64', 'int64']).columns.difference(['Result', 'Gender of the patient'])

# กำหนดจำนวนแถวและคอลัมน์ (2 กราฟต่อแถว)
n_cols = 2
n_rows = (len(num_cols) + 1) // 2  # หารปัดขึ้น

# สร้าง subplots
fig, axes = plt.subplots(n_rows, n_cols, figsize=(16, 6 * n_rows))

# ทำให้ axes เป็น array 1 มิติเพื่อง่ายต่อการวนลูป
if n_rows > 1:
    axes = axes.flatten()
elif n_cols == 1:
    axes = [axes]
else:
    # กรณีมีเพียง subplot เดียว (1 แถว 1 คอลัมน์)
    axes = [axes]

# สร้าง color palette ที่ชัดเจน พร้อมกับกำหนดความหมาย
colors = {1: '#ff9999', 2: '#66b3ff'}
labels = {1: "1 (Liver Patient)", 2: "2 (non Liver Patient)"}

# วาด KDE plot ของแต่ละตัวแปรแยกตาม 'Result'
for i, col in enumerate(num_cols):
    # ถ้ามีจำนวนกราฟน้อยกว่าจำนวน axes
    if i < len(axes):
        # สร้าง KDE plot ที่มองเห็นได้ชัดเจน
        sns.kdeplot(
            data=df,
            x=col,
            hue="Result",
            fill=True,
            common_norm=False,
            alpha=0.6,
            ax=axes[i],
            palette=colors,
            linewidth=2.5,
            bw_adjust=1.2  # ปรับความเรียบของเส้น
        )

        # ตั้งชื่อกราฟและแกน
        axes[i].set_title(f"KDE Plot of {col} by Result", fontsize=14, pad=10)
        axes[i].set_xlabel(col, fontsize=12)
        axes[i].set_ylabel("Density", fontsize=12)

        # ปรับให้กราฟอ่านง่ายขึ้น
        axes[i].grid(alpha=0.3)

        # สร้าง custom legend ที่อธิบายความหมายของสีอย่างชัดเจน
        legend_elements = [
            Patch(facecolor=colors[1], edgecolor='black', alpha=0.6, label=labels[1]),
            Patch(facecolor=colors[2], edgecolor='black', alpha=0.6, label=labels[2])
        ]

        # เพิ่ม custom legend
        axes[i].legend(
            handles=legend_elements,
            title="Result",
            fontsize=10,
            loc='upper right'
        )

        # ปรับขอบเขตของแกน x ให้ปรับสเกลอัตโนมัติโดยตัดค่า outlier ออก
        # เพื่อให้กราฟมองเห็นได้ชัดเจน
        if df[col].min() < 0:
            # กรณีมีค่าติดลบ
            x_min = df[col].min()
        else:
            # กรณีไม่มีค่าติดลบ เริ่มที่ 0
            x_min = 0

        # คำนวณเปอร์เซ็นไทล์ที่ 99 เพื่อตัด outlier
        x_max = df[col].quantile(0.99)

        # ถ้า x_max ใกล้เคียง x_min มากเกินไป ให้ขยายช่วงออก
        if (x_max - x_min) < df[col].std():
            x_max = x_min + df[col].std() * 3

        axes[i].set_xlim(x_min, x_max)

# ซ่อนแกนที่ไม่ได้ใช้
for j in range(len(num_cols), len(axes)):
    if j < len(axes):  # ป้องกันกรณีที่ axes มีเพียงตัวเดียว
        axes[j].set_visible(False)

plt.tight_layout()
plt.show()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# แปลงค่า 0 และ 1 ใน gender ให้เป็น 'Male' และ 'Female'
df['Gender of the patient'] = df['Gender of the patient'].replace({0: 'Female', 1: 'Male'})

# ตั้งค่าขนาดของกราฟ
plt.figure(figsize=(12, 5))

# พล็อตกราฟแนวนอน
sns.countplot(data=df, y="Gender of the patient", hue="Result", palette="coolwarm")

# ใส่ชื่อแกนและ Title
plt.ylabel("Gender")  # แกน Y เป็น Gender
plt.xlabel("Count")  # แกน X เป็นจำนวน
plt.title("Gender vs Result Comparison")  # ชื่อกราฟ

# แสดงค่าบนแท่งกราฟ
for container in plt.gca().containers:
    plt.gca().bar_label(container, fmt="%d")

plt.show()

In [None]:
'''num_cols = df.select_dtypes(include=['float64', 'int64']).columns  # เลือกเฉพาะตัวแปรเชิงตัวเลข

fig, axes = plt.subplots(len(num_cols) // 3 + 1, 3, figsize=(15, 5 * (len(num_cols) // 3 + 1)))
axes = axes.flatten()

for i, col in enumerate(num_cols):
    sns.histplot(df[col], bins=30, kde=True, ax=axes[i])
    axes[i].set_title(f"Histogram of {col}")
    axes[i].set_xlabel(col)
    axes[i].set_ylabel("Frequency")

plt.tight_layout()
plt.show()'''

In [None]:
# Display the original columns
print("Original columns:")
print(df.columns.tolist())

# Drop the specified columns
columns_to_drop = ['A/G Ratio Albumin and Globulin Ratio',
                   'Total Protiens']
df = df.drop(columns=columns_to_drop)

# Display the remaining columns
print("\nColumns after dropping:")
print(df.columns.tolist())

In [None]:
# ตรวจสอบแถวที่ซ้ำทั้งหมด
print(df.duplicated().sum())

# ตรวจสอบแถวที่ซ้ำเฉพาะในบางคอลัมน์
print(df.duplicated(subset=['Age of the patient', 'Gender of the patient']).sum())


In [None]:
# ลบแถวที่ซ้ำกันทั้งหมด แต่เก็บแถวแรกไว้
df = df.drop_duplicates()
# ตรวจสอบขนาดข้อมูลใหม่
print(f"ขนาดของข้อมูลหลังลบ: {df.shape[0]} แถว")

# บันทึกข้อมูลใหม่
df.to_csv("LPD_Cleaned.csv", index=False)


In [None]:
df.shape

In [None]:
df.isnull().sum() #Missing Value

In [None]:
(df.isnull().sum() / len(df)) * 100 #คำนวณเปอร์เซ็นต์ Missing Values

In [None]:
import pandas as pd
import numpy as np

numeric_cols = df.select_dtypes(include=[np.number]).columns
for col in numeric_cols:
    if df[col].isnull().sum() > 0:
        median_val = df[col].median()
        df[col] = df[col].fillna(median_val)
        print(f"เติม Missing ใน '{col}' ด้วย Median: {median_val}")

Numeric Features เติม Median เนื่องจากค่าต่าง ๆ เช่น Bilirubin, AST, ALT, Alkaline Phosphotase เป็นตัวเลขที่อาจมีการกระจายตัวแบบเบ้ (skewed) และมี outliers

Categorical (Gender) เติมแบบ Mode เพราะเป็นข้อมูล เพศ (Gender) ซึ่งเป็นข้อมูลประเภทหมวดหมู่ (Male/Female)

In [None]:
import pandas as pd

# Load the dataset

# Calculate the number and percentage of missing values per column
missing_count = df.isnull().sum()
missing_percent = 100 * df.isnull().mean()

# Create a summary DataFrame
missing_summary = pd.DataFrame({
    'Missing Count': missing_count,
    'Missing Percentage': missing_percent
})

print(missing_summary)


In [None]:
import pandas as pd
import numpy as np

categorical_cols = df.select_dtypes(include=['object']).columns

for col in categorical_cols:
    if df[col].isnull().sum() > 0:
        mode_val = df[col].mode()[0]
        df[col] = df[col].fillna(mode_val)
        print(f"เติม Missing ใน '{col}' ด้วย Mode: {mode_val}")


In [None]:
print(df.isnull().sum())

In [None]:
import seaborn as sns
import matplotlib.pyplot as plts

numeric_cols = df.select_dtypes(include=[np.number]).columns
for col in numeric_cols:
    plt.figure(figsize=(6, 4))
    sns.boxplot(x=df[col])
    plt.title(f"Boxplot of {col}")
    plt.show()


In [None]:
df.info()

In [None]:
def remove_outliers_iqr(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1

    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]

# Get only the numeric columns (skip non-numeric columns like Gender)
numeric_columns = df.select_dtypes(include=['float64', 'int64']).columns.tolist()

# Display how many rows in the original DataFrame
print(f"Original DataFrame shape: {df.shape}")

# Remove outliers from each numeric column sequentially
for column in numeric_columns:
    # Skip the Result column if it's a target variable you want to keep intact
    if column == 'Result':
        continue

    original_size = df.shape[0]
    df = remove_outliers_iqr(df, column)
    removed = original_size - df.shape[0]

    print(f"Removed {removed} outliers from {column}. Remaining rows: {df.shape[0]}")

# Display final DataFrame shape
print(f"Final DataFrame shape after outlier removal: {df.shape}")

In [None]:
numeric_cols = df.select_dtypes(include=[np.number]).columns
for col in numeric_cols:
    plt.figure(figsize=(6, 4))
    sns.boxplot(x=df[col])
    plt.title(f"Boxplot of {col}")
    plt.show()
df.shape

In [None]:
!pip install ydata-profiling

In [None]:
from ydata_profiling import ProfileReport
profile = ProfileReport(df, title="LiverPatient_DSPJ", explorative=True)
# บันทึกรํายงํานเป็นไฟล์ HTML
profile.to_file("data_profile_report.html")

In [None]:
from sklearn.model_selection import train_test_split


X = df.drop(columns=["Result"])
y = df["Result"]


In [None]:
# ดูตัวอย่างข้อมูลจริงก่อนแปลง
print(df["Gender of the patient"].head(10))

# ทดลองแปลงใหม่ให้ชัดเจน
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df["Gender of the patient"] = le.fit_transform(df["Gender of the patient"])

# ตรวจสอบหลังแปลง
print(df["Gender of the patient"].head(10))

In [None]:
df.dtypes

In [None]:
print(df["Gender of the patient"].unique())

In [None]:
# แบ่งข้อมูลเป็น 80% Train, 20% Test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Training Data: {X_train.shape}, Test Data: {X_test.shape}")

In [None]:
print("Training set (X_train):", X_train.shape)
print("Test set (X_test):", X_test.shape)
print("Training labels (y_train):", y_train.shape)
print("Test labels (y_test):", y_test.shape)

In [None]:
print(y_train.value_counts())

In [None]:
df.info()

In [None]:
from sklearn.preprocessing import StandardScaler
import pandas as pd
import numpy as np

# เลือกคอลัมน์ตัวเลขทั้งหมดยกเว้น Gender of the patient และ Result
numeric_columns = df.select_dtypes(include=['float64', 'int64']).columns
columns_to_scale = [col for col in numeric_columns if col != 'Gender of the patient' and col != 'Result']

print(f"Columns selected for scaling: {columns_to_scale}")

# แยกข้อมูลเป็น features และ target
X = df.drop('Result', axis=1) if 'Result' in df.columns else df.copy()
y = df['Result'] if 'Result' in df.columns else None

# สร้าง DataFrame ใหม่สำหรับเก็บข้อมูลที่ standardize แล้ว
X_processed = X.copy()

# ใช้ StandardScaler เฉพาะกับคอลัมน์ที่ต้องการ
scaler = StandardScaler()
X_processed[columns_to_scale] = scaler.fit_transform(X[columns_to_scale])

print(f"Original data first few rows:\n{X.head()}")
print(f"\nScaled data first few rows:\n{X_processed.head()}")
print(f"\nScaled data shape: {X_processed.shape}")
print("Scaling completed successfully")

# ตรวจสอบว่า Gender ไม่ได้ถูก scale จริงๆ
if 'Gender of the patient' in X.columns:
    original_gender_values = X['Gender of the patient'].unique()
    scaled_gender_values = X_processed['Gender of the patient'].unique()

    print(f"\nOriginal unique Gender values: {original_gender_values}")
    print(f"Scaled unique Gender values: {scaled_gender_values}")

    if np.array_equal(original_gender_values, scaled_gender_values):
        print("✓ Confirmation: Gender values were NOT scaled")
    else:
        print("✗ Warning: Gender values were changed during processing")

In [None]:
# LinearSVC
# 2. เลือกโมเดล(Choose Model)
from sklearn.svm import LinearSVC
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
model = LinearSVC(random_state=42)
# 3. ฝึกโมเดล (Train Model)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
# 4. ทํานายผลลัพธ์ (Make Predictions)
from sklearn.metrics import accuracy_score
# 5. ประเมินผล (Evaluate Model)
print(accuracy_score(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print(precision_score(y_test, y_pred))
print(recall_score(y_test, y_pred))
print(f1_score(y_test, y_pred))

In [None]:
# KNeighborsClassifier

# 2. เลือกโมเดล (Choose Model)
from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier(n_neighbors=5)

# 3. ฝึกโมเดล (Train Model)
model.fit(X_train, y_train)

# 4.ทํานายผลลัพธ์ (Make Predictions)
y_pred = model.predict(X_test)

# 5.ประเมินผล (Evaluate Model)
print(accuracy_score(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print(precision_score(y_test, y_pred))
print(recall_score(y_test, y_pred))
print(f1_score(y_test, y_pred))

In [None]:
# SVC
# 2.เลือกโมเดล (Choose Model)
from sklearn.svm import SVC
model = SVC(kernel='rbf', random_state=42)
# 3. ฝึกโมเดล (Train Model)
model.fit(X_train, y_train)
# 4. ทํานายผลลัพธ์ (Make Predictions)
y_pred = model.predict(X_test)
# 5. ประเมินผล (Evaluate Model)
print(accuracy_score(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print(precision_score(y_test, y_pred))
print(recall_score(y_test, y_pred))
print(f1_score(y_test, y_pred))

In [None]:
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(n_estimators=100,
random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print(accuracy_score(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print(precision_score(y_test, y_pred))
print(recall_score(y_test, y_pred))
print(f1_score(y_test, y_pred))

In [None]:
from sklearn.ensemble import GradientBoostingClassifier
model = GradientBoostingClassifier(n_estimators=100,
learning_rate=0.1, random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print(accuracy_score(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print(precision_score(y_test, y_pred))
print(recall_score(y_test, y_pred))
print(f1_score(y_test, y_pred))

In [None]:
from sklearn.ensemble import BaggingClassifier
model = BaggingClassifier(n_estimators=100,
random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print(accuracy_score(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print(precision_score(y_test, y_pred))
print(recall_score(y_test, y_pred))
print(f1_score(y_test, y_pred))

In [None]:
from sklearn.ensemble import AdaBoostClassifier
model = AdaBoostClassifier(n_estimators=100,
random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print(accuracy_score(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print(precision_score(y_test, y_pred))
print(recall_score(y_test, y_pred))
print(f1_score(y_test, y_pred))

In [None]:
from sklearn.ensemble import ExtraTreesClassifier
model = ExtraTreesClassifier(n_estimators=100,
random_state=42)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print(accuracy_score(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print(precision_score(y_test, y_pred))
print(recall_score(y_test, y_pred))
print(f1_score(y_test, y_pred))

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# กำหนด Confusion Matrix
# โดยสมมติให้ตำแหน่ง [0,0] = TN, [0,1] = FP, [1,0] = FN, [1,1] = TP
# ดังนั้นค่าจะเป็น [[TN, FP],
#                    [FN, TP]]
cm = np.array([[1297, 8],
               [   7, 893]])

plt.figure(figsize=(6,5))

# สร้าง Heatmap ด้วย Seaborn
sns.heatmap(
    cm,
    annot=True,       # แสดงตัวเลขในแต่ละช่อง
    fmt="d",          # แสดงตัวเลขเป็นจำนวนเต็ม
    cmap="Blues",     # โทนสีฟ้า
    cbar=True,        # แสดง color bar
    xticklabels=["Predicted: No Disease", "Predicted: Disease"],
    yticklabels=["Actual: No Disease", "Actual: Disease"]
)

plt.title("Confusion Matrix for Liver Disease Classification", fontsize=14)
plt.xlabel("Predicted Label", fontsize=12)
plt.ylabel("Actual Label", fontsize=12)

# ปรับขอบเขตแกน Y ไม่ให้ label ถูกครอบ (โดยค่าเริ่มต้นอาจกลับด้าน)
plt.ylim([2, 0])  # หรือใช้ plt.gca().invert_yaxis()

plt.show()


In [None]:
from sklearn.model_selection import KFold, StratifiedKFold
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
import numpy as np

# สร้างโมเดล ExtraTreesClassifier ที่คุณใช้และได้ผลดี
model = ExtraTreesClassifier(n_estimators=100, random_state=42)

# กำหนด 5-Fold Cross-Validation แบบ Stratified เพื่อรักษาสัดส่วน class
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# เตรียมตัวแปรสำหรับเก็บผลลัพธ์
accuracy_scores = []
precision_scores = []
recall_scores = []
f1_scores = []
confusion_matrices = []

# ทำ k-fold cross-validation ด้วยตัวเอง เพื่อเก็บ confusion matrix
fold = 1
for train_index, test_index in kf.split(X, y):
    X_train_fold, X_test_fold = X.iloc[train_index], X.iloc[test_index]
    y_train_fold, y_test_fold = y.iloc[train_index], y.iloc[test_index]

    # ฝึกโมเดลกับข้อมูล training fold
    model.fit(X_train_fold, y_train_fold)

    # ทำนายผลลัพธ์
    y_pred_fold = model.predict(X_test_fold)

    # คำนวณ metrics
    accuracy = accuracy_score(y_test_fold, y_pred_fold)
    precision = precision_score(y_test_fold, y_pred_fold)
    recall = recall_score(y_test_fold, y_pred_fold)
    f1 = f1_score(y_test_fold, y_pred_fold)
    conf_matrix = confusion_matrix(y_test_fold, y_pred_fold)

    # เก็บผลลัพธ์
    accuracy_scores.append(accuracy)
    precision_scores.append(precision)
    recall_scores.append(recall)
    f1_scores.append(f1)
    confusion_matrices.append(conf_matrix)

    fold += 1

# แปลงลิสต์เป็น numpy array
accuracy_scores = np.array(accuracy_scores)
precision_scores = np.array(precision_scores)
recall_scores = np.array(recall_scores)
f1_scores = np.array(f1_scores)

# แสดงผลลัพธ์รวมทั้งหมด
print("Cross-Validation Results (6 ทศนิยม):")
print(f"Accuracy: {accuracy_scores.mean():.6f} (±{accuracy_scores.std():.6f})")
print(f"Precision: {precision_scores.mean():.6f} (±{precision_scores.std():.6f})")
print(f"Recall: {recall_scores.mean():.6f} (±{recall_scores.std():.6f})")
print(f"F1 Score: {f1_scores.mean():.6f} (±{f1_scores.std():.6f})")

# แสดงผลลัพธ์แต่ละ fold
print("\nResults for each fold (6 ทศนิยม):")
for i in range(5):
    print(f"Fold {i+1}:")
    print(f"  Accuracy: {accuracy_scores[i]:.6f}")
    print(f"  Precision: {precision_scores[i]:.6f}")
    print(f"  Recall: {recall_scores[i]:.6f}")
    print(f"  F1 Score: {f1_scores[i]:.6f}")
    print(f"  Confusion Matrix:")
    print(f"    {confusion_matrices[i][0]}")
    print(f"    {confusion_matrices[i][1]}")

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(8,5))
sns.histplot(df['Total Bilirubin'], bins=30, kde=True)
plt.title("Histogram of Total Bilirubin")
plt.xlabel("Total Bilirubin")
plt.ylabel("Frequency")
plt.show()


In [None]:
# **1. Histogram & KDE Plot สำหรับทุกตัวแปร**
num_cols = df.select_dtypes(include=['float64', 'int64']).columns  # เลือกเฉพาะตัวแปรเชิงตัวเลข

fig, axes = plt.subplots(len(num_cols) // 3 + 1, 3, figsize=(15, 5 * (len(num_cols) // 3 + 1)))
axes = axes.flatten()

for i, col in enumerate(num_cols):
    sns.histplot(df[col], bins=30, kde=True, ax=axes[i])
    axes[i].set_title(f"Histogram of {col}")
    axes[i].set_xlabel(col)
    axes[i].set_ylabel("Frequency")

plt.tight_layout()
plt.show()

In [None]:
# **2. Boxplot เพื่อตรวจสอบ Outliers สำหรับทุกตัวแปร**
plt.figure(figsize=(12, 6))
sns.boxplot(data=df[num_cols])
plt.title("Boxplot of All Numeric Features (Outliers Detection)")
plt.xticks(rotation=45)
plt.show()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# เลือกเฉพาะตัวแปรตัวเลขและไม่นับรวม 'result'
num_cols = df.select_dtypes(include=['float64', 'int64']).columns.difference(['Result'])

plt.figure(figsize=(10, 8))
sns.heatmap(df[num_cols].corr(), annot=True, cmap="coolwarm", fmt=".2f")

plt.title("Correlation Heatmap of All Features")
plt.show()


In [None]:
numeric_cols = df.select_dtypes(include=[np.number]).columns
for col in numeric_cols:
    plt.figure(figsize=(6, 4))
    sns.boxplot(x=df[col])
    plt.title(f"Boxplot of {col}")
    plt.show()
df.shape

In [None]:
sns.boxplot(x="Result", y="Total Bilirubin", data=df)
plt.title("Total Bilirubin vs Liver Disease Status")
plt.xlabel("Liver Disease Status")
plt.ylabel("Total Bilirubin")
plt.show()


In [None]:
plt.figure(figsize=(10,6))
sns.scatterplot(x=df["Sgpt_Alamine_Aminotransferase"], y=df["Sgot_Aspartate_Aminotransferase"], hue=df["Result"], alpha=0.6)
plt.title("Scatter Plot of Sgpt vs Sgot by Liver Disease Status")
plt.xlabel("Sgpt (ALT)")
plt.ylabel("Sgot (AST)")
plt.legend(["Healthy", "Liver Disease"])
plt.show()


In [None]:
plt.figure(figsize=(8,6))
sns.scatterplot(x=df["Total Bilirubin"], y=df["Direct Bilirubin"])
plt.title("Scatter Plot between Total Bilirubin and Direct Bilirubin")
plt.xlabel("Total Bilirubin")
plt.ylabel("Direct Bilirubin")
plt.show()


In [None]:
plt.figure(figsize=(10,6))
sns.boxplot(x=df["Result"], y=df["Total Bilirubin"])
plt.title("Total Bilirubin across Different Result Groups")
plt.show()


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# เลือกเฉพาะตัวแปรที่เป็นตัวเลข และไม่นับ 'result' กับ 'gender'
num_cols = df.select_dtypes(include=['float64', 'int64']).columns.difference(['Result', 'Gender of the patient'])

# ตั้งค่าขนาดของกราฟ
fig, axes = plt.subplots(len(num_cols) // 3 + 1, 3, figsize=(15, 5 * (len(num_cols) // 3 + 1)))
axes = axes.flatten()

# วาด KDE plot ของแต่ละตัวแปรแยกตาม 'result'
for i, col in enumerate(num_cols):
    sns.kdeplot(data=df, x=col, hue="Result", fill=True, common_norm=False, alpha=0.4, ax=axes[i])
    axes[i].set_title(f"KDE Plot of {col} by Result")
    axes[i].set_xlabel(col)
    axes[i].set_ylabel("Density")

# ซ่อนแกนที่ไม่ได้ใช้หากจำนวนตัวแปรไม่ลงตัว
for j in range(i + 1, len(axes)):
    fig.delaxes(axes[j])

plt.tight_layout()
plt.show()


รูป Matrix For Liver Disease Classification

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# แปลงค่า 0 และ 1 ใน gender ให้เป็น 'Male' และ 'Female'
df['Gender of the patient'] = df['Gender of the patient'].replace({0: 'Female', 1: 'Male'})

# ตั้งค่าขนาดของกราฟ
plt.figure(figsize=(12, 5))

# พล็อตกราฟแนวนอน
sns.countplot(data=df, y="Gender of the patient", hue="Result", palette="coolwarm")

# ใส่ชื่อแกนและ Title
plt.ylabel("Gender")  # แกน Y เป็น Gender
plt.xlabel("Count")  # แกน X เป็นจำนวน
plt.title("Gender vs Result Distribution")  # ชื่อกราฟ

# แสดงค่าบนแท่งกราฟ
for container in plt.gca().containers:
    plt.gca().bar_label(container, fmt="%d")

plt.show()
