In [18]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score 

In [19]:
data = pd.read_excel('realfinal2.xlsx')  #
imputer = SimpleImputer(strategy='most_frequent')
data_imputed = pd.DataFrame(imputer.fit_transform(data), columns=data.columns)

encoders = {}
for column in data_imputed.columns:
    data[column] = data[column].astype(str)  # Ensure all data is string type
    le = LabelEncoder()
    le.fit(list(data[column].unique()) + ['Unknown'])  # Include 'Unknown' for new categories
    data_imputed[column] = le.transform(data[column])
    encoders[column] = le

# Define features and target
X = data_imputed.drop('ความเสี่ยง', axis=1)  # Assuming 'ความเสี่ยง' is the target column
y = data_imputed['ความเสี่ยง']

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Initialize and train the logistic regression model
logreg = LogisticRegression(max_iter=1000)
logreg.fit(X_train, y_train)

# Predict on the test data
y_pred = logreg.predict(X_test)

# Calculate and print the accuracy
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)


Accuracy: 0.609271523178808


In [22]:
# Define the example data again to match the training data
example_data = {
    'รหัสสาขาสัญญา': 'อาเซี่ยนมอลล์',
    'สถานภาพ': 'โสด',
    'เพศ': 'ชาย',
    'เหตุผลการกู้': 'การศึกษา',
    'หลักค้ําประกัน': 'บุคคล',
    'อำเภอ': 'ยะรัง',
    'จังหวัด': 'ปัตตานี',
    'จำนวนบุตร': 0,
    'อายุสมาชิกปี': 1,
    'แบบชำระ': 'ชำระด้วยตัวเอง',
    'กลุ่มอายุ': '20-30',
    'กลุ่มรายได้รวม': '<10,000',
    'หมวดหมู่อาชีพ': 'การศึกษา',
    'กลุ่มวงเงินที่ขอ': '50,000 to 70,000',
    'กลุ่มอายุสมาชิกปี': '1'
}

# Create DataFrame from adjusted example data
example_df_adjusted = pd.DataFrame([example_data], columns=X_train.columns)

# Encode example data using the fitted LabelEncoders, handle unknown categories
for column in example_df_adjusted.columns:
    le = encoders[column]
    example_df_adjusted[column] = example_df_adjusted[column].astype(str).apply(lambda x: x if x in le.classes_ else 'Unknown')
    example_df_adjusted[column] = le.transform(example_df_adjusted[column])

# Predict using the logistic regression model
prediction_adjusted = logreg.predict(example_df_adjusted)

# Decode the predicted label
predicted_label_adjusted = encoders['ความเสี่ยง'].inverse_transform(prediction_adjusted)[0]

predicted_label_adjusted


'ไม่เสี่ยง'

In [23]:
# Updated example data based on the image provided
updated_example_data = {
    'รหัสสาขาสัญญา': 'อาเซี่ยนมอลล์',
    'สถานภาพ': 'แต่งงาน',
    'เพศ': 'หญิง',
    'เหตุผลการกู้': 'ครัวเรือนและส่วนบุคคล',
    'หลักค้ําประกัน': 'บุคคล',
    'อำเภอ': 'เมืองปัตตานี',
    'จังหวัด': 'ปัตตานี',
    'จำนวนบุตร': 3,
    'อายุสมาชิกปี': 4,
    'แบบชำระ': 'ชำระด้วยตัวเอง',
    'กลุ่มอายุ': '50-60',
    'กลุ่มรายได้รวม': '<10,000',
    'หมวดหมู่อาชีพ': 'ธุรกิจและการค้า',
    'กลุ่มวงเงินที่ขอ': '20,000 to 50,000',
    'กลุ่มอายุสมาชิกปี': 'Less than 5 years'
}

# Create DataFrame from the updated example data
updated_example_df = pd.DataFrame([updated_example_data], columns=X_train.columns)

# Encode updated example data using the fitted LabelEncoders, handle unknown categories
for column in updated_example_df.columns:
    le = encoders[column]
    updated_example_df[column] = updated_example_df[column].astype(str).apply(lambda x: x if x in le.classes_ else 'Unknown')
    updated_example_df[column] = le.transform(updated_example_df[column])

# Predict using the logistic regression model
updated_prediction = logreg.predict(updated_example_df)

# Decode the predicted label
updated_predicted_label = encoders['ความเสี่ยง'].inverse_transform(updated_prediction)[0]

updated_predicted_label


'เสี่ยง'