In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import numpy as np

In [2]:

file_path = 'realfinal.xlsx'
data = pd.read_excel(file_path, sheet_name=None)
data_sheet1 = data['Sheet1']
data_sheet1.head()

# Check the sheet names and load each into dataframes
sheet_names = data.keys()
sheet_names


# Impute missing values
imputer = SimpleImputer(strategy='most_frequent')
data_imputed = pd.DataFrame(imputer.fit_transform(data_sheet1), columns=data_sheet1.columns)

# Apply LabelEncoder to each categorical column
encoders = {}  # Dictionary to store label encoders for each column
for column in data_imputed.select_dtypes(include=['object']).columns:
    le = LabelEncoder()
    data_imputed[column] = le.fit_transform(data_imputed[column].astype(str))
    encoders[column] = le  # Store each encoder

# Define features and target
X = data_imputed.drop('กลุ่มเงินหนี้', axis=1)
y = data_imputed['กลุ่มเงินหนี้']

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Initialize and train the logistic regression model
logreg = LogisticRegression(max_iter=1000)
logreg.fit(X_train, y_train)

# Predict the responses for the test set
y_pred = logreg.predict(X_test)

# Compute the accuracy score
accuracy = accuracy_score(y_test, y_pred)
accuracy



0.6556291390728477

In [3]:
# Define another example data with the appropriate structure

another_example_data = {
    'รหัสสาขาสัญญา': 'อาเซี่ยนมอลล์',
    'สถานภาพ': 'แต่งงาน',
    'เพศ': 'ชาย',
    'เหตุผลการกู้': 'การศึกษา',
    'หลักค้ําประกัน': 'บุคคล',
    'อำเภอ': 'ยะรัง',
    'จังหวัด': 'ปัตตานี',
    'จำนวนบุตร': 0,
    'อายุสมาชิกปี': 1,
    'แบบชำระ': 'ชำระด้วยตัวเอง',
    'กลุ่มอายุ': '20-30',
    'กลุ่มรายได้รวม': '<10,000',
    'หมวดหมู่อาชีพ': 'การศึกษา',
    'กลุ่มวงเงินที่ขอ': '50,000 to 70,000',
    'กลุ่มอายุสมาชิกปี': '1'
}

# Create a DataFrame from the example data
another_example_df = pd.DataFrame([another_example_data])

# Encode example data using the fitted LabelEncoders, handling unknown categories properly
encoded_data = {}
for column in another_example_df.columns:
    le = encoders[column]
    # Temporarily add 'Unknown' to classes for handling unknown categories
    temp_classes = np.append(le.classes_, 'Unknown')
    # Map each value to the correct index in temp_classes
    encoded_data[column] = another_example_df[column].astype(str).apply(
        lambda x: np.where(temp_classes == (x if x in le.classes_ else 'Unknown'))[0][0])

# Convert encoded data to DataFrame
encoded_example_df = pd.DataFrame([encoded_data])

# Predict the debt group using the logistic regression model
predicted_group = logreg.predict(encoded_example_df)

# Decode the predicted labels using the original encoder for the target variable
predicted_label = encoders['กลุ่มเงินหนี้'].inverse_transform(predicted_group)[0]
predicted_label

print("ระดับกลุ่มการประเมินของผู้ขอสินเชื่อ:",predicted_label)

'ไม่เสี่ยง'

In [4]:
# Define another example data with the appropriate structure

another_example_data = {
    'รหัสสาขาสัญญา': 'อาเซี่ยนมอลล์',
    'สถานภาพ': 'แต่งงาน',
    'เพศ': 'หญิง',
    'เหตุผลการกู้': 'ครัวเรือนและส่วนบุคคล',
    'หลักค้ําประกัน': 'บุคคล',
    'อำเภอ': 'เมืองปัตตานี',
    'จังหวัด': 'ปัตตานี',
    'จำนวนบุตร': 3,
    'อายุสมาชิกปี': 4,
    'แบบชำระ': 'ชำระด้วยตัวเอง',
    'กลุ่มอายุ': '50-60',
    'กลุ่มรายได้รวม': '<10,000',
    'หมวดหมู่อาชีพ': 'ธุรกิจและการค้า',
    'กลุ่มวงเงินที่ขอ': '20,000 to 50,000',
    'กลุ่มอายุสมาชิกปี': 'Less than 5 years'
}

# Create a DataFrame from the example data
another_example_df = pd.DataFrame([another_example_data])

# Encode example data using the fitted LabelEncoders, handling unknown categories properly
encoded_data = {}
for column in another_example_df.columns:
    le = encoders[column]
    # Temporarily add 'Unknown' to classes for handling unknown categories
    temp_classes = np.append(le.classes_, 'Unknown')
    # Map each value to the correct index in temp_classes
    encoded_data[column] = another_example_df[column].astype(str).apply(
        lambda x: np.where(temp_classes == (x if x in le.classes_ else 'Unknown'))[0][0])

# Convert encoded data to DataFrame
encoded_example_df = pd.DataFrame([encoded_data])

# Predict the debt group using the logistic regression model
predicted_group = logreg.predict(encoded_example_df)

# Decode the predicted labels using the original encoder for the target variable
predicted_label = encoders['กลุ่มเงินหนี้'].inverse_transform(predicted_group)[0]
predicted_label


'ไม่เสี่ยง'