# 실습3 대출 신용정보 평가 (분류, 회귀)

대출 신용정보 평가를 위해 분류와 회귀 모델을 모두 사용하는 실습 코드를 준비했습니다. Kaggle에서 유명하고 풍부한 데이터셋인 "Loan Prediction Problem" 데이터셋을 사용하겠습니다.

데이터셋 링크: https://www.kaggle.com/altruistdelhite04/loan-prediction-problem-dataset

대출 상태를 분류하고
대출 금액을 회귀분석 하는 실습입니다. 

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# 데이터 로드
data = pd.read_csv('credit.csv')
data

In [None]:
# 필요한 열 선택
data = data[['Loan_ID', 'Gender', 'Married', 'Dependents', 'Education', 'Self_Employed', 'ApplicantIncome', 
             'CoapplicantIncome', 'LoanAmount', 'Loan_Amount_Term', 'Credit_History', 'Property_Area', 'Loan_Status']]
data

In [None]:
# Gender, Married, Dependents, Self_Employed, LoanAmount, Loan_Amount_Term, Credit_History 열에는 결측값이 있습니다.
# 결측값을 자율적으로 처리해보세요.
data['Gender'].fillna(None)
data['Married'].fillna(None)
data['Dependents'].fillna(None)
data['Self_Employed'].fillna(None)
data['LoanAmount'].fillna(None)
data['Loan_Amount_Term'].fillna(None)
data['Credit_History'].fillna(None)

In [None]:
# 카테고리형 변수를 숫자로 매핑
le = LabelEncoder()
for col in ['Gender', 'Married', 'Dependents', 'Education', 'Self_Employed', 'Property_Area', 'Loan_Status']:
    data[col] = le.fit_transform(data[col])

In [None]:
# 특성과 타겟 분리

# 학습용 데이터
X = data.drop(['Loan_ID', 'Loan_Status'], axis=1)

# 분류를 위한 평가 데이터
y_class = data['Loan_Status']

# 회귀를 위한 평가 데이터
y_reg = data['LoanAmount']

In [None]:
# 훈련 데이터와 검증 데이터 분리
학습용_data, 평가용_data, 분류_학습용_target, 분류_평가용_target, 회귀_학습용_target, 회귀_평가용_target = train_test_split(
    X, y_class, y_reg, test_size=0.2, random_state=40)

### 로지스틱 회귀

In [None]:
# 모델 정의


In [None]:
# 모델 학습

In [None]:
# 모델 추론
lr_예측결과 = None

In [None]:
# 모델 평가

# 분류 보고서 출력
print("Logistic Regression Classification Report:")
print(None)

# 혼동 행렬 출력
print("Confusion Matrix:")
print(None)

# 정확도 출력
print("Accuracy Score:")
print(None)

### 랜덤포레스트

In [None]:
# 모델 정의


In [None]:
# 모델 학습


In [None]:
# 모델 추론
rf_예측결과 = None

In [None]:
# 모델 평가

# 분류 보고서 출력
print("Logistic Regression Classification Report:")
print(None)

# 혼동 행렬 출력
print("Confusion Matrix:")
print(None)

# 정확도 출력
print("Accuracy Score:")
print(None)

In [None]:
# Feature Importance 계산 및 시각화
feature_importances = rf.feature_importances_
feature_names = X.columns

In [None]:
# Feature Importance를 데이터프레임으로 변환
feature_importance_df = pd.DataFrame({'Feature': feature_names, 'Importance': feature_importances})
feature_importance_df = feature_importance_df.sort_values(by='Importance', ascending=False)

In [None]:
# Feature Importance 시각화
plt.figure(figsize=(10, 6))
sns.barplot(x='Importance', y='Feature', data=feature_importance_df)
plt.title('Feature Importance')
plt.xlabel('Importance')
plt.ylabel('Feature')
plt.show()

### 선형회귀 모델

In [None]:
# 모델 정의


In [None]:
# 모델 학습


In [None]:
# 모델 추론
lr_예측결과 = None

In [None]:
# 회귀 모델 평가
print("\nLinear Regression:")

# 평균 제곱 오차 계산 및 출력
mse = None
print("Mean Squared Error:", mse)

# 회귀계수 값 계산 및 출력
r2 = None
print("R-squared:", r2)

### 데이터 시각화

In [None]:
# 시각화
plt.figure(figsize=(8, 6))
# 데이터 복사 및 Loan_Status 열의 데이터 타입을 문자열로 변환
data_viz = data.copy()
data_viz['Loan_Status'] = data_viz['Loan_Status'].astype(str)
sns.countplot(x='Education', hue='Loan_Status', data=data_viz)
plt.title('Education vs Loan Status')
plt.xlabel('Education')
plt.ylabel('Count')
plt.show()

In [None]:
# 분류 결과에 대한 시각화
plt.figure(figsize=(8, 6))
# X_val 인덱스를 사용하여 원본 데이터에서 해당 행을 추출하고, 예측 결과를 문자열로 변환
viz_df = data.loc[data.index.isin(테스트용_data.index)].copy()
viz_df['Predicted Loan Status'] = lr_예측결과.astype(str)
sns.countplot(x='Education', hue='Predicted Loan Status', data=viz_df)
plt.title('Education vs Predicted Loan Status')
plt.xlabel('Education Level')
plt.ylabel('Count')
plt.legend(title='Predicted Loan Status', labels=['No Loan', 'Loan Granted'])
plt.show()