## LogisticRegression

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
df = pd.read_csv('./data/train.csv')
test_df = pd.read_csv('./data/test.csv')

In [3]:
df.info()   # non-null: 이상치 없음음

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 18 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   UID                10000 non-null  object 
 1   주거 형태              10000 non-null  object 
 2   연간 소득              10000 non-null  float64
 3   현재 직장 근속 연수        10000 non-null  object 
 4   체납 세금 압류 횟수        10000 non-null  float64
 5   개설된 신용계좌 수         10000 non-null  int64  
 6   신용 거래 연수           10000 non-null  float64
 7   최대 신용한도            10000 non-null  float64
 8   신용 문제 발생 횟수        10000 non-null  int64  
 9   마지막 연체 이후 경과 개월 수  10000 non-null  int64  
 10  개인 파산 횟수           10000 non-null  int64  
 11  대출 목적              10000 non-null  object 
 12  대출 상환 기간           10000 non-null  object 
 13  현재 대출 잔액           10000 non-null  float64
 14  현재 미상환 신용액         10000 non-null  float64
 15  월 상환 부채액           10000 non-null  float64
 16  신용 점수              1000

In [4]:
Y = df['채무 불이행 여부']
X = df.drop('채무 불이행 여부', axis=1)

print(X)

              UID            주거 형태      연간 소득 현재 직장 근속 연수  체납 세금 압류 횟수  \
0     TRAIN_00000               자가  1941337.5      10년 이상          0.0   
1     TRAIN_00001               월세  1979505.0      10년 이상          0.0   
2     TRAIN_00002               월세  1356381.0          4년          0.0   
3     TRAIN_00003               월세  1049017.5          6년          0.0   
4     TRAIN_00004               월세  4320217.5          2년          0.0   
...           ...              ...        ...         ...          ...   
9995  TRAIN_09995  주택 담보 대출 (거주 중)  1339473.0      10년 이상          0.0   
9996  TRAIN_09996  주택 담보 대출 (거주 중)  2297230.5          2년          0.0   
9997  TRAIN_09997  주택 담보 대출 (거주 중)  1221523.5      10년 이상          0.0   
9998  TRAIN_09998               자가  3343584.0      10년 이상          0.0   
9999  TRAIN_09999  주택 담보 대출 (거주 중)  2175133.5          5년          0.0   

      개설된 신용계좌 수  신용 거래 연수   최대 신용한도  신용 문제 발생 횟수  마지막 연체 이후 경과 개월 수  \
0              9      13.4  400597.5   

In [5]:
# X 라벨 인코딩

from sklearn.preprocessing import LabelEncoder
def encode_feature(df):
    
    categories = ['주거 형태', '현재 직장 근속 연수', '대출 목적', '대출 상환 기간']
    for cate_item in categories:
        label_encoder = LabelEncoder()
        df[cate_item] = label_encoder.fit_transform(df[cate_item])
    
    return df
    
encode_feature(X)
print(X)


              UID  주거 형태      연간 소득  현재 직장 근속 연수  체납 세금 압류 횟수  개설된 신용계좌 수  \
0     TRAIN_00000      1  1941337.5            0          0.0           9   
1     TRAIN_00001      0  1979505.0            0          0.0           5   
2     TRAIN_00002      0  1356381.0            5          0.0          12   
3     TRAIN_00003      0  1049017.5            7          0.0          15   
4     TRAIN_00004      0  4320217.5            3          0.0          11   
...           ...    ...        ...          ...          ...         ...   
9995  TRAIN_09995      2  1339473.0            0          0.0           9   
9996  TRAIN_09996      2  2297230.5            3          0.0          11   
9997  TRAIN_09997      2  1221523.5            0          0.0           9   
9998  TRAIN_09998      1  3343584.0            0          0.0          10   
9999  TRAIN_09999      2  2175133.5            6          0.0           5   

      신용 거래 연수   최대 신용한도  신용 문제 발생 횟수  마지막 연체 이후 경과 개월 수  개인 파산 횟수  대출 목적  

In [6]:
X['주거 형태']

0       1
1       0
2       0
3       0
4       0
       ..
9995    2
9996    2
9997    2
9998    1
9999    2
Name: 주거 형태, Length: 10000, dtype: int64

In [7]:
# 'UID' 제거 (식별자이므로 필요 없음)
X = X.drop(columns=['UID'])

In [8]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 16 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   주거 형태              10000 non-null  int64  
 1   연간 소득              10000 non-null  float64
 2   현재 직장 근속 연수        10000 non-null  int64  
 3   체납 세금 압류 횟수        10000 non-null  float64
 4   개설된 신용계좌 수         10000 non-null  int64  
 5   신용 거래 연수           10000 non-null  float64
 6   최대 신용한도            10000 non-null  float64
 7   신용 문제 발생 횟수        10000 non-null  int64  
 8   마지막 연체 이후 경과 개월 수  10000 non-null  int64  
 9   개인 파산 횟수           10000 non-null  int64  
 10  대출 목적              10000 non-null  int64  
 11  대출 상환 기간           10000 non-null  int64  
 12  현재 대출 잔액           10000 non-null  float64
 13  현재 미상환 신용액         10000 non-null  float64
 14  월 상환 부채액           10000 non-null  float64
 15  신용 점수              10000 non-null  int64  
dtypes: float64(7), int64(9)

In [9]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, Y, random_state=42)

lr_clf = LogisticRegression(max_iter=1000)
lr_clf.fit(X_train, y_train)
lr_clf.score(X_train, y_train), lr_clf.score(X_test, y_test)


STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


(0.6806666666666666, 0.6624)

In [10]:
# 예측
pred_train = lr_clf.predict(X_train)
pred_test = lr_clf.predict(X_test)

In [11]:
from sklearn.metrics import accuracy_score,precision_score,recall_score

# 평가 (accuracy_score 사용)
print("훈련 데이터 정확도:\n", accuracy_score(y_train, pred_train))
print("훈련 데이터 정밀도:\n", precision_score(y_train, pred_train))
print("훈련 데이터 재현율:\n", recall_score(y_train, pred_train))

print('='*30)

print("평가 데이터 정확도:\n", accuracy_score(y_test, pred_test))
print("평가 데이터 정밀도:\n", precision_score(y_test, pred_test))
print("평가 데이터 재현율:\n", recall_score(y_test, pred_test))

훈련 데이터 정확도:
 0.6806666666666666
훈련 데이터 정밀도:
 0.5767918088737202
훈련 데이터 재현율:
 0.20039525691699606
평가 데이터 정확도:
 0.6624
평가 데이터 정밀도:
 0.5625
평가 데이터 재현율:
 0.19387755102040816
