# Logistic Regression
- 본 노트북 코드에서는
    - Logistic Regression을 이용하여 분류 모델을 만들어보고자 합니다.
- 패키지는 
    - 분류(classification) 모델을 훈련하고 평가 및 예측하는 것은 scikit-learn 패키지를 사용하겠습니다.
    - scikit-learn 패키지의 Logistic Regression 함수에 대한 자세한 설명은 아래 문서에서 확인하실 수 있습니다.
        - https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html


## 1. Logistic Regression on "Universal Bank" dataset

### (1) Prepare an example data

In [None]:
import pandas as pd
url = "https://raw.githubusercontent.com/gchoi/Dataset/master/UniversalBank.csv"
bank_df = pd.read_csv(url)

In [None]:
bank_df

### (2) Preprocessing

In [None]:
bank_df.drop(columns=['ID', 'ZIP Code'], inplace=True)
bank_df.columns = [c.replace(' ', '_') for c in bank_df.columns]

# Treat education as categorical, convert to dummy variables
bank_df['Education'] = bank_df['Education'].astype('category')
new_categories = {1: 'Undergrad', 2: 'Graduate', 3: 'Advanced/Professional'}
bank_df.Education = bank_df.Education.cat.rename_categories(new_categories)
bank_df = pd.get_dummies(bank_df, prefix_sep='_', drop_first=True, dtype=int)

In [None]:
bank_df

In [None]:
X = bank_df.drop(columns=['PersonalLoan'])
y = bank_df['PersonalLoan']

### (3) Split the data into training and test sets

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

### (4) Define and Train a linear regression model

In [None]:
from sklearn.linear_model import LogisticRegression

clf = LogisticRegression()
clf.fit(X_train, y_train)

### (5) Test and Evaluate the model

In [None]:
# 훈련 데이터와 테스트 데이터의 accuracy 값을 출력한다.
print("Training set score: {:.3f}".format(clf.score(X_train, y_train)))
print("Test set score: {:.3f}".format(clf.score(X_test, y_test)))

- 모델의 예측이 실제 값과 일치하는 정도를 평가하기 위해 모델의 내장함수인 score 함수를 통해 accuracy 값을 계산해봅시다.
- 훈련된 Logistic Regression 모델은 훈련용 데이터셋 분류 정확도 0.957, 테스트 셋 분류 정확도 0.959로 좋은 성능을 보이는 것을 확인할 수 있습니다.

In [None]:
# accuracy_score 함수를 사용하여 훈련 데이터와 테스트 데이터의 accuracy 값을 구한다.
from sklearn.metrics import accuracy_score

y_train_hat = clf.predict(X_train)
print(accuracy_score(y_train, y_train_hat))

y_test_hat = clf.predict(X_test)
print(accuracy_score(y_test, y_test_hat))

In [None]:
print('intercept ', clf.intercept_[0])
print()
print(pd.DataFrame({'coeff': clf.coef_[0]}, index=X.columns).transpose())


#### (6) Model Equation
- 위의 coefficieints, intercept를 이용하여 모델 식을 구성하면 다음과 같습니다.
  
    - $logit(Personal Loan = Yes) = -0.383 - 0.425 * Age + 0.428 * Experience + ...$

    - $P(Personal Loan = Yes) = \frac{1}{1+e^{-(-0.383 - 0.425 * Age + 0.428 * Experience + ...)}}$