In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
import statsmodels.stats.api as sms
from scipy import stats
import matplotlib.pyplot as plt
import plotly.express as px
import scipy
import seaborn as sns
import matplotlib.font_manager as fm
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from statsmodels.stats.outliers_influence import variance_inflation_factor
import math
import warnings
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectFromModel
import random

In [None]:
warnings.simplefilter('ignore')

In [None]:
font_path = "C:\\Users\\spa84\\Downloads\\text_mining\\NanumGothic.ttf"  # 나눔 폰트의 경로를 지정
font_name = fm.FontProperties(fname=font_path).get_name()
plt.rc("font", family=font_name)

In [None]:
path = './data/'

df = pd.read_csv(path+'merged_target.csv')

In [None]:
# 랜덤 시드를 설정하여 결과를 재현 가능하게 만듭니다.
random.seed(42)

# DataFrame에서 무작위로 30,000개의 행을 선택합니다.
n_samples = 30000
random_rows = df.sample(n=n_samples)

# 선택된 행을 새로운 DataFrame으로 저장할 수도 있습니다.
df = pd.DataFrame(random_rows)

## Categorical:

- Nominal(variables that have two or more categories, but which do not have an intrinsic order.)

    - Region_Name : 자치구 명
    - Building_Use : 건물 용도
    
- Ordinal(variables that have two or more categories just like nominal variables. Only the categories can also be ordered or ranked.)

    
## Numeric:

- Discrete
    - YearMonth : 년월
    - Building_Age : 건물연식
    - JS_Price : 전세가
   
- Continous
    - Sell_Price : 매매 가격
    - JS_BA = JS_Building Area : 임대 면적
    - lR = Interest Rate : 금리
    - UR = Unemployment Rate : 실업률
    - LC_index = Leading Composite index : 선행종합 지수
    - CA_index = Comprehensive Accompany index : 동행종합 지수
    - TC_index = Trailing Composite index : 후행종합 지수
    - SDT_index = Supply and Demand Trend index = 전세수급동향 지수
    - HSP_index = 
    - Population : 인구수
    - Crime_Rates : 범죄율
    - Shortest_Distance_to_Subway : 가장 가까운 지하철역과의 거리
    - Shortest_Distance_to_School : 가장 가까운 초중고등학교와의 거리
    - Shortest_Distance_to_Univ : 가장 가까운 대학교와의 거리
    - Shortest_Distance_to_Park : 가장 가까운 공원과의 거리
    

In [None]:
df.info()

## 데이터전처리

### 종속변수 변환

In [None]:
# JS_Price를 4개의 범주로 나누고 기존 변수 삭제
df['JS_Price_Category'] = pd.cut(df['JS_Price'], bins=5, labels=False)
df.drop('JS_Price', axis=1, inplace=True)

### 인코딩

In [None]:
# # 범주형 변수 더미화 함수, 범주형 변수의 범주 레벨 간의 관계가 중요할 시 사용
# def oh_encoding(df):
#     # DataFrame의 복사본을 만듭니다.
#     df_encoded = df.copy()
#     columns_encoded = []
#     for column in df.columns:
#         if df[column].dtype == object:
#             df_encoded = pd.get_dummies(df_encoded, columns=[column], prefix=column)
#             columns_encoded.append(column)
#     return df_encoded, columns_encoded

In [None]:
# df_encoded, columns_encoded = oh_encoding(df)

In [None]:
df_encoded = df

In [None]:
df_encoded

## 오버샘플링
- 클래스 별 샘플 수 차이로 인해 오버샘플링 진행

In [None]:
df_encoded['JS_Price_Category'].value_counts()

In [None]:
from imblearn.over_sampling import RandomOverSampler

# 오버샘플링할 데이터와 레이블을 준비합니다.
X = df_encoded.drop('JS_Price_Category', axis=1)  # 독립변수
y = df_encoded['JS_Price_Category']  # 종속변수

# RandomOverSampler를 초기화합니다.
oversampler = RandomOverSampler(sampling_strategy='auto', random_state=42)

# 오버샘플링을 적용합니다.
X_resampled, y_resampled = oversampler.fit_resample(X, y)

# 오버샘플링된 데이터를 새로운 데이터프레임으로 만듭니다.
df_encoded = pd.concat([X_resampled, y_resampled], axis=1)

In [None]:
df_encoded

## Logistic Regression Analysis

In [None]:
selected_features = ['Region_Name',
 'JS_BA',
 'Building_Use',
 'Building_Age',
 'SDT_index',
 'Crime_Rates',
 'Shortest_Distance_to_School',
 'Sell_Price',
 'HSP_index',
 'YearMonth',
 'Shortest_Distance_to_Subway']

In [None]:
# 독립 변수 선택
X = df_encoded[selected_features]

# 종속 변수 선택 (JS_Price_Category, 다중 분류)
Y = df_encoded['JS_Price_Category']

# 층화 추출을 사용하여 데이터 분할
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42, stratify=Y)

# 표준화 (선택적)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 다항 로지스틱 회귀 모델 생성
model = LogisticRegression(multi_class='multinomial', solver='lbfgs')
model.fit(X_train, Y_train)

# 모델 평가 (정확도 계산)
accuracy = model.score(X_test, Y_test)
print(f"모델 정확도 : {accuracy}", '\n')

# 각 클래스에 속할 확률 예측
probabilities = model.predict_proba(X_test)

# 예측 결과 클래스 (가장 높은 확률을 갖는 클래스 선택)
predicted_classes = model.predict(X_test)

# 예측된 클래스 및 확률 출력
print("---예측된 클래스---", '\n', predicted_classes, '\n')
print("---클래스별 확률---", '\n', probabilities)

### 로지스틱 회귀 분석의 통계량
- 양수 회귀 계수는 종속 변수를 증가시키는 데 긍정적인 영향을 미치고, 음수 회귀 계수는 종속 변수를 감소시키는 데 부정적인 영향을 미칩니다.
- 오즈비가 1보다 크면 해당 독립 변수가 종속 변수의 확률에 긍정적인 영향을 미칩니다. 오즈비가 1보다 작으면 부정적인 영향을 미칩니다.

In [None]:
# 회귀 모델을 이미 만들었다고 가정합니다.
# model은 이미 다중 클래스 로지스틱 회귀 모델로 훈련되어 있다고 가정합니다.

# 독립 변수의 열 이름
independent_variable_names = selected_features 

# 종속 변수 열의 이름을 식별하고 고유한 클래스 값을 확인합니다.
dependent_variable_column = "JS_Price_Category"
dependent_variable_classes = df_encoded[dependent_variable_column].unique()

# 회귀 계수 출력
coefficients = model.coef_

# 각 독립 변수와 종속 변수 클래스에 대한 회귀 계수와 오즈비를 출력합니다.
for i, dep_class in enumerate(dependent_variable_classes):
    print(f"종속 변수 클래스: {dep_class}")
    for j, indep_var in enumerate(independent_variable_names):
        coef = coefficients[i][j]
        odds_ratio = np.exp(coef)
        print(f"{indep_var} - 회귀 계수: {coef}, 오즈비: {odds_ratio}")

## 변수선택법
- SelectFromModel로 유의한 순서대로 변수 8개 선택

In [None]:
# 로지스틱 회귀 모델을 사용하여 변수 선택
model = LogisticRegression(max_iter=1000)  # 로지스틱 회귀 모델 생성 (다른 모델로 변경 가능)

# SelectFromModel을 사용하여 변수 선택
sfm = SelectFromModel(model, threshold=-np.inf, max_features=8)

# 변수 선택 모델을 훈련 데이터에 맞춤
sfm.fit(X, Y)

# 선택된 변수 인덱스를 가져옴
selected_feature_indices = sfm.get_support(indices=True)

# 선택된 변수 이름 가져오기 (X.columns 활용)
selected_features = X.columns[selected_feature_indices]

# 선택된 변수 출력
print("선택된 변수:")
print(selected_features)

In [None]:
# 독립 변수 선택
X = df_encoded[selected_features]

# 종속 변수 선택 (JS_Price_Category, 다중 분류)
Y = df_encoded['JS_Price_Category']

# 층화 추출을 사용하여 데이터 분할
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42, stratify=Y)

# 표준화 (선택적)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 다항 로지스틱 회귀 모델 생성
model = LogisticRegression(multi_class='multinomial', solver='lbfgs')
model.fit(X_train, Y_train)

# 모델 평가 (정확도 계산)
accuracy = model.score(X_test, Y_test)
print(f"모델 정확도 : {accuracy}", '\n')

# 각 클래스에 속할 확률 예측
probabilities = model.predict_proba(X_test)

# 예측 결과 클래스 (가장 높은 확률을 갖는 클래스 선택)
predicted_classes = model.predict(X_test)

# 예측된 클래스 및 확률 출력
print("---예측된 클래스---", '\n', predicted_classes, '\n')
print("---클래스별 확률---", '\n', probabilities)

In [None]:
# 회귀 모델을 이미 만들었다고 가정합니다.
# model은 이미 다중 클래스 로지스틱 회귀 모델로 훈련되어 있다고 가정합니다.

# 독립 변수의 열 이름
independent_variable_names = selected_features 

# 종속 변수 열의 이름을 식별하고 고유한 클래스 값을 확인합니다.
dependent_variable_column = "JS_Price_Category"
dependent_variable_classes = df_encoded[dependent_variable_column].unique()

# 회귀 계수 출력
coefficients = model.coef_

# 각 독립 변수와 종속 변수 클래스에 대한 회귀 계수와 오즈비를 출력합니다.
for i, dep_class in enumerate(dependent_variable_classes):
    print(f"종속 변수 클래스: {dep_class}")
    for j, indep_var in enumerate(independent_variable_names):
        coef = coefficients[i][j]
        odds_ratio = np.exp(coef)
        print(f"{indep_var} - 회귀 계수: {coef}, 오즈비: {odds_ratio}")

## 과적합 체크

In [None]:
import matplotlib.pyplot as plt
from sklearn.model_selection import learning_curve

# 학습 곡선을 그리는 함수 정의
def plot_learning_curve(estimator, title, X, y, ylim=None, cv=None, n_jobs=None, train_sizes=np.linspace(.1, 1.0, 5)):
    plt.figure()
    plt.title(title)
    if ylim is not None:
        plt.ylim(*ylim)
    plt.xlabel("Training examples")
    plt.ylabel("Score")
    train_sizes, train_scores, test_scores = learning_curve(
        estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_sizes)
    train_scores_mean = np.mean(train_scores, axis=1)
    train_scores_std = np.std(train_scores, axis=1)
    test_scores_mean = np.mean(test_scores, axis=1)
    test_scores_std = np.std(test_scores, axis=1)
    plt.grid()

    plt.fill_between(train_sizes, train_scores_mean - train_scores_std,
                     train_scores_mean + train_scores_std, alpha=0.1,
                     color="r")
    plt.fill_between(train_sizes, test_scores_mean - test_scores_std,
                     test_scores_mean + test_scores_std, alpha=0.1, color="g")
    plt.plot(train_sizes, train_scores_mean, 'o-', color="r",
             label="Training score")
    plt.plot(train_sizes, test_scores_mean, 'o-', color="g",
             label="Cross-validation score")

    plt.legend(loc="best")
    return plt

# 학습 곡선 그리기
title = "Learning Curves (Logistic Regression)"
# 모델은 이미 훈련되었다고 가정합니다 (model 변수에 저장되어 있음)
plot_learning_curve(model, title, X_train, Y_train, cv=5, n_jobs=1)

plt.show()

## 변수선택법
- p-value로 최종선택

In [None]:
# 로지스틱 회귀 모델 생성 (다항 로지스틱 회귀 모델)
model = sm.MNLogit(Y, sm.add_constant(X))  # 상수항 추가

# 모델 피팅
result = model.fit()

# 독립 변수들의 p-value 추출
p_values = result.pvalues
p_values

- p-value값을 고려하여 종속변수의 모든 클래스에 대해 통계적으로 유의한 변수만을 사용한다.
- 최종적으로 JS_BA, Region_Name, LC_index, Sell_Price, HSP_index 변수가 유의.