## 데이터 불러오기

In [38]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

# Customize the default style
plt.rcParams['figure.facecolor'] = 'white'
plt.rcParams['axes.facecolor'] = 'white'
plt.rcParams['axes.edgecolor'] = 'white'
plt.rcParams['axes.labelcolor'] = 'black'
plt.rcParams['axes.titlecolor'] = 'black'
plt.rcParams['xtick.color'] = 'black'
plt.rcParams['ytick.color'] = 'black'

df=pd.read_csv('obesity_df_prep.csv',encoding = 'cp949', index_col = 0)
df

Unnamed: 0,키,몸무게,연간 음주 빈도,한번 섭취시 음주량,일반담배 하루 흡연량,격렬한 신체활동 일수,중증도 신체활동 일수,걷기 실천 일수,주간 아침식사 일수,체형(5단계)
0,152.0,48.0,0.0,0.0,0,0,0,4,6.0,3
1,160.0,62.0,0.0,0.0,10,0,6,1,6.0,3
2,170.0,57.0,0.1,0.0,0,0,0,0,0.0,3
3,160.0,50.0,0.0,0.0,0,0,0,1,3.5,2
4,156.0,56.0,5.5,8.0,15,0,0,1,3.5,3
...,...,...,...,...,...,...,...,...,...,...
22937,167.0,63.0,0.1,0.0,10,7,7,5,0.0,3
22938,162.0,70.0,0.1,0.0,0,0,0,0,6.0,3
22939,174.0,73.0,0.0,0.0,10,0,0,5,6.0,2
22941,165.0,50.0,0.1,0.0,0,0,0,5,6.0,3


## 데이터 전처리

### 키, 몸무게 칼럼 삭제하고 BMI 칼럼 추가
$$
BMI = \frac{체중(kg)}{키(m)^2}
$$

In [39]:
df['BMI'] = np.round(df['몸무게']/(df['키']/100)**2 ,2)
df.drop(['키', '몸무게'], axis = 1, inplace = True)
df

Unnamed: 0,연간 음주 빈도,한번 섭취시 음주량,일반담배 하루 흡연량,격렬한 신체활동 일수,중증도 신체활동 일수,걷기 실천 일수,주간 아침식사 일수,체형(5단계),BMI
0,0.0,0.0,0,0,0,4,6.0,3,20.78
1,0.0,0.0,10,0,6,1,6.0,3,24.22
2,0.1,0.0,0,0,0,0,0.0,3,19.72
3,0.0,0.0,0,0,0,1,3.5,2,19.53
4,5.5,8.0,15,0,0,1,3.5,3,23.01
...,...,...,...,...,...,...,...,...,...
22937,0.1,0.0,10,7,7,5,0.0,3,22.59
22938,0.1,0.0,0,0,0,0,6.0,3,26.67
22939,0.0,0.0,10,0,0,5,6.0,2,24.11
22941,0.1,0.0,0,0,0,5,6.0,3,18.37


### 주간 음주 총량 칼럼 생성
$$
(주간음주총량) = {(연간 음주 빈도) \times (한 번 섭취 시 음주량)}
$$

In [40]:
df['주간 음주 총량']=df['연간 음주 빈도']*df['한번 섭취시 음주량']
df

Unnamed: 0,연간 음주 빈도,한번 섭취시 음주량,일반담배 하루 흡연량,격렬한 신체활동 일수,중증도 신체활동 일수,걷기 실천 일수,주간 아침식사 일수,체형(5단계),BMI,주간 음주 총량
0,0.0,0.0,0,0,0,4,6.0,3,20.78,0.0
1,0.0,0.0,10,0,6,1,6.0,3,24.22,0.0
2,0.1,0.0,0,0,0,0,0.0,3,19.72,0.0
3,0.0,0.0,0,0,0,1,3.5,2,19.53,0.0
4,5.5,8.0,15,0,0,1,3.5,3,23.01,44.0
...,...,...,...,...,...,...,...,...,...,...
22937,0.1,0.0,10,7,7,5,0.0,3,22.59,0.0
22938,0.1,0.0,0,0,0,0,6.0,3,26.67,0.0
22939,0.0,0.0,10,0,0,5,6.0,2,24.11,0.0
22941,0.1,0.0,0,0,0,5,6.0,3,18.37,0.0


In [41]:
df = df[['주간 음주 총량', '일반담배 하루 흡연량', '격렬한 신체활동 일수', '중증도 신체활동 일수', '걷기 실천 일수', '주간 아침식사 일수', 'BMI', '체형(5단계)']]
df

Unnamed: 0,주간 음주 총량,일반담배 하루 흡연량,격렬한 신체활동 일수,중증도 신체활동 일수,걷기 실천 일수,주간 아침식사 일수,BMI,체형(5단계)
0,0.0,0,0,0,4,6.0,20.78,3
1,0.0,10,0,6,1,6.0,24.22,3
2,0.0,0,0,0,0,0.0,19.72,3
3,0.0,0,0,0,1,3.5,19.53,2
4,44.0,15,0,0,1,3.5,23.01,3
...,...,...,...,...,...,...,...,...
22937,0.0,10,7,7,5,0.0,22.59,3
22938,0.0,0,0,0,0,6.0,26.67,3
22939,0.0,10,0,0,5,6.0,24.11,2
22941,0.0,0,0,0,5,6.0,18.37,3


### 체형 칼럼에 대해 비만(2)와 비만 아닌 사람(1)인 사람으로 변경

In [42]:
df['체형(5단계)']=df['체형(5단계)'].replace(2,1)
df['체형(5단계)']=df['체형(5단계)'].replace(3,1)
df['체형(5단계)']=df['체형(5단계)'].replace(4,2)
df['체형(5단계)']=df['체형(5단계)'].replace(5,2)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['체형(5단계)']=df['체형(5단계)'].replace(2,1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['체형(5단계)']=df['체형(5단계)'].replace(3,1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['체형(5단계)']=df['체형(5단계)'].replace(4,2)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[

## Value들 표준 정규화
<li><font size = 4> Sklearn의 StandardScaler 메소드 사용 </font></li>

In [43]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

obesity_df_prep_std = pd.DataFrame(scaler.fit_transform(df.iloc[:, :-1]), columns = df.columns[:-1])
obesity_df_prep_std[df.columns[-1]] = df[df.columns[-1]].values
obesity_df_prep_std.head()

Unnamed: 0,주간 음주 총량,일반담배 하루 흡연량,격렬한 신체활동 일수,중증도 신체활동 일수,걷기 실천 일수,주간 아침식사 일수,BMI,체형(5단계)
0,-0.466651,-0.307101,-0.516439,-0.595266,-0.503599,0.767418,-0.643805,1
1,-0.466651,1.821266,-0.516439,2.46693,-1.8645,0.767418,0.192139,1
2,-0.466651,-0.307101,-0.516439,-0.595266,-2.318134,-1.526891,-0.901393,1
3,-0.466651,-0.307101,-0.516439,-0.595266,-1.8645,-0.188544,-0.947564,1
4,5.666734,2.885449,-0.516439,-0.595266,-1.8645,-0.188544,-0.101899,1


## 로지스틱 회귀 분석이란?



로지스틱 회귀 분석은 선형회귀 방식을 분류 문제에 적용한 알고리즘입니다. 선형회귀 계열에 속하지만, 주로 분류 분석에 사용되는 기법으로, 결과값으로 확률을 반환합니다.

### 핵심 개념
- 로지스틱 회귀는 데이터 샘플이 각 클래스에 속할 확률을 추정합니다.
- 추정된 확률값을 통해 어떤 범주에 속할 지 예측합니다

### 예시
- 만약 어떤 샘플에 대해 로지스틱 회귀 모델이 다음과 같은 확률을 예측했다고 가정해 봅시다.
  - `P(Y='yes') = 0.6`
  - `P(Y='no') = 0.4`
- 이 경우, 모델은 확률이 더 높은 'yes' 클래스로 예측합니다.

이러한 방식으로 로지스틱 회귀는 선형회귀의 원리를 이용하여 분류 문제에 접근하며, 각 클래스에 속할 확률을 통해 예측을 수행합니다.

### 확률 함수
#### 이진 분류의 경우: 시그모이드(Sigmoid Function)
$$
\sigma(x) = \frac{1}{1 + e^{-x}}
$$



$
x = \beta_0 + \beta_1x_1 + \beta_2x_2 + \ldots + \beta_nx_n
$


- \( \beta_0 \)는 절편(intercept)입니다.
- \( \beta_i \)는 \( i \)번째 변수의 회귀 계수입니다.
- \( x_i \)는 \( i \)번째 입력 변수(특성)입니다.
- \( n \)은 입력 변수의 총 수입니다.


#### 다중 분류의 경우: 소프트맥스(Softmax Function)
$$
\text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}
$$

$
z_i = \beta_{i0} + \beta_{i1}x_1 + \beta_{i2}x_2 + \ldots + \beta_{in}x_n
$

- \( \beta_{ij} \)는 클래스 \( i \)에 대한 회귀 계수입니다.
- \( x_j \)는 입력 변수(특성)입니다.
- \( n \)은 입력 변수의 총 수입니다.
- \( z_i \)는 클래스 \( i \)에 대한 선형 조합의 결과입니다.

### 회귀 계수 최적화

로지스틱 회귀에서 사용되는 다양한 최적화 알고리즘은 각각의 특성과 적용 상황에 따라 차이가 있습니다. 아래에 주요 알고리즘들에 대한 설명을 정리했습니다.

#### 'lbfgs' (Limited-memory Broyden-Fletcher-Goldfarb-Shanno)
- L-BFGS는 BFGS 쿼시-뉴턴 방법의 메모리 사용을 최적화한 버전입니다.
- 대규모 데이터 세트에 적합하며, 복잡한 모델에 사용됩니다.
- 중간 규모의 데이터에 대해 좋은 성능을 보이며, 다중 클래스 문제에도 잘 작동합니다.

#### 'liblinear'
- LIBLINEAR 라이브러리는 대규모 선형 분류에 최적화되어 있습니다.
- 작은 데이터 세트나 이진 분류 문제에 적합합니다.
- L1 또는 L2 규제화를 지원합니다.

#### 'newton-cg' (Newton-Conjugate Gradient)
- 뉴턴 방법의 변형으로, 연립방정식을 효율적으로 해결하기 위한 수치 최적화 기법입니다.
- 뉴턴 방법보다 메모리를 적게 사용하며, 대규모 데이터 세트에 적합할 수 있습니다.
- L2 규제화에 적합합니다.

#### 'sag' (Stochastic Average Gradient Descent)
- 대규모 데이터 세트에 효율적인 경사 하강법의 한 형태입니다.
- 이전 단계의 기울기를 평균화하여 계산 속도를 높입니다.
- 대규모 데이터 세트에 적합하며, L2 규제화에 주로 사용됩니다.

#### 'saga'
- 'sag'의 변형으로, L1 규제를 지원하며 더 강력한 최적화 기법입니다.
- 'sag'와 마찬가지로 대규모 데이터 세트에 적합합니다.
- 더 빠른 수렴을 보일 수 있으며, L1과 L2 규제화 모두에 적합합니다.

### 정확도
 로지스틱 회귀 평가 지표

#### 정확도 (Accuracy)
- 정확도는 전체 예측 중 올바른 예측의 비율입니다.
- 계산식: 
  $$ \text{Accuracy} = \frac{\text{True Positives} + \text{True Negatives}}{\text{Total Number of Predictions}} $$

#### 매크로 평균 (Macro-Average)
- 각 클래스에 대해 별도로 정밀도와 재현율을 계산한 후, 이들의 평균을 취합니다.
- 모든 클래스를 동등하게 취급하기 때문에, 소수 클래스도 중요한 경우에 적합합니다.

#### 가중 평균 (Weighted Average)
- 각 클래스의 샘플 수에 따라 가중치를 부여한 후 평균을 계산합니다.
- 각 클래스의 크기를 고려하여 정밀도와 재현율을 계산합니다.

#### ROC 곡선 및 AUC (Area Under the Curve)
- ROC 곡선은 민감도와 1-특이성(FPR, False Positive Rate)의 관계를 표시합니다.
- AUC는 ROC 곡선 아래의 면적을 측정합니다. AUC가 높을수록 모델 성능이 좋은 것으로 간주됩니다.


## 로지스틱 회귀분석 시행

### train set과 test set 분리

In [44]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_auc_score


features = obesity_df_prep_std.iloc[:, :-1]
target = obesity_df_prep_std['체형(5단계)']
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size = 0.2, random_state = 42, shuffle = True)


### 모델 학습, 예측, 평가

In [45]:
from sklearn.metrics import precision_score, recall_score, f1_score



lr_model = LogisticRegression(solver='lbfgs', max_iter=600) # solver로는 다중분류에 비교적 잘 맞는 'lbfgs' 사용
lr_model.fit(X_train, y_train)
lr_preds = lr_model.predict(X_test)

# 선형 회귀 모델의 회귀 계수와 예측값 출력
coefficients = lr_model.coef_
accuracy = accuracy_score(y_test, lr_preds)

# 다중 클래스 분류에 대한 ROC AUC 계산
roc_auc = roc_auc_score(y_test, lr_preds)

# Macro-average 계산
precision = precision_score(y_test, lr_preds)
recall = recall_score(y_test, lr_preds)
f1_score = f1_score(y_test, lr_preds)


# 회귀 계수와 예측값, 정확도, ROC_AUC, Macro-average, Micro-average 출력
print('solver: lbfgs')
print('회귀 계수: ', np.round(coefficients, 4))
print('예측 값: ', np.round(lr_preds))
print('정확도: ', np.round(accuracy, 3))
print('ROC_AUC: ', np.round(roc_auc, 3))
print('정밀도: ', np.round(precision, 4))
print('재현율: ', np.round(recall, 4))
print('F1 Score:', np.round(f1_score, 4))


solver: lbfgs
회귀 계수:  [[-0.0628 -0.2042 -0.1001 -0.0063 -0.0082 -0.3151  2.6024]]
예측 값:  [1 1 1 ... 2 1 1]
정확도:  0.818
ROC_AUC:  0.785
정밀도:  0.8284
재현율:  0.9018
F1 Score: 0.8635


In [46]:
print(lr_model.classes_)

[1 2]


### Confusion Matrix(혼동 행렬) 출력

In [47]:
from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y_test, lr_preds)
print(cm)

[[2442  266]
 [ 506 1017]]


### 최종 회귀 계수

In [50]:
columns = ['주간 음주 총량', '일반담배 하루 흡연량', '격렬한 신체활동 일수', '중증도 신체활동 일수', '걷기 실천 일수', '주간 아침식사 일수', 'BMI']

# Values for the row
values = [-0.0628, -0.2042, -0.1001, -0.0063, -0.0082, -0.3151,  2.6024]


# Creating a DataFrame
coef_df = pd.DataFrame([values], columns=columns, )
coef_df.rename(index = {0: '회귀계수'}, inplace = True)
coef_df

Unnamed: 0,주간 음주 총량,일반담배 하루 흡연량,격렬한 신체활동 일수,중증도 신체활동 일수,걷기 실천 일수,주간 아침식사 일수,BMI
회귀계수,-0.0628,-0.2042,-0.1001,-0.0063,-0.0082,-0.3151,2.6024
