# 4. Logistic Regression

### 공부 시간에 따른 자격증 시험 합격 가능성

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
dataset = pd.read_csv('LogisticRegressionData.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values
X

### 데이터 분리

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0) #, stratify=y

### 학습 (로지스틱 회귀 모델)

In [None]:
from sklearn.linear_model import LogisticRegression
lo_reg = LogisticRegression(random_state=0, C=1.0) # C는 정규화(regularization) 강도를 조절하는 매개변수 로 정규화는 모델이 훈련 데이터에 과적합되지 않도록 하는 데 도움을 줍니다
lo_reg.fit(X_train, y_train)

### 6시간 공부했을 때 예측?

In [None]:
lo_reg.predict([[6]])
# 결과 1 : 합격할 것으로 예측

In [None]:
lo_reg.predict_proba([[6]]) # 합격할 확률 출력
# 불합격 확률 14%, 합격 확률 86%

### 4시간 공부했을 때 예측?

In [None]:
lo_reg.predict([[4]])
# 결과 0 : 불합격할 것으로 예측

In [None]:
lo_reg.predict_proba([[4]]) # 합격할 확률 출력
# 불합격 확률 62%, 합격 확률 38%

### 분류 결과 예측 (테스트 세트)

In [None]:
y_pred = lo_reg.predict(X_test)
y_pred # 예측 값

In [None]:
y_test # 실제 값 (테스트 세트)

In [None]:
X_test # 공부 시간 (테스트 세트)

In [None]:
lo_reg.score(X_test, y_test) # 모델 평가
# 전체 테스트 세트 4개 중에서 분류 예측을 올바로 맞힌 개수 3개 -> 3/4 = 0.75

### 데이터 시각화 (훈련 세트)

In [None]:
X_range = np.arange(min(X), max(X), 0.1) # X 의 최소값에서 최대값까지를 0.1 단위로 잘라서 데이터 생성, arange는 실수 지원.
X_range

In [None]:
sigmoid = 1 / (1 + np.exp(-(lo_reg.coef_ * X_range + lo_reg.intercept_))) 
# 로지스틱 회귀 모델의 결정 경계에 대한 시그모이드 함수 계산식 : z=intercept+coef×feature
sigmoid

In [None]:
sigmoid.shape

In [None]:
X_range.shape

In [None]:
sigmoid = sigmoid.reshape(-1) # 1차원 배열 형태로 변경
sigmoid.shape

### 데이터 시각화 (트레인 세트)

In [None]:
# plt.scatter(X_train, y_train, color='blue')
# plt.plot(X_train, lo_reg.predict(X_train), color='green')
# plt.plot(X_train, np.full(len(X_train), 0.5), color='red') # X 개수만큼 0.5 로 가득찬 배열 만들기
# plt.title('Probability by hours')
# plt.xlabel('hours')
# plt.ylabel('P')
# plt.show()
# # 변수의 갯수가 너무 적어서 그래프로 표현이 힘들다.

plt.scatter(X_train, y_train, color='blue')
plt.plot(X_range, sigmoid, color='green')
plt.plot(X_range, np.full(len(X_range), 0.5), color='red') # X_range 개수만큼 0.5 로 가득찬 배열 만들기
plt.title('Probability by hours')
plt.xlabel('hours')
plt.ylabel('P')
plt.show()


### 데이터 시각화 (테스트 세트)

In [None]:
plt.scatter(X_test, y_test, color='blue')
plt.plot(X_range, sigmoid, color='green')
plt.plot(X_range, np.full(len(X_range), 0.5), color='red') # X_range 개수만큼 0.5 로 가득찬 배열 만들기
plt.title('Probability by hours (test)')
plt.xlabel('hours')
plt.ylabel('P')
plt.show()

In [None]:
lo_reg.predict_proba([[4.5]]) # 4.5 시간 공부했을 때 확률 (모델에서는 51% 확률로 합격 예측, 실제로는 불합격)

### 혼동 행렬 (Confusion Matrix)

In [None]:
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
cm

# TRUE NEGATIVE (TN)       FALSE POSITIVE (FP)
# 불합격일거야 (예측)      합격일거야 (예측)
# 불합격 (실제)             불합격 (실제)

# FALSE NEGATIVE (FN)      TRUE POSITIVE (TP)
# 불합격일거야 (예측)      합격일거야 (예측)
# 합격 (실제)               합격 (실제)

# ChatGPT 

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import confusion_matrix, classification_report

# 데이터셋 로드
df = pd.read_csv('LogisticRegressionData.csv')

# 결측값 확인
print(df.isnull().sum())

# 데이터 전처리
X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values

# 훈련 및 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0, stratify=y)
print(X_test, y_test)

# 로지스틱 회귀 모델
lo_reg = LogisticRegression(random_state=0, C=1.0)  # 필요에 따라 C를 조절할 수 있습니다.
lo_reg.fit(X_train, y_train)

# 예측 및 평가
y_pred = lo_reg.predict(X_test)
print("Classification Report:\n", classification_report(y_test, y_pred))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))
print("Accuracy:", lo_reg.score(X_test, y_test))

# 시각화
X_range = np.linspace(X.min(), X.max(), 100).reshape(-1, 1)
sigmoid = lo_reg.predict_proba(X_range)[:, 1] #  predict_proba: 예측된 클래스의 확률을 반환하는 메서드입니다.

plt.scatter(X_train, y_train, color='blue', label='Actual results')
plt.plot(X_range, sigmoid, color='green', label='Predicted probability')
plt.axhline(0.5, color='red', linestyle='--', label='Decision boundaries')
plt.title('probability (Train)')
plt.xlabel('Standardlized Time')
plt.ylabel('P')
plt.legend()
plt.show()
