In [None]:
# 간단한 학습 진행
# 사용할 데이터 : 유방암 데이터

from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
print(cancer["DESCR"])

In [None]:
# 특징 데이터
X = cancer.data
# 종속 변수 생성, 악성 종양 발견이 목적 -> 레이블의 0과 1을 바꿔준다.
# 바꾼 후, 1 -> 악성 종양(암)
#          0 -> 양성 종양
y = 1 - cancer.target
y

In [None]:
print(X.shape)
X_train = X[:, :10]  # 10개의 열로 줄임

from sklearn.linear_model import LogisticRegression

# 선형 회귀 모델 생성
model = LogisticRegression(max_iter=1000)
# 학습
model.fit(X_train, y)

# 예측
y_pred = model.predict(X_train)

In [None]:
# confusion matrix
from sklearn.metrics import confusion_matrix
# 종속 변수와 예측 결과로 Confusion Matrix 생성
cm = confusion_matrix(y, y_pred)
print(cm)
# 예측 label     0    1
# 실제 label 0  337  20
#            1  30   182

#               TN    FN
#               FP    TP

# 예측을 잘 한 것 : 337+182
# 예측을 못 한 것 : 20+30

In [None]:
# 정확도(accuracy)
from sklearn.metrics import accuracy_score

# 정확도 예측
print("정확도:", accuracy_score(y, y_pred))

In [None]:
# 정밀도(precision)
from sklearn.metrics import precision_score

# 정밀도 예측
print("정밀도:", precision_score(y, y_pred))

In [None]:
# 재현율(recall) -> True Positive Rate
from sklearn.metrics import recall_score
print("재현율:", recall_score(y, y_pred))

In [None]:
# F1 Score
from sklearn.metrics import f1_score
print("F1 score:", f1_score(y, y_pred))

In [None]:
# 회귀 문제의 평가 방법
# 사용할 데이터 : 보스턴 데이터셋
from sklearn.datasets import load_boston
boston = load_boston()
print(boston["DESCR"])

In [None]:
# 학습 데이터
X = boston.data
# RM특성 추출
X_train = X[:, [5,]]
print(X_train)
# 타겟 데이터
y = boston.target
print(y)

In [None]:
# 간단한 학습
from sklearn.linear_model import LinearRegression

model = LinearRegression()
# 학습
model.fit(X_train, y)

# 예측
y_pred = model.predict(X_train)
print(y_pred)

In [None]:
# 회귀선의 공식
print("기울기:", model.coef_)
print("절편:", model.intercept_)

In [None]:
# 시각화
import matplotlib.pyplot as plt

# 좌표 평면 생성
fig, ax = plt.subplots()
# 특징, 종속 변수로 산점도 출력
ax.scatter(X_train,  # RM 변수
          y,         # target
          color="orange",
          label="Data set")
# 회귀선
ax.plot(X_train,
       y_pred,
       color="red",
       label="Regression curve")
ax.legend()
plt.xlabel("Rooms")  # 방의 갯수
plt.ylabel("Price")  # 주택의 갯수
plt.show()

In [None]:
# 평균 제곱 오차 : MSE
# 회귀 모델에서는 MSE를 최소화하는 방향으로 평가
from sklearn.metrics import mean_squared_error

print("평균 제곱 오차:", mean_squared_error(y, y_pred))

In [None]:
# 결정 계수 : 0 ~ 1 사이의 값
# 1에 가까울수록 모델이 데이터 포인트를 정확하게 표현함을 의미
from sklearn.metrics import r2_score

print("결정 계수:", r2_score(y, y_pred))