주성분 분석(PCA) 개념 학습하기


*   개념 : 데이터의 차원을 축소하고 중요한 정보를 추출 => 주요한 특징을 유지
*   공분산행렬
  * 어떤 스칼라(scalar)인 두 확률변수 X, Y가 있을 때, 두 변수 사이에 어떤 상관관계가 있는지를 살펴보기 위해 공분산을 이용합니다.
  * 공분산이 0보다 크다는 것은, 확률변수 X의 값이 커질 때, Y의 값도 커지는 경향이 있음을 의미
  * 공분산이 0보다 작으면 반대로, 확률변수 X의 값이 커질 때, Y의 값이 작아지는 경향이 있다는 의미
  * 만약, 공분산이 0이라면, 두 변수 사이에는 아무런 상관관계가 없다(uncorrelated)는 뜻이 됩니다.
* 고유분해
  * 공분산 행렬에 대해 고유백터와 고유값을 계산
  * 공분산 행렬은 대칭 행렬이므로 항상 고유분해가 가능
  *  공분산 행렬의 고유분해를 통해 얻은 고유 벡터들은 원래 데이터의 주성분 축을 나타내며, 고유 값은 해당 주성분의 중요도(분산)를 나타냄



In [1]:
# 필요한 라이브러리 불러오기
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
import pandas as pd

# Iris 데이터셋 불러오기
iris = load_iris()
X = iris.data
columns = [f'feature_{i+1}' for i in range(X.shape[1])]
df = pd.DataFrame(X, columns=columns)

# PCA 모델 생성 및 학습
pca = PCA(n_components=2)  # 주성분을 2개로 설정
X_pca = pca.fit_transform(X)

# 결과 출력
explained_variance_ratio = pca.explained_variance_ratio_
print(f"주성분의 설명된 분산 비율: {explained_variance_ratio}")

# 주성분으로 변환된 데이터프레임 생성
columns_pca = ['Principal_Component_1', 'Principal_Component_2']
df_pca = pd.DataFrame(X_pca, columns=columns_pca)

# 주성분이 추가된 데이터프레임 출력
df_with_pca = pd.concat([df, df_pca], axis=1)
print(df_with_pca.head())



주성분의 설명된 분산 비율: [0.92461872 0.05306648]
   feature_1  feature_2  feature_3  feature_4  Principal_Component_1  \
0        5.1        3.5        1.4        0.2              -2.684126   
1        4.9        3.0        1.4        0.2              -2.714142   
2        4.7        3.2        1.3        0.2              -2.888991   
3        4.6        3.1        1.5        0.2              -2.745343   
4        5.0        3.6        1.4        0.2              -2.728717   

   Principal_Component_2  
0               0.319397  
1              -0.177001  
2              -0.144949  
3              -0.318299  
4               0.326755  


과적합과 과소적합 개념 학습하기 : https://wikidocs.net/152777



*   과적합(Overfitting) : 모델이 Train set 에서는 좋은 성능을 내지만 Validation set 에서는 낮은 성능을 내는 경우
  * 데이터 양 늘리기
  * 모델 복잡도 줄이기
  * Dropout 적용
  * 정규화 기법 사용
*   과소적합(Underfitting) : 이미 있는 Train set도 학습을 하지 못한 상태를 의미
  * 데이터 양 늘이기



In [3]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC

##########데이터 로드

x_data = np.array([
    [2, 1],
    [3, 2],
    [3, 4],
    [5, 5],
    [7, 5],
    [2, 5],
    [8, 9],
    [9, 10],
    [6, 12],
    [9, 2],
    [6, 10],
    [2, 4]
])
y_data = np.array([0, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0])

labels = ['fail', 'pass']

##########데이터 분석

##########데이터 전처리

x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.3, random_state=777, stratify=y_data)

##########모델 생성

model = SVC(kernel='rbf', C=1.0, gamma='auto', probability=True)

##########모델 학습

model.fit(x_train, y_train)

##########모델 검증

print(model.score(x_train, y_train)) #1.0

print(model.score(x_test, y_test)) #1.0

##########모델 예측

x_test = np.array([
    [4, 6]
])

y_predict = model.predict(x_test)
label = labels[y_predict[0]]
y_predict = model.predict_proba(x_test)
confidence = y_predict[0][y_predict[0].argmax()]

print(label, confidence) #


1.0
1.0
pass 0.7883321241836784


서포트 벡터 머신(SVM) 기초 이해하기


*   데이터를 선형으로 분리 (비선형의 경우 차원을 늘려 선형으로 분리)



In [2]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# 붓꽃 데이터셋 로드
iris = load_iris()
X = iris.data
y = iris.target

# 훈련/테스트 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# SVM 모델 생성 (kernel='linear', C=1.0)
svm_model = SVC(kernel='linear', C=1.0, random_state=42)

# 모델 학습
svm_model.fit(X_train, y_train)

# 예측
y_pred = svm_model.predict(X_test)

# 정확도 평가
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.4f}")


Accuracy: 1.0000


정규화 기법 이해하기 : https://www.notion.so/6-1fc1ebda1846803da5a3e2b1760618d6?source=copy_link#2221ebda184680179369c73b8c5a3475


*   Lasso(L1) 모델
  * 라쏘 회귀 모델은 L1 규제를 적용한 선형 회귀 모델
  * 가중치의 제곱의 합이 아닌 가중치의 합을 더한 값에 규제 강도 $\lambda$ 를 곱하여 오차에 더한다
*   Ridge(L2) 모델
  * 릿지 회귀 모델은 L2 규제를 적용한 선형 회귀 모델
  * 각 가중치 제곱의 합에 규제 강도 (Regularization Strength) $\lambda$ 를 곱한다.



In [4]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Lasso

##########데이터 로드

x_data = np.array([
    [2, 1],
    [3, 2],
    [3, 4],
    [5, 5],
    [7, 5],
    [2, 5],
    [8, 9],
    [9, 10],
    [6, 12],
    [9, 2],
    [6, 10],
    [2, 4]
])
y_data = np.array([3, 5, 7, 10, 12, 7, 13, 13, 12, 13, 12, 6])

##########데이터 분석

##########데이터 전처리

x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.3, random_state=777)

##########모델 생성

model = Lasso(alpha=1.0)

##########모델 학습

model.fit(x_train, y_train)

##########모델 검증

print(model.score(x_train, y_train)) #0.919925874068437

print(model.score(x_test, y_test)) #0.7719888251895852

##########모델 예측

x_test = np.array([
    [4, 6]
])

y_predict = model.predict(x_test)

print(y_predict[0]) #8.545955714194164


0.9199258740684372
0.771988825189585
8.545955714194164


In [5]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge

##########데이터 로드

x_data = np.array([
    [2, 1],
    [3, 2],
    [3, 4],
    [5, 5],
    [7, 5],
    [2, 5],
    [8, 9],
    [9, 10],
    [6, 12],
    [9, 2],
    [6, 10],
    [2, 4]
])
y_data = np.array([3, 5, 7, 10, 12, 7, 13, 13, 12, 13, 12, 6])

##########데이터 분석

##########데이터 전처리

x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.3, random_state=777)

##########모델 생성

model = Ridge(alpha=1.0)

##########모델 학습

model.fit(x_train, y_train)

##########모델 검증

print(model.score(x_train, y_train)) #0.9341840732176964

print(model.score(x_test, y_test)) #0.8483560379440559

##########모델 예측

x_test = np.array([
    [4, 6]
])

y_predict = model.predict(x_test)

print(y_predict[0]) #8.388713611241638


0.9341840732176964
0.8483560379440559
8.388713611241638


그래디언트 부스팅 알고리즘 이해하기


*   Gradient Boosting Machine은 앞에서 말했던 Ensemble 방법 중 하나인 Boosting을 사용한 모델입니다.
*   Gradient Boosting Machine은 하나의 모델을 학습 시킨 다음 하나의 모델의 예측과 타겟 값의 차이 즉 오차를 계산 후 다음 모델에서 오차를 학습 시켜 모델을 향상시키는 과정을 거칩니다.



In [6]:
import numpy as np
from lightgbm import LGBMClassifier

# 학습 데이터 생성
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([0, 0, 0, 1, 1])

# lightgbm 모델 학습

lgbm=LGBMClassifier(n_estimators=1000, num_leaves=10,learning_rate=0.01, subsample=0.8,min_child_samples=60, max_depth=4)
lgbm.fit(X, y, eval_metric="logloss")

# 학습된 모델로 예측
pred = lgbm.predict([[6]])
pred = np.round(pred)
print("6에 대한 예측 : ", pred) # 6에 대한 예측 : [0.]


[LightGBM] [Info] Number of positive: 2, number of negative: 3
[LightGBM] [Info] Total Bins 0
[LightGBM] [Info] Number of data points in the train set: 5, number of used features: 0
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.400000 -> initscore=-0.405465
[LightGBM] [Info] Start training from score -0.405465
6에 대한 예측 :  [0]




In [7]:
import numpy as np
from xgboost import XGBClassifier

# 학습 데이터 생성
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([0, 0, 0, 1, 1])

# XGBoost 모델 학습
xgb_clf = XGBClassifier(n_estimators=100)
xgb_clf.fit(X, y)
pred = xgb_clf.predict([[6]])

print("6에 대한 예측 : ", pred) # 6에 대한 예측 : [0]


6에 대한 예측 :  [0]


이상치 탐지 알고리즘 이해하기


*   이상값(Outlier)
  * 다른 데이터들과 동떨어진 관측값
  * 잘못 된 값인 경우 (삭제 혹은 대치)
  * 잘못 된 값은 아닌 경우 (그대로 둠)

이상값 탐지
*   항목 추가

