## 선형 판별분석(Linear Discriminant Analysis, LDA)

In [1]:
import numpy as np
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 예제 데이터 생성
# 여기서는 간단히 2개의 재무 지표(feature)를 사용하고, 0은 건전 기업, 1은 부실 기업을 나타냅니다.
np.random.seed(0)  # 결과의 일관성을 위해 시드 설정
X = np.random.randn(100, 2)  # 100개의 기업에 대한 2개의 재무 지표
y = np.random.choice([0, 1], 100)  # 기업의 상태 (0: 건전, 1: 부실)

# 데이터를 훈련 세트와 테스트 세트로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# LDA 모델 생성 및 훈련
lda = LinearDiscriminantAnalysis()
lda.fit(X_train, y_train)

# 테스트 데이터에 대한 예측 수행
y_pred = lda.predict(X_test)

# 정확도 계산
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')


Accuracy: 0.35


In [None]:
## 기업수 1000, 변수 10

In [3]:
import numpy as np
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 예제 데이터 생성
# 여기서는 간단히 10개의 재무 지표(feature)를 사용하고, 0은 건전 기업, 1은 부실 기업을 나타냅니다.
np.random.seed(0)  # 결과의 일관성을 위해 시드 설정
X = np.random.randn(1000, 10)  # 1000개의 기업에 대한 10개의 재무 지표
y = np.random.choice([0, 1], 1000)  # 기업의 상태 (0: 건전, 1: 부실)

# 데이터를 훈련 세트와 테스트 세트로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# LDA 모델 생성 및 훈련
lda = LinearDiscriminantAnalysis()
lda.fit(X_train, y_train)

# 테스트 데이터에 대한 예측 수행
y_pred = lda.predict(X_test)

# 정확도 계산
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')


Accuracy: 0.55


In [None]:
## 기업수 1000, 변수 20

In [4]:
import numpy as np
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 예제 데이터 생성
# 여기서는 간단히 20개의 재무 지표(feature)를 사용하고, 0은 건전 기업, 1은 부실 기업을 나타냅니다.
np.random.seed(0)  # 결과의 일관성을 위해 시드 설정
X = np.random.randn(1000, 20)  # 1000개의 기업에 대한 10개의 재무 지표
y = np.random.choice([0, 1], 1000)  # 기업의 상태 (0: 건전, 1: 부실)

# 데이터를 훈련 세트와 테스트 세트로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# LDA 모델 생성 및 훈련
lda = LinearDiscriminantAnalysis()
lda.fit(X_train, y_train)

# 테스트 데이터에 대한 예측 수행
y_pred = lda.predict(X_test)

# 정확도 계산
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')


Accuracy: 0.46


In [None]:
## 기업수 2000, 변수 10

In [6]:
import numpy as np
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 예제 데이터 생성
# 여기서는 간단히 10개의 재무 지표(feature)를 사용하고, 0은 건전 기업, 1은 부실 기업을 나타냅니다.
np.random.seed(0)  # 결과의 일관성을 위해 시드 설정
X = np.random.randn(2000, 10)  # 1000개의 기업에 대한 10개의 재무 지표
y = np.random.choice([0, 1], 2000)  # 기업의 상태 (0: 건전, 1: 부실)

# 데이터를 훈련 세트와 테스트 세트로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# LDA 모델 생성 및 훈련
lda = LinearDiscriminantAnalysis()
lda.fit(X_train, y_train)

# 테스트 데이터에 대한 예측 수행
y_pred = lda.predict(X_test)

# 정확도 계산
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')


Accuracy: 0.50


In [None]:
# 기업수 100 , 변수2

In [9]:
import numpy as np
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score

# 예제 데이터 생성
np.random.seed(0)  # 결과의 일관성을 위해 시드 설정
X = np.random.randn(100, 2)  # 100개의 기업에 대한 2개의 재무 지표
y = np.random.choice([0, 1], 100)  # 기업의 상태 (0: 건전, 1: 부실)

# 데이터를 훈련 세트와 테스트 세트로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# LDA 모델 생성 및 훈련
lda = LinearDiscriminantAnalysis()
lda.fit(X_train, y_train)

# 테스트 데이터에 대한 예측 수행
y_pred = lda.predict(X_test)

# 정확도 계산
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

# F1 점수 계산
f1 = f1_score(y_test, y_pred)
print(f'F1 Score: {f1:.2f}')


Accuracy: 0.35
F1 Score: 0.24


In [None]:
# 기업수 1000 , 변수10

In [10]:
import numpy as np
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score

# 예제 데이터 생성
np.random.seed(0)  # 결과의 일관성을 위해 시드 설정
X = np.random.randn(1000, 10)  # 1000개의 기업에 대한 10개의 재무 지표
y = np.random.choice([0, 1], 1000)  # 기업의 상태 (0: 건전, 1: 부실)

# 데이터를 훈련 세트와 테스트 세트로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# LDA 모델 생성 및 훈련
lda = LinearDiscriminantAnalysis()
lda.fit(X_train, y_train)

# 테스트 데이터에 대한 예측 수행
y_pred = lda.predict(X_test)

# 정확도 계산
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

# F1 점수 계산
f1 = f1_score(y_test, y_pred)
print(f'F1 Score: {f1:.2f}')


Accuracy: 0.55
F1 Score: 0.53


In [None]:
# scikit-learn의 confusion_matrix 함수를 사용하여 혼동행렬을 계산

In [None]:
# 기업수 100  변수 2

In [11]:
import numpy as np
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix

# 예제 데이터 생성
np.random.seed(0)  # 결과의 일관성을 위해 시드 설정
X = np.random.randn(100, 2)  # 100개의 기업에 대한 2개의 재무 지표
y = np.random.choice([0, 1], 100)  # 기업의 상태 (0: 건전, 1: 부실)

# 데이터를 훈련 세트와 테스트 세트로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# LDA 모델 생성 및 훈련
lda = LinearDiscriminantAnalysis()
lda.fit(X_train, y_train)

# 테스트 데이터에 대한 예측 수행
y_pred = lda.predict(X_test)

# 정확도 계산
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

# F1 점수 계산
f1 = f1_score(y_test, y_pred)
print(f'F1 Score: {f1:.2f}')

# 혼동행렬 계산 및 출력
cm = confusion_matrix(y_test, y_pred)
print('Confusion Matrix:')
print(cm)


Accuracy: 0.35
F1 Score: 0.24
Confusion Matrix:
[[5 4]
 [9 2]]


In [12]:
import numpy as np
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix

# 예제 데이터 생성
np.random.seed(0)  # 결과의 일관성을 위해 시드 설정
X = np.random.randn(1000, 10)  # 100개의 기업에 대한 10개의 재무 지표
y = np.random.choice([0, 1], 1000)  # 기업의 상태 (0: 건전, 1: 부실)

# 데이터를 훈련 세트와 테스트 세트로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# LDA 모델 생성 및 훈련
lda = LinearDiscriminantAnalysis()
lda.fit(X_train, y_train)

# 테스트 데이터에 대한 예측 수행
y_pred = lda.predict(X_test)

# 정확도 계산
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

# F1 점수 계산
f1 = f1_score(y_test, y_pred)
print(f'F1 Score: {f1:.2f}')

# 혼동행렬 계산 및 출력
cm = confusion_matrix(y_test, y_pred)
print('Confusion Matrix:')
print(cm)


Accuracy: 0.55
F1 Score: 0.53
Confusion Matrix:
[[58 42]
 [49 51]]


In [None]:
# 판별점수(discriminant scores)는 선형 판별분석(Linear Discriminant Analysis, LDA)에서 각 관측치가 특정 클래스에 속할 가능성을 나타내는 점수입니다. 이 점수를 사용하여 관측치가 어느 클래스에 더 가까운지 판단할 수 있습니다.
# LinearDiscriminantAnalysis 클래스의 decision_function 메서드를 사용하면 이러한 판별점수를 계산할 수 있습니다.

In [13]:
import numpy as np
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix

# 예제 데이터 생성
np.random.seed(0)  # 결과의 일관성을 위해 시드 설정
X = np.random.randn(100, 2)  # 100개의 기업에 대한 2개의 재무 지표
y = np.random.choice([0, 1], 100)  # 기업의 상태 (0: 건전, 1: 부실)

# 데이터를 훈련 세트와 테스트 세트로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# LDA 모델 생성 및 훈련
lda = LinearDiscriminantAnalysis()
lda.fit(X_train, y_train)

# 테스트 데이터에 대한 예측 수행
y_pred = lda.predict(X_test)

# 정확도 및 F1 점수 계산
accuracy = accuracy_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')
print(f'F1 Score: {f1:.2f}')

# 혼동행렬 출력
cm = confusion_matrix(y_test, y_pred)
print('Confusion Matrix:')
print(cm)

# 판별점수 계산 및 출력
discriminant_scores = lda.decision_function(X_test)
print('Discriminant Scores:')
print(discriminant_scores)


Accuracy: 0.35
F1 Score: 0.24
Confusion Matrix:
[[5 4]
 [9 2]]
Discriminant Scores:
[-0.31937962 -0.53279736 -0.89623115 -0.35638462  0.39197993  0.19251188
 -0.44807075  0.44659075 -0.20650513  0.30443991 -0.22116466 -0.74355827
 -0.72779305 -0.18324208 -0.14025411 -0.04085056 -0.1068363   0.25264375
  0.4506326  -0.57516858]


In [None]:
#  판별점수가 높을수록 해당 관측치가 부실 기업(클래스 1)에 속할 가능성이 높음을 의미하며, 낮을수록 건전 기업(클래스 0)에 속할 가능성이 높음을 나타냅니다. 
#     LDA에서는 보통 0을 기준으로 점수가 그보다 높으면 클래스 1, 낮으면 클래스 0으로 분류합니다.