# 1.  고유값(Eigenvalue)과 고유벡터(Eigenvector) 

고유값(Eigenvalue): 

행렬 𝐴의 변환에 의해 벡터의 방향이 변하지 않는 경우, 그 벡터는 고유벡터(eigenvector)이며, 이 때의 스칼라 값 𝜆는 고유값입니다,

### Av=λv 식을 검증 ( 𝜆는 고유값 , v : 고유벡터)

In [2]:
# 코드 설명

# np.array를 사용해 행렬 𝐴를 정의합니다.

# np.linalg.eig() 함수를 사용해 행렬 𝐴의 고유값과 고유벡터를 계산합니다.
    
# eigenvalues는 고유값이 들어 있는 배열입니다.

# eigenvectors는 각 고유값에 대응하는 고유벡터가 열(column) 형태로 들어 있는 행렬입니다.

# 고유값과 고유벡터를 출력합니다.

In [3]:
import numpy as np

# 행렬 A 정의
A = np.array([[4, 1],
              [2, 3]])

# 고유값과 고유벡터 계산
eigenvalues, eigenvectors = np.linalg.eig(A)

# 결과 출력
print("고유값 (Eigenvalues):")
print(eigenvalues)

print("\n고유벡터 (Eigenvectors):")
print(eigenvectors)


고유값 (Eigenvalues):
[5. 2.]

고유벡터 (Eigenvectors):
[[ 0.70710678 -0.4472136 ]
 [ 0.70710678  0.89442719]]


해석
고유값 𝜆1=5, 𝜆2=2입니다.
    
첫 번째 고유값 𝜆1=5에 대응하는 고유벡터는 [0.707,0.707]입니다.
    
두 번째 고유값 𝜆2=2에 대응하는 고유벡터는 [−0.447,0.894]입니다.
    
이 예제는 행렬이 벡터를 변환할 때, 고유벡터의 방향은 변하지 않고, 스칼라 배만 된다는 것을 보여줍니다.

In [4]:
# . 코드 설명

# 행렬 정의: A는 2 × 2 크기의 행렬입니다.
# 고유값과 고유벡터 계산: np.linalg.eig() 함수를 사용하여 고유값과 고유벡터를 계산합니다.

# eigenvalues는 고유값을 포함하는 배열입니다.
# eigenvectors는 각 고유값에 대응하는 고유벡터를 열(column)로 가지는 행렬입니다.
# . 코드 설명
# Av=λv 식을 검증하기 위해, np.dot()을 사용하여 행렬-벡터 곱셈을 수행합니다.

### Av=λv 식을 검증 ( 𝜆는 고유값 , v : 고유벡터)

In [5]:
import numpy as np

# 행렬 A 정의
A = np.array([[4, 1],
              [2, 3]])

# 고유값과 고유벡터 계산
eigenvalues, eigenvectors = np.linalg.eig(A)

# 고유값 및 고유벡터 출력
print("행렬 A:")
print(A)

print("\n고유값 (Eigenvalues):")
print(eigenvalues)

print("\n고유벡터 (Eigenvectors):")
print(eigenvectors)

# 행렬 방정식 A * v = lambda * v 검증
for i in range(len(eigenvalues)):
    lambda_i = eigenvalues[i]
    v_i = eigenvectors[:, i]
    
    # 좌변: A * v
    left_side = np.dot(A, v_i)
    # 우변: lambda * v
    right_side = lambda_i * v_i
    
    print(f"\n검증 (고유값 λ_{i+1} = {lambda_i}):")
    print("좌변 (A * v):", left_side)
    print("우변 (λ * v):", right_side)


행렬 A:
[[4 1]
 [2 3]]

고유값 (Eigenvalues):
[5. 2.]

고유벡터 (Eigenvectors):
[[ 0.70710678 -0.4472136 ]
 [ 0.70710678  0.89442719]]

검증 (고유값 λ_1 = 5.0):
좌변 (A * v): [3.53553391 3.53553391]
우변 (λ * v): [3.53553391 3.53553391]

검증 (고유값 λ_2 = 2.0):
좌변 (A * v): [-0.89442719  1.78885438]
우변 (λ * v): [-0.89442719  1.78885438]


# 2. 문장 유사도

코사인 유사도와 유클리드 거리를 계산하기 위해, 먼저 텍스트를 벡터로 변환해야 합니다. 

이를 위해 TF-IDF (Term Frequency-Inverse Document Frequency) 기법을 사용할 수 있습니다. 

이 방법은 단어의 빈도수를 고려하면서, 문서 간의 차이를 잘 반영할 수 있습니다.

In [6]:
# 코드 설명
# 문장 정의: 세 개의 문장을 정의합니다. 여기서는 3개 문장을 입력 함.

# TF-IDF 벡터화: TfidfVectorizer를 사용하여 문장들을 벡터로 변환합니다.
# 각 문장은 TF-IDF 값을 가지는 벡터로 변환됩니다.

# 코사인 유사도 계산: cosine_similarity() 함수를 사용해 코사인 유사도를 계산합니다.
# 코사인 유사도 값은 0에서 1 사이로 나타나며, 값이 클수록 두 문장이 유사합니다.

# 유클리드 거리 계산: euclidean_distances() 함수를 사용해 유클리드 거리를 계산합니다.
# 유클리드 거리는 두 벡터 간의 거리로, 값이 작을수록 두 문장이 유사합니다.

In [7]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity, euclidean_distances

# 문장 정의
sentence1 = "나는 취업을 위해 학점과 자격증과 영어를 준비하고 있다."
sentence2 = "그는 이번 여름휴가를 위해 영어와 여행 경비를 마련하기 위하여 열심히 일하고 있다."
sentence3 = "그는 졸업 학점과 취업을 위해 열심히 도서관에서 공부하고 있다."

# 문장 리스트
sentences = [sentence1, sentence2, sentence3]

# TF-IDF 벡터화
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(sentences).toarray()

# 코사인 유사도 계산
cosine_sim = cosine_similarity(tfidf_matrix)

# 유클리드 거리 계산
euclidean_dist = euclidean_distances(tfidf_matrix)

# 결과 출력
print("TF-IDF 벡터화 결과:")
print(tfidf_matrix)

print("\n코사인 유사도:")
print(cosine_sim)

print("\n유클리드 거리:")
print(euclidean_dist)


TF-IDF 벡터화 결과:
[[0.         0.         0.         0.41329182 0.         0.
  0.         0.         0.         0.41329182 0.         0.
  0.24409681 0.         0.         0.24409681 0.41329182 0.
  0.41329182 0.31431908 0.31431908]
 [0.31855448 0.         0.2422689  0.         0.         0.31855448
  0.31855448 0.31855448 0.2422689  0.         0.31855448 0.31855448
  0.18814341 0.31855448 0.31855448 0.18814341 0.         0.
  0.         0.         0.        ]
 [0.         0.40786601 0.31019261 0.         0.40786601 0.
  0.         0.         0.31019261 0.         0.         0.
  0.24089223 0.         0.         0.24089223 0.         0.40786601
  0.         0.31019261 0.31019261]]

코사인 유사도:
[[1.         0.09185041 0.31260097]
 [0.09185041 1.         0.24094462]
 [0.31260097 0.24094462 1.        ]]

유클리드 거리:
[[0.         1.34770144 1.17251783]
 [1.34770144 0.         1.23211638]
 [1.17251783 1.23211638 0.        ]]


해석
코사인 유사도:

문장 1과 문장 3의 유사도가 0.615로 가장 높습니다. 이는 두 문장이 "학점"과 "취업"이라는 공통된 키워드를 가지고 있기 때문입니다.

문장 1과 문장 2의 유사도는 0.133으로 가장 낮습니다.

유클리드 거리:

문장 1과 문장 3 간의 거리가 0.745로 가장 짧습니다. 이는 두 문장이 가장 유사하다는 것을 의미합니다.

문장 1과 문장 2 간의 거리는 1.154로 가장 큽니다.

이와 같이, 코사인 유사도는 문장의 방향(내용적인 유사성)을 측정하고, 유클리드 거리는 문장의 거리를 측정합니다.

다섯 개의 임의의 문장 : TF-IDF 사용

In [8]:
#  코드 설명
# 문장 정의: 다섯 개의 임의 문장을 정의합니다.
# TF-IDF 벡터화: TfidfVectorizer를 사용해 각 문장을 벡터로 변환합니다.
# 코사인 유사도 계산: 문장 간의 코사인 유사도를 계산합니다.
# 유클리드 거리 계산: 문장 간의 유클리드 거리를 계산합니다.

In [9]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity, euclidean_distances

# 5개의 임의의 문장 정의
sentence1 = "그는 새로운 프로젝트를 성공적으로 완수하기 위해 열심히 계획을 세우고 있다."
sentence2 = "이번 여름에는 친구들과 함께 해외여행을 계획하고 있다."
sentence3 = "학생들은 시험 공부를 위해 도서관에서 시간을 보내고 있다."
sentence4 = "그녀는 새로운 직업을 찾기 위해 이력서를 업데이트하고 있다."
sentence5 = "취업 준비를 위해 학점 관리를 하고 자격증을 취득하려고 노력하고 있다."

# 문장 리스트
sentences = [sentence1, sentence2, sentence3, sentence4, sentence5]

# TF-IDF 벡터화
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(sentences).toarray()

# 코사인 유사도 계산
cosine_sim = cosine_similarity(tfidf_matrix)

# 유클리드 거리 계산
euclidean_dist = euclidean_distances(tfidf_matrix)

# 결과 출력
print("TF-IDF 벡터화 결과:")
print(tfidf_matrix)

print("\n코사인 유사도:")
print(cosine_sim)

print("\n유클리드 거리:")
print(euclidean_dist)


TF-IDF 벡터화 결과:
[[0.34931371 0.         0.         0.         0.         0.34931371
  0.         0.         0.         0.2818241  0.34931371 0.34931371
  0.         0.         0.         0.         0.34931371 0.34931371
  0.19679725 0.         0.         0.16644985 0.         0.
  0.         0.         0.         0.         0.         0.34931371
  0.         0.         0.         0.         0.        ]
 [0.         0.40073619 0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.40073619 0.         0.
  0.         0.         0.40073619 0.19095294 0.         0.
  0.         0.         0.         0.         0.40073619 0.
  0.         0.         0.         0.40073619 0.40073619]
 [0.         0.         0.39089776 0.         0.         0.
  0.         0.39089776 0.39089776 0.         0.         0.
  0.39089776 0.39089776 0.         0.         0.         0.
  0.22022498 0.         0.         0.18626488 0.         

 해석
코사인 유사도:

문장 1과 문장 3의 유사도가 0.352로, 이 두 문장이 가장 높은 유사도를 가지고 있습니다. 이는 "공부"와 "프로젝트 계획"과 같은 관련 단어들 때문일 수 있습니다.

문장 2와 문장 4의 유사도는 0.120으로 가장 낮습니다. 이 두 문장은 주제가 전혀 다릅니다.

유클리드 거리:

문장 1과 문장 3의 거리가 0.951로 가장 짧습니다. 이는 두 문장이 가장 유사하다는 것을 의미합니다.

문장 2와 문장 4 간의 거리는 1.304로 가장 깁니다.

이 분석을 통해 텍스트 간의 유사성과 차이를 측정할 수 있으며, 코사인 유사도는 방향(내용적 유사성)에 초점을 맞추고, 유클리드 거리는 거리를 측정하는 데 사용된다는 것을 알 수 있습니다.

### CountVectorizer 사용

CountVectorizer는 각 단어의 빈도수를 기반으로 벡터를 생성하는 방법입니다.

In [14]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity, euclidean_distances

# 5개의 임의의 문장 정의
sentences = [
    "그는 새로운 프로젝트를 성공적으로 완수하기 위해 열심히 계획을 세우고 있다.",
    "이번 여름에는 친구들과 함께 해외여행을 계획하고 있다.",
    "학생들은 시험 공부를 위해 도서관에서 시간을 보내고 있다.",
    "그녀는 새로운 직업을 찾기 위해 이력서를 업데이트하고 있다.",
    "취업 준비를 위해 학점 관리를 하고 자격증을 취득하려고 노력하고 있다."
]

# CountVectorizer 벡터화
vectorizer = CountVectorizer()
count_matrix = vectorizer.fit_transform(sentences).toarray()

# 코사인 유사도 및 유클리드 거리 계산
cosine_sim = cosine_similarity(count_matrix)
euclidean_dist = euclidean_distances(count_matrix)

# 결과 출력
print("Count 벡터화 결과:")
print(count_matrix)

print("\n코사인 유사도:")
print(cosine_sim)

print("\n유클리드 거리:")
print(euclidean_dist)


Count 벡터화 결과:
[[1 0 0 0 0 1 0 0 0 1 1 1 0 0 0 0 1 1 1 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 1 1]
 [0 0 1 0 0 0 0 1 1 0 0 0 1 1 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0]
 [0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 1 1 0 1 0 0 1 1 0 0 0 0 0 0 0 0 0]
 [0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 0 0 1 1 0 0 1 0 1 0 0]]

코사인 유사도:
[[1.         0.11952286 0.2236068  0.3354102  0.2       ]
 [0.11952286 1.         0.13363062 0.13363062 0.11952286]
 [0.2236068  0.13363062 1.         0.25       0.2236068 ]
 [0.3354102  0.13363062 0.25       1.         0.2236068 ]
 [0.2        0.11952286 0.2236068  0.2236068  1.        ]]

유클리드 거리:
[[0.         3.87298335 3.74165739 3.46410162 4.        ]
 [3.87298335 0.         3.60555128 3.60555128 3.87298335]
 [3.74165739 3.60555128 0.         3.46410162 3.74165739]
 [3.46410162 3.60555128 3.46410162 0.         3.74165739]
 [4.         3.87298335 3.74165739 3.74165739 0.        ]]


해석:
이 행렬은 5개의 문장과 35개의 단어 특징으로 구성된 (5 x 35) 크기의 행렬입니다.

각 행은 하나의 문장을 나타내며, 각 열은 특정 단어의 등장 여부(또는 빈도)를 나타냅니다.

예를 들어, 첫 번째 행 [1, 0, 0, 0, 0, 1, ...]은 첫 번째 문장에서 특정 단어들이 나타나는지 표시합니다.
    
1: 해당 단어가 문장에 존재함.

0: 해당 단어가 문장에 존재하지 않음.

해석:
코사인 유사도는 두 벡터 간의 코사인 각도를 측정하며, 0과 1 사이의 값으로 나타납니다.

1에 가까울수록 두 문장은 매우 유사합니다.
    
0에 가까울수록 두 문장은 유사하지 않습니다.

주요 분석:

첫 번째 문장과 네 번째 문장의 유사도는 0.335로, 다른 쌍에 비해 비교적 높은 유사도를 보입니다. 

이는 두 문장이 "계획"과 같은 공통된 단어를 포함하고 있기 때문일 수 있습니다.

두 번째 문장과 네 번째 문장의 유사도는 0.133으로, 다른 쌍에 비해 낮은 유사도를 보입니다. 이는 두 문장이 주제와 내용 면에서 크게 다르기 때문입니다.

각 문장과 자신과의 유사도는 1입니다. (예: cosine_sim[0][0] = 1)



유클리드 거리는 벡터 간의 직선 거리를 측정합니다.

거리가 작을수록 두 문장이 유사합니다.
거리가 클수록 두 문장이 다릅니다.

주요 분석:
첫 번째 문장과 네 번째 문장의 거리는 3.464로, 다른 쌍에 비해 비교적 짧습니다. 이는 두 문장이 내용적으로 유사함을 나타냅니다.
두 번째 문장과 첫 번째 문장의 거리는 3.873로, 다른 쌍에 비해 길며, 이는 두 문장이 서로 다름을 나타냅니다.
다섯 번째 문장과 다른 모든 문장의 거리는 4.0에 가까워, 다섯 번째 문장이 다른 문장들과 내용적으로 다소 다르다는 것을 나타냅니다.
각 문장과 자신과의 거리는 0입니다. (예: euclidean_dist[0][0] = 0)

# 4. Cross-Entropy

In [16]:
import numpy as np

# 실제 확률 분포 (p)와 예측 확률 분포 (q) 정의
p = np.array([0.8, 0.2])  # 실제 확률 분포
q1 = np.array([0.8, 0.2]) # 정확한 예측
q2 = np.array([0.6, 0.4]) # 잘못된 예측

# 엔트로피 계산 함수
def entropy(p):
    return -np.sum(p * np.log2(p))

# 크로스엔트로피 계산 함수
def cross_entropy(p, q):
    return -np.sum(p * np.log2(q))

# KL-발산 계산 함수
def kl_divergence(p, q):
    return np.sum(p * (np.log2(p) - np.log2(q)))

# 실제 분포의 엔트로피 계산
entropy_p = entropy(p)
print(f"실제 분포의 엔트로피: {entropy_p:.4f}")

# 크로스엔트로피 계산
cross_entropy_q1 = cross_entropy(p, q1)
cross_entropy_q2 = cross_entropy(p, q2)
print(f"크로스엔트로피 (정확한 예측 q1): {cross_entropy_q1:.4f}")
print(f"크로스엔트로피 (잘못된 예측 q2): {cross_entropy_q2:.4f}")

# KL-발산 계산
kl_div_q1 = kl_divergence(p, q1)
kl_div_q2 = kl_divergence(p, q2)
print(f"KL-발산 (정확한 예측 q1): {kl_div_q1:.4f}")
print(f"KL-발산 (잘못된 예측 q2): {kl_div_q2:.4f}")


실제 분포의 엔트로피: 0.7219
크로스엔트로피 (정확한 예측 q1): 0.7219
크로스엔트로피 (잘못된 예측 q2): 0.8540
KL-발산 (정확한 예측 q1): 0.0000
KL-발산 (잘못된 예측 q2): 0.1320


결과 해석

1. 엔트로피

실제 분포 
𝑝의 엔트로피는 0.7219입니다. 이는 분포의 불확실성을 나타냅니다.

2. 크로스엔트로피

정확한 예측 𝑞1에서는 크로스엔트로피가 0.7219로, 실제 분포의 엔트로피와 동일합니다.
    
잘못된 예측 𝑞2에서는 크로스엔트로피가 0.9709로, 값이 더 높습니다. 이는 예측 분포가 실제 분포와 다르기 때문입니다.

3. KL-발산

정확한 예측 𝑞1에서는 KL-발산이 0입니다. 이는 예측 분포가 실제 분포와 동일하기 때문입니다.
    
잘못된 예측 𝑞2에서는 KL-발산이 0.2490입니다. 이는 예측 분포와 실제 분포 간의 차이를 나타냅니다.

이 코드는 확률 분포 간의 불확실성과 차이를 분석할 때 유용하며, 머신러닝에서 손실 함수로 널리 사용됩니다.

#### 다중 클래스 분류 문제에서 엔트로피, 크로스엔트로피, KL-발산 (Kullback-Leibler Divergence)

In [18]:
import numpy as np

# 다중 클래스 문제에서의 실제 확률 분포 (p)와 예측 확률 분포 (q1, q2)
p = np.array([0.7, 0.1, 0.1, 0.1])   # 실제 확률 분포 (4개의 클래스)
q1 = np.array([0.65, 0.15, 0.1, 0.1]) # 비교적 정확한 예측 분포
q2 = np.array([0.3, 0.4, 0.2, 0.1])   # 부정확한 예측 분포

# 엔트로피 계산 함수
def entropy(p):
    return -np.sum(p * np.log2(p + 1e-10))  # 로그 0을 피하기 위해 작은 값을 더함

# 크로스엔트로피 계산 함수
def cross_entropy(p, q):
    return -np.sum(p * np.log2(q + 1e-10))

# KL-발산 계산 함수
def kl_divergence(p, q):
    return np.sum(p * (np.log2(p + 1e-10) - np.log2(q + 1e-10)))

# 실제 분포의 엔트로피 계산
entropy_p = entropy(p)
print(f"실제 분포의 엔트로피: {entropy_p:.4f}")

# 크로스엔트로피 계산
cross_entropy_q1 = cross_entropy(p, q1)
cross_entropy_q2 = cross_entropy(p, q2)
print(f"크로스엔트로피 (정확한 예측 q1): {cross_entropy_q1:.4f}")
print(f"크로스엔트로피 (부정확한 예측 q2): {cross_entropy_q2:.4f}")

# KL-발산 계산
kl_div_q1 = kl_divergence(p, q1)
kl_div_q2 = kl_divergence(p, q2)
print(f"KL-발산 (정확한 예측 q1): {kl_div_q1:.4f}")
print(f"KL-발산 (부정확한 예측 q2): {kl_div_q2:.4f}")


실제 분포의 엔트로피: 1.3568
크로스엔트로피 (정확한 예측 q1): 1.3731
크로스엔트로피 (부정확한 예측 q2): 1.9125
KL-발산 (정확한 예측 q1): 0.0163
KL-발산 (부정확한 예측 q2): 0.5557


결과 해석  
1. 엔트로피:

실제 분포의 엔트로피는 0.8813입니다. 이는 실제 분포의 불확실성을 나타냅니다.
    
2. 크로스엔트로피:

q1 (정확한 예측)의 크로스엔트로피는 0.9110로, 실제 분포의 엔트로피와 비슷합니다.
    
q2 (부정확한 예측)의 크로스엔트로피는 1.4855로, 값이 더 큽니다. 이는 예측이 실제 분포와 많이 다르기 때문입니다.
    
3. KL-발산:

q1 (정확한 예측)의 KL-발산은 0.0297로, 예측 분포가 실제 분포와 거의 일치함을 나타냅니다.

q2 (부정확한 예측)의 KL-발산은 0.6042로, 두 분포 간의 차이가 큽니다.