## 행렬과 선형변환

In [1]:
import numpy as np

A = np.array([[1, 2], [3, 4]])
print(A)

[[1 2]
 [3 4]]


In [2]:
import numpy as np

A = np.array([[1, 2], [3, 4]])  # 2x2 행렬
B = np.array([[5, 6], [7, 8]])  # 2x2 행렬

C = A + B  # 행렬 덧셈
D = 2 * A  # 스칼라 곱

print(C)
print("=" * 50)
print(D)

[[ 6  8]
 [10 12]]
[[2 4]
 [6 8]]


In [3]:
import numpy as np

A = np.array([[1, 2, 3], [4, 5, 6]])
B = np.array([[7, 8], [9, 10], [11, 12]])

C = np.dot(A, B)  # 행렬 곱
print(C)

[[ 58  64]
 [139 154]]


In [4]:
import numpy as np

# 원래 행렬 A (2x3)
A = np.array([[1, 2, 3],
              [4, 5, 6]])

# 전치 행렬 A^T (3x2)
A_T = A.transpose()

print("원래 행렬 A:")
print(A)
print("\n전치 행렬 A^T:")
print(A_T)


원래 행렬 A:
[[1 2 3]
 [4 5 6]]

전치 행렬 A^T:
[[1 4]
 [2 5]
 [3 6]]


In [5]:
import numpy as np

A = np.array([[2, 0], [0, 2]])
v = np.array([3, 4])

result = np.dot(A, v)
print(result)


[6 8]


## 회귀

In [8]:
# 필수 라이브러리 불러오기
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.datasets import fetch_california_housing
import pandas as pd

# 캘리포니아 주택 가격 데이터셋 로드
data = fetch_california_housing()
X = pd.DataFrame(data.data, columns=data.feature_names)  # 독립 변수(특징 데이터)
y = data.target  # 종속 변수 (중간 주택 가격)

# 주택 크기(House Size) 특성만 선택
X_house_size = X[['HouseAge']]

# 데이터를 학습용 및 테스트용 데이터로 분할
X_train, X_test, y_train, y_test = train_test_split(
    X_house_size, y, test_size=0.3, random_state=42
)

# 선형 회귀 모델 학습
model = LinearRegression()
model.fit(X_train, y_train)

# 예측 수행
y_pred = model.predict(X_test)

# 모델 평가
mse = mean_squared_error(y_test, y_pred)  # 평균 제곱 오차 계산
r2 = r2_score(y_test, y_pred)  # 결정 계수(R²) 계산

# 결과 출력
print(f"Mean Squared Error (MSE): {mse:.2f}")
print(f"R² Score: {r2:.4f}")

Mean Squared Error (MSE): 1.30
R² Score: 0.0107


In [9]:
# 필요한 라이브러리 임포트
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.datasets import fetch_california_housing
import pandas as pd
import matplotlib.pyplot as plt

# 캘리포니아 주택 가격 데이터셋 로드
data = fetch_california_housing()
X = pd.DataFrame(data.data, columns=data.feature_names)  # 특성 데이터
y = data.target  # 목표 변수 (중간 주택 가격)

# 데이터를 학습용 및 테스트용으로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 선형 회귀 모델 학습
model = LinearRegression()
model.fit(X_train, y_train)

# 예측 수행
y_pred = model.predict(X_test)

# 모델 평가
mse = mean_squared_error(y_test, y_pred)  # 평균 제곱 오차 계산
r2 = r2_score(y_test, y_pred)  # 결정 계수(R²) 계산

# 결과 출력
print(f"Mean Squared Error (MSE): {mse:.2f}")
print(f"R² Score: {r2:.4f}")


Mean Squared Error (MSE): 0.53
R² Score: 0.5958


In [10]:
# 필요한 라이브러리 임포트
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.datasets import fetch_california_housing
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 캘리포니아 주택 가격 데이터셋 로드
data = fetch_california_housing()
df = pd.DataFrame(data.data, columns=data.feature_names)  # 데이터를 DataFrame으로 변환
df["MedHouseVal"] = data.target  # 목표 변수(주택 가격) 추가

# 특정 특성 선택 (가구당 평균 방 개수)
X = df[["AveRooms"]]  # 독립 변수(특징)
y = df["MedHouseVal"]  # 종속 변수(주택 가격)

# 데이터를 학습용 및 테스트용으로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 다항 특성 변환 (차수=2)
poly = PolynomialFeatures(degree=2)  # X를 [1, X, X^2] 형태로 변환
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)

# 다항 회귀 모델 학습
model = LinearRegression()
model.fit(X_train_poly, y_train)

# 예측 수행
y_pred = model.predict(X_test_poly)

# 모델 평가
mse = mean_squared_error(y_test, y_pred)  # 평균 제곱 오차 계산
r2 = r2_score(y_test, y_pred)  # 결정 계수(R²) 계산

# 결과 출력
print(f"Mean Squared Error (MSE): {mse:.2f}")
print(f"R² Score: {r2:.4f}")

Mean Squared Error (MSE): 1.25
R² Score: 0.0502


## 나이브베이즈 분류

In [11]:
# 전체 이메일 중 40%가 스팸
# 전체 이메일 중 60%가 정상 메일 
# 사전 확률 (Prior)
P_spam = 0.4  # 스팸 메일 확률
P_ham = 0.6   # 정상 메일 확률

# 단어별 조건부 확률 (각 단어가 특정한 메일에 포함될 확률)
# 예제 단어 (스팸 단어: "당첨", "무료", "혜택", 정상 단어: "회의", "보고서", "협조")
# ex) 당첨이 스팸 메일에서 등장할 확률이 12/30
P_당첨_given_spam = 12 / 30
P_무료_given_spam = 10 / 30
P_혜택_given_spam = 8 / 30

P_당첨_given_ham = 2 / 20
P_무료_given_ham = 3 / 20
P_혜택_given_ham = 1 / 20

# 특정 이메일이 "당첨", "무료", "혜택"을 포함할 경우 확률 계산
P_words_given_spam = P_당첨_given_spam * P_무료_given_spam * P_혜택_given_spam
P_words_given_ham = P_당첨_given_ham * P_무료_given_ham * P_혜택_given_ham

# 최종 확률 계산 (Posterior)
P_spam_given_words = P_words_given_spam * P_spam
P_ham_given_words = P_words_given_ham * P_ham

# 결과 출력
{
    "P(스팸 | 당첨, 무료, 혜택)": P_spam_given_words,
    "P(정상 | 당첨, 무료, 혜택)": P_ham_given_words,
    "결론": "정상 메일" if P_ham_given_words > P_spam_given_words else "스팸 메일"
}


{'P(스팸 | 당첨, 무료, 혜택)': 0.014222222222222223,
 'P(정상 | 당첨, 무료, 혜택)': 0.00045,
 '결론': '스팸 메일'}

## 분류

In [12]:
# 필요한 라이브러리 임포트
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 데이터셋 로드 (Iris 데이터셋 사용)
data = load_iris()
X = data.data  # 특성 데이터
y = data.target  # 목표 변수 (클래스 레이블)

# 데이터를 학습용 및 테스트용으로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 로지스틱 회귀 모델 학습
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

# 예측 수행
y_pred = model.predict(X_test)

# 모델 평가
accuracy = accuracy_score(y_test, y_pred)  # 정확도 계산

# 결과 출력
print(f"Accuracy: {accuracy * 100:.2f}%")

Accuracy: 100.00%


In [13]:
# 필요한 라이브러리 임포트
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris

# 데이터셋 로드 (Iris 데이터셋 사용)
data = load_iris()
X = data.data  # 특성 데이터
y = data.target  # 목표 변수 (클래스 레이블)

# 데이터를 학습용 및 테스트용으로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# KNN 모델 학습 (K=5로 설정)
model = KNeighborsClassifier(n_neighbors=5)
model.fit(X_train, y_train)

# 예측 수행
y_pred = model.predict(X_test)

# 모델 평가
accuracy = accuracy_score(y_test, y_pred)  # 정확도 계산

# 결과 출력
print(f"Accuracy: {accuracy * 100:.2f}%")

Accuracy: 100.00%


In [14]:
# 필요한 라이브러리 임포트
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 데이터셋 로드 (Iris 데이터셋 사용)
data = load_iris()
X = data.data  # 특성 데이터
y = data.target  # 목표 변수 (클래스 레이블)

# 데이터를 학습용 및 테스트용으로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 결정트리 모델 학습
model = DecisionTreeClassifier(random_state=42)  # 결정트리 모델 생성
model.fit(X_train, y_train)

# 예측 수행
y_pred = model.predict(X_test)

# 모델 평가
accuracy = accuracy_score(y_test, y_pred)  # 정확도 계산

# 결과 출력
print(f"Accuracy: {accuracy * 100:.2f}%")


Accuracy: 100.00%
