#  머신러닝 기본기

###  학습 목표
이 토픽을 수강한 뒤, 수강생은 다음을 할 수 있어야 합니다:

- 머신러닝의 기본 개념을 이해하고 설명할 수 있다.  
- 머신러닝에 필요한 기초 수학 개념(선형대수학, 확률·통계, 미적분학)을 이해하고 적용할 수 있다.

###  목차

#### 0. 들어가기
- 머신러닝이란 무엇인가?  
- AI → 머신러닝 → 딥러닝 관계 정리  
- “데이터에서 패턴을 학습해 미래를 예측하는 것”으로 요약  



#### 1. 머신러닝 개요
- **정의와 역사**
  - 규칙 기반 프로그래밍 vs 데이터 기반 학습
  - 1950년대 퍼셉트론 → 2000년대 SVM → 2010년대 딥러닝  
- **주요 응용 분야**
  - 이미지 인식, 음성 인식, 자연어 처리, 추천 시스템, 자율주행
- **학습 패러다임**
  - 지도학습 (Supervised Learning): 입력 + 정답 → 모델 학습
  - 비지도학습 (Unsupervised Learning): 정답 없는 데이터 패턴 찾기
  - 강화학습 (Reinforcement Learning): 보상을 극대화하는 행동 학습



#### 2. 머신러닝을 위한 기초 수학

##### 2.1 선형대수학 복습
- **벡터와 행렬의 개념**
  - 데이터 = 벡터/행렬로 표현
- **행렬 연산**
  - 행렬곱 = 데이터 변환의 핵심
- **벡터의 거리와 내적**
  - 유클리드 거리: 데이터 간 유사도
  - 내적: 두 벡터의 각도 → 코사인 유사도
- **기하학적 해석**
  - 고차원 공간에서 데이터의 위치와 관계 설명

👉 머신러닝 활용 예: KNN(거리 기반 분류), PCA(차원 축소)  



##### 2.2 확률과 통계 복습
- **확률의 기본 개념**
  - 사건, 표본 공간, 확률값 (0~1)
- **확률변수**
  - 이산형 (주사위, 동전 던지기), 연속형 (키, 몸무게)
- **확률분포와 기대값**
  - 정규분포, 베르누이 분포, 이항분포
  - 기대값과 분산
- **조건부 확률과 베이즈 정리**
  - P(A|B) = P(A∩B)/P(B)
  - 베이즈 정리: 사전확률 → 사후확률로 갱신
- **머신러닝에서의 필요성**
  - 데이터의 불확실성을 다루고, 예측에 신뢰도를 부여

👉 머신러닝 활용 예: 스팸메일 필터(나이브 베이즈 분류기)  



##### 2.3 미적분학 기초
- **함수와 그래프**
  - 입력 x → 출력 y
- **미분**
  - 변화율, 기울기  
  - 극소점·극대점 찾기
- **편미분과 기울기**
  - 고차원 함수에서 변수별 기울기 계산
- **적분**
  - 면적과 누적값 해석
- **머신러닝에서의 필요성**
  - 손실 함수 최소화 (경사하강법)
  - 뉴럴 네트워크 학습 = 미분 + 최적화

👉 머신러닝 활용 예: 회귀분석(최소제곱법), 신경망 학습(역전파)  


#### 3. 종합 연결
- 머신러닝의 본질 = **수학적 개념을 도구 삼아 데이터에서 규칙을 학습하는 것**  
- 선형대수학 → 데이터 구조 & 변환  
- 확률·통계 → 불확실성 모델링  
- 미적분학 → 최적화와 학습  

## 0. 들어가기

머신러닝은 요즘 가장 많이 쓰이는 인공지능 기술 중 하나입니다.  
- **AI (인공지능)**: 인간의 지능을 모방하는 모든 기술  
- **머신러닝**: 데이터를 통해 스스로 규칙을 학습하는 AI의 한 분야  
- **딥러닝**: 머신러닝의 한 갈래, 신경망(Neural Network)을 활용하는 방식  

즉,  
- AI ⊃ 머신러닝 ⊃ 딥러닝  

- <img src="image/ai_ml_dl.png" width="500">  
이미지 출처 : https://www.coursera.org/articles/ai-vs-deep-learning-vs-machine-learning-beginners-guide  
👉 머신러닝은 “데이터에서 패턴을 학습해 미래를 예측하는 기술”이라고 요약할 수 있습니다.

### 머신러닝의 대표적인 예시
- **스팸 메일 분류**  
  - **데이터**: 과거 이메일(스팸/정상 라벨 포함)  
  - **학습 방식**: 이메일의 단어 등장 빈도나 발신자 정보 등을 숫자로 변환한 뒤,  
    로지스틱 회귀(Logistic Regression) 같은 분류 알고리즘을 사용해  
    “스팸일 확률”을 계산하도록 학습  
  - **결과**: 새로운 메일이 들어오면 스팸 확률을 계산해 자동으로 분류  

- **주택 가격 예측**  
  - **데이터**: 과거 거래된 주택의 면적, 위치, 방 개수, 가격 정보  
  - **학습 방식**: 선형회귀(Linear Regression)를 활용해,  
    주택 가격이 면적·위치 등과 어떻게 선형적인 관계를 가지는지 규칙을 찾음  
  - **결과**: 새로운 주택의 조건을 입력하면 예상 가격을 수치로 예측  


## 1. 머신러닝 개요

## 1.1 머신러닝의 정의
- **기존 프로그래밍**: 사람이 직접 규칙(조건문, 수식)을 코드로 작성  
  - 예시:  
    - 스팸 메일 분류 → 특정 단어(“광고”, “당첨”)가 있으면 스팸으로 처리  
    - 주택 가격 예측 → 면적 × 일정 금액 + 방 개수 × 일정 금액 으로 계산식 직접 지정  
- **머신러닝**: 데이터와 정답(레이블)을 주면, 컴퓨터가 스스로 규칙을 찾아냄  
  - 예시:  
    - 스팸 메일 분류 → 수천 개의 메일 데이터를 보고, 어떤 단어 조합이 스팸에 자주 나타나는지 학습  
    - 주택 가격 예측 → 실제 거래 데이터를 보고, 면적·위치·방 개수와 가격의 관계를 자동으로 계산


In [None]:
# 규칙 기반 프로그래밍 예시
def spam_filter(email):
    if "free" in email.lower():
        return "spam"
    else:
        return "ham"

print(spam_filter("FREE money!!!"))  # spam
print(spam_filter("Hello friend"))   # ham

위 규칙 기반 방식은 단순하지만, 복잡한 데이터에는 적용하기 어렵습니다.  
머신러닝은 데이터를 많이 주어 **스스로 규칙을 찾도록** 하는 방식입니다.  

## 1.2 머신러닝의 역사 (간단 개요)

- **퍼셉트론(Perceptron, 1957·Rosenblatt)**  
  - 퍼셉트론(Perceptron)은 1957년에 고안된 인공 신경망의 가장 기본적인 알고리즘.  
  여러 개의 입력 신호를 받아 하나의 출력 신호를 내보내는 구조로, 인간의 신경 세포(뉴런)가 작동하는 방식을 모방해 만듦
  - 선형 결정경계를 학습하는 **이진 분류기**. 입력 $(x$)에 대해 가중치 $(w$)와 편향 $(b$)를 적용해 $(y = \text{step}(w^\top x + b)$)로 예측.  
  - 학습은 오분류된 샘플에 대해 $(w \leftarrow w + \eta (y - \hat{y})x$) 형태의 **가중치 업데이트 규칙**으로 수행(온라인 학습).  
  - **장점**: 단순하고 빠르다, 선형적으로 분리 가능한 데이터에 수렴 보장.  
  - **한계**: XOR처럼 **비선형적으로 분리 불가능한 문제**는 해결 불가(Minsky & Papert, 1969).  
  - **극복**: 은닉층을 쌓은 **다층 퍼셉트론(MLP)** 과 **역전파(Backpropagation, 1986)** 의 재발견으로 비선형 문제 학습 가능.
  
  <img src="image/neuron.png" width =500>

  <img src="image/perceptron.png" width =500>  <img src="image/XOR.png" width =342>

- **1980~90년대: 고전 ML 전성기**  
  - **SVM**(마진 극대화, 커널 트릭), **결정트리/랜덤포레스트**, **나이브 베이즈**, **KNN** 등 범용 성능이 높은 전통 알고리즘이 산업 전반에 확산.  
  - 특징 공학(feature engineering)과 커널 선택이 성능의 핵심.

- **2010년대 이후: 딥러닝 르네상스(Deep Learning Boom)**  
  - **데이터**: 웹/모바일/IoT 보급으로 대규모 라벨링 데이터셋(예: ImageNet, 수백만 장) 가용.  
  - **연산자원**: **GPU**(대규모 행렬·합성곱을 병렬 계산) 보편화, CUDA/라이브러리 최적화, 멀티-GPU·분산학습 도입.  
  - **알고리즘 개선**: ReLU 활성화, 드롭아웃, 배치정규화, 잔차연결(ResNet), 최적화 기법(Adam 등).  
  - **결정적 사건**: 2012년 **AlexNet**이 ImageNet에서 오류율을 크게 낮추며 컴퓨터비전 판도를 변경.  
  - **생태계**: Theano·Caffe에서 **TensorFlow, PyTorch**로 이어지는 프레임워크의 성숙, 대규모 학습을 가능케 하는 **클라우드/TPU** 등 하드웨어 가속.  
  - 결과적으로 영상·음성·자연어 처리 전 영역에서 **규모의 경제(데이터×모델×연산)** 가 성능을 주도.

## 1.3 머신러닝의 주요 응용 분야
- 이미지 인식 (얼굴 인식, 자율주행)  
- 음성 인식 (스마트 스피커)  
- 자연어 처리 (번역, 챗봇)  
- 추천 시스템 (넷플릭스, 유튜브, 쇼핑몰)  
- 금융 (사기 탐지, 신용평가)

## 1.4 머신러닝의 학습 패러다임

### (1) 지도학습 (Supervised Learning)

- **정의**: 입력 $x$와 정답 라벨 $y$가 `쌍으로 주어졌을 때`, $(f_\theta: x \mapsto y$)를 학습하여  
**보지 못한 데이터**의 $y$를 정확히 예측하도록 하는 학습.  
- **목표**: 손실함수 $( \mathcal{L}(y, \hat{y}) $)를 최소화하도록 파라미터 $\theta$를 최적화(보통 SGD/Adam 등).  
- **주요 과업**  
  - **분류(Classification)**: 이산 라벨 예측(이메일 스팸/정상, 질병 유무).  
  손실: 크로스엔트로피.  
  지표: 정확도, 정밀도/재현율/F1, ROC-AUC.  

  - **회귀(Regression)**: 연속 값 예측(주택가격, 수요량).  
  손실: MSE/MAE.  
  지표: RMSE, $(R^2$).  
  - (필요 시) **랭킹/확률 추정/다중라벨** 등으로 확장 가능.

- **일반 파이프라인**  
  1) **데이터 분할**: Train/Validation/Test(예: 6/2/2 또는 K-겹 교차검증).  
  2) **전처리/특징화**: 결측치 처리, 스케일링, 인코딩, 데이터 증강(이미지/텍스트).  
  3) **모델 선택**: 선형모델, 트리계열, 커널 SVM, 신경망 등 과업/데이터 규모/해석가능성에 따라 선택.  
  4) **학습/튜닝**: 하이퍼파라미터 탐색(그리드/베이지안), 조기종료, 정규화(L1/L2/드롭아웃).  
  5) **평가/검증**: 유효성 검증 지표와 에러분석(혼동행렬, 잔차진단).  
  6) **배포/모니터링**: 데이터 분포 변화(컨셉 드리프트) 감시, 재학습 전략 설계.

- **현업 고려사항(실전 포인트. 아직은 참고만 하세요 ㅎㅎ)**  
  - **과적합**: 파라미터가 데이터보다 강할 때 발생 → 정규화, 데이터 증강, 교차검증, 단순화.  
  - **데이터 누수(Data Leakage)**: 학습 시점에 테스트 정보가 유입되는 문제 → 파이프라인 순서 엄수(스케일링은 분할 후 학습셋 기준).  
  - **클래스 불균형**: 가중 손실, 리샘플링(SMOTE/언더샘플링), 적절한 지표(F1/PR-AUC) 채택.  
  - **라벨 품질**: 라벨링 기준서, 다중 어노테이터 합의  
  - **재현성**: 시드 고정, 데이터/코드/환경 버저닝.

- **예(분류)**: *나이·소득·과거 구매 횟수 → “구매할지/안할지” 예측*  
  - 전처리: 결측 보간 → 표준화/원-핫 인코딩.  
  - 모델: 로지스틱 회귀(해석용) 또는 트리/부스팅(XGBoost/LightGBM) → 성능 비교.  
  - 지표: 정확도와 함께 **정밀도·재현율·F1**로 불균형 대응.

In [None]:
#  지도학습 전체 파이프라인 예시 (Linear Regression)

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np
import joblib  # 모델 저장용

# ------------------------------------------------
# 1) 데이터 분할 (Train / Validation / Test)
# ------------------------------------------------
X = np.array([[1], [2], [3], [4], [5], [6], [7], [8]])
y = np.array([2, 4.1, 6.2, 8.1, 10, 12.1, 13.9, 16])

# Train(60%) / Validation(20%) / Test(20%)
X_temp, X_test, y_temp, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_temp, y_temp, test_size=0.25, random_state=42)
# (0.25 of 0.8 = 0.2 → 총 6:2:2 비율)

# ------------------------------------------------
# 2) 전처리: 스케일링 (평균=0, 표준편차=1)
# ------------------------------------------------
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)
X_test_scaled = scaler.transform(X_test)

# ------------------------------------------------
# 3) 모델 선택: Ridge 회귀 (L2 정규화 포함)
# ------------------------------------------------
model = LinearRegression()()

# ------------------------------------------------
# 4) 하이퍼파라미터 탐색 및 학습
# ------------------------------------------------
param_grid = {'alpha': [0.01, 0.1, 1, 10]}
grid = GridSearchCV(model, param_grid, cv=3, scoring='r2')
grid.fit(X_train_scaled, y_train)

best_model = grid.best_estimator_

print(f"최적 하이퍼파라미터: {grid.best_params_}")

# ------------------------------------------------
# 5) 평가 및 검증
# ------------------------------------------------
# Validation
y_val_pred = best_model.predict(X_val_scaled)
val_rmse = mean_squared_error(y_val, y_val_pred, squared=False)
val_r2 = r2_score(y_val, y_val_pred)
print(f"[Validation] RMSE={val_rmse:.3f}, R²={val_r2:.3f}")

# Test
y_test_pred = best_model.predict(X_test_scaled)
test_rmse = mean_squared_error(y_test, y_test_pred, squared=False)
test_r2 = r2_score(y_test, y_test_pred)
print(f"[Test] RMSE={test_rmse:.3f}, R²={test_r2:.3f}")

# 예측 예시
new_X = np.array([[9]])
new_X_scaled = scaler.transform(new_X)
pred = best_model.predict(new_X_scaled)
print(f"공부시간 9시간 → 예측 점수 {pred[0]:.2f}")

# ------------------------------------------------
# 6) 배포/모니터링 대비: 모델 및 전처리 저장
# ------------------------------------------------
joblib.dump(best_model, 'ridge_model.pkl')
joblib.dump(scaler, 'scaler.pkl')
print("모델과 스케일러 저장 완료 (ridge_model.pkl, scaler.pkl)")

# 추후 재로딩 예시:
# loaded_model = joblib.load('ridge_model.pkl')
# loaded_scaler = joblib.load('scaler.pkl')
# 예측 시 loaded_scaler.transform() 후 loaded_model.predict() 사용


### (2) 비지도학습 (Unsupervised Learning)
- 정답(레이블) 없이 데이터 패턴을 학습  
- 군집화(Clustering), 차원축소(Dimensionality Reduction)  

- <img src="image/unsupervised.jpg">  
이미지 출처 : https://commons.wikimedia.org/wiki/File:Img_agrupament.jpg

예: 고객을 데이터 패턴에 따라 그룹으로 나누기, 식물의 품종 분류  



### (3) 강화학습 (Reinforcement Learning)
- 에이전트(Agent)가 환경(Environment)과 상호작용하면서 **보상(Reward)** 을 극대화하도록 학습  
- 체스, 바둑, 게임, 로보틱스 등에 활용  

![Atari Breakout](image/atari.png)  
*Atari Breakout – 강화학습 적용하여 벽돌깨기와 같은 게임을 하는 모델을 만들 수 있음*
### ✅ 체크포인트
- 머신러닝은 데이터에서 규칙을 학습하는 AI 기술이다.  
- 지도학습, 비지도학습, 강화학습으로 나뉜다.  
- 지도학습은 정답이 있는 데이터, 비지도학습은 정답이 없는 데이터, 강화학습은 보상을 통한 학습이다.  

## 2. 머신러닝을 위한 기초 수학

머신러닝의 많은 알고리즘은 **선형대수학, 확률·통계, 미적분학** 개념 위에 세워져 있습니다.  
이번 섹션에서는 먼저 **선형대수학 복습**을 진행합니다.  



- **스칼라(Scalar)**: 단일 숫자 (0차원 데이터)  
  - 예: `3`, `π`, `-1.5`

- **벡터(Vector)**: 숫자를 한 줄로 나열한 것 (1차원 데이터)  
  - 예: \([1, 2, 3]\)  
  - 수학적으로는 n개의 원소를 가진 벡터 = **n차원 벡터**  
  - 넘파이에서 `shape = (n,)`

- **행렬(Matrix)**: 숫자가 직사각형 형태로 배열된 것 (2차원 데이터)  
  - 예:  
   $$
    \begin{bmatrix}
    1 & 2 \\
    3 & 4 \\
    \end{bmatrix}
    $$  
  - 넘파이에서 `shape = (m, n)`

- **텐서(Tensor)**: 3차원 이상의 다차원 배열 (3차원 데이터 이상)  
  - 예: 28×28 픽셀 흑백 이미지 100장 → `shape = (100, 28, 28)`  
  - 딥러닝에서 주로 사용되며, 색상 채널(RGB)까지 포함하면 `shape = (100, 28, 28, 3)`

  <img src="image/vector.png">

### 혼동하기 쉬운 개념: "배열 차원(ndim)" vs "벡터공간 차원"

- **배열 차원(ndim, 프로그래밍 관점)**  
  - 배열의 축(axis) 개수를 뜻함  
  - 예: `np.array([1,2,3])` → `ndim=1`, `shape=(3,)`

- **벡터공간 차원(수학 관점)**  
  - 벡터가 속한 공간의 좌표축 개수  
  - 예: `[1,2,3]`은 $(\mathbb{R}^3$)에 속하는 3차원 벡터  

👉 따라서 `np.array([1,2,3])`는 **배열 차원=1**이면서 **벡터공간 차원=3**으로 해석할 수 있습니다.

In [None]:
import numpy as np

# 벡터 예시
v = np.array([1, 2, 3])
print("벡터:", v)

# 행렬 예시
M = np.array([[1, 2], [3, 4], [5, 6]])
print("행렬:\n", M)

### 행렬 연산

- **덧셈/뺄셈**: 같은 크기의 행렬끼리 원소별 연산  
- **스칼라 곱**: 행렬의 모든 원소에 같은 수를 곱함  
- **행렬 곱**: (m×n) 행렬 × (n×p) 행렬 = (m×p) 행렬  

### 내적 (Dot Product)

- 정의: 두 벡터를 곱해 스칼라를 얻는 연산  
- 수식:  
  $$
  \vec{a} \cdot \vec{b} = \sum_{i=1}^{n} a_i b_i
  $$

- 예시:  
  $$
  \begin{bmatrix} 1 & 2 & 3 \end{bmatrix}
  \cdot
  \begin{bmatrix} 4 \\ 5 \\ 6 \end{bmatrix}
  =
  1\cdot 4 + 2\cdot 5 + 3\cdot 6 = 32
  $$


### 행렬 곱 (Matrix Multiplication)

- 정의:  
  $$
  C = A \times B, \quad C_{ij} = \sum_{k=1}^{n} A_{ik} B_{kj}
  $$

- 예시:  
  $$
  A =
  \begin{bmatrix}
  1 & 2 \\
  3 & 4
  \end{bmatrix},
  \quad
  B =
  \begin{bmatrix}
  5 & 6 \\
  7 & 8
  \end{bmatrix}
  $$

  $$
  A \times B =
  \begin{bmatrix}
  1\cdot 5 + 2\cdot 7 & 1\cdot 6 + 2\cdot 8 \\
  3\cdot 5 + 4\cdot 7 & 3\cdot 6 + 4\cdot 8
  \end{bmatrix}
  =
  \begin{bmatrix}
  19 & 22 \\
  43 & 50
  \end{bmatrix}
  $$


In [None]:
# 머신러닝에서 행렬곱은 입력 데이터를 가중치(Weight) 행렬에 곱해 예측값을 만드는 데 사용됩니다.  
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

print("A + B:\n", A + B)
print("A * 2:\n", A * 2)
print("A × B (행렬곱):\n", np.dot(A, B))

### 벡터의 거리와 내적

벡터 간의 관계를 이해하는 것은 머신러닝, 정보검색, 자연어처리 등에서 매우 중요합니다.  
- **유클리드 거리**는 두 점 사이의 “얼마나 떨어져 있는지”를 재는 척도입니다.  
- **내적**은 두 벡터가 “얼마나 같은 방향을 향하고 있는지”를 나타냅니다.  
- **코사인 유사도**는 내적을 정규화하여 “방향 유사성만”을 비교할 수 있게 해줍니다.  
  내적은 벡터의 크기와 방향 모두에 의존하기 때문에, 같은 방향이라도 크기가 다르면 값이 달라집니다.  
  코사인 유사도는 두 벡터의 길이로 나누어 크기의 영향을 제거하고, 오직 방향(각도)만 비교합니다.  
  문서나 문장의 의미적 유사도 계산에 자주 사용됩니다.

#### **유클리드 거리 (Euclidean distance)**: 두 점(벡터) 사이의 직선 거리  

$$
d(\vec{x}, \vec{y}) = \sqrt{\sum_i (x_i - y_i)^2}
$$

#### 참고: np.linalg.norm(x)
NumPy의 np.linalg.norm은 유클리드 거리(벡터의 길이) 를 쉽게 구할 수 있는 함수입니다.  
일반적으로, 노름(norm) 은 벡터의 “크기” 또는 “길이”를 수학적으로 정의한 개념입니다.   

예시코드 : 

```python
# 벡터의 유클리드 거리 (기본값 ℓ2 노름)
v = np.array([3, 4])
print(np.linalg.norm(v))  # 5.0  → √(3² + 4²)

# 두 점 사이 거리
p1 = np.array([1, 2])
p2 = np.array([4, 6])
print(np.linalg.norm(p1 - p2))  # 5.0  → √((4-1)² + (6-2)²)
```

#### **내적 (Dot Product)**: 두 벡터의 크기와 방향을 동시에 반영하는 값  

$$
\vec{x} \cdot \vec{y} = \sum_i x_i y_i
$$

  - 양수 → 비슷한 방향  
  - 음수 → 반대 방향  
  - 0 → 직교 (서로 독립)  

- **코사인 유사도 (Cosine Similarity)**: 두 벡터의 **방향만** 비교하는 척도  

$$
\cos(\theta) = \frac{\vec{x} \cdot \vec{y}}{\|\vec{x}\|\|\vec{y}\|}
$$

  - 1 → 같은 방향  
  - 0 → 직교  
  - -1 → 정반대 방향  
  - 문서 유사도 계산 등에서 자주 활용

### 연습 문제. 코사인 유사도 계산  
벡터 `a = [1, 2, 2]`, `b = [2, 1, 2]`의 내적과 코사인 유사도를 계산하세요.  

<details>
<summary>정답 보기</summary>

1. 내적 계산  
$$
a \cdot b = (1 \times 2) + (2 \times 1) + (2 \times 2) = 2 + 2 + 4 = 8
$$

2. 벡터의 크기  
$$
\|a\| = \sqrt{1^2 + 2^2 + 2^2} = \sqrt{1 + 4 + 4} = \sqrt{9} = 3
$$  
$$
\|b\| = \sqrt{2^2 + 1^2 + 2^2} = \sqrt{4 + 1 + 4} = \sqrt{9} = 3
$$

3. 코사인 유사도  
$$
\cos(\theta) = \frac{a \cdot b}{\|a\| \|b\|} = \frac{8}{3 \times 3} = \frac{8}{9} \approx 0.889
$$

**정답:**  
- 내적 = 8  
- 코사인 유사도 ≈ 0.889  

</details>


In [None]:
# 파이썬으로 유클리드 거리, 내적, 코사인 유사도 계산 예시
import numpy as np

x = np.array([1, 2])
y = np.array([3, 4])

# 유클리드 거리
dist = np.linalg.norm(x - y)
print("유클리드 거리:", dist)

# 내적
dot = np.dot(x, y)
print("내적:", dot)

# 코사인 유사도
cos_sim = dot / (np.linalg.norm(x) * np.linalg.norm(y))
print("코사인 유사도:", cos_sim)

### 기하학적 해석
- 벡터는 공간에서의 “방향과 크기”를 나타냄  
- 행렬 × 벡터 곱은 벡터를 **회전·확대·축소·투영**하는 선형변환으로 이해 가능  

예시:  
$A = \begin{bmatrix} 2 & 0 \\ 0 & 3 \end{bmatrix}, \quad x = \begin{bmatrix} 1 \\ 1 \end{bmatrix}$   

$y = A x = \begin{bmatrix} 2 \\ 3 \end{bmatrix}$ 

→ \(x\) 벡터가 x축 방향으로 2배, y축 방향으로 3배 늘어남.  

👉 예: PCA(주성분분석)는 고차원 데이터를 새로운 축으로 투영하여 차원을 줄임  

### ✅ 체크포인트
- 머신러닝의 데이터는 벡터와 행렬로 표현된다.  
- 행렬 연산(특히 곱셈)은 입력 데이터 × 가중치 계산의 핵심이다.  
- 유클리드 거리와 내적은 데이터 간 유사도를 계산하는 기본 도구다.  
- 선형대수학은 머신러닝에서 “데이터를 수학적으로 다루는 언어” 역할을 한다.  


## 2.2 확률과 통계 복습

머신러닝은 데이터의 **불확실성**을 다루는 학문입니다.  
따라서 확률과 통계는 머신러닝을 이해하는 데 필수적인 배경지식입니다.  

### 확률의 기본 개념
- **사건(Event)**: 주사위를 던져 3이 나오는 것  
- **표본 공간(Sample space)**: 가능한 모든 결과 (예: {1,2,3,4,5,6})  
- **확률**: 사건이 일어날 가능성 (0 ≤ P(A) ≤ 1)  

In [None]:
# 동전 10번 던졌을 때 앞면이 나오는 횟수 시뮬레이션
import numpy as np

trials = np.random.choice(["앞", "뒤"], size=10, p=[0.5, 0.5])
print(trials)

### 확률변수
- **정의**: 확률변수(Random Variable)는 **확률실험의 결과를 실수(real number)로 대응시키는 함수**  
  - 즉, "집합"이 아니라 **함수형 객체**이며, 값의 자료형은 실수(ℝ)로 정의됨  
  - 다만, 그 확률변수가 실제로 가질 수 있는 값들의 집합(지원, support)은 문제에 따라 정수 집합일 수도, 연속 구간일 수도 있음  

- **이산확률변수 (Discrete Random Variable)** 
  - 유한개의 값 혹은 셀 수 있는 개수의 값으로 구성되어 있는 확률 변수
  - 가질 수 있는 값이 **유한하거나 셀 수 있는 무한 집합**에 속함  
  - 자료형: 정수형(int) 값으로 취급되는 경우가 많음  
  - 예: 주사위 눈금 $X \in \{1,2,3,4,5,6\}$, 동전 앞/뒤 $Y \in \{0,1\}$  

- **연속확률변수 (Continuous Random Variable)**  
  - 가질 수 있는 값이 **연속 구간(실수 전체 구간의 부분집합)**  
  - 자료형: 실수형(float, real) 값으로 취급  
  - 예: 사람의 키 $Z \in [140,200]$ cm, 시험 점수 $W \in [0,100]$ 

### 확률분포와 기대값
- **확률분포**: 확률변수가 각 값(이산/연속)에 대해 나타날 가능성을 설명하는 규칙  
  - 예: 베르누이분포(동전), 이항분포(반복된 동전 던지기), 정규분포(자연 현상 데이터)  

- **기대값(평균)**: 확률변수가 장기적으로 가질 값의 “중심”  
  - 이산형 예: 주사위 $X$의 기대값  
    $E[X] = \sum_{k=1}^6 k \cdot \frac{1}{6} = 3.5$  
  - 연속형 예: $X \sim U(0,1)$ (0~1 균등분포)라면  
    $E[X] = \int_0^1 x \, dx = 0.5$  

- **분산**: 기대값을 중심으로 한 값들의 퍼짐 정도  


In [None]:
import numpy as np
import matplotlib.pyplot as plt

# 정규분포 난수 생성
# loc   : 평균 (mean)
# scale : 표준편차 (standard deviation)
# size  : 생성할 난수의 개수
data = np.random.normal(loc=0, scale=1, size=1000)

print("평균:", np.mean(data))
print("분산:", np.var(data))

# 히스토그램 시각화
plt.hist(data, bins=30, density=True, alpha=0.6, color="b", edgecolor="black")
plt.grid(alpha=0.3)
plt.show()

### 조건부 확률과 베이즈 정리
- **조건부 확률**: 어떤 사건 B가 일어났다는 전제하에 A가 일어날 확률  

$$
P(A|B) = \frac{P(A \cap B)}{P(B)}
$$

- **베이즈 정리**: 새로운 정보가 주어졌을 때 확률을 갱신  

$$
P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}
$$

👉 머신러닝 예시: 스팸메일 필터 (단어가 등장했을 때 메일이 스팸일 확률)  



### 머신러닝에서 확률·통계의 역할
- 데이터의 **불확실성**을 수학적으로 모델링  
- 예측 결과에 **신뢰도(probability)** 부여  
- 확률 분포 기반 알고리즘:  
  - 나이브 베이즈 분류기  
  - 가우시안 혼합 모델 (GMM)  
  - Hidden Markov Model (HMM)  



### ✅ 체크포인트
- 확률은 사건이 일어날 가능성을 나타내며, 0~1 사이 값이다.  
- 확률변수는 이산형과 연속형으로 나뉜다.  
- 기대값과 분산은 데이터의 중심과 퍼짐을 나타낸다.  
- 조건부 확률과 베이즈 정리는 머신러닝에서 스팸 필터, 분류 문제 등에서 핵심적이다.  
- 머신러닝의 많은 모델은 확률적 사고를 기반으로 한다.  


## 2.3 미적분학 기초

머신러닝은 **최적화(Optimization)** 문제와 깊은 관련이 있습니다.  
최적화를 이해하기 위해서는 **함수, 미분, 적분** 개념이 필요합니다.  



### 함수와 그래프
- 함수: 입력 x → 출력 y  
- 머신러닝의 모델은 대부분 **함수 형태**로 표현됨 

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-5, 5, 100)
y = x**2

plt.plot(x, y)
plt.title("y = x^2 함수 그래프")
plt.xlabel("x")
plt.ylabel("y")
plt.show()

#### 미분 (Derivative)
- 함수의 순간 변화율 = 기울기  
- 머신러닝에서는 **손실 함수(Loss Function)** 의 최소화를 위해 활용됨  
  - 손실 함수 = 모델의 예측값과 실제 정답의 차이를 수치로 표현  
  - 손실이 작을수록 모델이 데이터를 잘 설명한다는 의미  
  - 따라서 **최솟값 = 가장 잘 학습된 모델**을 뜻함  

<p style="background-color:white; display:inline-block; padding:5px;">
  <img src="image/Derivative.svg" alt="Derivative">
</p>  

이미지 출처 : https://commons.wikimedia.org/wiki/File:Derivative_-_geometric_meaning.svg  

예: $f(x) = x^2 \quad \Rightarrow \quad f'(x) = 2x$

#### 미분이 쓰이는 이유
- **미분 전 값 $f(x)$**: 현재 손실의 크기 → “지금 모델이 얼마나 틀렸는가”  
- **미분 후 값 $f'(x)$**: 기울기(gradient) → “어느 방향으로, 얼마나 이동해야 손실이 줄어드는가”  

👉 손실 함수의 최솟값을 직접 계산하기는 어렵지만,  
“기울기(미분값)”을 이용하면 조금씩 줄여 나가면서 결국 최솟값에 수렴할 수 있음.  

#### 극소점과 최적화
- **극소점/극대점**은 미분값이 0인 지점에서 나타남  
- 머신러닝의 학습은 결국 **극소점(손실 최소점)** 을 찾아가는 과정  

<img src="image/Maxmin.png" width="550">

이미지 출처 : https://commons.wikimedia.org/wiki/File:Derivative_-_geometric_meaning.svg  

### 경사 하강법 (Gradient Descent)
1. 현재 위치에서 기울기(미분값)를 계산  
2. 기울기의 **반대 방향**으로 이동 (손실 감소 방향)  
3. 이를 반복하면 손실이 점점 줄어들어 극소점 근처에 도달  

✅ 정리  
- $f(x)$ = 현재 손실 값 (얼마나 틀렸는지)  
- $f'(x)$ = 기울기 (손실을 줄이기 위해 이동할 방향)  
- 최솟값 = 손실이 가장 작은 지점 → 학습된 모델 파라미터

In [None]:
### 코드 예시 1: 함수와 도함수
import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-5, 5, 100)
y = x**2
dy = 2*x  # 도함수

plt.plot(x, y, label="y = x^2")
plt.plot(x, dy, label="y' = 2x")
plt.legend()
#plt.title("함수와 도함수")
plt.show()

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# 예: 간단한 경사 하강법 (Gradient Descent)
# 목표: f(x) = x^2 함수의 최솟값을 찾는 과정 시뮬레이션

x = 5     # 초기값 (시작점). 처음에는 x=5에서 출발
lr = 0.1  # 학습률 (learning rate). 한 번 이동할 때의 보폭 크기

x_history = [x]  # 반복 과정에서의 x 값을 저장 (시각화를 위해)

for i in range(10):
    grad = 2*x          # 미분 f'(x) = 2x → 현재 위치에서의 기울기
    x = x - lr*grad     # 새로운 위치 = 현재 위치 - (학습률 × 기울기)
                        # → 기울기의 반대 방향으로 이동 (손실을 줄이는 방향)
    x_history.append(x) # 기록 저장
    print(f"{i+1}번째 반복 후 x={x:.4f}")

# --------------------------------------------------------
# 시각화
# f(x) = x^2 그래프 위에 경사 하강법의 이동 경로를 표시
# --------------------------------------------------------

# f(x) 정의
def f(x):
    return x**2

# x 범위 설정
xs = np.linspace(-6, 6, 200)
ys = f(xs)

plt.figure(figsize=(8,5))
plt.plot(xs, ys, label="$f(x) = x^2$", color="blue")        # 함수 그래프
plt.scatter(x_history, [f(val) for val in x_history],
            color="red", marker="o", label="Gradient Descent Path")  # 반복 경로
plt.plot(x_history, [f(val) for val in x_history], color="red", linestyle="--")

# 시각적 보조 요소
plt.title("Gradient Descent (f(x)=x^2)")
plt.xlabel("x 값")
plt.ylabel("f(x)")
plt.grid(alpha=0.3)
plt.legend()
plt.show()

### 편미분과 기울기 (Gradient)

머신러닝에서 모델을 학습시킨다는 것은 **손실 함수(loss function)를 최소화하는 과정**입니다.  
이 최소화 과정을 수행할 때, 우리가 사용하는 핵심 알고리즘이 바로 **경사 하강법(Gradient Descent)** 입니다.  

- 경사 하강법에서는 함수의 **기울기(Gradient)** 정보를 이용해, 손실이 줄어드는 방향으로 파라미터를 조정합니다.  
- 신경망(Neural Network)에서는 수천, 수만 개의 파라미터가 있기 때문에, 각 파라미터에 대해 **편미분(Partial Derivative)**을 계산해야 합니다.  
- 이때, 모든 파라미터에 대한 편미분을 동시에 계산하는 과정이 바로 **역전파(Backpropagation)** 알고리즘입니다.


##### **편미분 (Partial Derivative)**: 여러 변수를 가진 함수에서, **한 변수만 변하게 하고 나머지는 고정한 채 변화율을 구하는 것**  
  - 예: $f(x,y) = x^2 + y^2$  
    - $\frac{\partial f}{\partial x} = 2x$  
    
    - $\frac{\partial f}{\partial y} = 2y$  

##### **기울기 벡터 (Gradient Vector)**: 함수의 모든 편미분을 모아 벡터로 표현  
  $$
  \nabla f(x,y) = \left( \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right)
  $$
  - 기울기는 **함수가 가장 빠르게 증가하는 방향**을 가리킴  
  - 반대로, $-\nabla f$는 가장 빠르게 감소하는 방향 → 경사 하강법에서 이동 방향 

### 문제 1. 편미분 기본
함수 $( f(x,y) = x^2y + 3y $) 에 대하여  
- $(\frac{\partial f}{\partial x}$)  


- $(\frac{\partial f}{\partial y}$)  
를 구하세요.

<details>
<summary>정답 보기</summary>

- $(\frac{\partial f}{\partial x} = 2xy$)  
- $(\frac{\partial f}{\partial y} = x^2 + 3$)  

</details>

### 문제 2. 기울기 벡터
함수 $( f(x,y) = x^2 + y^2 $) 에서  
점 $(x,y) = (1,2)$에서의 기울기 벡터 $ \nabla f(x,y)\ $를 구하세요.

<details>
<summary>정답 보기</summary>

- $(\frac{\partial f}{\partial x} = 2x = 2(1) = 2$)  

- $(\frac{\partial f}{\partial y} = 2y = 2(2) = 4$)  

따라서, $\nabla f(1,2) = (2,4) $ 

</details>

### 문제 3. 다변수 함수의 해석
함수 $ f(x,y,z) = xyz $에 대하여  
- $(\frac{\partial f}{\partial x}$),   

- $(\frac{\partial f}{\partial y}$),  

- $(\frac{\partial f}{\partial z}$)  

를 구하세요.

<details>
<summary>정답 보기</summary>

- $\frac{\partial f}{\partial x} = yz$  

- $\frac{\partial f}{\partial y} = xz$  

- $\frac{\partial f}{\partial z} = xy$  


</details>

### 딥러닝의 역전파 (Backpropagation)와 행렬곱
- 신경망은 보통 **행렬곱 연산**으로 입력 → 출력 변환을 수행함  
  $$
  z = W x + b, \quad y = \sigma(z)
  $$  
  - $x$: 입력 벡터  
  - $W$: 가중치 행렬 (파라미터)  
  - $b$: 편향 벡터  
  - $\sigma$: 활성화 함수  

- **손실 함수 $L$** 에 대해 각 파라미터에 대한 기울기를 계산하면:  
  $$
  \frac{\partial L}{\partial W} = \delta \cdot x^T, \quad 
  \frac{\partial L}{\partial b} = \delta
  $$  
  - 여기서 $\delta$는 오차 신호 (loss의 기울기)  

- **업데이트 규칙 (경사 하강법)**  
  $$
  W \leftarrow W - \eta \frac{\partial L}{\partial W}, \quad 
  b \leftarrow b - \eta \frac{\partial L}{\partial b}
  $$  
  - $\eta$: 학습률(learning rate)  
  - 즉, 가중치 행렬 $W$도 **행렬 연산**을 통해 기울기에 따라 반복적으로 갱신됨  

👉 요약: 역전파는 **행렬곱으로 연결된 파라미터들에 대해 편미분을 계산**하고,  
이를 바탕으로 $W$와 $b$를 업데이트하여 손실을 줄이는 과정이다.  

### 역전파와 행렬 예시

간단히 입력 $x$, 가중치 행렬 $W$, 출력 $z$를 예로 들어보자.

$$
x = 
\begin{bmatrix}
1 \\
2
\end{bmatrix},
\quad
W = 
\begin{bmatrix}
0.5 & -0.2 \\
0.3 & 0.8
\end{bmatrix}
$$

앞전파(Forward Pass):

$$
z = W x =
\begin{bmatrix}
0.5 & -0.2 \\
0.3 & 0.8
\end{bmatrix}
\begin{bmatrix}
1 \\
2
\end{bmatrix}
=
\begin{bmatrix}
0.1 \\
1.9
\end{bmatrix}
$$


손실 함수 $L$에 대한 기울기(오차 신호) $\delta$가 다음과 같다고 하자.

$$
\delta =
\begin{bmatrix}
0.2 \\
-0.1
\end{bmatrix}
$$

가중치에 대한 편미분은 외적 형태로 계산됨:

$$
\frac{\partial L}{\partial W} = \delta \cdot x^T =
\begin{bmatrix}
0.2 \\
-0.1
\end{bmatrix}
\begin{bmatrix}
1 & 2
\end{bmatrix}
=
\begin{bmatrix}
0.2 & 0.4 \\
-0.1 & -0.2
\end{bmatrix}
$$

업데이트 규칙 (학습률 $\eta = 0.1$):

$$
W \leftarrow W - \eta \frac{\partial L}{\partial W}
$$

$$
W_{\text{new}} =
\begin{bmatrix}
0.5 & -0.2 \\
0.3 & 0.8
\end{bmatrix}
-
0.1 \times
\begin{bmatrix}
0.2 & 0.4 \\
-0.1 & -0.2
\end{bmatrix}
=
\begin{bmatrix}
0.48 & -0.24 \\
0.31 & 0.82
\end{bmatrix}
$$

### ✅ 정리:  
- 입력 $x$와 오차 신호 $\delta$로부터 기울기 행렬을 계산  
- 그 기울기를 이용해 $W$를 조금씩 갱신  
- 이 과정이 모든 층(layer)에서 반복되며, **신경망의 학습**이 이루어진다.

경사하강법과 오차역전파(Backpropagation)에 대한 이해 및 정리를 위해 아래 영상을 참고하시기 바랍니다.  

🔗 [신박 AI님의 역전파 알고리즘 강의](https://youtu.be/DMCJ_GjBXwc?si=a37mmPdPTjMeo9-M)

### 적분 (Integration)
- **적분의 의미**: 함수 아래의 넓이(누적값)를 계산하는 것  
  $\int_a^b f(x)\, dx \;=\; \text{f(x)의 } a \text{부터 } b \text{까지의 누적값}$

- **머신러닝에서의 활용**
  1. **확률분포**  
     - 확률밀도함수(pdf) $f(x)$의 전체 면적 = 1  
     - 어떤 구간의 확률 = 구간에 대한 면적  
       $$
       P(a \leq X \leq b) = \int_a^b f(x)\, dx
       $$  

  2. **기대값 계산**  
     - 연속확률변수의 기대값은 적분으로 구함  
       $$
       E[X] = \int_{-\infty}^\infty x f(x)\, dx
       $$  
     - 예: $X \sim U(0,1)$ (균등분포)라면  
       $$
       E[X] = \int_0^1 x \, dx = 0.5
       $$  

👉 정리  
- **미분**: 기울기를 구해 최솟값(손실 최소점)을 찾는 도구  
- **편미분·기울기**: 고차원 문제에서 모든 변수에 대한 기울기를 구해 학습에 사용  
- **역전파**: 행렬곱으로 연결된 신경망의 파라미터에 대해 편미분을 계산하고 업데이트  
- **적분**: 확률분포와 기대값 계산에 필수, 데이터가 어떻게 분포하는지 이해하는 기초 도구  


In [None]:
from scipy import integrate

result, _ = integrate.quad(lambda x: x**2, 0, 1)  # ∫0~1 x^2 dx
print("적분 결과:", result)

### 머신러닝에서의 필요성
- **미분**: 손실 함수 최소화 (경사하강법)  
- **편미분**: 고차원 파라미터 최적화 (신경망 학습)  
- **적분**: 확률 분포에서 면적, 누적 확률 계산  



### ✅ 체크포인트
- 함수는 입력을 출력으로 바꾸는 규칙이며, 머신러닝 모델은 대부분 함수로 표현된다.  
- 미분은 기울기를 계산하여 최적화에 활용된다.  
- 편미분과 기울기는 고차원 데이터에서 필수적이다.  
- 적분은 확률 분포와 기대값 계산에 자주 사용된다.  
- 머신러닝 학습 과정(경사하강법, 역전파)은 미적분 개념에 기반한다.  

## 3. 종합 연결: 수학과 머신러닝의 만남

앞서 살펴본 **선형대수학, 확률·통계, 미적분학**은 단순한 이론이 아니라  
머신러닝 알고리즘의 **핵심 도구**입니다.

## 3.1 선형대수학 → 데이터 표현과 변환
- 데이터는 벡터/행렬 형태로 저장됨  
- 행렬 곱을 통해 입력 데이터 × 가중치 = 예측값  
- 차원 축소 (PCA) → 고차원 데이터를 저차원으로 투영  
- 거리와 내적 → 데이터 간 유사도 계산  

👉 예: KNN 분류 (거리 기반), 추천 시스템 (코사인 유사도), PCA

## 3.2 확률·통계 → 불확실성 모델링
- 현실의 데이터는 항상 불확실성을 포함  
- 확률분포는 데이터를 설명하는 기본 틀  
- 조건부 확률과 베이즈 정리 → 분류 문제에 활용  
- 통계적 추론(평균, 분산, 표준편차)은 데이터 탐색과 모델 평가의 기본  

👉 예: 스팸메일 필터(베이즈 분류기), GMM(군집화), 로지스틱 회귀(확률 기반 분류)

## 3.3 미적분학 → 최적화와 학습
- 머신러닝의 목표 = **손실 함수 최소화**  
- 미분: 함수의 기울기를 계산 → 경사하강법으로 최적화  
- 편미분과 기울기 벡터: 다차원 파라미터 최적화에 사용  
- 적분: 확률 분포의 면적 계산, 기대값 구하기  

👉 예: 신경망 학습(역전파), 회귀분석(최소제곱법), 경사하강법

## 3.4 전체 그림
머신러닝 = **데이터(선형대수학) + 불확실성(확률·통계) + 최적화(미적분학)**

- **선형대수학**: 데이터를 구조화하고 변환  
- **확률·통계**: 불확실성을 수학적으로 모델링  
- **미적분학**: 모델을 학습시키는 최적화 과정 

### ✅ 체크포인트
- 머신러닝은 수학적 개념들의 종합적인 응용이다.  
- 벡터/행렬(선형대수학)은 데이터를 다루는 언어이다.  
- 확률·통계는 데이터의 불확실성을 다루는 도구이다.  
- 미적분학은 모델을 학습시키는 최적화의 핵심이다.  
- 이 세 가지가 결합되어 현대 머신러닝 알고리즘이 동작한다.  

### 머신러닝 기본기 실습 문제



### 문제 1. 벡터와 거리
두 벡터 `x = [3, 4]`, `y = [0, 0]`의 유클리드 거리를 계산하세요.  

<details>
<summary>정답 보기</summary>

```python
import numpy as np

x = np.array([3, 4])
y = np.array([0, 0])

dist = np.linalg.norm(x - y)
print("거리:", dist)  # 5.0
```
</details>



In [None]:
import numpy as np

x = np.array([3, 4])
y = np.array([0, 0])

### 문제 2. 내적과 코사인 유사도
벡터 `a = [1, 2]`, `b = [2, 3]`의 내적과 코사인 유사도를 계산하세요.  

<details>
<summary>정답 보기</summary>

```python
a = np.array([1, 2])
b = np.array([2, 3])

dot = np.dot(a, b)
cos_sim = dot / (np.linalg.norm(a) * np.linalg.norm(b))

print("내적:", dot)            # 8
print("코사인 유사도:", cos_sim)  # 약 0.98
```
</details>




### 문제 3. 확률 시뮬레이션
동전을 100번 던졌을 때 앞면이 나오는 비율을 시뮬레이션하세요. (난수 시드 고정)  

<details>
<summary>정답 보기</summary>

```python
np.random.seed(42)
trials = np.random.choice(["앞", "뒤"], size=100, p=[0.5, 0.5])
ratio = np.mean(trials == "앞")
print("앞면 비율:", ratio)
```
</details>



In [None]:
# 여기에 정답을 작성하세요
np.random.seed(42)

### 문제 4. 정규분포 난수 생성
평균 50, 표준편차 10인 정규분포에서 1000개의 표본을 생성하고, 평균과 분산을 출력하세요.  

<details>
<summary>정답 보기</summary>

```python
data = np.random.normal(loc=50, scale=10, size=1000)

print("표본 평균:", np.mean(data))
print("표본 분산:", np.var(data))
```
</details>



In [3]:
# 여기에 정답을 작성하세요


### 문제 5. 조건부 확률
학생 100명 중 40명이 수학을 좋아하고, 그 중 30명이 과학도 좋아합니다.  
이때, 수학을 좋아하는 학생이 과학도 좋아할 확률 \(P(과학|수학)\)을 구하세요.  

<details>
<summary>정답 보기</summary>

```python
P_math = 40/100
P_math_and_science = 30/100
P_science_given_math = P_math_and_science / P_math

print("P(과학|수학):", P_science_given_math)  # 0.75
```

</details>



In [None]:
# 코딩 없이 풀 수 있는 문제입니다.

### 문제 6. 미분
함수 $ f(x) = x^2 $의 도함수는 $ f'(x) = 2x $ 입니다.  
x=3일 때 도함수 값을 직접 계산하세요.  

<details>
<summary>정답 보기</summary>

```python
x = 3
grad = 2*x
print("f'(3) =", grad)  # 6
```
</details>



In [None]:
# 코딩 없이 풀 수 있는 문제입니다.

### 문제 7. 경사하강법
다음 함수의 최소값을 구하고자 합니다.  
$ f(x) = x^2 $

1. 경사하강법을 이용하여 $f(x)$를 최소화하세요.
2. 초기값은 x=5, 학습률 lr는 0.1로 설정합니다. 
3. 업데이트 식은 다음과 같습니다.  

    $ x_{t+1} = x_t - lr \cdot f'(x_t), \quad \text{단 } f'(x) = 2x $

4. 위 식을 이용하여 **10회 반복 후의 $x$ 값과 $f(x)$ 값**을 구하세요 

<details>
<summary>정답 보기</summary>

```python
x = 5
lr = 0.1

for i in range(10):
    grad = 2*x
    x = x - lr*grad
    print(f"{i+1}회차: x={x:.4f}, f(x)={x**2:.4f}")
```
</details>

In [6]:
# 여기에 정답을 작성하세요


### ✅ 체크포인트
- 선형대수학 → 벡터, 거리, 내적, 유사도  
- 확률·통계 → 분포, 조건부 확률, 시뮬레이션  
- 미적분학 → 함수의 변화율, 최적화(경사하강법)  
- 이 수학적 기초들이 합쳐져 머신러닝 모델 학습이 가능해진다.  