<a href="https://colab.research.google.com/github/pinggu95/deep_dive_AI/blob/main/%EA%B8%B0%EC%B4%88_%EC%88%98%ED%95%99_%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5_%EC%88%98%ED%95%99.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 1. 순열과 조합 (Permutations & Combinations)

순열은 순서가 중요한 경우, 조합은 순서가 중요하지 않은 경우 사용합니다.

In [None]:
from math import factorial
from itertools import permutations, combinations

# 순열: 3개 중 2개를 순서 있게 뽑기
perm = list(permutations([1, 2, 3], 2))
# 조합: 3개 중 2개를 순서 없이 뽑기
comb = list(combinations([1, 2, 3], 2))

perm, comb


([(1, 2), (1, 3), (2, 1), (2, 3), (3, 1), (3, 2)], [(1, 2), (1, 3), (2, 3)])

## 2. 조건부 확률 (Conditional Probability)

P(A|B) = P(A ∩ B) / P(B)

In [None]:
# 예: 30명 중 18명은 A, 12명은 B, 그 중 6명은 A∩B
P_A = 18 / 30
P_B = 12 / 30
P_A_and_B = 6 / 30
P_A_given_B = P_A_and_B / P_B
P_A_given_B


0.5

## 3. 베이즈 정리 (Bayes' Theorem)

P(A|B) = (P(B|A) * P(A)) / P(B)

In [None]:
# 예: P(병|양성) = (P(양성|병) * P(병)) / P(양성)
P_disease = 0.01
P_positive_given_disease = 0.99
P_positive = 0.05
P_disease_given_positive = (P_positive_given_disease * P_disease) / P_positive
P_disease_given_positive


0.198

## 4. 기댓값/분산/표준편차

기댓값은 평균, 분산은 편차의 제곱 평균, 표준편차는 분산의 제곱근

In [None]:
import numpy as np

data = [1, 2, 3, 4, 5]
mean = np.mean(data)
var = np.var(data)
std = np.std(data)

mean, var, std


(np.float64(3.0), np.float64(2.0), np.float64(1.4142135623730951))

## 5. 확률 밀도 함수 (PDF)

확률 밀도 함수는 연속 확률변수의 확률 분포를 나타냅니다.

In [None]:
import scipy.stats as stats
import numpy as np

x = np.linspace(0, 1, 100)
pdf = stats.beta.pdf(x, a=2, b=5)
pdf[:5]  # 일부 값만 출력


array([0.        , 0.29097092, 0.5585502 , 0.80380642, 1.02777889])

## 6. 베르누이 분포 (Bernoulli Distribution)

베르누이 분포는 두 가지 결과(성공/실패)를 가지는 분포입니다.

In [None]:
from scipy.stats import bernoulli

r = bernoulli.rvs(p=0.3, size=10)
r


array([0, 1, 0, 0, 0, 0, 0, 0, 0, 0])

## 7. 이항분포와 포아송분포

이항분포: 고정된 시행에서 성공 횟수, 포아송: 단위시간당 사건 발생 횟수

In [None]:
from scipy.stats import binom, poisson

binomial = binom.rvs(n=10, p=0.5, size=10)
poisson_dist = poisson.rvs(mu=3, size=10)

binomial, poisson_dist


(array([4, 5, 3, 5, 5, 4, 8, 7, 5, 6]), array([5, 1, 1, 2, 2, 3, 1, 5, 6, 0]))

## 8. 연속확률분포 - 균등분포 (Uniform)

모든 값이 동일한 확률을 가지는 분포

In [None]:
from scipy.stats import uniform

samples = uniform.rvs(loc=0, scale=10, size=10)
samples


array([5.11015577, 4.83354755, 5.58969328, 4.08271165, 4.43022828,
       8.00660003, 1.23513738, 6.24167987, 8.69643558, 7.38760594])

## 9. 연속확률분포 - 균등분포 (다시)

범위 내의 값이 동일한 확률로 발생

In [None]:
x = np.linspace(0, 1, 100)
pdf = uniform.pdf(x, loc=0, scale=1)
pdf[:5]


array([1., 1., 1., 1., 1.])

## 10. (표준)정규분포

평균 0, 표준편차 1인 종모양 분포

In [None]:
x = np.linspace(-3, 3, 100)
pdf = stats.norm.pdf(x, loc=0, scale=1)
pdf[:5]


array([0.00443185, 0.00530579, 0.00632878, 0.00752133, 0.00890582])

## 11. 지수분포 (Exponential), 로그

어떤 사건이 일어날 때까지 걸리는 시간 분포

In [None]:
samples = stats.expon.rvs(scale=2, size=10)
samples


array([2.08245243, 0.96144307, 1.03770236, 0.44312234, 0.13361052,
       0.6475755 , 2.78851234, 0.90070413, 0.77663432, 1.30257987])

In [None]:
import numpy as np

x = 8

# 자연로그 (밑 e)
ln_x = np.log(x)
print("자연로그 log_e(x):", ln_x)

# 밑 10 로그
log10_x = np.log10(x)
print("상용로그 log_10(x):", log10_x)

# 밑 2 로그
log2_x = np.log2(x)
print("이진로그 log_2(x):", log2_x)

자연로그 log_e(x): 2.0794415416798357
상용로그 log_10(x): 0.9030899869919435
이진로그 log_2(x): 3.0


## 12. 결합확률분포와 결합밀도함수

두 변수의 결합된 확률 분포

In [None]:
mean = [0, 0]
cov = [[1, 0.8], [0.8, 1]]
samples = np.random.multivariate_normal(mean, cov, 100)
samples[:5]


array([[-0.56361775, -0.84589147],
       [ 1.7550836 ,  1.16449971],
       [-0.44364705, -0.34945163],
       [-1.81743599, -2.42861649],
       [-0.08471737,  0.95919032]])

## 13. 공분산과 상관관계, 공분산행렬

공분산은 두 변수의 변화량 관계, 상관관계는 [-1, 1] 범위의 상관성

In [None]:
x = np.random.randn(100)
y = 2 * x + np.random.randn(100)
cov_matrix = np.cov(x, y)
corr = np.corrcoef(x, y)

cov_matrix, corr


(array([[0.89477348, 1.8939951 ],
        [1.8939951 , 4.78126122]]),
 array([[1.        , 0.91569546],
        [0.91569546, 1.        ]]))

## 14. 주성분 분석 (PCA)

데이터의 차원을 축소하여 주요 성분 추출

In [None]:
from sklearn.decomposition import PCA

X = np.random.randn(100, 3)
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

X_pca[:5]


array([[ 1.21951599, -1.14164734],
       [ 0.15095185,  0.02693268],
       [ 0.42291129,  1.87833368],
       [-0.96466015, -1.91806811],
       [ 1.00006512,  0.95868506]])