In [None]:
import numpy as np
import pandas as pd
import scipy as sp
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# 인공지능 (규칙 기반) > 머신러닝 (데이터 기반) > 딥러닝 (신경망)
# 머신러닝: 지도학습, 비지도학습, 강화학습 (데이터 속에서 정보 발견)
# 지도학습: 타겟 데이터 O, 채점 가능
# 비지도학습: 타겟 데이터 X, 채점 불가
# 강화학습: 환경 및 규칙에 대해 완벽하게 알아야 함, Action과 Reward
# Labeling: 타겟 데이터 이름표 붙이는 작업
# 분류: 문자형, 범주형, 오차 용납 X, ex. 양품/불량
# 예측: 숫자형, 연속형, 오차 용납 O, ex. 1/2/3
# 데이터 퀄리티 중요 (중복 되는 데이터 or 무의미한 데이터는 제거해서 학습 퀄리티 높임)
# 머신러닝의 한계: 외부 정보 반영 어려움

# dataframe 열이름/변수명/필드명, 레코드/관측치
# 인코딩: 컴퓨터가 읽을 수 있게 변환
# 디코딩: 인간이 읽을 수 있게 변환

# sigma/pi/factorial/combination/indicator
# e/min/argmin/max/argmax
# 극한: x->a, lim f(x)->L, x가 a와 다른 값이며 a에 가까워짐에 따라 f(x) 값이 L에 가까워지면 f(x)는 L에 수렴 (좌극한과 우극한 일치)
# 평균 변화율: (f(b)-f(a))/(b-a), lim x->0 (f(x)-f(a))/(x-a)
# 미분 불가능: 뾰족하거나 끊어지거나 좌극한과 우극한이 다름
# 부분적분 : ∫f(x)g'(x) = f(x)g(x)-∫f'(x)g(x)

In [None]:
df = pd.read_csv('./data/performance.csv', encoding='cp949')
df['TOTAL_PRICE'] = df['ACHIEVEMENT'] + df['ABILITY'] + df['ATTITUDE']
df.drop('TOTAL_PRICE', axis=1, inplace=True)

In [None]:
df = pd.read_csv('./data/house_prices.csv', encoding='cp949')

In [None]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])
C = np.concatenate((A, B), axis=0) # pd.concat(A, B, axis=0)

In [None]:
# 스벡확행, 스칼라/벡터/확률변수/행렬식 (소문자, 소문자 볼드, 대문자, 대문자 볼드)
# 대각행렬: 대각성분을 제외한 나머지 모든 성분이 0
# 단위행렬: 항등행렬이라 불리며 대각성분이 1인 대각행렬
# 삼각행렬: 상/하 삼각행렬
# 행렬식: 정사각 행렬을 스칼라로 변환 (정사각 행렬만 해당)
# 3차원 이상의 행렬식은 부피이며, 한개라도 선형 종속이 있으면 (동일 기저 벡터가 있으면) 행렬식은 0
# 행렬식 0이면 역행렬이 존재하지 않아 해가 무수히 많거나 없다
# 역행렬: 존재 O (det≠0, nonsingular matrix), 존재 X (det=0, singular matrix)
# cos = uv/(|u||v|) -> (uv: core function |u||v|: scaler function)
# 정규 직교 벡터: 직교하면서 크기가 1인 벡터
# 단위 벡터: 길이가 1인 벡터
# 선형 변환: 2차원 벡터를 3차원 벡터로 ex. ([2, 1], [0, 3], [2, 0])*(2, 1) = ([5], [3], [4]), (3*2)*(2x1)=(3x1)
# 선형 독립: 선형 조합으로 표현 불가, 선형 종속: 선형 조합 표현 가능
# 기저: 벡터 공간을 생성하는 선형 독립인 벡터들
# 기저 조건: 1) 기저가 공간 S 생성, 2) 선형 독립
# 기저는 항상 직교일 필요 X, 유일하지 X
# 기저 성질: n차원 벡터공간 S에서
#   n개가 넘는 벡터가 만드는 집합은 선형 종속
#   n개 미만의 벡터가 만드는 집합은 벡터공간 S 생성 불가
#   벡터공간의 모든 기저 벡터의 개수는 동일
# 차원: 기저 벡터의 개수/0이 아닌 값을 가지는 고유값의 수
# 랭크: 행공간과 열공간의 공통 차원, min(열 개수, 행 개수), full rank: 최대 가질 수 있는 차원
# 영 공간(null space): Ax=0 을 만족하는 모든 벡터 X의 집합
# nullity: 영 공간의 차원
# 행공간과 열공간의 성질
#  기본 행 연산은 행렬의 영공간 변화 X
#  기본 행 연산은 행렬의 행공간 변화 X
#  행렬 A의 행공간과 열공간의 차원은 동일
# 고유벡터: 기저, 반드시 직교하지 않음, 대칭행렬의 고유벡터는 직교함
# 고유값: 고유벡터의 크기, 클 수록 더 많은 정보를 담음
# 대각화: D = P-1AP 행렬을 대각행렬로 만드는 것 (가역행렬 P가 존재해야 함, P가 직교행렬이면 직교 대각화 가능, P는 고유벡터, A는 고유값으로 만든 행렬)
# 고유값 분해: 직교 대각화의 한 종류, A = PDPt (P 직교행렬이라 P-1은 전치행렬, 직교행렬의 역행렬은 전치행렬)
# 특이값 분해: 기존 차원(3)보다 작은 차원(2) 부분 공간을 찾는 문제, 특이값 = sqrt(고유값)

In [None]:
X = df[['CRIM', 'NOX', 'RM', 'AGE', 'TAX']]
X_t = X.T
XtX = X_t@X
XtX_dt = np.linalg.det(XtX)
XtX_inv = np.linalg.inv(XtX)

In [None]:
res = np.inner(df['CRIM'], df['NOX'])

In [None]:
cov_x = X_t@X
e, v = np.linalg.eig(cov_x)
u, s, vt = np.linalg.svd(cov_x)
u2, s2, vt2 = np.linalg.svd(X)

singular, nonsingular = np.square(s2), s

In [None]:
# 확률변수: 확률 현상을 통해 값이 확률적으로 정해지는 변수
# 이론적 확률 (이론적, 미래) vs 경험적 확률 (경험적, 과거)
# 확률: 어떤 사건이 발생할 가능성을 수치화 시킨 것으로 0 ~ 1 값을 가짐
# 공리적 정의: 1) 0<=P(A)<=1, 2) P(Ω)=1, 3) A1, A2.. 상호 배반 사건이면, P(U(Ai)) = Σ(P(Ai)). U: 전체 집합(표본 공간)
# 확률의 독립: P(A∩B)=P(A)P(B)
# 확률의 배반: P(A∩B)=0
# 조건부 확률: P(Y|X)=P(X|Y)*P(Y)/P(X), P(Y): 사전확률(균일분포), P(Y|X): 사후확률(베타분포)
# 평균 (location parameter), 분산 & 표준편차 (scale parameter)
# 자유도: numpy(ddof=0), pandas(ddof=1)
# 모집단: 관심대상 전체 집합
# 모수: 모집단의 특성을 나타내는 대표값, μ(모평균), σ(모표준편차), σ2(모분산)
# 표본: 모집단의 부분 집합, x(표본평균), s(표본표준편차), s2(표본분산)
# 상관관계: 양/음/없음, 범위 무제한
#   Cov(X,Y) = E[(X-μx)(Y-μy)], 모공분산
#   Cov(X,Y) = 1/(n-1)*Σ(xi-x)(yi-y), 표본공분산
#   Cov(X) = 1/(n-1)*XtX (if 표준화)
# 피어슨 상관계수: Corr(X,Y)=Cov(X,Y)/(σx*σy), -1<=Corr(X,Y)<=1, 0.6, -0.6 기준 강한 상관 관계
# 상관관계 O → 인과관계 O ? XXXX

In [None]:
cov_x = np.cov(X, rowvar=0)
cov_x = np.cov(X.T)
cov_x = X.cov()

corr_x = np.corrcoef(X.T)
corr_x = X.corr()

In [None]:
# 데이터 수가 많아지면 정규분포를 따른다 X
# 확률분포: 확률변수가 특정한 값을 가직 확률을 나타내는 함수
# 이산확률분포(셀수 O), 연속확률분포(셀수 X)
# 확률질량함수: 이산확률변수에서 특정 값에 대한 확률을 나타내는 함수
# 확률밀도함수: 연속확률변수에서 특정 구간에 포함될 확률을 나타내는 함수
# 누적분포함수: 주어진 확률변수가 특정 값보다 작거나 같을 확률 (이산: 계단모양, 연속: 연속)

# 이산형 확률 분포
#   균일분포: 사전 확률 [확률변수가 특정 값을 가질 확률이 모두 동일한 분포, X~U(1,N)]
#   베르누이분포: 1회 시행, 성공 횟수  [0 or 1, 한번 시행했을때 성공 횟수]
#   이항분포: n번 시행, 성공 횟수 (정규 분포) [0~n, 독립적으로 베르누이 시행을 n번 한 경우의 총 성공 횟수]
#   포아송분포: 단위 시간 동안 성공 횟수 (정규 분포) [0~inf, 단위 시간 동안 이벤트 발생 횟수]
#   기하분포: 첫 성공까지의 시도 횟수 [Y=X-1, Y: 실패횟수, X: 시도횟수, X가 시도횟수기 때문에 1부터 시작, C가 없는 이유는 성공하면 바로 끝이기 때문]

# 연속형 확률 분포
#   균일분포
#   정규분포: 표준정규분포: 평균 0, 분산 1 [X~N(μ, σ2), 표본정규분포: X~N(0, 1)]
#   감마분포: a번째 사건이 발생할때까지의 대기시간의 분포 [0~inf]
#   지수분포: a=1인 감마분포 [0~inf]
#   카이제곱분포: a=p/2, b=2인 감마분포
#   베타분포: 0~1 [사후확률]

In [None]:
size = 10000

# 이산형 확률분포

# 균일 분포
x = np.random.randint(low=1, high=6, size=size)
# 베르누이 분포
x = np.random.binomial(n=1, p=1/3, size=size)
# 이항 분포
x = np.random.binomial(n=10, p=1/3, size=size)
# 포아송 분포
x = np.random.poisson(lam=2, size=size)
# 기하 분포
x = np.random.geometric(p=1/3, size=size)

In [None]:
# 연속형 확률분포

# 균일 분포
x = np.random.uniform(low=1, high=6, size=size)
# 정규분포
x = np.random.normal(loc=60, scale=6, size=size)
# 감마분포
x = np.random.gamma(shape=2, scale=3, size=size)
# 지수분포
x = np.random.exponential(scale=2, size=size)
# 카이제곱분포
x = np.random.chisquare(df=3, size=size)
# 베타분포
x = np.random.beta(a=2, b=3, size=size)

In [None]:
# MLE (Maximum Likelihood Estimator): 데이터가 있는데 이 데이터가 어떤 분포에서 나왔는지 추정
# L(θ|x) = Π(f(xi|θ)), θ: 모수, x: 데이터, L: 가능도함수, xi: i번째 데이터
#    동시에 n개의 x 데이터를 얻기 위해 곱함
# argmax(L(θ|x)) = argmax(Π(f(xi|θ))) → 최대값일때의 θ 구하는 것
# 로그 취함, log(L(θ|x)) = log(Π(f(xi|θ))) = Σ(f(xi|θ))
#    로그함수는 1대1함수이므로 성질 변하지 않음
#    빅데이터에 적용하면 가능도 함수는 0에 수렴함으로 오류 발생 가능성 존재

# MAP (Maximum A Posterior): 사후 확률 밀도 함수 최대화 하기

In [None]:
# 두 집단 간 차이
# 귀무가설(H0): 두 집단 간 차이가 없다 [H0: μ1=μ2]
# 대립가설(H1)
#   양측검정: 두 집단 간 차이가 있다   [H1: μ1≠μ2]
#   단측검정: A 집단이 B집단보다 크다  [H1: μ1>μ2]
# 가설검정: 가설 세우고, 검정통계량 구하고, 결론 내림
# p-value: 귀무가설 참일때, 표본데이터가 수집될 확률, p-value가 낮을수록 대립가설 채택, 유의수준(a)은 0.05 (통상) or 0.01 선택
#         H0 채택       H1 채택
# H0 참      O          1종 오류
# H1 참   2종 오류         O

# 가설 검정 → 정규성 검정 → 데이터 개수 → z-test (30개 이상)
#                                     → t-test
#                        → 순위합 검정

# 세 집단 평균 차이 검정
# 총 오차 = 집단 내 오차 + 집단 간 오차
# 집단 내 오차 = 각 데이터 값 - 집단 평균
# 집단 간 오차 = 각 집단 평균 - 전체 평균
# 집단 간 오차 > 집단 내 오차 → 집단 간 평균 차이가 있다
# F 통계량 = ((집단 간 오차)/(집단 개수-1))/(집단 내 오차/(전체 데이터 수-집단 개수))

In [None]:
df = pd.read_csv('./data/performance.csv', encoding='cp949')
df_a = df[df['TEAM']=='A']['ACHIEVEMENT']
df_b = df[df['TEAM']=='B']['ACHIEVEMENT']
df_c = df[df['TEAM']=='C']['ACHIEVEMENT']
df_d = df[df['TEAM']=='D']['ACHIEVEMENT']
df_e = df[df['TEAM']=='E']['ACHIEVEMENT']

In [None]:
# A, B 집단 평균 차이 검정
df_a_mean = np.mean(df_a)
df_b_mean = np.mean(df_b)
print(df_a_mean, df_b_mean)
print('\nTeam B의 평균 성과점수가 Team A의 평균 성과점수보다 높음\n')
print('H0: Team A의 평균 성과점수는 Team B의 평균 성과점수와 차이가 없다')
print('H1: Team B의 평균 성과점수는 Team A의 평균 성과점수보다 높다\n')

test_stat, p = sp.stats.shapiro(df_a)
print(f'Team A 정규성 검증 검정통계량: {test_stat}, p-value: {p}')
test_stat, p = sp.stats.shapiro(df_b)
print(f'Team B 정규성 검증 검정통계량: {test_stat}, p-value: {p}\n')
print('Team B 검정 통계량 p-value 값이 0.05 미만이므로 H1 채택, 즉 정규성을 따르지 않음으로 순위합 검정 진행\n')

test_stat, p = sp.stats.ranksums(df_b, df_a, alternative='greater')
print(f'순위합 검증 검정통계량: {test_stat}, p-value: {p}\n')
print('순위합 검정 결과 p-value 값이 0.05 초과했으므로 H0 채택\n즉, Team A 평균 성과점수는 Team B 평균 성과점수와 차이가 없다')

z_u = df_b_mean-df_a_mean
z_l = ((np.var(df_a)/len(df_a))+(np.var(df_b)/len(df_b)))**0.5
z_value = z_u/z_l
z_dist = sp.stats.norm(0, 1)
p_value = 1-z_dist.cdf(z_value)

test_stat, p = sp.stats.ttest_ind(df_b, df_a, alternative='greater')