In [3]:
import numpy as np
import scipy.stats

In [25]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

## 이항검정

In [7]:
scipy.stats.binom_test(3, n=15, p=0.1, alternative='greater')

0.18406106910639114

## 카이제곱 검정

In [11]:
scipy.stats.chisquare([1,2])
scipy.stats.chi2_contingency([1,2]) # 독립검정  

(0.0, 1.0, 0, array([1., 2.]))

## 단일표본 t-검정
* ttest_1samp(표본 데이터 배열, 귀무가설 기댓값)

In [14]:
rvs = scipy.stats.norm.rvs(loc=5, scale=10, size=(50,2))
scipy.stats.ttest_1samp(rvs, popmean=0)

Ttest_1sampResult(statistic=array([4.19567036, 3.40670027]), pvalue=array([0.00011389, 0.00132173]))

## 독립표본 t-검정(등분산검정)
* ttest_ind(1표본 집합, 2표본 집합, equal_var= TRUE두 표본 분산 동일)

In [19]:
rvs1 = scipy.stats.norm.rvs(loc=5,scale=10,size=500)
rvs2 = scipy.stats.norm.rvs(loc=5,scale=10,size=500)
scipy.stats.ttest_ind(rvs1,rvs2)

Ttest_indResult(statistic=1.3653619613781396, pvalue=0.17244698309059026)

## 대응표본 t-검정
* ttest_rel(1표본 집합, 2표본 집합)

In [20]:
rvs1 = scipy.stats.norm.rvs(loc=5,scale=10,size=500)
rvs2 = scipy.stats.norm.rvs(loc=5,scale=10,size=500)
scipy.stats.ttest_rel(rvs1,rvs2)

Ttest_relResult(statistic=0.9123887672881138, pvalue=0.3620046794924112)

In [None]:
`

## 등분산검정
* bartlett, fligner, levene 검정 

In [26]:
x1 = scipy.stats.norm(0, 1).rvs(100)
x2 = scipy.stats.norm(0, 1.2).rvs(200)
scipy.stats.bartlett(x1, x2)
scipy.stats.fligner(x1, x2)
scipy.stats.levene(x1, x2)

BartlettResult(statistic=4.649749177961601, pvalue=0.031058085281715306)

FlignerResult(statistic=2.715123236154355, pvalue=0.09940129370598313)

LeveneResult(statistic=3.056433411669653, pvalue=0.08144779078993931)

## 정규성 검정
* 콜모고로프-스미르노프 검정 ks_2samp  
* 샤피로-월크 shapiro  

In [29]:
scipy.stats.ks_2samp(x1, x2)
scipy.stats.shapiro(x1)  

Ks_2sampResult(statistic=0.075, pvalue=0.8398708501969149)

(0.9836831092834473, 0.25426897406578064)

## 희소 행렬

### COO 형식

In [None]:
from scipy import sparse

In [None]:
dense = np.array( [ [ 3, 0, 1 ], 
                    [0, 2, 0 ] ] )
dense

In [None]:
data = np.array([3,1,2])
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])

sparse_coo = sparse.coo_matrix((data, (row_pos,col_pos)))

In [None]:
print(type(sparse_coo))
print(sparse_coo)
dense01=sparse_coo.toarray()
print(type(dense01),"\n", dense01)

### CSR 형식

In [None]:
dense2 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])
dense2

In [None]:
# 0 이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

# COO 형식으로 변환 
sparse_coo = sparse.coo_matrix((data2, (row_pos,col_pos)))

# 행 위치 배열의 고유한 값들의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])

# CSR 형식으로 변환 
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

In [None]:
print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

In [None]:
print(sparse_csr)

In [None]:
dense3 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)

In [None]:
print(coo)

In [None]:
print(csr)