### Numpy 배열 통계 연산
- 데이터 개수 구하기: `len()` 내장함수  
- 표본 평균 : `mean()` 메서드  
- 표본 분산 : `var()` 메서드  
- 표본 표준편차: `std()` 메서드
- 최대, 최소: `max()`, `min()` 메서드
- 중앙값 : `median()` 메서드  
- 사분위수 : `percentile()`메서드

In [1]:
import numpy as np

In [3]:
samples = np.array([9, 2, 4, 20, 24 ,2, 23, 92, 24, -23])
samples

array([  9,   2,   4,  20,  24,   2,  23,  92,  24, -23])

In [4]:
sample_volume = len(samples)
sample_volume

10

In [6]:
sample_mean = samples.mean()
sample_mean

17.7

In [7]:
sample_variance = samples.var()
sample_variance

804.61

In [8]:
sample_standard =samples.std()
sample_standard

28.365648238670662

In [9]:
sample_max =samples.max()
sample_max

92

In [10]:
sample_min =samples.min()
sample_min

-23

In [13]:
sample_median =np.median(samples) # np 에만 있는 메소드
sample_median

14.5

In [15]:
sample_0per = np.percentile(samples, 0) # 최소 값
sample_0per

-23.0

In [16]:
sample_25per = np.percentile(samples, 25) # 1사분위 수
sample_25per

2.5

In [18]:
sample_50per = np.percentile(samples, 50) # 2사분위 수
sample_50per

14.5

In [21]:
sample_75per = np.percentile(samples, 75) # 3사분위 수
sample_75per

23.75

In [22]:
sample_100per = np.percentile(samples, 100) # 최대 값
sample_100per

92.0

### 난수 생성에 필요한 시드 설정
numpy 패키지에 있는 `seed()` 메서드에 매개변수로 난수 생성시 필요한 시드를 설정 함

In [52]:
np.random.seed(10) # 0 ~ 2**32 -1 내의 수만 입력가능

In [53]:
random_array = np.random.rand(10)
random_array

array([0.77132064, 0.02075195, 0.63364823, 0.74880388, 0.49850701,
       0.22479665, 0.19806286, 0.76053071, 0.16911084, 0.08833981])

### 데이터 순서를 임의로 바꾸기
numpy 패키지의 random 하위 패키지의 `shuffle()` 메서드로 배열을 임의 순서로 변경 가능(자체 변환)

In [54]:
range_array = np.arange(10)
range_array

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [56]:
np.random.shuffle(range_array)
range_array

array([1, 0, 8, 2, 5, 4, 9, 7, 3, 6])

In [None]:
np.random.choice

### 데이터 샘플링
모집단 배열에 표본으로 사용할 표본 배열을 무작위로 선택하는 방법  
numpy 패키지의 random 하위 패키지의   
`choice(모집단배열, 표본크기, 중복선택여부, 각요소의선택 확률)` 메서드로 사용가능

In [125]:
population_array = np.arange(10)
population_array

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [126]:
sample_array = np.random.choice(population_array, 5)
sample_array

array([1, 6, 8, 1, 4])

In [127]:
sample_array = np.random.choice(population_array, 5, replace=False)
sample_array

array([5, 4, 9, 3, 8])

In [154]:
probability_array = [0.1, 0.05, 0.05, 0, 0.15, 0.25, 0.1, 0.05, 0.05, 0.2]
sample_array = np.random.choice(population_array, 10000, p=probability_array)
sample_array

array([5, 0, 6, ..., 4, 1, 0])

In [None]:
sample_array = np.random.choice(population_array, 12, replace=False) 
# 배열 사이즈를 기존 배열보다 크게 하고 중복허용안하면 오류 발생
sample_array

In [None]:
probability_array = [0.1, 0.05, 0.05, 0, 0.15, 0.25, 0.1, 0.05, 0.05, 0.4] 
# 확률이 1을 안되거나 배열의 크기와 맞지 않는 경우 오류 발생
sample_array = np.random.choice(population_array, 10000, p=probability_array)
sample_array

### 난수 배열 생성
- `rand()` : 0과 1사이의 균일 분포를 따르는 난수 배열 생성  
- `randn()` : 표준 정규 분포를 따르는 난수 배열 생성  
- `randint(low, high=정수, size=정수 혹은 튜플)` : 지정한 범위 정수의 균일 분포를 따르는 난수 배열 생성 

In [133]:
rand_array = np.random.rand(10)
rand_array

array([0.73950859, 0.15608666, 0.72254684, 0.68459275, 0.20313433,
       0.88582224, 0.17850941, 0.5124593 , 0.48660034, 0.7583373 ])

In [134]:
randn_array = np.random.randn(10)
randn_array

array([-1.34801642, -0.9914195 , -0.49725474, -0.81662748,  1.00224656,
       -0.60753649, -2.39624045,  1.2703827 ,  1.50417907,  0.15095708])

In [135]:
randint_array = np.random.randint(10)
randint_array

2

In [136]:
randint_array = np.random.randint(10, size=10)
randint_array

array([3, 3, 1, 4, 0, 4, 3, 8, 1, 2])

In [139]:
randint_array = np.random.randint(10, 20, (3, 5))
randint_array

array([[12, 10, 10, 18, 15],
       [19, 12, 16, 16, 12],
       [14, 14, 11, 19, 11]])

### 정수 데이터 카운팅
배열의 요소가 정수이면 `unique()` 메서드나 `bincount()`메서드로 간단하게 분석할 수 있음

In [156]:
analysis_array = np.unique(sample_array)
analysis_array

array([0, 1, 2, 4, 5, 6, 7, 8, 9])

In [157]:
analysis_array = np.unique(sample_array, return_counts=True)
analysis_array

(array([0, 1, 2, 4, 5, 6, 7, 8, 9]),
 array([1029,  516,  509, 1462, 2458,  992,  478,  514, 2042], dtype=int64))

In [158]:
analysis_array = np.bincount(sample_array, minlength=10)
analysis_array

array([1029,  516,  509,    0, 1462, 2458,  992,  478,  514, 2042],
      dtype=int64)

In [151]:
coin_percent = np.random.randint(2, size= 10)
coin_percent

array([1, 1, 0, 1, 0, 0, 0, 0, 0, 0])

In [152]:
dice = np.random.randint(1, 7, 100)
dice

array([3, 2, 5, 3, 1, 6, 4, 5, 3, 6, 6, 2, 6, 5, 3, 1, 6, 6, 4, 3, 6, 4,
       4, 3, 6, 3, 1, 3, 2, 2, 4, 4, 6, 5, 1, 3, 5, 3, 4, 5, 6, 2, 2, 2,
       4, 3, 6, 3, 3, 3, 6, 6, 1, 6, 1, 1, 2, 5, 6, 6, 5, 4, 6, 1, 4, 2,
       4, 6, 4, 1, 6, 2, 4, 2, 4, 4, 2, 5, 5, 2, 3, 3, 2, 3, 5, 6, 2, 3,
       1, 2, 6, 2, 3, 2, 2, 4, 6, 5, 2, 4])

In [153]:
np.mean(dice)

3.67