# 기술 통계

넘파이는 다음과 같은 데이터 집합에 대해 간단한 통계를 계산하는 함수를 제공한다. 이러한 값들을 통틀어 기술 통계(descriptive statistics)라고 한다.

* 데이터의 개수(count)

* 평균(mean, average)

* 분산(variance)

* 표준 편차(standard deviation)

* 최댓값(maximum)

* 최솟값(minimum)

* 중앙값(median)

* 사분위수(quartile)

In [4]:
import numpy as np

x = np.array([18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
              2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])

In [5]:
len(x)

26

In [6]:
np.mean(x)

4.8076923076923075

In [8]:
np.var(x, ddof = 1)

119.84153846153846

In [9]:
np.std(x)

10.734628476137871

In [10]:
np.max(x)

23

In [11]:
np.min(x)

-24

In [12]:
np.median(x)

5.0

In [13]:
np.percentile(x, 0)

-24.0

In [14]:
np.percentile(x, 25)

0.0

In [15]:
np.percentile(x, 50)

5.0

In [16]:
np.percentile(x, 75)

10.0

In [17]:
np.percentile(x, 100)

23.0

# 난수 발생과 카운팅

In [22]:
np.random.seed(42)

In [23]:
np.random.rand(5)

array([0.37454012, 0.95071431, 0.73199394, 0.59865848, 0.15601864])

In [24]:
np.random.rand(10)

array([0.15599452, 0.05808361, 0.86617615, 0.60111501, 0.70807258,
       0.02058449, 0.96990985, 0.83244264, 0.21233911, 0.18182497])

In [25]:
np.random.rand(10)

array([0.18340451, 0.30424224, 0.52475643, 0.43194502, 0.29122914,
       0.61185289, 0.13949386, 0.29214465, 0.36636184, 0.45606998])

In [26]:
np.random.rand(10)

array([0.78517596, 0.19967378, 0.51423444, 0.59241457, 0.04645041,
       0.60754485, 0.17052412, 0.06505159, 0.94888554, 0.96563203])

In [27]:
np.random.rand(5)

array([0.80839735, 0.30461377, 0.09767211, 0.68423303, 0.44015249])

In [28]:
np.random.seed(42)
np.random.rand(5)

array([0.37454012, 0.95071431, 0.73199394, 0.59865848, 0.15601864])

In [29]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [32]:
np.random.shuffle(x)
x

array([2, 8, 0, 7, 6, 4, 5, 9, 1, 3])

numpy.random.choice(a, size=None, replace=True, p=None)

* a : 배열이면 원래의 데이터, 정수이면 arange(a) 명령으로 데이터 생성

* size : 정수. 샘플 숫자

* replace : 불리언. True이면 한번 선택한 데이터를 다시 선택 가능

* p : 배열. 각 데이터가 선택될 수 있는 확률

In [33]:
np.random.choice(5, 5, replace=False)  # shuffle 명령과 같다.

array([2, 0, 4, 1, 3])

In [34]:
np.random.choice(5, 3, replace=False)  # 3개만 선택

array([1, 2, 4])

In [40]:
np.random.choice(5, 3, p=[0.9, 0.025, 0.025, 0.025, 0.025])

array([0, 2, 3])

넘파이의 random 서브패키지는 이외에도 난수를 생성하는 다양한 함수를 제공한다. 그 중 가장 간단하고 많이 사용되는 것은 다음 3가지 함수다.

* rand: 0부터 1사이의 균일 분포

* randn: 표준 정규 분포

* randint: 균일 분포의 정수 난수

In [41]:
np.random.rand(10)

array([0.80839735, 0.30461377, 0.09767211, 0.68423303, 0.44015249,
       0.12203823, 0.49517691, 0.03438852, 0.9093204 , 0.25877998])

In [42]:
np.random.rand(3, 5)

array([[0.66252228, 0.31171108, 0.52006802, 0.54671028, 0.18485446],
       [0.96958463, 0.77513282, 0.93949894, 0.89482735, 0.59789998],
       [0.92187424, 0.0884925 , 0.19598286, 0.04522729, 0.32533033]])

In [43]:
np.random.randn(10)

array([-1.47852199, -0.71984421, -0.46063877,  1.05712223,  0.34361829,
       -1.76304016,  0.32408397, -0.38508228, -0.676922  ,  0.61167629])

In [44]:
np.random.randn(3, 5)

array([[ 1.03099952,  0.93128012, -0.83921752, -0.30921238,  0.33126343],
       [ 0.97554513, -0.47917424, -0.18565898, -1.10633497, -1.19620662],
       [ 0.81252582,  1.35624003, -0.07201012,  1.0035329 ,  0.36163603]])

In [45]:
np.random.randint(10, size=10)

array([0, 4, 9, 6, 6, 8, 9, 9, 2, 6])

In [46]:
np.random.randint(10, 20, size=(3, 5))

array([[10, 13, 13, 14, 16],
       [16, 13, 16, 12, 15],
       [11, 19, 18, 14, 15]])

In [52]:
np.random.randint(0, 2, size = 10)

array([1, 1, 0, 1, 0, 0, 0, 0, 1, 0])

In [54]:
x = np.arange(1,7)
x

array([1, 2, 3, 4, 5, 6])

In [61]:
dice = []
for i in range(100):
    dice.append(np.random.choice(np.arange(1,7),1))
np.mean(dice)

3.33

In [67]:
stock = 10000
stock_date = []
for i in range(250):
    stock = stock * np.random.randn()
    stock_date.append(stock)

In [68]:
np.unique([11, 11, 2, 2, 34, 34])

array([ 2, 11, 34])

In [69]:
a = np.array(['a', 'b', 'b', 'c', 'a'])

In [70]:
a

array(['a', 'b', 'b', 'c', 'a'], dtype='<U1')

In [72]:
index, count = np.unique(a, return_counts = True)

In [73]:
index

array(['a', 'b', 'c'], dtype='<U1')

In [74]:
count

array([2, 2, 1], dtype=int64)