# 2023 - 01 - 17 #

# 넘파이 벡터화 연산 #

- 넘파이는 벡터와 연산을 지원
- 벡터화 연산을 쓰면 명시적으로 반복문을 사용하지 않고도 배열의 모든 원소에 대해 반복 연산 가능
- 선형 대수 공식과 동일하게 아주 간단한 파이썬 코드를 작성 가능

ex) 선형 대수에서 두 벡터 x, y가 아래와 같을 때,

<img src = "https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcJ5uCq%2FbtrWsVv2gOb%2FKhLvgfddfVa6alm6o4Dm6k%2Fimg.png" ></img>

### [ 두 벡터의 합 ]

z = x + y

<img src = "https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FOwikn%2FbtrWwf1OknR%2FsvUNtPYWMfPvZQ2DKTUTX0%2Fimg.png" ></img>

- 넘파이 배열의 벡터화 연산을 사용하지 않는다면 이 연산은 반복문을 사용하여 다음과 같이 만들어야 함   
(다음 나오는 코드에서 %%time은 셀 코드의 실행시간을 측정하는 아이파이썬(IPython) 매직(magic) 명령)

In [13]:
import numpy as np
x = np.arange(1, 10001)
y = np.arange(10001, 20001)

In [14]:
print(x)
print(y)

[    1     2     3 ...  9998  9999 10000]
[10001 10002 10003 ... 19998 19999 20000]


In [15]:
%%time
z = np.zeros_like(x)
for i in range(10000):
    z[i] = x[i] + y[i]

Wall time: 5.06 ms


In [16]:
z[:10]

array([10002, 10004, 10006, 10008, 10010, 10012, 10014, 10016, 10018,
       10020])

- 넘파이 배열의 벡터화 연산을 사용한다면 덧셈 연산 하나로 끝남  
(위에서 한 선형 대수의 벡터 기호를 사용한 연산과 결과가 동일함 하지만 속도가 훨씬 빠름)

In [17]:
x = np.arange(1, 10001)
y = np.arange(10001, 20001)

In [18]:
%%time
z = x + y

Wall time: 996 µs


In [19]:
z[:10]

array([10002, 10004, 10006, 10008, 10010, 10012, 10014, 10016, 10018,
       10020])

- 사칙 연산 뿐만 아니라 비교 연산도 가능

In [20]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])

In [21]:
a == b

array([False,  True, False,  True])

In [22]:
a >= b

array([False,  True,  True,  True])

- 배열의 각 원소들을 일일히 비교하는 것이 아니라 모든 원소가 같은지 알고 싶다면 all명령어 사용

In [23]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])
c = np.array([1, 2, 3, 4])

In [24]:
np.all(a == b)

False

In [25]:
np.all(a == c)

True

- 넘파이 배열에서 스칼라와 벡터/행렬의 곱도 선형대수에서 사용하는 식과 같이 표현
가능

In [8]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [34]:
100 + x

array([100, 101, 102, 103, 104, 105, 106, 107, 108, 109])

In [36]:
x = np.arange(12).reshape(3, 4)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [37]:
100 * x

array([[   0,  100,  200,  300],
       [ 400,  500,  600,  700],
       [ 800,  900, 1000, 1100]])

--------------------------

# 브로드캐스팅 #

> 보통 배열끼리 산술 연산을 하려면 두 배열의 shapes가 정확히 같아야 함

In [26]:
a = np.array([1.2, 2.0, 3.0])
b = np.array([2.0, 2.0, 2.0])
a * b             

array([2.4, 4. , 6. ])

### 브로드 캐스팅? ###

넘파이 배열은 모양이 다른 배열 간의 연산이 가능하도록 배열의 크기를 변환시켜주는 것

- 넘파이가 처리하는 브로드캐스팅의 방법
> 더 작은 배열이 더 큰 배열에 호환되는 모양으로 확장하는 식으로 진행

- 브로드캐스팅 규칙 중 가장 간단한 예는 배열과 스칼라 값이 연산에서 결합될 때  
(그림은 개념 이해용, 실제 연산에선 stretch된 구조를 만들지 X)

In [43]:
a = np.array([1.0, 2.0, 3.0])

In [45]:
b = 2.0

In [46]:
a * b

array([2., 4., 6.])

<img src = "https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fb5yqOX%2FbtrWsVv7vDv%2FdkxErpGs40eQxlSqbQgaFK%2Fimg.png" ></img>

```python
a = np.array([1.2, 2.0, 3.0])
b = np.array([2.0, 2.0, 2.0])
a * b
#배열 간의 곱
-------------------------------
a = np.array([1.0, 2.0, 3.0])
b = 2.0
a * b
#스칼라 곱
```

- 둘 중 어떤 코드가 더 효율적?  
> 스칼라 곱을 활용한 코드가 더 적은 메모리를 이동하기 때문에 더 효율적

- 브로드캐스팅은 스텔라를 벡터와 같은 크기로 확장시켜 덧셈 계산

<img src= "https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FQNgmZ%2FbtrWteJmf9u%2FqxgjihC9j7QCM3qIwMxbA1%2Fimg.png"></img>

In [47]:
x = np.arange(5)
x

array([0, 1, 2, 3, 4])

In [49]:
y = np.ones_like(x)
y

array([1, 1, 1, 1, 1])

In [50]:
x + y

array([1, 2, 3, 4, 5])

In [51]:
x + 1

array([1, 2, 3, 4, 5])

### 브로드 캐스팅은 모든 겨우에 가능할까? ###

- 가능한 경우

> 넘파이 배열의 shape을 우측 정렬하고 각 차원별로 숫자를 비교하여 모든 차원이 두 조건 중 하나에 충족해야함
> 1. 해당 차원 간의 숫자가 동일한 경우
> 2. 해당 차원 중 하나가 1인 경우

> 차원이 다른 경우 우측 정렬하여 비교

<img src = "https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fbe0Bk3%2FbtrWzR6cs6q%2FC0jWUNyQ6hOKKvqjXDZBqk%2Fimg.png"></img>

```
- 3차원: 깊이 x 행 x 열
- 2차원:        행 x 열
- 1차원:             열
```

- 불가능한 경우

<img src = "https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FMmP9w%2FbtrWxs0ovlw%2Fn6mOusuECDHK67T2ptQoT1%2Fimg.png"></img>

In [63]:
# 차원의 숫자가 일치하지 않음

- 차원의 수가 같지 않아도 상관없음

``` python
A :     8 x 1 x 6 x 1  # 4차원
B :         7 x 1 x 5  # 3차원
result: 8 x 7 x 6 x 5  # 4차원
```

## 차원 축소 연산 ?  ##

>행렬의 하나의 행에 있는 원소들을 하나의 데이터 집합으로 보고 그 집합의
>평균을 구하면 각 행에 대해 하나의 숫자가 나오게 됨 예를 들어 10 x 5
>크기의 2차원 배열에 대해 행-평균을 구하면 10개의 숫자를 가진 1차원
>벡터가 나오는 걸 차원 축소 연산이라고 함

```python
● 최대/최소: min, max, argmin, argmax  
● 통계: sum, mean, median, std, var  
● 불리언: all, any  
```


# 1. sum( ) #


- 해당 배열의 합산 결과를 반환
- 연산 대상이 2차원 이상일 때는 axis 키워드 인수 사용

In [68]:
x = np.array([1, 2, 3, 4])
x

array([1, 2, 3, 4])

In [69]:
np.sum(x)

10

In [70]:
x.sum()

10

In [71]:
x = np.arange(12).reshape(3, -1)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [72]:
x. sum(axis = 0) # asix = 0은 행 간의 연산 결과를 구함

array([12, 15, 18, 21])

In [75]:
x. sum(axis = 1) # asix = 1은 열 간의 연산 결과를 구함

array([ 6, 22, 38])

```python
> np.sum( )과 ndarray.som( )은 동등한 메서드
```

# 2. min( ) #

- 해당 배열의 제일 작은 값의 결과를 반환
- 연산 대상이 2차원 이상일 때에는 axis 키워드 인수를 사용

In [80]:
x = np.arange(20).reshape(2, 5, -1)
x

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9]],

       [[10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]]])

In [99]:
x.min()

0

In [100]:
np.min(x)

0

In [101]:
x.min(axis=0)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [103]:
np.min(x, axis=1)

array([[ 0,  1],
       [10, 11]])

# 3. argmin( ) #

- 해당 배열의 제일 작은 값의 인덱스를 반환
- 연산 대상이 2차원 이상일 때에는 axis 키워드 인수를 사용

In [106]:
x = np.arange(20).reshape(2, 5, -1)
x

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9]],

       [[10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]]])

In [108]:
x.argmin()

0

In [109]:
np.argmin(x)

0

In [110]:
x.argmin(axis=0)

array([[0, 0],
       [0, 0],
       [0, 0],
       [0, 0],
       [0, 0]], dtype=int64)

In [111]:
np.argmin(x, axis=1)

array([[0, 0],
       [0, 0]], dtype=int64)

In [112]:
x.argmin(axis=2)

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0]], dtype=int64)

# 4. max( ) #

- 해당 배열의 제일 큰 값의 결과를 반환
- 연산 대상이 2차원 이상 일때에는 axis 키워드 인수를 사용

In [113]:
x = np.arange(20).reshape(2, 5, -1)
x

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9]],

       [[10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]]])

In [114]:
x.max()

19

In [115]:
np.max(x)

19

In [120]:
x.max(axis=0)

array([[10, 11],
       [12, 13],
       [14, 15],
       [16, 17],
       [18, 19]])

In [118]:
np.max(x, axis=1)

array([[ 8,  9],
       [18, 19]])

In [119]:
x.max(axis=2)

array([[ 1,  3,  5,  7,  9],
       [11, 13, 15, 17, 19]])

# 5. argumax( ) #

- 해당 배열의 제일 큰 값의 인덱스를 반환
- 연산 대상이 2차원이상일 때에는 axis 키워드 인수를 사용

In [11]:
x = np.arange(20).reshape(2, 5, -1)
x

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9]],

       [[10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]]])

In [12]:
x.argmax() # 19가 19번째라서 결과값이 19

19

In [123]:
np.argmax(x)

19

In [124]:
x.argmax(axis=0)

array([[1, 1],
       [1, 1],
       [1, 1],
       [1, 1],
       [1, 1]], dtype=int64)

In [125]:
np.argmax(x, axis=1)

array([[4, 4],
       [4, 4]], dtype=int64)

In [126]:
x.argmax(axis=2)

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]], dtype=int64)

# 6. mean() #

- 평균 구하기

In [129]:
x= np.array([1, 2, 3, 1])

In [130]:
x.mean()

1.75

# 7. median( ) #

- 중앙값 구하기

In [133]:
np.median(x)

1.5

# 7. np.all( ) #

- 배열 요소가 모두 True -> True 반환
- 하나라도 false -> false

In [136]:
np.all([True, True, False])

False

# 8. np.any( ) #

- 배열 요소가 하나라도 True -> True 반환
- 전부 false -> false

In [138]:
np.any([True, True, False])

True

In [140]:
a = np.zeros((100, 100), dtype = np.int64)
a

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

In [141]:
np.any(a != 0)

False

In [142]:
np.all(a == 0)

True

# 연습 문제 #

실수로 이루어진 5 x 6 형태의 데이터 행렬을 만들고 이 데이터에 대해 다음과 같은 값을
구한다.
1. 전체의 최대값
2. 행 간의 합
3. 행 간의 최대값
4. 열 간의 평균
5. 열 간의 최소값
```python
practice = np.array([[1.1, 7.1, 8.0, 2.1, 6.5, 7.2],
                     [2.7, 5.2, 3.3, 9.0, 7.7, 2.8],
                     [0.7, 8.8, 4.2, 8.9, 4.3, 7.4],
                     [8.2, 1.1, 5.4, 2.9, 6.9, 0.2],
                    [7.4, 4.8, 2.7, 3.1, 2.8, 8.9]])
```

In [145]:
np.max(practice)

9.0

In [151]:
np.sum(practice, axis = 0)

array([20.1, 27. , 23.6, 26. , 28.2, 26.5])

In [152]:
np.max(practice, axis = 0)

array([8.2, 8.8, 8. , 9. , 7.7, 8.9])

In [153]:
np.mean(practice, axis = 1)

array([5.33333333, 5.11666667, 5.71666667, 4.11666667, 4.95      ])

In [154]:
np.min(practice, axis = 1)

array([1.1, 2.7, 0.7, 0.2, 2.7])

---------------

## 정렬 ##

- numpy.sort()를 사용하여 배열 안의 원소를 크기에 따라 정렬하여 새로운 배열을 만들수도 있음  
- 2차원 이상인 경우에는 행이나 열을 각각 따로따로 정렬하는데 axis 인수를 사용하여 행을 정렬할 것인지 열을 정렬한 것인지 결정  
- axis=0 이면 각각의 행을 따로따로 정렬하고 axis=1 이면 각각의 열을 따로따로 정렬  
- 디폴트 값은 -1 즉 가장 안쪽(나중)의 차원  

In [160]:
a = np.array([[4, 3, 5, 7],
            [1, 12, 11, 9],
            [2, 15, 1, 14]])
a

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [161]:
np.sort(a)

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [162]:
np.sort(a, axis=0)

array([[ 1,  3,  1,  7],
       [ 2, 12,  5,  9],
       [ 4, 15, 11, 14]])

> 해당 객체의 자료 자체가 변화하는 자체변화(in-place) 메서드이므로 사용할 때 주의를 기울이기

In [163]:
a = np.array([[4, 3, 5, 7],
            [1, 12, 11, 9],
            [2, 15, 1, 14]])
a

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [164]:
a.sort(axis=1)
a

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

### 자료를 정렬하는 것이 아니라 순서만 알고 싶을때 ? ###

- argsort 명령 사용

In [167]:
a = np.array([42, 38, 12, 25])
j = np.argsort(a)
j

array([2, 3, 1, 0], dtype=int64)

In [170]:
a[j]

array([12, 25, 38, 42])

In [171]:
np.sort(a)

array([12, 25, 38, 42])

## 인덱스 배열을 사용한 인덱싱 ##

- 인덱싱을 할 때 인덱스 위치를 나타내는 배열을 활용하여 인덱싱이 가능

<img src = "https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FETIM8%2FbtrWxsF8mgS%2FKvLyjgMt2pPMEclikImisk%2Fimg.png"></img>

In [173]:
a = np.array([[1, 2], [3, 4], [5, 6]])
a

array([[1, 2],
       [3, 4],
       [5, 6]])

In [174]:
print(a[[0, 1, 2], [0, 1, 0]]) # a[0, 0], a[1, 1], a[2, 0]을 인덱스로 하는 
                               # 1차원 배열 shape = (3, )을 츨력

[1 4 5]


> 슬라이싱 범위도 결국 인덱스 배열이라고 생각하면 됨

<img src = "https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F7LZXi%2FbtrWw64lMmg%2FBV371KzZfHOwUKVd4JUCWk%2Fimg.png"></img>

In [178]:
a = np.array([[1, 2], [3, 4], [5, 6]])
a

array([[1, 2],
       [3, 4],
       [5, 6]])

In [179]:
print(a[:, [0, 1, 0]])

[[1 2 1]
 [3 4 3]
 [5 6 5]]


# 연습문제 #

다음 배열은 첫번째 행(row)에 학번, 두번째 행에 영어 성적, 세번째 행에 수학 성적을
적은 배열이다. 영어 성적을 기준으로 각 열(column)을 재정렬해보세요.

In [192]:
scores = np.array([[1, 2, 3, 4],
                  [46, 99, 100, 71],
                  [81, 59, 90, 100]])

In [203]:
eng = scores[1, :]

array([ 46,  99, 100,  71])

In [206]:
eng.sort()

In [207]:
scores

array([[  1,   2,   3,   4],
       [ 46,  71,  99, 100],
       [ 81,  59,  90, 100]])

----------------

## 기술 통계 ? ##

>넘파이는 다음과 같은 데이터 집합에 대해 간단한 통계를 계산하는 함수를 제공  
>이러한 값들을 통틀어 기술 통계라고 함

● 데이터의 개수(count)  
● 평균(mean, average)  
● 분산(variance)  
● 표준 편차(standard deviation)  
● 최대값(maximum)  
● 최소값(minimum)  
● 중앙값(median)  
● 사분위수(quartile)  


> ex) 데이터 x가 있다. x 를 이루는 숫자 하나하나를 수학 기호로는 x1 ,x2 ,⋯,xN처럼 표시  
>      넘파이에서는 이러한 데이터를 1차원 배열로 구현합니다.

### 데이터의 개수 ###

- len 함수로 구하기

In [211]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8])
len(x) # 개수구하기

8

## 표본 평균 ##

>평균을 통계용어로는 표본 평균(sample average, sample mean)  
>x 데이터에 대한 표본 평균은 라고 표시하며 다음과 같이 계산  
>이 식에서 N = 데이터의 개수  

<img src = "https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FerVdXy%2FbtrWyMYq1Xh%2FeCvpfAeTQGKC7NskpleeL0%2Fimg.png"></img>

In [213]:
np.mean(x) #평균

4.5

## 표본 분산 ##

>표본 분산(sample variance)은 데이터와 표본 평균간의 거리의 제곱의 평균 
>표본 분산이 작으면 데이터가 모여있는 것이고 크면 흩어져 있는 것  
>수학 기호로는 s제곱 이라고 표시하며 다음과 같이 계산  

<img src = "https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbKAFjC%2FbtrWuOKs8eQ%2FWCChAynXZYG5zLH3nfiQI0%2Fimg.png"></img>

In [214]:
np.var(x) #분산

5.25

In [215]:
np.var(x, ddof = 1) #비편행 분산 --> 나중에

6.0

## 표본 표준편차 ##

>표본 분산의 양의 제곱근 값이  
>s이라고 표시

<img src = "https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fcnq6q5%2FbtrWv7CZqtd%2FzXCLK4rFocKrw1Mp8Jk7ek%2Fimg.png"></img>

In [216]:
np.std(x) #표준 편차

2.29128784747792

## 최대값과 최소값 ##

최대값(maximum) = 데이터 중에서 가장 큰 값을  
최소값(minimum) = 가장 작은 값을

In [221]:
np.max(x) #최대값

8

In [220]:
np.min(x) #최소값

1

## 중앙값 ##

> 중앙값(median)은 데이터를 크기대로 정렬하였을 때 가장 가운데에 있는 수  
> 만약 데이터의 수가 짝수이면 가장 가운데에 있는 두 수의 평균

In [223]:
np.median(x) #중앙값

4.5

# 사분위수 #

- 사분위수(quartile)는 데이터를 가장 작은 수부터 가장 큰 수까지 크기가 커지는 순서대로  
- 정렬하였을 때 1/4, 2/4, 3/4 위치에 있는 수를 말함  
- 각각 1사분위수, 2사분위수, 3사분위수  
- 1/4의 위치란 전체 데이터의 수가 만약 100개이면 25번째 순서, 즉 하위 25%  
- 따라서 2사분위수는 중앙값과 같음   

> 위치를 1/100 단위로 나눈 백분위수 사용  
> 1사부위수 = 25%

In [226]:
np.percentile(x, 0) #최소값 = (.min)

1.0

In [227]:
np.percentile(x, 25) # 1사분위 수

2.75

In [228]:
np.percentile(x, 50) # 2사분위 수 = 중앙값(.median)

4.5

In [232]:
np.percentile(x, 75) # 3사분위 수

6.25

In [231]:
np.percentile(x, 100) # 최대값 = (max.)

8.0

### 난수 발생과 카운팅? ###

>파이썬을 이용하여 데이터를 무작위로 섞거나 임의의 수 즉,   
>난수(random number)를 발생시키는 방법에 대해 알아보자  
>이 기능은 주로 NumPy의 random 서브패키지에서 제공합니다.  
>(random과 다름)  

### 시드 설정하기 ###

컴퓨터 프로그램에서 발생하는 무작위 수는 사실 엄격한 의미의 무작위 수 X  
어떤 특정한 시작 숫자를 정해 주면 컴퓨터가 정해진 알고리즘에 의해 마치 난수처럼 보이는 수열을 생성  
이런 기준이 되는 시작 숫자 = 시드(seed)  
생성된 난수는 다음 번 난수 생성을 위한 시드값이 된다   
따라서 시드값은 한 번만 정해주면 됩니다  
시드는 보통 현재 시각을 이용하여 자동으로 정해지지만 사람이 수동으로 설정할 수도 있다  
특정한 시드 값이 사용되면 그 다음에 만들어지는 난수들은 모두 예측할 수 있다  
코드의 결과를 재현하기 위해 항상 시드를 설정하고 데이터를 다루자!  

시드를 설정하는 함수 = seed     
인수로는 0과 같거나 큰 정수를 넣어줌    

In [239]:
np. random.seed(0)

시드를 설정한 후 넘파이 random 서브패키지에 있는 rand 함수로 5개의 난수를 생성하기  
rand 함수는 0과 1사이의 난수를 발생시키는 함수로 인수로 받은 숫자 횟수만큼 난수를 발생시킴  

In [240]:
np.random.rand(5)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

사람이 예측할 수 없는 무작위 숫자가 나오는 것을 볼 수 있다

In [241]:
np.random.rand(10)

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152,
       0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606])

In [242]:
np.random.rand(10)

array([0.0871293 , 0.0202184 , 0.83261985, 0.77815675, 0.87001215,
       0.97861834, 0.79915856, 0.46147936, 0.78052918, 0.11827443])

이제 시드를 0으로 재설정하고 다시 난수를 발생시키면 아까와 같은 숫자가 나오는 것을 확인할 수 있습니다.

In [243]:
np.random.seed(0)

In [244]:
np.random.rand(5)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [245]:
np.random.rand(10)

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152,
       0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606])

In [246]:
np.random.rand(10)

array([0.0871293 , 0.0202184 , 0.83261985, 0.77815675, 0.87001215,
       0.97861834, 0.79915856, 0.46147936, 0.78052918, 0.11827443])

### 데이터 순서 바꾸기 ###

- shuffle 함수
- 사용에 주의 --> 자체 변환 함수로 한 번 사용하면 변수 값 바뀜

In [251]:
x = np.arange(10)

In [255]:
np.random.shuffle(x)
x

array([5, 3, 1, 6, 4, 2, 7, 9, 8, 0])

### 데이터 샘플링 ? ###
> 이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것을 표본선택 혹은 샘플링

- choice 함수를 사용    
  
다음과 같은 인수 가지기 가능  
numpy.random.choice(a, size=None, replace=True, p=None)

● a : 배열이면 원래의 데이터, 정수이면 arange(a) 명령으로 데이터 생성  
● size : 정수. 샘플 숫자.  
● replace : 불리언. True이면 한번 선택한 데이터를 다시 선택 가능.  
● p : 배열. 각 데이터가 선택될 수 있는 확률.  

In [258]:
np.random.choice(5, 5, replace = False)  # shuffle 명령과 동일

array([4, 2, 3, 1, 0])

In [262]:
np.random.choice(5, 3, replace = False)  # 3개만 선택

array([0, 1, 4])

In [263]:
np.random.choice(5, 10) # 반복해서 10개 선택

array([0, 3, 4, 1, 2, 4, 3, 4, 4, 4])

In [264]:
np.random.choice(5, 10, p=(0.1, 0, 0.3, 0.6, 0)) #선택 확률 다르게 해서 10개 선택

array([2, 3, 2, 3, 2, 2, 2, 3, 2, 2])

### 넘파이 random의 난수 생성하는 또 다른 함수들 ###

● rand: 0부터 1사이의 균일 분포  
● randn: 표준 정규 분포  
● randint: 균일 분포의 정수 난수  

## 난수 생성 ##

#### rand 함수  ####
0부터 1사이에서 균일한 확률 분포로 실수 난수를 생성  
숫자 인수는 생성할 난수의 크기  
여러개의 인수를 넣으면 해당 shape를 가진 행렬을 생성

In [267]:
np.random.rand(10)

array([0.36872517, 0.82099323, 0.09710128, 0.83794491, 0.09609841,
       0.97645947, 0.4686512 , 0.97676109, 0.60484552, 0.73926358])

In [268]:
np.random.rand(3, 5)

array([[0.03918779, 0.28280696, 0.12019656, 0.2961402 , 0.11872772],
       [0.31798318, 0.41426299, 0.0641475 , 0.69247212, 0.56660145],
       [0.26538949, 0.52324805, 0.09394051, 0.5759465 , 0.9292962 ]])

#### randn 함수 ####
기댓값(mean)이 0이고 표준편차가 1인 표준 정규 분포(standard normaldistribution)를   
따르는 난수를 생성  
인수 사용법은 rand 명령과 동일

In [269]:
np.random.randn(10)

array([ 1.13940068, -1.23482582,  0.40234164, -0.68481009, -0.87079715,
       -0.57884966, -0.31155253,  0.05616534, -1.16514984,  0.90082649])

In [270]:
np.random.randn(3, 5)

array([[ 0.46566244, -1.53624369,  1.48825219,  1.89588918,  1.17877957],
       [-0.17992484, -1.07075262,  1.05445173, -0.40317695,  1.22244507],
       [ 0.20827498,  0.97663904,  0.3563664 ,  0.70657317,  0.01050002]])

#### randint 함수 ####   
numpy.random.randint(low, high=None, size=None)  
만약 high를 입력하지 않으면 0과 low사이의 숫자를,    
high를 입력하면 low와 high는 사이의 숫자를 출력     
  
size는 난수의 개수입니다.  
high의 범위는 포함하지 않습니다.  

In [271]:
np.random.randint(10, size = 10)

array([3, 1, 8, 0, 4, 9, 6, 5, 7, 8])

In [272]:
np.random.randint(10, 20, size = 10)

array([18, 19, 12, 18, 16, 16, 19, 11, 16, 18])

In [273]:
np.random.randint(10, 20, size = (3, 5))

array([[18, 13, 12, 13, 16],
       [13, 16, 15, 17, 10],
       [18, 14, 16, 15, 18]])

# 연습문제 #

In [277]:
np.random.seed(0)

In [287]:
coin_result = np.random.randint(0, 2, 100)
coin_result

array([1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0,
       1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1,
       1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0,
       1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0])

In [288]:
coin_result.sum() / len(coin_result)

0.46

In [289]:
np.random.seed(0)

In [292]:
dice = np.random.randint(1, 7, 100)
dice

array([2, 6, 4, 5, 6, 6, 4, 4, 2, 2, 2, 4, 3, 3, 5, 4, 2, 3, 4, 6, 6, 6,
       2, 5, 3, 3, 1, 2, 6, 1, 5, 1, 4, 3, 6, 6, 1, 1, 6, 2, 2, 1, 4, 1,
       4, 1, 5, 5, 1, 2, 4, 5, 4, 3, 6, 2, 2, 3, 2, 6, 5, 6, 3, 6, 6, 5,
       5, 6, 6, 3, 4, 6, 4, 2, 3, 5, 4, 4, 2, 2, 6, 6, 2, 2, 3, 1, 4, 2,
       5, 4, 2, 2, 3, 1, 1, 3, 5, 1, 5, 4])

In [295]:
dice.mean()

3.59

### 정수 데이터 카운팅 ###

- 난수가 정수값이면 unique 명령이나 bincount 명령으로 데이터 값을 분석가능
- unique() 함수는 데이터에서 중복된 값을 제거하고 중복되지 않는 값의 리스트를 출력
- return_counts 인수를 True 로 설정하면 각 값의 데이터 개수도 출력

In [297]:
np.unique((11, 11, 2, 2, 34, 34))

array([ 2, 11, 34])

In [298]:
a = np.array(['a', 'b', 'c', 'a'])
index, count = np.unique(a, return_counts = True)

In [299]:
index

array(['a', 'b', 'c'], dtype='<U1')

In [300]:
count

array([2, 1, 1], dtype=int64)

>unique()는 데이터에 존재하는 값에 대해서만 개수를 세므로 데이터 값이 나올 수  
>있음에도 불구하고 데이터가 하나도 없는 경우에는 정보를 주지 X  
>예를 들어 주사위를 10번 던졌는데 6이 한 번도 나오지 않으면 이 값을 0으로 세어주지 X  
>따라서 데이터가 주사위를 던졌을 때 나오는 수처럼 특정 범위안의 수인 경우에는  
>bincount 함수에 minlength 인수를 설정하여 쓰는 것이 더 편리함   
>bincount 함수는 0부터 minlength - 1 까지의 숫자에 대해 각각 카운트  
>데이터가 없을 경우에는 카운트 값이 0  

In [301]:
np.bincount([1, 1, 2, 2, 2, 3], minlength = 6)

array([0, 2, 3, 1, 0, 0], dtype=int64)