### 넘파이 배열 
파이썬 리스트의 단점인 원소의 자료형 지정 불가, 많은 메모리 차지의 문제를 
해결하고자 수치 해석 프로그램에서는 numby라고하는 배열 패키지를 사용
numpy배열의 경우 자체적 C언어로 구현되어 있어 자료형 지정과 메모리 절약
효과를 볼 수 있음

### NumPy import
numpy 패키지를 사용하려면 먼저 패키지를 설치해야 함
``` bash
pip install numpy
```

numpy 패키지를 프로그램에서 사용하려면 import해야 함
``` python
import numpy
import numpy as np
```

In [2]:
import numpy as np

### 1차원 배열 만들기
넘파이의 'array'함수를 사용하여 리스트를 'ndarray'타입으로 변경 가능

In [10]:
ndarray_ = np.array([0,1,2,3,4])
ndarray_

array([0, 1, 2, 3, 4])

In [3]:
type(ndarray_)

numpy.ndarray

In [11]:
floats = np.array([1.0,2.0,3.0,4.0])
floats

array([1., 2., 3., 4.])

In [12]:
floats = np.array([0.1,0.2,0.3,0.4])
floats

array([0.1, 0.2, 0.3, 0.4])

파이썬 리스트와는 다르게 numpy의 배열의 요소는 모두 같은 타입이어야 함
이러한 numpy 배열의 특성 때문에 요소에 대한 접근 속도가 빠름

In [13]:
ndarray_ = np.array([1,1.5,2])
ndarray_

array([1. , 1.5, 2. ])

In [14]:
ndarray_ = np.array(['문자열',1,1.5])
ndarray_

array(['문자열', '1', '1.5'], dtype='<U32')

### 벡터화 연산
numpy 배열은 각 원소에 대한 반복 연산을 간단한 명령으로 처리할 수 있는 벡터화
연산을 지원

In [15]:
# 각 요소를 2씩 곱하는 연산
# 리스트를 사용했을 때
numbers = list(range(10))

result = []
for number in numbers:
    result.append(number*2)

result

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [16]:
# numpy array를 사용했을 때
numpy_numbers = np.array(numbers)
result = 2*numpy_numbers
result

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [20]:
result = 2*numbers
result

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

넘파이 배열의 벡터화 연산은 모든 종류의 연산에 적용이 가능

In [21]:
numbers1 = np.array(list(range(5)))
numbers2 = np.array(list(range(5,10)))
numbers1,numbers2

(array([0, 1, 2, 3, 4]), array([5, 6, 7, 8, 9]))

In [22]:
result=(numbers1*5)+numbers2
result

array([ 5, 11, 17, 23, 29])

In [23]:
result=numbers1==3
result

array([False, False, False,  True, False])

In [24]:
result = (numbers1 > 2) & (numbers2 <10)
print(result)
print(numbers1 > 2)
print(numbers2 <10)
print(result)


[False False False  True  True]
[False False False  True  True]
[ True  True  True  True  True]
[False False False  True  True]


### 2차원 배열
2차원 배열을 생성할 때는 요소를 리스트로 가지는 리스트를 'array()'의 매개변수로
전달하면 2차원 배열을 생성할 수 있음

In [25]:
matrix = [
    [1,2,3],
    [4,5,6],
    [7,8,9]
    ]
numpy_matrix = np.array(matrix)
print(numpy_matrix)
numpy_matrix

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [26]:
len(numpy_matrix)

3

In [27]:
numpy_matrix[0]

array([1, 2, 3])

In [17]:
len(numpy_matrix[0])

NameError: name 'numpy_matrix' is not defined

### 3차원 배열 만들기
리스트의 요소로 2차원형태를 띄는 리스트를 지정하면 3차원 배열로 만들 수 있음

In [7]:
three_d = [
    [
        [1,2,3,4],
        [5,6,7,8],
        [9,10,11,12]
    ],
    [
        [13,14,15,16],
        [17,18,19,20],
        [21,22,23,24]
    ]
]
numpy_three_d = np.array(three_d)
numpy_three_d

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[13, 14, 15, 16],
        [17, 18, 19, 20],
        [21, 22, 23, 24]]])

### 배열의 차원과 크기 구하기
`ndim()`:배열의 차원을 정수로 반환
`shape`:배열의 각 차원의 크기를 정수의 튜플로 반환


1

In [4]:
numpy_matrix.ndim,numpy_matrix.shape

NameError: name 'numpy_matrix' is not defined

In [31]:
numpy_three_d.ndim, numpy_three_d.shape

(3, (2, 3, 4))

### numpy 배열의 인덱싱
일반적으로 `배열변수[인덱스]`의 형태로 사용함
다차원 형태일 경우는 일반 리스트와 다르게 `배열변수[인덱스,인덱스,...]`의 형태로 사용함
일반 2차원 리스트: `리스트[인덱스][인덱스]`
numpy 2차원 배열: `배열[인덱스,인덱스]`

In [32]:
# 일반 3차원 리스트
three_d


[[[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]],
 [[13, 14, 15, 16], [17, 18, 19, 20], [21, 22, 23, 24]]]

In [33]:
three_d[1][0][3]

16

In [34]:
# numpy 3차원 배열
numpy_three_d

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[13, 14, 15, 16],
        [17, 18, 19, 20],
        [21, 22, 23, 24]]])

In [35]:
numpy_three_d[1,0,3]

16

### numpy 배열 슬라이싱
일반 리스트에서 사용하는 배열 슬라이싱 방법, `리스트[시작인덱스:종료인덱스]`와 동일함
단, 다차원 배열일 경우 인덱스를 여러개 지정할 때 `,`를 써야하는 것에 주의


In [36]:
numpy_matrix

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [37]:
numpy_matrix[:]

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [38]:
numpy_matrix[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [39]:
numpy_matrix[0,:2]

array([1, 2])

In [40]:
numpy_matrix[:2,0]

array([1, 4])

In [41]:
numpy_matrix[1:,1:]

array([[5, 6],
       [8, 9]])

In [42]:
numpy_three_d[:1,:2,:2]

array([[[1, 2],
        [5, 6]]])

#### 파이썬으로 다음 연산을 수행한다.
다음 행렬과 같은 행렬이 있다.
```python
m = np.array([[0,1,2,3,4],
            [5,6,7,8,9],
            [10,11,12,13,14]])
```
### 이행령에서 값7을 인덱싱 한다.
### 이행령에서 값14을 인덱싱 한다.
### 이행령에서 배열[6,7]을 슬라이싱 한다.
### 이행령에서 배열[7,12]을 슬라이싱 한다.
### 이행령에서 배열[[3,4],[8,9]]을 슬라이싱 한다.

In [43]:
m = np.array([[0,1,2,3,4],
            [5,6,7,8,9],
            [10,11,12,13,14]])

In [44]:
print(m[1,2])
print(m[2,4])
print(m[1,1:3])
print(m[1:,2])
print(m[:2,3:])

7
14
[6 7]
[ 7 12]
[[3 4]
 [8 9]]


### 배열 인덱싱
** 팬시 인덱싱(fancy indexing) ** 이라고 부르는 배열 인덱싱 기법이 존재함
이 배열 인덱싱은 인덱스로 정수형태나 슬라이스 형태로 인덱스를 전달하는 게 아니라
인덱스로 또 다른 넘파이 배열을 전달하여 그에 부합하는 새로운 배열을 반환

#### 불리언 배열 인덱싱 
`true`,`False` 두 형태로만 이루어진 배열을 인덱스로 전달하여 `True`가 위치한 값만 반환하여
새로운 배열을 만드는 인덱싱 기법
불리언 배열 인덱싱 기법은 기존 배열과 인덱스로 전달하는 배열의 크기가 같아야 함

In [45]:
numpy_array=np.array([1,2,3,4,5,6,7,8])
index_array=np.array([True,True,False,False,False,True,True,True])
numpy_array[index_array]

array([1, 2, 6, 7, 8])

조건 연산을 통해서도 불리언 인덱싱 처리를 할 수 있음

In [46]:
numpy_array % 2

array([1, 0, 1, 0, 1, 0, 1, 0], dtype=int32)

In [47]:
numpy_array % 2 == 0

array([False,  True, False,  True, False,  True, False,  True])

In [48]:
numpy_array[numpy_array % 2 == 0]

array([2, 4, 6, 8])

#### 정수 배열 인덱싱
인덱스 배열의 원소의 값이 기존 넘파이 배열의 원소의 인덱스를 가리키는 정수로 구성된 배열을 인덱스로
전달하여 해당하는 인덱스의 값들로 새로운 배열을 반환하는 기법

In [49]:
numpy_array


array([1, 2, 3, 4, 5, 6, 7, 8])

In [50]:
index_array=np.array([0,2,3,6,0,2,3,6,0,2,3,6])
index_array

array([0, 2, 3, 6, 0, 2, 3, 6, 0, 2, 3, 6])

In [51]:
numpy_array[index_array]

array([1, 3, 4, 7, 1, 3, 4, 7, 1, 3, 4, 7])

In [52]:
index_array=np.array([0,2,20])
index_array

array([ 0,  2, 20])

In [53]:
numpy_array[index_array]

IndexError: index 20 is out of bounds for axis 0 with size 8

인덱스 배열로 사용되는 정수 배열은 기존 배열의 길이보다 커도 사용 가능
이때, 반환되는 배열의 길이는 인덱스 배열로 전달한 배열의 길이로 결정이 됨

인덱스 배열로 사용되는 정수 배열의 요소는 기존 배열의 최대 인덱스 범위를 벗어나는 값이 존재할 경우
예외가 발생함

#### 다차원 배열에서 배열 인덱싱


In [None]:
index_array = np.array([True,False,True])
numpy_matrix[:2,index_array]

array([[1, 3],
       [4, 6]])

In [None]:
# 배열 인덱스 값으로 정수 리스트를 전달하면 배열의 순서가 변경됨
numpy_matrix[[2,1,0],:]

array([[7, 8, 9],
       [4, 5, 6],
       [1, 2, 3]])

파이썬으로 다음 연산을 수행한다.
다음과 같은 행렬과 같은 배열이 있다.

In [None]:
x = np.array([1,2,3,4,5,6,7,8,9,10,
11,12,13,14,15,16,17,18,19,20])

# 1.이 배열에서 3의 배수를 찾아라
print(x[x%3==0])
# 2.이 배열에서 4로 나누면 1이 남는 수를 찾아라
print(x[x%4==1])
# 3. 이 배열에서 3으로 나누면 나누어지고 4로 나누면 1이 남는 수를 찾아라
print(x[(x%4==1) & (x%3==0)])

[ 3  6  9 12 15 18]
[ 1  5  9 13 17]
[9]


In [None]:
### numpy 배열의 자료형
# numpy 배열의 원소는 모두 같은 데이터 타입을 가지고 있음
# numpy 배열의 데이터 타입을 확인하고자 한다면 `dtype`속성으로 확인가능

In [None]:
numpy_array = np.array([1,2,3])
numpy_array.dtype

dtype('int32')

In [None]:
numpy_array = np.array([1.0,2.0,3.0])
numpy_array.dtype

dtype('float64')

In [None]:
numpy_array = np.array(['1.0','2.0','3.0,'])
numpy_array.dtype

dtype('<U4')

`array()` 함수를 사용하여 배열을 생성할 때 명시적으로 데이터 타입을 지정하지 않으면
자동으로 데이터 타입을 추론하여 지정하게됨
만약, 명시적으로 데이터 타입을 지정하고자 한다면 `array()` 함수에 `dtype`매개변수로 데이터 타입을
지정해주면 됨

In [None]:
numpy_array = np.array(['1.0','2.0','3.0'],dtype='f')
numpy_array.dtype

dtype('float32')

##### dtype의 접두사
b:불리언, i:정수, f:실수 ,U:유니코드

### numpy에서 Inf와 NaN
numpy 배열 연산에서 1을 0으로 나누면 `inf`,-1을 0으로 나누면 `-inf`, 0을 0으로 나누면 `nan`
이 반환됨

### 배열 생성
numpy 배열을 생성하는 방법
- `zeros`,`ones`
- `zeros_like`,`ones_like`
- `empty`
- `arange`
- `linspace`,`logspace`

#### zeros
크기가 정해져 있고 원소를 0으로 초기화한 배열을 생성하는 함수

In [None]:
numpy_array=np.zeros(5)
numpy_array

array([0., 0., 0., 0., 0.])

In [None]:
#매개변수로 정수 튜플을 전달하여 다차원 배열 생성도 가능
numpy_array=np.zeros((2,3))
numpy_array

array([[0., 0., 0.],
       [0., 0., 0.]])

In [None]:
#dtype을 명시하여 데이터 타입을 지정할 수 있음
dtype='i'
numpy_array=np.zeros((2,3),dtype='i')
numpy_array

array([[0, 0, 0],
       [0, 0, 0]], dtype=int32)

In [None]:
#만약 dtype으로 문자열 (U)로 지정하게 되면 문자열의 길이가 초과하면 초과된 부분이 손실됨

In [None]:
# ones
# 크기가 정해져 있고 원소를 1로 초기화한 배열을 생성하는 함수
# 'zeros'함수와 사용법이 동일

In [None]:
ones_array=np.ones((3,2,2),dtype='i')
ones_array

array([[[1, 1],
        [1, 1]],

       [[1, 1],
        [1, 1]],

       [[1, 1],
        [1, 1]]], dtype=int32)

#### zeros_like,ones_like
크기를 직접 지정하지 않고 이미 존재하는 배열의 크기를 본따서 0또는 1로 채워진 배열을 생성하는 함수

In [None]:
zeros_array = np.zeros_like(ones_array,dtype='f')
zeros_array

array([[[0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.]]], dtype=float32)

#### empty 
크기만 지정하고 원소의 값은 '쓰레기 데이터'로 채워진 배열을 생성
`zeros`,`ones`함수를 사용하여 배열을 생성하는 것보다 배열 생성 속도가 빠름

In [None]:
empty_array = np.empty((10,10))
empty_array

array([[0.00000000e+000, 0.00000000e+000, 4.94065646e-324,
        6.95299685e-310, 4.69362364e-322, 1.03180873e-311,
        1.03180874e-311, 1.03180873e-311, 1.03180873e-311,
        1.03180873e-311],
       [1.03180873e-311, 1.03180874e-311, 1.03180873e-311,
        1.03180873e-311, 1.03180873e-311, 1.03180873e-311,
        1.03180873e-311, 1.03180874e-311, 1.03180873e-311,
        1.03180873e-311],
       [1.03180873e-311, 1.03180873e-311, 1.03180873e-311,
        1.03180873e-311, 1.03180874e-311, 1.03180873e-311,
        1.03180873e-311, 1.03180873e-311, 1.03180873e-311,
        1.03180873e-311],
       [1.03180873e-311, 1.03180873e-311, 1.03180874e-311,
        1.03180873e-311, 1.03180873e-311, 1.03180873e-311,
        1.03180874e-311, 1.03180873e-311, 1.03180873e-311,
        1.03180873e-311],
       [1.03180873e-311, 1.03180873e-311, 1.03180873e-311,
        1.03180873e-311, 1.03180873e-311, 1.03180873e-311,
        1.03180873e-311, 1.03180873e-311, 1.03180873e-311,
        1.0

#### arange
파이썬의 내장함수 `range()`함수와 동일한 기능을 하는 numpy배열 생성함수

In [None]:
arange_array = np.arange(10,50)
arange_array

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26,
       27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43,
       44, 45, 46, 47, 48, 49])

In [None]:
arange_array = np.arange(50,10,-1)
arange_array

array([50, 49, 48, 47, 46, 45, 44, 43, 42, 41, 40, 39, 38, 37, 36, 35, 34,
       33, 32, 31, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17,
       16, 15, 14, 13, 12, 11])

### 전치 연산
배열의 행과 열의 위치를 전치시키는 방법 배열의 `T`속성으로 반환 받을 수 있음

In [None]:
numpy_matrix

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
numpy_matrix.T

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

In [None]:
numpy_three_d

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[13, 14, 15, 16],
        [17, 18, 19, 20],
        [21, 22, 23, 24]]])

In [None]:
numpy_three_d.T

array([[[ 1, 13],
        [ 5, 17],
        [ 9, 21]],

       [[ 2, 14],
        [ 6, 18],
        [10, 22]],

       [[ 3, 15],
        [ 7, 19],
        [11, 23]],

       [[ 4, 16],
        [ 8, 20],
        [12, 24]]])

### 배열의 크기 변경
numpy 배열에서 원소의 개수를 유지한 상태로 배열의 형태로 변경하려 한다면 `reshape`메서드를
사용하여 변경할 수 있음 

In [None]:
numpy_array=np.zeros(12)
numpy_array

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [None]:
reshape_array = numpy_array.reshape(4,3)
reshape_array

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [None]:
reshape_array = numpy_array.reshape(2,6)
reshape_array

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

numpy 배열의 원소는 개수가 정해져 있기 때문에 `reshape`메서드에 하나의 인자로 -1을 넣게 되면
다른 인자들을 통해서 추론하여 지정한다. 

In [None]:
reshape_array=numpy_array.reshape(3,1,-1)
reshape_array

array([[[0., 0., 0., 0.]],

       [[0., 0., 0., 0.]],

       [[0., 0., 0., 0.]]])

만약 `reshape`메서드의 인자들의 곱의 결과가 기존 배열의 원소의 총 합과 다르면 에러가 발생
-1로 지정한 인자가 있을 때 해당 인자의 곱으로 총합을 계산할 수 없는 경우면 에러 발생

다차원 배열을 무조건 1차원 배열로 변경하려 한다면 'flatten'이나 `ravel`메서드를 사용함

In [21]:
numpy_matrix=np.empty((3,4))
numpy_matrix

array([[1.16678996e-311, 2.42092166e-322, 0.00000000e+000,
        0.00000000e+000],
       [8.34539778e-308, 2.46567317e+179, 6.20252933e-091,
        5.64349392e-038],
       [6.59155342e-043, 2.12814810e-052, 6.99196248e+228,
        1.29283810e+161]])

In [22]:
numpy_array = numpy_matrix.flatten()
numpy_array

array([1.16678996e-311, 2.42092166e-322, 0.00000000e+000, 0.00000000e+000,
       8.34539778e-308, 2.46567317e+179, 6.20252933e-091, 5.64349392e-038,
       6.59155342e-043, 2.12814810e-052, 6.99196248e+228, 1.29283810e+161])

In [23]:
numpy_array=numpy_matrix.ravel()
numpy_array

array([1.16678996e-311, 2.42092166e-322, 0.00000000e+000, 0.00000000e+000,
       8.34539778e-308, 2.46567317e+179, 6.20252933e-091, 5.64349392e-038,
       6.59155342e-043, 2.12814810e-052, 6.99196248e+228, 1.29283810e+161])

배열 사용에서 주의할 점은 *길이가 5인 1차원 배열*과  *5X1인 2차원 배열*, *1x5인 2차원 배열*
은 서로 각각 다른 배열(요소의 개수와 내용, 순서가 모두 같더라도 형태가 다르면 다른 배열)

차원을 한 차원 증가시키고자 한다면 `numpy.newaxis`속성으로 차원을 증가 시킬 수 있음

In [24]:
numpy_array

array([1.16678996e-311, 2.42092166e-322, 0.00000000e+000, 0.00000000e+000,
       8.34539778e-308, 2.46567317e+179, 6.20252933e-091, 5.64349392e-038,
       6.59155342e-043, 2.12814810e-052, 6.99196248e+228, 1.29283810e+161])

In [25]:
newaxis_array=numpy_array[np.newaxis,:]
newaxis_array

array([[1.16678996e-311, 2.42092166e-322, 0.00000000e+000,
        0.00000000e+000, 8.34539778e-308, 2.46567317e+179,
        6.20252933e-091, 5.64349392e-038, 6.59155342e-043,
        2.12814810e-052, 6.99196248e+228, 1.29283810e+161]])

### 배열 연결하기 
행의 수나 열의 수가 같은 두 개 이상의 배열을 연결하는 방법
- `hstack` : 행의 수가 같은 두 개 이상의 배열을 연결
- `vstack` : 열의 수가 같은 두 개 이상의 배열을 연결

In [26]:
zeros_array = np.zeros((3,4))
zeros_array

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [27]:
ones_array = np.ones((3,2))
ones_array

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [28]:
hstack_array = np.hstack([zeros_array,ones_array])
hstack_array

array([[0., 0., 0., 0., 1., 1.],
       [0., 0., 0., 0., 1., 1.],
       [0., 0., 0., 0., 1., 1.]])

In [29]:
zeros_array = np.zeros((3,4))
zeros_array

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [30]:
ones_array = np.ones((2,4))
ones_array

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [31]:
vstack_array = np.vstack([zeros_array,ones_array])
vstack_array

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

- `dstack` : 행과 열의 수가 같은 두 개 이상의 배열을 연결

In [32]:
zeros_array = np.zeros((3,3))
zeros_array

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [33]:
ones_array = np.ones((3,3))
ones_array

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [34]:
dstack_Array = np.dstack([zeros_array,ones_array])
dstack_Array

array([[[0., 1.],
        [0., 1.],
        [0., 1.]],

       [[0., 1.],
        [0., 1.],
        [0., 1.]],

       [[0., 1.],
        [0., 1.],
        [0., 1.]]])

- `stack` : dstack 확장 기능으로 행과 열의 수가 같은 두 개 이상의 배열을 연결.
단 연결 축을 개발자가 직접 지정

In [35]:
zeros_array

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [36]:
ones_array

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [37]:
stack_array = np.stack([zeros_array,ones_array])
stack_array

array([[[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]]])

In [38]:
stack_array = np.stack([zeros_array,ones_array],axis=1)
stack_array

array([[[0., 0., 0.],
        [1., 1., 1.]],

       [[0., 0., 0.],
        [1., 1., 1.]],

       [[0., 0., 0.],
        [1., 1., 1.]]])

-`r_`:배열의 요소를 연결 메서드 인자를 `[]`에 전달함
-`c_`:행끼리 연결,최소 2차원의 배열로 연결
-`title`:하나의 배열을 여러번 반복하여 연결

In [39]:
r_array = np.r_[zeros_array,ones_array]
r_array

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [40]:
c_array = np.c_[zeros_array,ones_array]
c_array

array([[0., 0., 0., 1., 1., 1.],
       [0., 0., 0., 1., 1., 1.],
       [0., 0., 0., 1., 1., 1.]])

In [41]:
tile_array=np.tile(zeros_array,2)
tile_array

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [42]:
tile_array=np.tile(zeros_array,(3,2))
tile_array

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

#### 파이썬으로 다음 연산을 수행하라
지금까지 공부한 명령어를 사용하여 다음과 같은 배열을 만들어라
array([[   0.,    0.,    0.,    1.,    1.],
       [   0.,    0.,    0.,    1.,    1.],
       [   0.,    0.,    0.,    1.,    1.],
       [  10.,   20.,   30.,   40.,   50.],
       [  60.,   70.,   80.,   90.,  100.],
       [ 110.,  120.,  130.,  140.,  150.],
       [   0.,    0.,    0.,    1.,    1.],
       [   0.,    0.,    0.,    1.,    1.],
       [   0.,    0.,    0.,    1.,    1.],
       [  10.,   20.,   30.,   40.,   50.],
       [  60.,   70.,   80.,   90.,  100.],
       [ 110.,  120.,  130.,  140.,  150.]])

In [46]:
zerosarray=np.zeros((3,3))
#print(zerosarray)
onesarray=np.ones((3,2))
#print(onesarray)
carray = np.c_[zerosarray,onesarray]
#print(carray)
arangearray = np.arange(10,151,10)
#print(arangearray)
reshapearray=arangearray.reshape(3,5)
#print(reshapearray)

#print()
#print()


#print(carray)
#print(reshapearray)
#print()
#print()

rarray = np.r_[carray,reshapearray]
print(rarray)

print()
print()

tilearray=np.tile(rarray,(2,1))
print(tilearray)

[[  0.   0.   0.   1.   1.]
 [  0.   0.   0.   1.   1.]
 [  0.   0.   0.   1.   1.]
 [ 10.  20.  30.  40.  50.]
 [ 60.  70.  80.  90. 100.]
 [110. 120. 130. 140. 150.]]


[[  0.   0.   0.   1.   1.]
 [  0.   0.   0.   1.   1.]
 [  0.   0.   0.   1.   1.]
 [ 10.  20.  30.  40.  50.]
 [ 60.  70.  80.  90. 100.]
 [110. 120. 130. 140. 150.]
 [  0.   0.   0.   1.   1.]
 [  0.   0.   0.   1.   1.]
 [  0.   0.   0.   1.   1.]
 [ 10.  20.  30.  40.  50.]
 [ 60.  70.  80.  90. 100.]
 [110. 120. 130. 140. 150.]]


### 2차원 그리드 포인트 생성
좌표값의 쌍(그리드 포인트)을 생성하는 메서드 `meshgrid` 함수로 x축과 y축의 점들로 사각형의
영역을 나타내는 조합을 생성 

In [49]:
x = np.arange(3)
x

array([0, 1, 2])

In [50]:
y = np.arange(5)
y

array([0, 1, 2, 3, 4])

In [58]:
X,Y=np.meshgrid(x,y)
X,Y

(array([[0, 1, 2],
        [0, 1, 2],
        [0, 1, 2],
        [0, 1, 2],
        [0, 1, 2]]),
 array([[0, 0, 0],
        [1, 1, 1],
        [2, 2, 2],
        [3, 3, 3],
        [4, 4, 4]]))

In [59]:
# [list(zip(x,y)) for x,y in zip(X,Y)]

### 벡터화 연산
numpy 배열은 반복문을 쓰지 않고 배열에 대하여 벡터 연산을 할 수 있음

In [79]:
x = np.arange(1,10001)
y = np.arange(10001,20001)

In [80]:
%%time
z = np.zeros_like(x)
for index in range(len(x)):
    z[index]=x[index]+y[index]
z

CPU times: total: 0 ns
Wall time: 2.02 ms


array([10002, 10004, 10006, ..., 29996, 29998, 30000])

In [81]:
%%time
z=x+y

CPU times: total: 0 ns
Wall time: 0 ns


In [82]:
x=np.arange(5)
y=np.arange(10,15)
z=np.arange(5)

In [83]:
np.all(x == y)

False

In [84]:
np.all(x == z)

True

In [85]:
np.all(x<y)


True

In [89]:
print(x)
print(x*10)
print(10*x)
print(x**10)
print(10**x)

[0 1 2 3 4]
[ 0 10 20 30 40]
[ 0 10 20 30 40]
[      0       1    1024   59049 1048576]
[    1    10   100  1000 10000]


### 브로드 캐스팅
차원이 서로 다른 배열을 연산하는 기능, 부족한 차원에 대하여 반복 확장하여 큰 배열의 크기에 맞춘후
연산을 진행

In [91]:
x=np.arange(5)
x
print(x+1)

[1 2 3 4 5]


In [95]:
x = np.arange(15)
x = x.reshape(3,5)
y = np.arange(5)
print(x)
print(y)
print(x+y)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[0 1 2 3 4]
[[ 0  2  4  6  8]
 [ 5  7  9 11 13]
 [10 12 14 16 18]]


In [98]:
y = np.arange(3)
y = y.reshape(3,1)
print(y)
print(x+y)

[[0]
 [1]
 [2]]
[[ 0  1  2  3  4]
 [ 6  7  8  9 10]
 [12 13 14 15 16]]


### 차원 축소 현상
배열의 하나의 행을 하나의 집합으로 보고 그 집합에 대한 집계 처리 결과로 새로운 값을 반환하여
배열을 생성 

In [104]:
x = np.arange(10)
print(x)
x = x.reshape(2,5)
print(x)
print(x.max())
print(x.min())
print(x.mean())

[0 1 2 3 4 5 6 7 8 9]
[[0 1 2 3 4]
 [5 6 7 8 9]]
9
0
4.5


In [106]:
print(x.sum(axis=0))
print(x.sum(axis=1))

[ 5  7  9 11 13]
[10 35]


### 정렬
`sort`메서드로 배열을 정렬 할 수 있음
`axis`매개변수로 정렬 기준을 정할 수 있음
`axis=0`:행을 따로 분리하여 정렬
`axis=1`:열을 따로 분리하여 정렬
`axis`를 지정하지 않으면 가장 나중 차원을 기준으로 정렬

In [116]:
x=np.array([
[5,2,7,4],
[11,8,6,5],
[8,5,11,2]
])
print(x)
x.sort()
print(x)
x.sort(axis=0)
print(x)
x.sort(axis=1)
print(x)

[[ 5  2  7  4]
 [11  8  6  5]
 [ 8  5 11  2]]
[[ 2  4  5  7]
 [ 5  6  8 11]
 [ 2  5  8 11]]
[[ 2  4  5  7]
 [ 2  5  8 11]
 [ 5  6  8 11]]
[[ 2  4  5  7]
 [ 2  5  8 11]
 [ 5  6  8 11]]


In [119]:
print(np.argsort(x))
print(np.argsort(x,axis=0))
print(np.argsort(x,axis=1))

[[0 1 2 3]
 [0 1 2 3]
 [0 1 2 3]]
[[0 0 0 0]
 [1 1 1 1]
 [2 2 2 2]]
[[0 1 2 3]
 [0 1 2 3]
 [0 1 2 3]]


실수로 이루어진 3 x 3 형태의 데이터 행렬을 만들고 이 데이터에 대해 다음과 같은 값을 구한다.


1. 전체의 최댓값

2. 각 행의 합

3. 각 행의 최댓값

4. 각 열의 평균

5. 각 열의 최솟값

In [121]:
x=np.array([
[5,11,12],
[0,18,22],
[8,2,7]
])
print(x.max())
print(x.sum(axis=1))
print(x.max(axis=1))
print(x.mean(axis=0))
print(x.min(axis=0))

22
[28 40 17]
[12 22  8]
[ 4.33333333 10.33333333 13.66666667]
[0 2 7]


### Numpy 배열 통계 연산
- 데이터 개수 구하기 : `len()` 내장 함수 
- 표본 평균 : `mean()` 메서드
- 표본 분산 : `var()` 메서드
- 표본 표준편차 : `std()` 메서드
- 최대, 최소: `max()` , `min()`메서드
- 중앙값 : `median` 메서드
- 사분위수 : `percentile()` 메서드

In [8]:
samples = np.array([9,2,4,20,24,2,23,92,24,-23])
print(samples)
sample_volume = len(samples)
print(sample_volume)
sample_mean = samples.mean()
print(sample_mean)
sample_mean = np.mean(samples)
print(sample_mean)

[  9   2   4  20  24   2  23  92  24 -23]
10
17.7
17.7


In [13]:
sample_variance=samples.var()
print(sample_variance)
sample_variance=np.var(samples)
print(sample_variance)
sample_standard=samples.std()
print(sample_standard)
sample_standard=np.std(samples)
print(sample_standard)

804.61
804.61
28.365648238670662
28.365648238670662


In [23]:
sample_max=samples.max()
print(sample_max)
sample_min=samples.min()
print(sample_min)
sample_median=np.median(samples)
print(sample_median)
sample_0per = np.percentile(samples,0)
print(sample_0per)
sample_25per = np.percentile(samples,25)
print(sample_25per)
sample_50per = np.percentile(samples,50)
print(sample_50per)
sample_75per = np.percentile(samples,75)
print(sample_75per)
sample_100per = np.percentile(samples,100)
print(sample_100per)

92
-23
14.5
-23.0
2.5
14.5
23.75
92.0


### 난수 생성에 필요한 시드 설정
numpy 패키지에 있는 `seed()` 메서드에 매개변수로 난수 생성시 필요한 시드를 설정 함

In [40]:
np.random.seed(0)
random_array=np.random.rand(10)
print(random_array)

[0.5488135  0.71518937 0.60276338 0.54488318 0.4236548  0.64589411
 0.43758721 0.891773   0.96366276 0.38344152]


### 데이터 순서를 임의로 바꾸기
numpy 패키지의 random 하위 패키지의 `suffle()`메서드로 배열을 임의 순서로 변경 가능 (자체 변환)


In [41]:
range_array=np.arange(10)
print(range_array)
np.random.shuffle(range_array)
print(range_array)

[0 1 2 3 4 5 6 7 8 9]
[5 2 3 4 1 0 9 8 7 6]


### 데이터 샘플링
모집단 배열에 표본으로 사용할 표본 집단 배열을 무작위로 선택하는 방법
numpy 패키지의 random 하위 패키지의 `choice(모집단배열,표본크기,중복선택여부,각요소의 선택확률)`
메서드로 사용가능

In [46]:
population_array = np.arange(10)
print(population_array)
sample_array=np.random.choice(population_array,5)
print(sample_array)

[0 1 2 3 4 5 6 7 8 9]
[7 0 1 9 9]


In [98]:
probability_array = [0.1,0.05,0.05,0,0.15,0.25,0.1,0.05,0.05,0.2]
sample_array=np.random.choice(population_array,10000,replace=True,p=probability_array)
print(sample_array)


[5 6 9 ... 9 9 9]


In [71]:
sample_array=np.random.choice(population_array,12,replace=False)
print(sample_array)
probability_array = [0.1,0.05,0.05,0,0.15,0.25,0.1,0.05,0.05,0.3]
sample_array=np.random.choice(population_array,10000,replace=True,p=probability_array)
print(sample_array)
probability_array = [0.1,0.05,0.05,0,0.15,0.25,0.1,0.05,0.05,0.0,0.1]
sample_array=np.random.choice(population_array,10000,replace=True,p=probability_array)
print(sample_array)


ValueError: Cannot take a larger sample than population when 'replace=False'

### 난수 배열 생성 
- `rand()`: 0과 1사이의 균일 분표를 따르는 난수 배열 생성
- `randn()`: 표준 정규 분포를 따르는 난수 배열 생성
- `randint(low,high=정수,size=정수혹은튜플)`: 지정한 범위의 균일 분포를 따르는 난수 배열 생성 

In [97]:
rand_array=np.random.rand(10)
print(rand_array)
randn_array=np.random.randn(10)
print(randn_array)
randint_array=np.random.randint(10,size=10)
print(randint_array)
randint_array=np.random.randint(10,high=20,size=(3,5))
print(randint_array)

[0.08782327 0.90558207 0.34011613 0.9390565  0.68187363 0.00147575
 0.40063662 0.78955108 0.23130799 0.90358948]
[ 1.44109337  0.79842034 -0.2387658   1.61721335  1.13120743  0.13835843
  0.68812583 -1.23680033 -1.26582062 -1.54253197]
[2 3 3 3 5 0 0 7 1 3]
[[15 18 16 18 19]
 [15 19 11 15 11]
 [18 19 16 16 10]]


### 정수 데이터 카운팅
배열의 요소가 정수이면 `unique()`메서드나 `bincount()`메서드로 간단하게 분석할수 있음

In [115]:
analysis_array=np.unique(sample_array,return_counts=True)
print(analysis_array)
analysis_array=np.bincount(sample_array,minlength=10)
print(analysis_array)

(array([0, 1, 2, 4, 5, 6, 7, 8, 9]), array([ 965,  537,  496, 1444, 2539, 1042,  488,  525, 1964], dtype=int64))
[ 965  537  496    0 1444 2539 1042  488  525 1964]


파이썬으로 다음 연산을 수행한다.

1. 동전을 10번 던져 앞면(숫자 1)과 뒷면(숫자 0)이 나오는 가상 실험을 파이썬으로 작성한다.

2. 주사위를 100번 던져서 나오는 숫자의 평균을 구하라.

In [132]:
randint_array=np.random.randint(0,high=2,size=10)
print(randint_array)
randint_array=np.random.randint(1,high=7,size=100)
print(randint_array.mean())

[1 0 0 1 1 1 1 1 1 0]
3.49


파이썬으로 다음 연산을 수행한다.

가격이 10,000원인 주식이 있다. 

이 주식의 일간 수익률(%)은 기댓값이 0%이고 표준편차가 1%인 표준 정규 분포를 따른다고 하자. 

250일 동안의 주가를 무작위로 생성하라

In [159]:
price=10000

variation_ranges=(np.random.randn(250) /100)+1
#print(variation_ranges)
stock_prices=[]

for ratio in variation_ranges:
    price = round(price*round(ratio,4))
    stock_prices.append(price)

stock_prices_array=np.array(stock_prices)
stock_prices_array=np.array(stock_prices)
print(stock_prices_array)

[10190 10271 10242 10102  9998  9982  9946 10024  9960 10058  9966  9969
  9977  9869  9821  9560  9533  9665  9710  9689  9910  9874  9916  9841
  9853  9797  9736  9650  9555  9624  9651  9618  9691  9634  9482  9598
  9763  9869  9925  9903  9890  9930  9920  9871  9810  9776  9741  9825
  9705  9695  9661  9590  9355  9425  9487  9424  9283  9199  9222  9026
  9035  8997  9113  9094  9069  9076  9140  9242  9382  9510  9374  9316
  9356  9377  9591  9670  9690  9767  9702  9574  9552  9903  9873  9849
 10186 10095 10215 10153 10096 10343 10233 10233 10324 10325 10281 10286
 10346 10445 10441 10527 10668 10665 10521 10509 10593 10600 10612 10718
 10888 10936 10832 11054 11033 11098 11242 11316 11268 11394 11585 11598
 11662 11810 11512 11519 11713 11815 11995 12147 11825 11792 11764 11843
 11929 11966 11891 11911 11778 11529 11785 11640 11863 11775 11730 11769
 11809 11805 11672 11630 11443 11504 11363 11398 11271 11397 11362 11352
 11102 11282 11344 11295 11418 11564 11579 11661 11

In [160]:
print(variation_ranges)

[1.01897276 1.00788638 0.997209   0.98633488 0.98973276 0.99838909
 0.99643627 1.00779805 0.99356278 1.00983407 0.99087572 1.00029514
 1.00080216 0.98923092 0.99510279 0.9734168  0.99717066 1.01376862
 1.00469702 0.99783112 1.02279805 0.99640466 1.00427844 0.99239931
 1.00124528 0.99426573 0.99381663 0.99117792 0.99021676 1.00715978
 1.00277427 0.99661403 1.00757964 0.99411452 0.98420442 1.01216899
 1.01715643 1.01085055 1.00565486 0.99781518 0.99874052 1.00404
 0.99903938 0.99507459 0.99381709 0.99653592 0.99638214 1.00855443
 0.98777199 0.99901557 0.99650932 0.99273568 0.97549919 1.00748214
 1.00656444 0.99340424 0.98496274 0.99087004 1.00253201 0.97873536
 1.00104538 0.99578305 1.01291306 0.99794939 0.99729453 1.00076911
 1.00713612 1.01118922 1.01514292 1.01359721 0.9857261  0.99382328
 1.00428811 1.00219513 1.02279178 1.00822376 1.00206332 1.00794552
 0.99328755 0.98680361 0.99774685 1.03674015 0.99696395 0.9976262
 1.03417132 0.99105649 1.01186933 0.9939261  0.99438247 1.02453736