# NumPy 학습

1. 파이썬에서 배열을 사용하기 위한 수치 해석용 표준 패키지
- 적은 메모리로 데이터를 빠르게 처리할 수 있음
- 다차원의 배열 자료구조 클래스인 ndarray 클래스를 지원하며 벡터와 행렬을 사용하는 선형대수 계산에 주로 사용
- 배열 연산은 C로 구현된 내부 반복문을 사용하기 때문에 파이썬 반복문에 비해 속도가 빠름
- 벡터화 연산(vectorized operation)을 이용하여 간단한 코드로도 복잡한 선형 대수 연산을 수행할 수 있음
- 배열 인덱싱(array indexing)을 사용한 질의(Query) 기능을 이용하여 간단한 코드로도 복잡한 수식을 계산할 수 있음
- C언어의 배열처럼 연속적인 메모리 배치를 하기 때문에 모든 원소가 같은 자료형이어야 함
- 이러한 제약사항이 있는 대신 원소에 대한 접근과 반복문 실행이 빨라짐
- ndarray 는 N-dimensional Array의 약자로 1차원, 2차원,  3차원 배열 등의 다차원 배열 자료 구조를 지원
- **2차원 배열은 행렬(matrix)** 이라고 하는데 행렬에서는 가로줄을 행 *(row)이라고 하고 세로줄을 *열(column)이라 함
- 다차원 배열 : 리스트의 리스트(list of list)를 이용하면 2차원 배열을 생성할 수 있음. 
- 안쪽 리스트의 길이는 행렬의 열의 수 즉, 가로 크기가 되고 바깥쪽 리스트의 길이는 행렬의 행의 수, 즉 세로 크기를 의미
- url<br>
http://www.numpy.org/<br>
https://docs.scipy.org/doc/numpy-1.15.0/reference/index.html#reference


### NumPy 패키지 import

> NumPy는 np라는 이름으로 임포트하는 것이 관례

In [1]:
!pip show numpy

Name: numpy
Version: 1.15.1
Summary: NumPy: array processing for numbers, strings, records, and objects.
Home-page: http://www.numpy.org
Author: Travis E. Oliphant et al.
Author-email: None
License: BSD
Location: c:\users\playdata\anaconda3\lib\site-packages
Requires: 
Required-by: tables, seaborn, PyWavelets, pytest-doctestplus, pytest-arraydiff, patsy, pandas, odo, numexpr, numba, mkl-random, mkl-fft, matplotlib, h5py, datashape, Bottleneck, bokeh, bkcharts, astropy


In [1]:
import numpy as np

### Numpy 필요성 인지를 위한 간략 코드
- 반복문 실행 시간 비교하기

In [2]:
#numpy 데이터 구성
numpyArray = np.arange(10000000)

#순수 python list
plist = list( range(10000000) )

In [3]:
# ms : 밀리초 (millisecond, ms)는 천 분의 1초를 가리키는 말
# s : 초
%time for _ in range(10): numpyArray = numpyArray * 2
%time for _ in range(10): plist = [x * 2 for x in plist]

Wall time: 484 ms
Wall time: 19.1 s


### NumPy 모듈을 사용한 1차원 배열 만들기

- array 함수에 리스트를 넣으면 배열로 변환

In [4]:
data = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
print(data)
type(data)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


list

In [24]:
# 정수 배열
data = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
print(data)

[0 1 2 3 4 5 6 7 8 9]


In [25]:
type(data)

numpy.ndarray

In [26]:
# 몇차원 배열 여부 확인
data.ndim

1

In [27]:
data.shape

(10,)

In [28]:
#dtype을 이용한 실수 배열 타입
data = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype='float')
data

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [29]:
type(data)

numpy.ndarray

### NumPy 모듈을 사용한  2차원 배열 만들기

In [33]:
data= np.array([[1,2,3], [4,5,6]])
data

array([[1, 2, 3],
       [4, 5, 6]])

In [35]:
data.ndim

2

In [36]:
data.shape

(2, 3)

In [22]:
data[0]

array([1, 2, 3])

In [23]:
data[1]

array([4, 5, 6])

In [24]:
data[0][1]

2

In [25]:
data

array([[1, 2, 3],
       [4, 5, 6]])

In [27]:
data[1][2]

6

In [28]:
data[1][2] = 60

In [29]:
data[1][2]

60

In [30]:
data

array([[ 1,  2,  3],
       [ 4,  5, 60]])

In [37]:
# 행 개수
len(data)

2

In [34]:
# 열 개수
len(data[0])

3

In [35]:
len(data[1])

3

In [33]:
#오류 len(data[0][0])

TypeError: object of type 'numpy.int32' has no len()

### NumPy 모듈을 사용한  3차원 배열 만들기

리스트의 리스트의 리스트를 이용하면 3차원 배열도 생성할 수 있음<br>
크기를 나타낼 때는 가장 **바깥쪽 리스트의 길이부터 가장 안쪽 리스트 길이의 순서로** 표시<br>
예를 들어 2 x 3 x 4 배열은 다음과 같이 구성

In [38]:
# 1 x 2x3x4
data = np.array([ [[1,2,3,4], 
                  [5,6,7,8], 
                  [9,10,11,12]], 
                  [[11,12,13,14], 
                   [15,16,17,18], 
                   [19,20,21,22]] ])

In [43]:
data2=np.array([[[1,2,3,4],[5,6,7,8],[9,10,11,12]],[[11,12,13,14],[16,17,18,19],[20,21,22,23]]])
data2

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[11, 12, 13, 14],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [44]:
data.ndim

3

In [45]:
data.shape

(2, 3, 4)

In [42]:
#3차원 배열의 행, 열, 깊이(데이터 개수)
len(data), len(data[0]), len(data[0][1])

(2, 3, 4)

In [44]:
len(data[0])

3

In [45]:
data[0][1]

array([5, 6, 7, 8])

In [46]:
data[1][1][2]

17

In [47]:
data[1][1][2] = 47

In [49]:
data

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[11, 12, 13, 14],
        [15, 16, 47, 18],
        [19, 20, 21, 22]]])

In [50]:
data[0]

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [51]:
data[1]

array([[11, 12, 13, 14],
       [15, 16, 47, 18],
       [19, 20, 21, 22]])

In [52]:
data[0][0]

array([1, 2, 3, 4])

In [53]:
data[0][0][2]

3

### NumPy 함수를 사용하여 배열 생성하기

1. 규모가 큰 배열의 경우에는 NumPy에 내장된 루틴을 사용해서 처음부터 배열을 생성하는 것이 효율적
- 주요 함수<br>
a. zeros, ones <br>
b. zeros_like, ones_like : api보고 직접 예제 구성해보기<br>
c. empty<br>
d. arange : 특정한 규칙에 따라 증가하는 수열 만들기<br>
e. linspace, logspace : 선형 구간 혹은 로그 구간을 지정한 구간의 수만큼 분할<br>
f. rand, randn<br>

In [163]:
f=np.arange(20)

In [164]:
aa=f.reshape(4,5)
np.zeros_like(aa)

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0]])

In [167]:
aa

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [168]:
#0 값으로 정수 배열 만들기
data = np.zeros(10, dtype=int)

In [169]:
data.ndim

1

In [170]:
data.shape

(10,)

In [171]:
data

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [53]:
#? 1값으로 10개의 데이터를 보유한 numpy 배열 만들고 출력
# dtype=int 1의 정수, 생략시 1.0의 실수
data = np.ones(10, dtype=int)
data

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [144]:
x==2

array([False,  True, False])

In [58]:
#다차원 배열 
#2행 3열, int
data = np.zeros((2, 3), dtype=int)

In [59]:
data

array([[0, 0, 0],
       [0, 0, 0]])

In [60]:
data[1][2] = 100
data

array([[  0,   0,   0],
       [  0,   0, 100]])

In [61]:
#2행 3열의 data 변수의 열의 값 3이 출력되게 하세요
len(data[1])

3

In [62]:
# 5로 채워진 3x5 배열 구성하기
data = np.full((3, 5), 5)
data

array([[5, 5, 5, 5, 5],
       [5, 5, 5, 5, 5],
       [5, 5, 5, 5, 5]])

In [64]:
# 0~10까지의 범위 내에서 2씩 증가되는 배열 만들기
data = np.arange(0, 10, 2)
data

array([0, 2, 4, 6, 8])

In [70]:
data=np.arange(0,11,2)
data

array([ 0,  2,  4,  6,  8, 10])

In [70]:
np.linspace(0, 5, 2)

array([0., 5.])

In [71]:
np.linspace(0, 10, 2)

array([ 0., 10.])

In [71]:
np.linspace(0, 10, 5)

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [76]:
np.linspace(2,12,6)

array([ 2.,  4.,  6.,  8., 10., 12.])

In [78]:
np.linspace(0, 10, 4)

array([ 0.        ,  3.33333333,  6.66666667, 10.        ])

In [79]:
# (0.1 ~ 1 10)
np.logspace(0.1, 1, 10)

array([ 1.25892541,  1.58489319,  1.99526231,  2.51188643,  3.16227766,
        3.98107171,  5.01187234,  6.30957344,  7.94328235, 10.        ])

In [84]:
np.logspace(2,3,4)

array([ 100.        ,  215.443469  ,  464.15888336, 1000.        ])

In [106]:
# 0~1 사이의 난수 발생하는 함수
np.random.random( (3,3) )

array([[0.41478961, 0.31513638, 0.68152805],
       [0.91292281, 0.412077  , 0.5566874 ],
       [0.18371378, 0.04393231, 0.69110687]])

In [133]:
# 0~10까지의 임의의 정수로 3x3 배열 만들기
np.random.randint(0, 10, (3, 3))

array([[6, 7, 2],
       [0, 3, 9],
       [8, 6, 2]])

- np.eye() : 단위 행렬 구성 
- [API doc](https://docs.scipy.org/doc/numpy/reference/generated/numpy.eye.html)

In [None]:
# 3x3 단위 행렬 만들기
np.eye(3)

## NumPy 배열의 기초

### 배열 속성 지정

>* 각 배열이 보유하고 있는 속성들
1. ndim : 차원의 개수
- shape : 각 차원의 크기
- size : 전체 배열 크기


> * randint(maxno, size=(nxm)) or  randint(minno, maxno, (nxm))<br>
- 정수형의 난수 발생 함수

In [159]:
# 동일한 난수 배열이 생성되도록 시드값 설정
np.random.seed(0)

정수 범위내의 난수 발생해서 1차원~3차원 배열 생성해 보기

In [137]:
x1 = np.random.randint(10, size=6) # 1차원 배열
x2 = np.random.randint(10, size=(3, 4)) # 2차원 배열
x3 = np.random.randint(10, size=(3, 4, 5))# 3차원 배열

In [168]:
x1 = np.random.randint(10, size=6) # 1차원 배열
x1

array([2, 0, 0, 4, 5, 5])

In [169]:
x2 = np.random.randint(10, size=(3, 4)) # 2차원 배열
x2

array([[6, 8, 4, 1],
       [4, 9, 8, 1],
       [1, 7, 9, 9]])

In [170]:
x3

array([[[3, 3, 8, 6, 6],
        [9, 7, 8, 9, 2],
        [3, 5, 5, 2, 8],
        [7, 8, 6, 0, 6]],

       [[2, 2, 6, 3, 9],
        [8, 4, 8, 7, 8],
        [0, 7, 6, 3, 0],
        [7, 9, 9, 3, 1]],

       [[6, 3, 7, 8, 7],
        [9, 3, 4, 8, 7],
        [5, 9, 0, 7, 0],
        [6, 4, 1, 0, 8]]])

# 배열 indexing : 단일 요소 접근하기

In [176]:
x1 = np.random.randint(10, size = 6)

In [177]:
x1

array([4, 3, 4, 4, 8, 4])

### 배열의 색인과  슬라이싱 
> x[start : stop : step] <br>
하위 배열에 접근하기

In [178]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [179]:
type(x)

numpy.ndarray

In [180]:
x[:5]

array([0, 1, 2, 3, 4])

In [181]:
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [182]:
x[5:]

array([5, 6, 7, 8, 9])

In [183]:
x[3:5]

array([3, 4])

In [184]:
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [185]:
# :: 3칸씩 걸러내는 구성
x[::3]

array([0, 3, 6, 9])

In [191]:
x1 = np.random.randint(10, size=6) # 1차원 배열

In [192]:
x1

array([0, 1, 5, 9, 3, 0])

In [194]:
x1[::2]

array([0, 5, 3])

In [195]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [196]:
#모든 요소를 거꾸로 출력하기
x[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [198]:
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [199]:
#?[5, 3, 1]
x[5 :: -2]

array([5, 3, 1])

In [201]:
''' # 3x3
array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])
'''
arr2d = np.array([[1,2,3], [4,5,6], [7,8,9]])

In [202]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [204]:
arr2d.ndim

2

In [205]:
arr2d.shape

(3, 3)

In [206]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [207]:
# 1(2-1)행까지의 모든 row 들 출력
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [209]:
x1 = arr2d[2:2]
x1

array([], shape=(0, 3), dtype=int32)

In [210]:
x1.shape

(0, 3)

In [214]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [211]:
x1 = arr2d[:2, 1:]
x1

array([[2, 3],
       [5, 6]])

In [213]:
x1.shape

(2, 2)

In [215]:
'''
array([[2],
       [5],
       [8]])
'''
arr2d[:, 1:2]

array([[2],
       [5],
       [8]])

In [216]:
arr2d.ndim

2

### 데이터 복사 이해하기

> NumPy는 대용량 데이터 처리를 염두해 두고 설계되었기 때문에 NumPy가 데이터 복사를 남발할 경우 성능과 메모리 문제 발생 가능성이 있음
<br>
별도의 복사된 데이터를 활용하고자 할 경우 copy() 함수 사용

copy() 함수를 사용하지 않은 경우

In [218]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [219]:
x[5]

5

In [220]:
#index 시작:끝-1
x[3:8]

array([3, 4, 5, 6, 7])

In [222]:
#array([ 0,  1,  2,  3,  4, 30, 30, 30,  8,  9])
x[5:8] = 30
x

array([ 0,  1,  2,  3,  4, 30, 30, 30,  8,  9])

In [224]:
y = x[5:8]
y

array([30, 30, 30])

In [225]:
y[0] = 100
y

array([100,  30,  30])

In [226]:
x

array([  0,   1,   2,   3,   4, 100,  30,  30,   8,   9])

copy() 함수를 사용한 경우

In [228]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [230]:
y = x[5:8].copy()
y

array([5, 6, 7])

In [231]:
y[0] = 100
y

array([100,   6,   7])

In [232]:
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

> 다차원 하위 배열

In [233]:
x2 = np.random.randint(10, size=(3,4)) # 2차원 배열

In [235]:
x2

array([[5, 0, 1, 2],
       [4, 2, 0, 3],
       [2, 0, 7, 5]])

In [236]:
'''
1. x2가 몇차원 배열?
2. x2[0]이 몇차원 배열?
3. x2의 구조(shape) 
4. x2[0]의 구조
5. x2 모든 1행, 모든 4열의 데이터를 출력  ex: [5, 0, 1, 2],
6. x2의 모든 2행까지의 모든 4열
    ex [5, 0, 1, 2],
       [4, 2, 0, 3]
7. x2의 모든 행의 0~2 컬럼값들만 출력

'''

'\n1. x2가 몇차원 배열?\n2. x2[0]이 몇차원 배열?\n3. x2의 구조(shape) \n4. x2[0]의 구조\n5. x2 모든 1행, 모든 4열의 데이터를 출력  ex: [5, 0, 1, 2],\n6. x2의 모든 2행까지의 모든 4열\n    ex [5, 0, 1, 2],\n       [4, 2, 0, 3]\n7. x2의 모든 행의 0~2 컬럼값들만 출력\n\n'

In [237]:
x2.ndim

2

In [238]:
x2[0].ndim

1

In [239]:
x2.shape

(3, 4)

In [240]:
x2[0].shape

(4,)

In [242]:
x2

array([[5, 0, 1, 2],
       [4, 2, 0, 3],
       [2, 0, 7, 5]])

In [245]:
x2[:1, :]

array([[5, 0, 1, 2]])

In [247]:
x2[:2, :]

array([[5, 0, 1, 2],
       [4, 2, 0, 3]])

In [249]:
x2[:, :3]

array([[5, 0, 1],
       [4, 2, 0],
       [2, 0, 7]])

> 배열의 재 구조화
- 매우 중요

In [251]:
# reshape() 메소드
data = np.arange(1, 10)

In [252]:
data

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [255]:
x = data.reshape(3, 3)

In [256]:
x

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [257]:
x.shape

(3, 3)

In [258]:
x.ndim

2

In [259]:
data

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [260]:
data = np.array([1,2,3])

In [261]:
data.ndim

1

In [264]:
data.shape

(3,)

In [265]:
data

array([1, 2, 3])

In [269]:
data.shape

(3,)

In [263]:
x = data.reshape((3,1)) 
x

array([[1],
       [2],
       [3]])

In [267]:
x.ndim

2

In [268]:
x.shape

(3, 1)

> 배열 연결 및 분할
- 여러 배열을  하나로 결합 또는 하나의 배열을 여러 개의 배열로 분할하기
- np.concatenate(numpy의 배열과 python의 list 결합도 가능)
- np.vstack, np.hstack 루틴을 이용해 두 배열 결합 및 연결

1차원 배열간의 결합

In [271]:
x = np.array([1,2,3])
y = np.array([3,2,1])

In [272]:
x

array([1, 2, 3])

In [273]:
y

array([3, 2, 1])

In [276]:
np.concatenate([x,y])

array([1, 2, 3, 3, 2, 1])

In [277]:
type(x)

numpy.ndarray

In [279]:
# python의 list
z = [5,6,7]
type(z)

list

In [280]:
data = np.concatenate([x,y,z])
data

array([1, 2, 3, 3, 2, 1, 5, 6, 7])

In [281]:
type(data)

numpy.ndarray

2차원 배열간의 결합

In [282]:
data = np.array([[1,2,3],[5,6,7]])
data

array([[1, 2, 3],
       [5, 6, 7]])

In [283]:
data.ndim

2

In [284]:
data.shape

(2, 3)

In [285]:
# 2차원 배열 두가지로 새로운 numpy 배열 생성
data2 = np.array([data, data])

In [289]:
data2

array([[[1, 2, 3],
        [5, 6, 7]],

       [[1, 2, 3],
        [5, 6, 7]]])

In [290]:
data2.shape

(2, 2, 3)

In [287]:
data2[0]

array([[1, 2, 3],
       [5, 6, 7]])

In [288]:
data

array([[1, 2, 3],
       [5, 6, 7]])

In [292]:
# 이미 존재하는 컬럼에 결합해서 컬럼이 추가 
data2 = np.concatenate([data, data], axis=1)
data2

array([[1, 2, 3, 1, 2, 3],
       [5, 6, 7, 5, 6, 7]])

In [293]:
data2.shape

(2, 6)

In [295]:
# 이미 존재하는 row에 추가 결합
data3 = np.concatenate([data, data], axis=0)
data3

array([[1, 2, 3],
       [5, 6, 7],
       [1, 2, 3],
       [5, 6, 7]])

In [296]:
data3.shape

(4, 3)

In [297]:
data

array([[1, 2, 3],
       [5, 6, 7]])

> 혼합된 차원의 배열
- 행의 수나 열의 수가 같은 두개 이상의 배열을 연결하여 더 큰 배열 생성하는  명령어
- np.vstack : 수직 스택, vertical stack, 컬럼 개수는 맞아야 함 <br>
- np.hstack : 수평 스택, horizontal stack, 하나의 컬럼에 속해있는 row 개수는 동일해야 함<br>
- dstack : 제 3의 축, 즉 행이나 열이 아닌 깊이 방향으로 배열을 결합, 가장 안쪽의 원소 차원이 증가
- stack : 사용자가 지정한 차원(축)으로 연결
- r_ : hstack과 함께 배열을 좌우로 연결
- c_ : 배열의 차원을 증가시킨 후 좌우로 연결, 가령 1차원 배열을 연결하면 2차원 배열이 됨
- tile : 동일한 배열을 반복하여 연결

In [174]:
x = np.array([1,2,3])
data = np.array([[5,6,7], [8,9,10]])

In [175]:
x

array([1, 2, 3])

In [176]:
data

array([[ 5,  6,  7],
       [ 8,  9, 10]])

In [177]:
print(x.ndim, ' ', data.ndim)

1   2


In [179]:
#배열을 수직으로 추가 하는 함수
np.vstack([x, data])

array([[ 1,  2,  3],
       [ 5,  6,  7],
       [ 8,  9, 10]])

In [304]:
np.vstack([data, x])

array([[ 5,  6,  7],
       [ 8,  9, 10],
       [ 1,  2,  3]])

In [305]:
x

array([1, 2, 3])

In [306]:
data

array([[ 5,  6,  7],
       [ 8,  9, 10]])

In [308]:
x.ndim

1

In [309]:
data.ndim

2

In [307]:
np.hstack([data, x])

ValueError: all the input arrays must have same number of dimensions

In [311]:
y = np.array([[100], [100]])

In [312]:
y.ndim

2

In [313]:
np.hstack([data, y])

array([[  5,   6,   7, 100],
       [  8,   9,  10, 100]])

In [314]:
data

array([[ 5,  6,  7],
       [ 8,  9, 10]])

In [316]:
z = np.array([1, 2])

In [317]:
z

array([1, 2])

In [320]:
np.hstack([data, z]) #예외 발생 왜? 

ValueError: all the input arrays must have same number of dimensions

In [327]:
x = np.array(['a', 'b', 'c'])

In [328]:
x

array(['a', 'b', 'c'], dtype='<U1')

In [329]:
z

array([1, 2])

In [330]:
np.hstack([data,[[x],[z]]])

array([[5, 6, 7, array(['a', 'b', 'c'], dtype='<U1')],
       [8, 9, 10, array([1, 2])]], dtype=object)

In [318]:
np.vstack([data, z])

ValueError: all the input array dimensions except for the concatenation axis must match exactly

> 배열 분할하기
- np.split, np.hsplit, np.vsplit

In [331]:
x = [1,2,3,100,100, 3,2,1]

In [332]:
x1, x2, x3 = np.split(x, [3, 5])
x1

array([1, 2, 3])

In [333]:
x2

array([100, 100])

In [334]:
x3

array([3, 2, 1])

In [335]:
''' 
1. arange(?).reshape(?)
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

2. up, down = split(?,?)
up 출력시
[[ 0,  1,  2,  3]]
'''

' \n1. arange(?).reshape(?)\narray([[ 0,  1,  2,  3],\n       [ 4,  5,  6,  7],\n       [ 8,  9, 10, 11],\n       [12, 13, 14, 15]])\n\n2. up, down = split(?,?)\nup 출력시\n[[ 0,  1,  2,  3]]\n'

In [338]:
data = np.arange(16).reshape(4,4)

In [339]:
data

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [349]:
up, down = np.hsplit(data, [1])

In [350]:
up

array([[ 0],
       [ 4],
       [ 8],
       [12]])

In [351]:
data

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [352]:
up, down = np.vsplit(data, [1])

In [353]:
up

array([[0, 1, 2, 3]])

In [357]:
#0으로만 채워진 3x4 행렬
data = np.zeros((3,4), dtype=int)

In [358]:
data

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]])

In [365]:
x = np.tile(data, 3)
x

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

In [362]:
x.shape

(3, 12)

In [363]:
x.ndim

2

> <font color='red'>전치 연산</font>
- 2차원 배열의 전치(transpose) 연산은 행과 열을 바꾸는 작업
- 이는 배열의 T 속성으로 구할 수 있음
- 메서드가 아닌 속성

In [366]:
data = np.array([[1, 2, 3], [4, 5, 6]])
data

array([[1, 2, 3],
       [4, 5, 6]])

In [369]:
data.T

array([[1, 4],
       [2, 5],
       [3, 6]])

> 다차원 배열을 1차원으로 변환하기
1. flatten or  ravel 함수 사용

In [370]:
data = np.arange(1,10,1)

In [371]:
data

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [372]:
data = data.reshape(3,3)
data

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [373]:
# 중요★
data.flatten()

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

### 벡터화 연산(vectorized operation)

1.  배열 객체는 배열의 각 원소에 대한 반복 연산을 하나의 명령어로 처리
- 일반 for 반복문 없이 한번의 연산으로 처리 가능
- 실행 속도도 빠름
- 비교 연산과 논리 연산을 포함한 모든 종류의 수학 연산에 대해 적용

In [85]:
# 일반 python 배열
data = [0, 1, 2, 3, 4, 5]

In [87]:
# for 반복문을 사용힌 경우
result = []
for no in data:
    result.append(no*2)
result

[0, 2, 4, 6, 8, 10]

In [90]:
# python의 list에 *2 연산이 진행될 경우 배열 자체가 두배
data*2

[0, 1, 2, 3, 4, 5, 0, 1, 2, 3, 4, 5]

In [93]:
x= np.array(data)
x

array([0, 1, 2, 3, 4, 5])

In [95]:
x*2

array([ 0,  2,  4,  6,  8, 10])

In [96]:
x.size

6

> NumPy는 벡터화 연산 사용시 빠른 연산 가능

In [98]:
x = np.array(data)
x

array([1, 2, 3])

In [99]:
x * 2

array([2, 4, 6])

> 일반 리스트 객체에 정수를 곱하면 객체의 크기가 정수배 만큼으로 증가

In [97]:
data = [1,2,3]
data * 2

[1, 2, 3, 1, 2, 3]

> 벡터화 연산은 비교 연산과 논리 연산을 포함한 모든 종류의 수학 연산에 대해 적용

In [134]:
x=np.array([1,2,3])
y=np.array([10,20,30])

In [135]:
x+y

array([11, 22, 33])

In [136]:
y-x

array([ 9, 18, 27])

In [137]:
x*y

array([10, 40, 90])

In [138]:
y/x

array([10., 10., 10.])

In [139]:
x==y # 값 각각 비교

array([False, False, False])

In [140]:
y[0]=1

In [141]:
x==y

array([ True, False, False])

In [142]:
y>10

array([False,  True,  True])

In [143]:
(x==2) & (y>10)

array([False,  True, False])

In [145]:
z=np.array([0, 20, 0.1])
z

array([ 0. , 20. ,  0.1])

In [146]:
z2=np.arange(0, 10, 0.1)
z2

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. , 1.1, 1.2,
       1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2. , 2.1, 2.2, 2.3, 2.4, 2.5,
       2.6, 2.7, 2.8, 2.9, 3. , 3.1, 3.2, 3.3, 3.4, 3.5, 3.6, 3.7, 3.8,
       3.9, 4. , 4.1, 4.2, 4.3, 4.4, 4.5, 4.6, 4.7, 4.8, 4.9, 5. , 5.1,
       5.2, 5.3, 5.4, 5.5, 5.6, 5.7, 5.8, 5.9, 6. , 6.1, 6.2, 6.3, 6.4,
       6.5, 6.6, 6.7, 6.8, 6.9, 7. , 7.1, 7.2, 7.3, 7.4, 7.5, 7.6, 7.7,
       7.8, 7.9, 8. , 8.1, 8.2, 8.3, 8.4, 8.5, 8.6, 8.7, 8.8, 8.9, 9. ,
       9.1, 9.2, 9.3, 9.4, 9.5, 9.6, 9.7, 9.8, 9.9])

In [149]:
z.size, z2.size

(3, 100)

<!--NAVIGATION-->
<[step02 NumPy 함수 학습](step02_NumpyFun.ipynb) >