# NumPy 학습

1. 파이썬에서 배열을 사용하기 위한 수치 해석용 표준 패키지
- 적은 메모리로 데이터를 빠르게 처리할 수 있음
- 다차원의 배열 자료구조 클래스인 ndarray 클래스를 지원하며 벡터와 행렬을 사용하는 선형대수 계산에 주로 사용
- 배열 연산은 C로 구현된 내부 반복문을 사용하기 때문에 파이썬 반복문에 비해 속도가 빠름
- 벡터화 연산(vectorized operation)을 이용하여 간단한 코드로도 복잡한 선형 대수 연산을 수행할 수 있음
- 배열 인덱싱(array indexing)을 사용한 질의(Query) 기능을 이용하여 간단한 코드로도 복잡한 수식을 계산할 수 있음
- C언어의 배열처럼 연속적인 메모리 배치를 하기 때문에 모든 원소가 같은 자료형이어야 함
- 이러한 제약사항이 있는 대신 원소에 대한 접근과 반복문 실행이 빨라짐
- ndarray 는 N-dimensional Array의 약자로 1차원, 2차원,  3차원 배열 등의 다차원 배열 자료 구조를 지원
- **2차원 배열은 행렬(matrix)** 이라고 하는데 행렬에서는 가로줄을 행 *(row)이라고 하고 세로줄을 *열(column)이라 함
- 다차원 배열 : 리스트의 리스트(list of list)를 이용하면 2차원 배열을 생성할 수 있음. 
- 안쪽 리스트의 길이는 행렬의 열의 수 즉, 가로 크기가 되고 바깥쪽 리스트의 길이는 행렬의 행의 수, 즉 세로 크기를 의미
- url<br>
http://www.numpy.org/<br>
https://docs.scipy.org/doc/numpy-1.15.0/reference/index.html#reference


### NumPy 패키지 import

> NumPy는 np라는 이름으로 임포트하는 것이 관례

In [2]:
!pip show numpy

Name: numpy
Version: 1.15.1
Summary: NumPy: array processing for numbers, strings, records, and objects.
Home-page: http://www.numpy.org
Author: Travis E. Oliphant et al.
Author-email: None
License: BSD
Location: c:\users\playdata\anaconda3\lib\site-packages
Requires: 
Required-by: tables, seaborn, PyWavelets, pytest-doctestplus, pytest-arraydiff, patsy, pandas, odo, numexpr, numba, mkl-random, mkl-fft, matplotlib, h5py, datashape, Bottleneck, bokeh, bkcharts, astropy


In [3]:
import numpy as np

### Numpy 필요성 인지를 위한 간략 코드
- 반복문 실행 시간 비교하기

In [4]:
numpyArray = np.arange(10000000)
plist = list( range(10000000) )

In [5]:
%time for _ in range(10): numpyArray = numpyArray * 2
%time for _ in range(10): plist = [x * 2 for x in plist]

Wall time: 406 ms
Wall time: 16.2 s


### NumPy 모듈을 사용한 1차원 배열 만들기

- array 함수에 리스트를 넣으면 배열로 변환

In [6]:
data = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
print(data)
type(data)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


list

In [7]:
# 정수 배열




In [8]:
type(data)

list

In [9]:
#dtype을 이용한 실수 배열 타입




In [10]:
type(data)

list

### NumPy 모듈을 사용한  2차원 배열 만들기

In [13]:
data=np.array([[1,2,3],[4,5,6]])
data

array([[1, 2, 3],
       [4, 5, 6]])

In [14]:
data.ndim

2

In [15]:
data.shape

(2, 3)

In [16]:
data[0]

array([1, 2, 3])

In [18]:
data[1][2]=60
data

array([[ 1,  2,  3],
       [ 4,  5, 60]])

### NumPy 모듈을 사용한  3차원 배열 만들기

리스트의 리스트의 리스트를 이용하면 3차원 배열도 생성할 수 있음<br>
크기를 나타낼 때는 가장 **바깥쪽 리스트의 길이부터 가장 안쪽 리스트 길이의 순서로** 표시<br>
예를 들어 2 x 3 x 4 배열은 다음과 같이 구성

In [21]:
data=np.array([[[1,2,3,4],[1,2,3,4],[1,2,3,4]],
             [[1,2,3,4],[1,2,3,4],[1,2,3,4]]])
data[1][1][2]=125
data

array([[[  1,   2,   3,   4],
        [  1,   2,   3,   4],
        [  1,   2,   3,   4]],

       [[  1,   2,   3,   4],
        [  1,   2, 125,   4],
        [  1,   2,   3,   4]]])

3차원 배열의 행, 열, 깊이

In [22]:
len(data), len(data[0]),len(data[0][1])

(2, 3, 4)

In [23]:
1,2,3,4

(1, 2, 3, 4)

### NumPy 함수를 사용하여 배열 생성하기

1. 규모가 큰 배열의 경우에는 NumPy에 내장된 루틴을 사용해서 처음부터 배열을 생성하는 것이 효율적
- 주요 함수<br>
a. zeros, ones <br>
b. zeros_like, ones_like<br>
c. empty<br>
d. arange : 특정한 규칙에 따라 증가하는 수열 만들기<br>
e. linspace, logspace : 선형 구간 혹은 로그 구간을 지정한 구간의 수만큼 분할<br>
f. rand, randn<br>

In [24]:
data=np.zeros(10,dtype=int)

In [26]:
data.ndim

1

In [27]:
data.shape

(10,)

In [30]:
data=np.ones(10,dtype=int)
data

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [32]:
#다차원 배열
#2행 3열, int
data=np.zeros((2,3),dtype=int)

In [33]:
data

array([[0, 0, 0],
       [0, 0, 0]])

In [None]:
data[1][2]

In [35]:
# 5로 채워진 3x5 배열 구성하기
data=np.full((3,5), 5)
data

array([[5, 5, 5, 5, 5],
       [5, 5, 5, 5, 5],
       [5, 5, 5, 5, 5]])

In [36]:
data= np.arange(0,10,2)
data

array([0, 2, 4, 6, 8])

In [34]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [38]:
# (0.1 ~ 1 10)
np.linspace(0, 5, 2)

array([0., 5.])

In [41]:
np.linspace(0, 5, 5)

array([0.  , 1.25, 2.5 , 3.75, 5.  ])

In [42]:
np.logspace(0.1,1,10)

array([ 1.25892541,  1.58489319,  1.99526231,  2.51188643,  3.16227766,
        3.98107171,  5.01187234,  6.30957344,  7.94328235, 10.        ])

In [47]:
# 0~1 사이의 난수발생 함수
np.random.random((3,3))

array([[0.56527732, 0.07996583, 0.86988398],
       [0.27881519, 0.30875553, 0.78987376],
       [0.57159456, 0.33763959, 0.50676003]])

In [46]:
# 0~10까지의 임의의 정수로 3x3 배열 만들기
np.random.randint(0,10,(3,3))

array([[9, 2, 7],
       [0, 0, 0],
       [7, 5, 9]])

In [59]:
x1=np.random.randint(10,size=6)
x1

array([8, 1, 7, 1, 8, 3])

In [58]:
x2=np.random.randint(10,size=(3,4))
x2

array([[0, 3, 8, 3],
       [8, 9, 3, 8],
       [3, 2, 3, 0]])

In [60]:
# 시작점 안쓰면 size안쓰고(3,4)처럼 표현 못한다
x3=np.random.randint(0,10,(3,4))
x3

array([[9, 8, 1, 9],
       [5, 6, 6, 9],
       [0, 8, 6, 5]])

In [63]:
x1=np.random.randint(10,size=6)
x1

array([4, 6, 4, 5, 2, 5])

In [81]:
x= np.arange(1,6,2)
x[::-1]

array([5, 3, 1])

- np.eye() : 단위 행렬 구성 
- [API doc](https://docs.scipy.org/doc/numpy/reference/generated/numpy.eye.html)

In [None]:
# 3x3 단위 행렬 만들기
np.eye(3)

## NumPy 배열의 기초

### 배열 속성 지정

> 각 배열이 보유하고 있는 속성들

1. ndim : 차원의 개수
- shape : 각 차원의 크기
- size : 전체 배열 크기

In [None]:
# 동일한 난수 배열이 생성되도록 시드값 설정
np.random.seed(0)

정수 범위내의 난수 발생해서 1차원~3차원 배열 생성해 보기

In [None]:
x1 = np.random.randint(10, size=6) # 1차원 배열
x2 = np.random.randint(10, size=(3, 4)) # 2차원 배열
x3 = np.random.randint(10, size=(3, 4, 5))# 3차원 배열

In [77]:
x

array([2, 4, 6, 8])

배열 indexing : 단일 요소 접근하기

### 배열의 색인과  슬라이싱 
> x[start : stop : step] step은 증가치를 의미 <br>
하위 배열에 접근하기

In [75]:
x=np.arange(2,10,2)
x

array([2, 4, 6, 8])

In [76]:
x1=np.random.randint(10,size=6)
x1

array([8, 5, 0, 1, 5, 4])

In [72]:
x1[::3]

array([1, 8])

### 데이터 복사 이해하기

> NumPy는 대용량 데이터 처리를 염두해 두고 설계되었기 때문에 NumPy가 데이터 복사를 남발할 경우 성능과 메모리 문제 발생 가능성이 있음
<br>
별도의 복사된 데이터를 활용하고자 할 경우 copy() 함수 사용

copy() 함수를 사용하지 않은 경우

copy() 함수를 사용한 경우

> 다차원 하위 배열

In [None]:
x2 = np.random.randint(10, size=(3,4)) # 2차원 배열

> 배열의 재 구조화

In [None]:
# reshape() 메소드


> 배열 연결 및 분할
- 여러 배열을  하나로 결합 또는 하나의 배열을 여러 개의 배열로 분할하기
- np.concatenate, np.vstack, np.hstack 루틴을 이용해 두 배열 결합 및 연결

> 혼합된 차원의 배열
- 행의 수나 열의 수가 같은 두개 이상의 배열을 연결하여 더 큰 배열 생성하는  명령어
- np.vstack : 수직 스택, vertical stack <br>
- np.hstack : 수평 스택, horizontal stack
- dstack : 제 3의 축, 즉 행이나 열이 아닌 깊이 방향으로 배열을 결합, 가장 안쪽의 원소 차원이 증가
- stack : 사용자가 지정한 차원(축)으로 연결
- r_ : hstack과 함께 배열을 좌우로 연결
- c_ : 배열의 차원을 증가시킨 후 좌우로 연결, 가령 1차원 배열을 연결하면 2차원 배열이 됨
- tile : 동일한 배열을 반복하여 연결

In [None]:
x = np.array([1,2,3])
data = np.array([[5,6,7], [8,9,10]])

> 배열 분할하기
- np.split, np.hsplit, np.vsplit

In [None]:
x = [1,2,3,100,100,3,2,1]

> 전치 연산
- 2차원 배열의 전치(transpose) 연산은 행과 열을 바꾸는 작업
- 이는 배열의 T 속성으로 구할 수 있음
- 메서드가 아닌 속성

In [None]:
data = np.array([[1, 2, 3], [4, 5, 6]])
data

> 다차원 배열을 1차원으로 변환하기
1. flatten or  ravel 함수 사용

In [None]:
data = np.arange(1,10,1)

### 벡터화 연산(vectorized operation)

1.  배열 객체는 배열의 각 원소에 대한 반복 연산을 하나의 명령어로 처리
- 일반 for 반복문 없이 한번의 연산으로 처리 가능
- 실행 속도도 빠름
- 비교 연산과 논리 연산을 포함한 모든 종류의 수학 연산에 대해 적용

In [None]:
# 일반 python 배열
data = [0, 1, 2, 3, 4, 5]

In [None]:
# for 반복문을 사용힌 경우
result = []
for no in data:
    result.append(no*2)
result

> NumPy는 벡터화 연산 사용시 빠른 연산 가능

In [None]:
x = np.array(data)
x

In [None]:
x * 2

> 일반 리스트 객체에 정수를 곱하면 객체의 크기가 정수배 만큼으로 증가

In [None]:
data = [1,2,3]
data * 2

> 벡터화 연산은 비교 연산과 논리 연산을 포함한 모든 종류의 수학 연산에 대해 적용

<!--NAVIGATION-->
<[step02 NumPy 함수 학습](step02_NumpyFun.ipynb) >