#### 자습 자료 원본 https://datascienceschool.net/view-notebook/35099ac4aea146c69cc4b3f50aec736f/

***
Numpy 배열 사용하기

데이터는 수많은 숫자들로 이루어져있다. 많은 숫자를 효율적으로 계산하기 위해서는 관련 데이터를 하나의 변수에 모두 넣고 처리해야 한다.
하나의 변수에 여러 개의 데이터를 넣는 방법으로 리스트 사용가능하지만 리스트는 속도가 느리고 메모리를 많이 차지한다.
더 적은 메모리를 사용해서 빠른 데이터처리를 하려면 배열(array)를 사용해야한다.

배열은 같은 자료형의 데이터를 정해진 개수만큼 모아놓은 것이다.
배열이 리스트와 다른 점은
1 모든 원소가 같은 자료형이어야 한다
2 원소의 개수를 바꿀 수 없다

파이썬은 자체적으로 배열 자료형을 제공하지 않기 때문에 배열을 구현한  Numpy패키지를 임포트 한다.

## list, numpy 처리시간 비교

In [None]:
import numpy as np
import time

size = 10000000

#list
def original():
    start = time.time()
    x=range(size)
    y=range(size)
    z=[]
    for i in range(len(x)):
        z.append(x[i]+y[i])
    end=time.time()
    return end - start

#numpy
def numpy():
    start = time.time()
    x=np.arange(size)
    y=np.arange(size)
    z= x+y
    end=time.time()
    return end - start 

In [2]:
t1 = original()
t2 = numpy()
print("original processtime : %.5fs" %t1)  #초이하의 자리수(소수점 5자리까지)
print("numpy processtime : %.5fs" %t2)
print("numpy is %.2f times faster" %(t1/t2))

original processtime : 6.27219s
numpy processtime : 0.05403s
numpy is 116.08 times faster


***
## 1. 1차원배열 만들기

In [6]:
a=np.array([0,1,2,3,4,5,6,7,8,9])
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [7]:
type(a)

numpy.ndarray

* ndarray : N-dimensional Array : 다차원배열구조
* 단순리스트와 유사한 1차원 배열 뿐만 아니라, 2차원배열, 3차원배열 등의 배열자료구조 지원

***
## 2. 벡터화 연산

In [8]:
# 배열객체는 배열의 각 원소에 대한 연산을 한 번에 처리하는 벡터화연산을 지원한다

a=[0,1,2,3,4,5,6,7,8,9]
b=[]
for i in a:
    b.append(i*2)
print(b)  

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]


In [10]:
# 벡터화연산을 사용하면 for반복문없이 곱하기 연산사용가능
x=np.array(a)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [11]:
x*2

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [12]:
# 일반적인 리스트 객체에 정수를 곱하면 객체의 크기가 정수배만큼 증가
l=[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
print(l*2)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [13]:
# 벡터화 연산은 모든 종류의 수학 연산에 적용된다
a=np.array([1,2,3])
b=np.array([10,20,30])
2*a+b

array([12, 24, 36])

In [14]:
np.exp(a)

array([  2.71828183,   7.3890561 ,  20.08553692])

In [15]:
np.log(b)

array([ 2.30258509,  2.99573227,  3.40119738])

In [16]:
np.sin(a)

array([ 0.84147098,  0.90929743,  0.14112001])

***
## 3. 2차원 배열 만들기 (행렬 : matrix)

In [17]:
# 리스트안에 리스트
# 2행 3열 만들기(2 x 3)
b=np.array([ [0,1,2], [3,4,5] ])
b

array([[0, 1, 2],
       [3, 4, 5]])

In [18]:
len(b)

2

In [19]:
len(b[0])

3

In [20]:
len(b[1])

3

***
## 4. 3차원 배열 만들기

In [2]:
# 2 x 3 x 4
c=np.array([ [ [1,2,3,4], [5,6,7,8], [9,10,11,12] ],  [ [11,12,13,14], [15,16,17,18], [19,20,21,22] ]  ])
c

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[11, 12, 13, 14],
        [15, 16, 17, 18],
        [19, 20, 21, 22]]])

In [22]:
len(c)

2

In [23]:
len(c[0])

3

In [24]:
len(c[1])

3

In [25]:
len(c[1][0])

4

In [26]:
len(c[1][1])

4

In [27]:
len(c[1][2])

4

***
## 5. 배열의 차원과 배열의 크기

In [36]:
a=np.array([1,2,3])
a

array([1, 2, 3])

In [37]:
print(a.ndim)

1


In [29]:
print(a.shape)

(3,)


In [38]:
b=np.array([ [0,1,2], [3,4,5] ])
b

array([[0, 1, 2],
       [3, 4, 5]])

In [31]:
b.ndim

2

In [32]:
b.shape

(2, 3)

In [39]:
c=np.array([ [ [1,2,3,4], [5,6,7,8], [9,10,11,12] ],  [ [11,12,13,14], [15,16,17,18], [19,20,21,22] ]  ])
c

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[11, 12, 13, 14],
        [15, 16, 17, 18],
        [19, 20, 21, 22]]])

In [34]:
c.ndim

3

In [35]:
c.shape

(2, 3, 4)

***
## 6. 배열의 인덱싱

In [40]:
a = np.array([[0, 1, 2], [3, 4, 5]])
a

array([[0, 1, 2],
       [3, 4, 5]])

In [41]:
a[0,0]

0

In [42]:
a[-1,-1]

5

***
## 7. 배열의 슬라이싱
배열의 객체로 구현한 다차원 배열의 원소 중 복수개에 접근하려면, 일반적인 파이썬 슬라이싱과 comma(,)를 함께 사용하면 된다

In [43]:
a = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])
a

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [44]:
a[0,:]

array([0, 1, 2, 3])

In [45]:
a[:,1]

array([1, 5])

In [46]:
a[:2,:2]

array([[0, 1],
       [4, 5]])

***
## 8. 배열 인덱싱
대괄호안의 인덱스 정보로 숫자나 슬라이스가 아니라
위치정보를 나타내는 또다른 ndarray배열을 받을 수 있다

### 8-1. boolean 배열방식
인덱스배열의 크기가 원래 ndarray 객체크기와 동일해야함

In [47]:
# 1차원 ndarray에서 짝수인 원소만 고르기
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

idx=np.array([True,False,True,False,True,False,True,False,True,False])
a[idx]

array([0, 2, 4, 6, 8])

In [48]:
a[a%2==0]

array([0, 2, 4, 6, 8])

### 8-2. 정수 배열방식 (위치정보)
인덱스배열의 원소 각각이 원래 ndarray객체 원소 하나를 가리키는 인덱스 정수여야 함(즉, 위치정보)

In [50]:
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) * 10
a

array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

In [51]:
idx=np.array([0,2,4,6,8])
a[idx]

array([ 0, 20, 40, 60, 80])

In [52]:
idx2=np.array([4,5,6])
a[idx2]

array([40, 50, 60])

In [53]:
# 그러므로 정수배열인덱스 크기는 원래의 배열크기와 달라도 상관없음
a = np.array([0, 1, 2, 3]) * 10
idx = np.array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2])
a[idx]

array([ 0,  0,  0,  0,  0,  0, 10, 10, 10, 10, 10, 20, 20, 20, 20, 20])

###  8-3. 배열인덱싱은 다차원배열의 각 차원에서도 가능

In [54]:
a = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [55]:
a.shape

(3, 4)

In [56]:
a[:, [True, False, False, True]]

array([[ 1,  4],
       [ 5,  8],
       [ 9, 12]])

In [57]:
a[[2, 0, 1], :]

array([[ 9, 10, 11, 12],
       [ 1,  2,  3,  4],
       [ 5,  6,  7,  8]])