# Part 2. Python List vs NumPy Array

### Python List

* 여러가지 타입의 원소
* 메모리 용량이 크고 속도가 느림
* nesting 가능
* 전체 연산 불가

### NumPy Array
* 동일 타입의 원소
* 메모리 최적화, 계산 속도 향상
* 크기(dimension)이 명확하게 정의
* 전체 연산 가능

In [1]:
import numpy as np
import time as tm
import seaborn as sns

In [2]:
a = np.array([0,1,2,3])
b = [a*2 for a in a]
b

[0, 2, 4, 6]

In [3]:
# Loop를 이용한 리스트의 제곱 연산
L = range(1000)
%timeit [i**2 for i in L]

352 µs ± 7.89 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [4]:
# 넘파이 배열의 제곱 연산 : 훨씬 빠름.
a = np.arange(1000)
%timeit a**2

1.93 µs ± 138 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [5]:
L = range(3)
L

range(0, 3)

In [6]:
# range의 원소들을 보려면 for loop를 통해 print 해야 함.
[i * 2 for i in L]

[0, 2, 4]

In [7]:
# array에선 원소들을 그대로 보여줌.
a = np.arange(3)
a

array([0, 1, 2])

In [8]:
a * 2

array([0, 2, 4])

In [9]:
# ndim은 array의 차원의 갯수.
a.ndim

1

In [10]:
# shape는 2차원이면 행,열의 갯수, 1차원이면 원소의 갯수.
a.shape

(3,)

In [11]:
# len은 1차원 데이터에 한해 원소의 갯수를 return.
len(a)

3

In [12]:
b = np.array([[0, 1, 2], 
              [3, 4, 5]])    # 2 x 3 array
b

array([[0, 1, 2],
       [3, 4, 5]])

In [13]:
b.ndim

2

In [14]:
b.shape

(2, 3)

In [15]:
# 행렬의 가장 일반적인 연산중 하나인 전치.
# 하나의 리스트를 다시 리스트로 묶음 -> 차원이 2가 됨. 행과 열이 구분 가능해짐.
# 하나의 리스트로 묶여있던 원소들이 전치를 통해 길이가 1인 리스트 4개로 분리되었다.
a2 = np.array([[0, 1, 2, 3]]).T
a2

array([[0],
       [1],
       [2],
       [3]])

In [16]:
np.array([[0, 1, 2, 3]]).ndim

2

In [17]:
a3 = np.array([[0], [1], [2], [3]]) # 직접적으로 a2와 똑같은 array를 생성하는 방법.
a3

array([[0],
       [1],
       [2],
       [3]])

In [18]:
a2.shape # 차원이 2이기 때문에 행과 열의 구분이 생겼다.

(4, 1)

In [19]:
c = np.array([
    [[1,2], [3,4]],
    [[5,6], [7,8]]
])
c.ndim, c.shape, len(c)
# 3차원 배열이 되었고, 각 차원마다 길이가 2가 됨. 일종의 nested data 형태이다.
# 3차원부터 tensor의 형태라고 볼 수 있음.

(3, (2, 2, 2), 2)

In [20]:
c.T

array([[[1, 5],
        [3, 7]],

       [[2, 6],
        [4, 8]]])

tensor의 전치는 $x_{i,j,k}~\rightarrow~x_{k,j,i}$ 가 된다.

그렇다면 4차원 tensor의 전치는, $x_{i,j,k,l}~\rightarrow~x_{l,k,j,i}$ 가 됨.

k차원 tensor의 전치는??? 

Let $i_1,\cdots,i_k$ be the k indexes then the transposed elements are :

$x_{i_1,\cdots,i_k}~\rightarrow~x_{i_k,\cdots,i_1}$

### Array Creation Functions
* arange
* linspace, logspace
* zeros, ones
* rand, randn
* tile

In [21]:
a = np.arange(10) # 0 .. n-1 까지의 공차가 1인 등차수열을 만들어줌.
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [22]:
b = np.arange(1, 9, 2) # start, end (exclusive), step
b

array([1, 3, 5, 7])

In [23]:
c = np.linspace(start=0, stop=1, num=6)   # start, end, num-points
c

array([0. , 0.2, 0.4, 0.6, 0.8, 1. ])

In [24]:
d = np.linspace(0, 1, 5, endpoint=False) # Exclude endpoint.
d

array([0. , 0.2, 0.4, 0.6, 0.8])

In [25]:
a = np.ones((3, 3))  # Remark that (3, 3) is a tuple.
a

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [26]:
b = np.zeros((2, 2))
b

array([[0., 0.],
       [0., 0.]])

In [27]:
c = np.diag([1,2,3]) # 대각행렬의 생성.
c

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

In [28]:
d = np.eye(4) # 단위행렬 생성.
d

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [29]:
a = np.array([0, 1, 2])

np.tile(a, 2) # a 2개를 하나의 배열로 묶어줌.

array([0, 1, 2, 0, 1, 2])

In [30]:
np.tile(a, (3, 2)) # a 6개를 3*2 형태의 2차원 배열로 묶어줌.

array([[0, 1, 2, 0, 1, 2],
       [0, 1, 2, 0, 1, 2],
       [0, 1, 2, 0, 1, 2]])

In [31]:
np.tile(a, (2, 1, 2)) # a 4개를 2*1*2 형태의 3차원 배열로 묶어줌.

array([[[0, 1, 2, 0, 1, 2]],

       [[0, 1, 2, 0, 1, 2]]])

In [32]:
b = np.array([[1, 2], [3, 4]])
b

array([[1, 2],
       [3, 4]])

In [33]:
np.tile(b, 2) # b 2개를 1차원 배열로 묶어줌. -> 2*4 형태의 2차원 배열이 됨.

array([[1, 2, 1, 2],
       [3, 4, 3, 4]])

In [34]:
np.tile(b, (2, 1)) # b 2개를 2*1 형태의 2차원 배열로 묶어줌. -> 4*2 형태의 2차원 배열이 됨.

array([[1, 2],
       [3, 4],
       [1, 2],
       [3, 4]])

### Shape Change
* reshape
* flatten, ravel

In [35]:
a = np.arange(20)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [36]:
b = np.reshape(a, (4, 5)) # 4*5 형태의 2차원 배열로 바꿔줌
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [37]:
c = a.reshape(4,5) # array의 method로도 사용가능.
c

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [38]:
a.reshape(2,2,5) # 3차원 배열의 생성!

array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9]],

       [[10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]]])

In [39]:
a = np.arange(24)
a.reshape(2, 12)

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23]])

In [40]:
a.reshape(2, -1) # -1을 넣게 되면 나머지 차원의 길이를 자동으로 지정해준다.

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23]])

In [41]:
a.reshape(-1, 2, 2) # 6*2*2 배열이 되었다.

array([[[ 0,  1],
        [ 2,  3]],

       [[ 4,  5],
        [ 6,  7]],

       [[ 8,  9],
        [10, 11]],

       [[12, 13],
        [14, 15]],

       [[16, 17],
        [18, 19]],

       [[20, 21],
        [22, 23]]])

In [42]:
c

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [43]:
d = c.flatten() # return a copy
d # 평평하게 펴줌.

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [44]:
d.base is None

True

In [45]:
e = c.ravel()
e

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [46]:
e.base

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

### Stack
* hstack
* vstack
* dstack

In [47]:
a = np.arange(5)
a

array([0, 1, 2, 3, 4])

In [48]:
np.vstack([a * 10, a * 20]) # 수직방향으로 쌓기 -> 주의 : 원소들을 리스트로 묶어야 함.
# 수직방향으로 쌓게 되면 차원이 하나 늘어나게 됨. 5 -> 2*5

array([[ 0, 10, 20, 30, 40],
       [ 0, 20, 40, 60, 80]])

In [49]:
b = a[:, np.newaxis]
b

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [50]:
np.hstack([b * 10, b * 20]) # 행방향으로 쌓기.
# 마찬가지로 차원이 늘어남. 5 -> 5*2

array([[ 0,  0],
       [10, 20],
       [20, 40],
       [30, 60],
       [40, 80]])

In [51]:
a = np.array((1,2,3))
b = np.array((2,3,4))
a, a.shape

(array([1, 2, 3]), (3,))

In [52]:
np.dstack((a,b)) # 1차원 배열 두개를 1*3*2 배열로 만들어줌.
# 주의 : 원소들을 튜플로 묶어서 입력.

array([[[1, 2],
        [2, 3],
        [3, 4]]])

In [53]:
a = np.array([[1],[2],[3]])
b = np.array([[2],[3],[4]])
np.dstack((a,b)) # 3*1 배열 두개를 3*1*2 배열로 만들어줌.

array([[[1, 2]],

       [[2, 3]],

       [[3, 4]]])

### dtype
* bool Boolean (True or False) stored as a byte
* int32 Integer (-2147483648 to 2147483647)
* int64 Integer (-9223372036854775808 to 9223372036854775807)
* uint32 Unsigned integer (0 to 4294967295)
* uint64 Unsigned integer (0 to 18446744073709551615)
* float16 Half precision float: sign bit, 5 bits exponent, 10 bits mantissa
* float32 Single precision float: sign bit, 8 bits exponent, 23 bits mantissa
* float64 Double precision float: sign bit, 11 bits exponent, 52 bits mantissa
* S String

In [54]:
a = np.array([1, 2, 3])
a.dtype

dtype('int64')

In [55]:
b = np.array([1., 2., 3.])
b.dtype

dtype('float64')

In [56]:
c = np.array([1, 2, 3], dtype=np.float64)
c.dtype

dtype('float64')

In [57]:
d = np.array([1+2j, 3+4j, 5+6*1j])
d.dtype

dtype('complex128')

In [58]:
e = np.array([True, False, False, True])
e.dtype

dtype('bool')

In [59]:
f = np.array(['Bonjour', 'Hello', 'Hallo',])
f.dtype

dtype('<U7')

In [60]:
x = np.array([1, -1, 0]) / np.array([0, 0, 0])
x 
# 수학적으로 실수를 0으로 나누는 연산은 정의되지 않음
# 0이 아닌 수를 0으로 나누는 연산은 분모를 0으로 보내는 극한으로 해석

  """Entry point for launching an IPython kernel.
  """Entry point for launching an IPython kernel.


array([ inf, -inf,  nan])

In [61]:
np.inf, np.nan

(inf, nan)

### Indexing

In [62]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [63]:
a[0], a[2], a[-1] # 리스트와 다르게 배열에서는 -를 붙이게 되면 마지막 원소로부터 첫번째 원소 방향으로 인덱싱을 함.

(0, 2, 9)

In [64]:
a[::-1] # from, to, by -> by가 -1이면 역순으로 배열을 정렬.

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [65]:
[1,5,3,6,2,3,3,4][::-1]

[4, 3, 3, 2, 6, 3, 5, 1]

### Multi-dimensional Indexing

In [66]:
l = [[0,0,0],[0,1,0],[0,0,2]] # 3*3 2차원 리스트

In [67]:
l[1] # 두번째 원소

[0, 1, 0]

In [68]:
l[1][1] # 두번째 원소의 두번째 원소

1

In [69]:
a = np.diag(np.arange(3))
a

array([[0, 0, 0],
       [0, 1, 0],
       [0, 0, 2]])

In [70]:
a[1, 1] # i+1th row, i+1th column

1

In [71]:
a[2, 1] = 10 # 3rd row, 2nd column
a

array([[ 0,  0,  0],
       [ 0,  1,  0],
       [ 0, 10,  2]])

In [72]:
a[2] = [10, 20, 30] # 3rd row 전체를 행방향으로 바꿔줌
a

array([[ 0,  0,  0],
       [ 0,  1,  0],
       [10, 20, 30]])

### Slicing

In [73]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [74]:
a[2:9:3] # [start:end:step]

array([2, 5, 8])

In [75]:
a[:4]

array([0, 1, 2, 3])

In [76]:
a[1:3]

array([1, 2])

In [77]:
a[::2]

array([0, 2, 4, 6, 8])

In [78]:
a[3:]

array([3, 4, 5, 6, 7, 8, 9])

### Multi-dimensional Slicing

In [79]:
np.arange(6)

array([0, 1, 2, 3, 4, 5])

In [80]:
(np.arange(6) * 10)[:, np.newaxis]

array([[ 0],
       [10],
       [20],
       [30],
       [40],
       [50]])

In [81]:
a = np.arange(6) + (np.arange(6) * 10)[:, np.newaxis]
a # 6*1 배열에 행방향으로 1*6 배열을 더해줌 -> 6*6 배열의 생성

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])

In [82]:
a[0,:] # 1st row, all elements

array([0, 1, 2, 3, 4, 5])

In [83]:
a[:,0] # 1st column, all elements

array([ 0, 10, 20, 30, 40, 50])

In [84]:
b = np.arange(4).reshape(4,1)
b

array([[0],
       [1],
       [2],
       [3]])

In [85]:
c = np.arange(4)[:, np.newaxis]
c

array([[0],
       [1],
       [2],
       [3]])

### View
* A slicing operation creates a view on the original array, which is just a way of accessing array data.
* Thus the original array is not copied in memory.

In [86]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [87]:
b = a[::2]
b

array([0, 2, 4, 6, 8])

In [88]:
a[0] = 99
a

array([99,  1,  2,  3,  4,  5,  6,  7,  8,  9])

In [89]:
b # b의 원소도 덩달아 바뀌게 됨.

array([99,  2,  4,  6,  8])

In [90]:
id(a), id(b)

(112296496864, 112296590752)

In [91]:
a = np.arange(5)
a

array([0, 1, 2, 3, 4])

In [92]:
b = a.copy()
a[0] = 99
b # b의 원소는 바뀌지 않음. copy()를 이용하면 독립적인 객체가 됨.

array([0, 1, 2, 3, 4])

In [93]:
x = np.array([[1,3],[2,4]])

In [94]:
np.all([True, True, False]) # 모두 True인가?

False

In [95]:
np.any([True, True, False]) # 하나라도 True인가?

True

In [96]:
a = np.zeros((100, 100), dtype=np.int)
a

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

In [97]:
np.any(a != 0)

False

In [98]:
np.all(a == a)

True

In [99]:
a = np.array([1, 2, 3, 2])
b = np.array([2, 2, 3, 2])
c = np.array([6, 4, 4, 5])

In [100]:
((a <= b) & (b <= c)).all() # Elementwise comparison.

True

In [101]:
x = np.array([1, 2, 3, 1])
y = np.array([[1, 2, 3], [5, 6, 1]])
x.mean()

1.75

In [102]:
np.median(x)

1.5

In [103]:
np.median(y, axis=-1) # last axis

array([2., 5.])

In [104]:
x.std()          # full population standard dev.

0.82915619758885

In [105]:
a = np.tile(np.arange(0, 40, 10), (3, 1)).T
a

array([[ 0,  0,  0],
       [10, 10, 10],
       [20, 20, 20],
       [30, 30, 30]])

In [106]:
x, y = np.ogrid[0:3, 0:5]

In [107]:
x

array([[0],
       [1],
       [2]])

In [108]:
y

array([[0, 1, 2, 3, 4]])

### Array용 수학 함수
* universal function
    * 빠른 element-wise (vectorized) 연산
* 모든 NumPy/Scipy 수학 함수는 자동으로 vectorized 연산 수행

In [109]:
x = range(10)
import math
math.exp(x) # 스칼라 연산만 가능.

TypeError: must be real number, not range

In [None]:
math.exp(x[0])

In [None]:
[math.exp(i) for i in x]

In [None]:
np.exp(x) # 훨씬 효율적.

In [None]:
x = np.arange(10)
np.random.shuffle(x)
x

In [None]:
np.random.choice(10, size=5, replace=False)

In [None]:
np.random.choice(5, 3, replace=False)

In [None]:
np.random.choice(5, 10)

In [None]:
np.random.choice(5, 10, p=[0.1, 0, 0.3, 0.6, 0])

In [None]:
x = np.random.rand(100)
print(x[:10])
sns.distplot(x)

In [None]:
np.random.rand(3,2)

In [None]:
x = np.random.random_integers(-100, 100, 50)
sns.distplot(x, rug=True)

In [None]:
np.random.randn(3,4) # uniform over R

### random number count
* discrete values
    * unique( )
    * bincount( )
* continuous values
    * histogram( )

In [None]:
np.unique([11, 11, 2, 2, 34, 34])

In [None]:
a = np.array([[1, 1], [2, 3]])
np.unique(a)

In [None]:
a = np.array(['a', 'b', 'b', 'c', 'a'])
index, count = np.unique(a, return_counts=True)

In [None]:
count

In [None]:
index