# Numpy 란?

- 행렬(Matrix) 및 Tensor 연산을 쉽고 빠르게 해주는 Python의 라이브러리
- 앞으로 진행할 실습에서 많이 사용될 예정
- Tensorflow, Theano 등의 주요 NN 라이브러리에서 데이터 관련 작
업 시 직접 활용하게 됨

- 설치
 - sudo pip install numpy
- 설치확인 (Python 내에서)
 -  import numpy
- 문제없이 import 되면 설치가 된 것
 - Numpy 버전 확인
  -  import numpy
  -  numpy.__version__

# Arrays
배열(Array) 값을 명시하여 생성하는 방법

In [3]:
import numpy as np
a = np.array([1,2,3]) # 1차원 array [1,2,3] 생성
print(type(a))
print(a.shape)
print(a[0], a[1], a[2])
a[0] = 5
print(a)
b = np.array([[1,2,3],[4,5,6]])
print(b.shape)
print(b[0, 0], b[0, 1], b[1, 0])

<class 'numpy.ndarray'>
(3,)
1 2 3
[5 2 3]
(2, 3)
1 2 4


# 배열 값을 직접 주지 않고 생성하는 방법
# zeros, ones, full, eye, random.random

In [4]:
import numpy as np
a = np.zeros((2,2)) # 모든 값이 0인 2x2 array 생성
print(a)
b = np.ones((1,2)) # 모든 값이 1인 1x2 array 생성
print(b)
c = np.full((2,2), 7) # 모든 값이 7인 2x2 array 생성
print(c)
d = np.eye(2) # 2x2 단위행렬(Identity matrix) 생성
print(d)
e = np.random.random((2,2)) # 0~1 랜덤 값을 가지는 2x2 array 생성
print(e)

[[0. 0.]
 [0. 0.]]
[[1. 1.]]
[[7 7]
 [7 7]]
[[1. 0.]
 [0. 1.]]
[[0.97749639 0.12175899]
 [0.68141948 0.59182304]]


# Array Slicing
- 배열의 일부를 가져다 오는 방법
- 인덱스 영역에 콜론(:) 사용
 - [:2] 시작부터 2 앞까지 (0, 1)
 - [1:3]  1부터 3 앞까지 (1, 2)
 - [:] 모든 인덱스
 - [1:] 1부터 끝

In [6]:
import numpy as np
a = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])

#첫번째 행의 처음부터 2 앞까지(0,1), 두번째 행에서
#1부터 3 앞까지(1,2)의 값들을 떠와 b에 할당.
#따라서 b 는 다음과 같은 2x2 array:
#[[2 3]
#[6 7]]
b = a[:2, 1:3]
print(a[0, 1])
b[0, 0] = 77
print(a[0, 1])
# Slicing을 한다고 해서 값을 복사해가는 것이 아니므로
# 값의 변화가 동시에 일어남

2
77


In [27]:
import numpy as np
# 2차원 배열(3x4) 생성
# [[ 1 2 3 4]
#  [ 5 6 7 8]
#  [ 9 10 11 12]]
a = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])

# 두 번째 행의 값들을 모두 가져오는 두 가지 방법
print("두 번째 행의 값들을 모두 가져오는 두 가지 방법")
row_r1 = a[1, :]   # 1차원 행렬 (4,)
row_r2 = a[1:2, :] # 2차원 행렬 (1x4) – 기존 차원 유지


print(row_r1, row_r1.shape)
print(row_r2, row_r2.shape)
print()

# 두 번째 열의 값들을 모두 가져오는 두 가지 방법
print("두 번째 열의 값들을 모두 가져오는 두 가지 방법")
col_r1 = a[:,1]
col_r2 = a[:,1:2]
print(col_r1,col_r1.shape)
print(col_r2,col_r2.shape)

두 번째 행의 값들을 모두 가져오는 두 가지 방법
[5 6 7 8] (4,)
[[5 6 7 8]] (1, 4)

두 번째 열의 값들을 모두 가져오는 두 가지 방법
[ 2  6 10] (3,)
[[ 2]
 [ 6]
 [10]] (3, 1)


# Array Indexing

In [29]:
import numpy as np
# 2차원 배열(3x2) 생성
# [[ 1 2]
#  [ 3 4]
#  [ 5 6]]
a = np.array([[1, 2], [3, 4], [5, 6]])

# [1 4 5]를 가져오는 방법
b = np.array([a[0,0], a[1,1], a[2,0]])
print(b)
print(b.shape)

# [1 4 5] 1차원 행렬(3,)을 얻는 두 가지 방법
print(a[[0, 1, 2], [0, 1, 0]]) ## 0행 1행 2행 ## 0열 1열 0열

print(np.array([a[0, 0], a[1, 1], a[2, 0]]))
# [2 2] 1차원 행렬(2,)을 얻는 두 가지 방법
print(a[[0, 0], [1, 1]])
print(np.array([a[0, 1], a[0, 1]]))

[1 4 5]
(3,)
[1 4 5]
[1 4 5]
[2 2]
[2 2]


In [34]:
import numpy as np
# 2차원 배열(4x3) 생성
# [[ 1 2 3]
#  [ 4 5 6]
#  [ 7 8 9]
#  [ 10 11 12]]
a = np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]])
print(a)
print()

b = np.array([0, 2, 0, 1])
print(b)
print(np.arange(4), type(np.arange(4))) #np.array(ranga(4))
print(a[np.arange(4), b]) # [1 6 7 11]


print()
a[np.arange(4), b] += 10    # 왼쪽 벡터 #오른쪽 스칼라 # 모든 백터에 대해 스칼라가 더해짐
print(a) # array([[11, 2, 3],
         #        [4, 5, 16],
         #        [17, 8, 9],
         #        [10, 21, 12]])

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]

[0 2 0 1]
[0 1 2 3] <class 'numpy.ndarray'>
[ 1  6  7 11]

[[11  2  3]
 [ 4  5 16]
 [17  8  9]
 [10 21 12]]


# 데이터 타입

In [35]:
import numpy as np
x = np.array([1, 2])
print(x.dtype) # prints “int64” 64는 65비트를 나타내는 것같음 (데이터 크기)

x = np.array([1.0, 2.0])
print(x.dtype) # “float64”

x = np.array([1, 2], dtype=np.int64) # 데이터타입 명시
print(x.dtype) # “int64”

int64
float64
int64


# Array 연산

In [14]:
import numpy as np

x = np.array([[1, 2], [3, 4]], dtype=np.float64) 
y = np.array([[5, 6], [7, 8]], dtype=np.float64) 

# Elementwise sum (Elementwise 원소들이 각각의 위치들에서 더한다.)
# [[ 6.0  8.0]
# [10.0 12.0]]

print(x + y) 
print(np.add(x, y))


# Elementwise difference
# [[-4.0 -4.0] 
# [-4.0 -4.0]]

print(x - y) 
print(np.subtract(x, y)) 


[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]
[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


In [15]:
# Elementwise product
# [[ 5.0 12.0]
# [21.0 32.0]]

print(x * y)
print(np.multiply(x, y))

# Elementwise division
# [[0.2 0.33333333]
# [0.42857143 0.5]]
print(x / y)
print(np.divide(x, y))


# Elementwise square root
# [[1. 1.41421356]
#[1.73205081 2.]]
print(np.sqrt(x))

[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[1.         1.41421356]
 [1.73205081 2.        ]]


# Array 연산 – Dot product

In [36]:
import numpy as np
x = np.array([[1, 2], [3, 4]])
y = np.array([[5, 6], [7, 8]])
v = np.array([9, 10])
w = np.array([11, 12])
# v · w = 219
print(v.dot(w))
print(np.dot(v, w)) # 두 연산은 같음 // 같은 함수를 호출함
print()
# 매트릭스 / 벡터 곱; [29 67]
print(x.dot(v))
print(np.dot(x, v))
print()

# 매트릭스 / 매트릭스 곱;
# [[19 22]
# [43 50]]
print(x.dot(y))
print(np.dot(x, y))

219
219

[29 67]
[29 67]

[[19 22]
 [43 50]]
[[19 22]
 [43 50]]


# Array 연산 - Sum

In [44]:
import numpy as np
x = np.array([[1, 2], [3, 4]])
print(np.sum(x))
# 모든 원소의 합
print(np.sum(x, axis=0)) # 각 열의 합
print(np.sum(x, axis=1)) # 각 행의 합


a = np.ones((2,3,4))
#print(a)
a.shape
print(np.sum(a))
print(np.sum(a, axis = 0)) # 0차원 없어짐
print(np.sum(a, axis = 1)) # 1차원 없어짐
print(np.sum(a, axis = 2))

10
[4 6]
[3 7]
24.0
[[2. 2. 2. 2.]
 [2. 2. 2. 2.]
 [2. 2. 2. 2.]]
[[3. 3. 3. 3.]
 [3. 3. 3. 3.]]
[[4. 4. 4.]
 [4. 4. 4.]]


# Array 연산 - Transpose

In [19]:
import numpy as np
x = np.array([[1, 2], [3, 4]])
print(x)
# 전치행렬 (Transposed mat.)
print(x.T)

v = np.array([1,2,3])
print(v)
# prints “[1 2 3]”

# 벡터는 Transpose가 안된다.
print(v.T)
# prints “[1 2 3]”

[[1 2]
 [3 4]]
[[1 3]
 [2 4]]
[1 2 3]
[1 2 3]


# Broadcasting

In [48]:
# x에 v를 각 행에 더하고 싶음
# Broadcasting을 이용하지 않은 예
import numpy as np
x = np.array([[1,2,3], 
              [4,5,6], 
              [7,8,9], 
              [10,11,12]])

v = np.array([1,0,1])
y = np.empty_like(x) # x와 같은 shape의 빈 매트릭스 만들기
# x의 각 행에 v와 elementwise 합을 하여 y의 해당 행에 할당

for i in range(x.shape[0]): # 4는 행의 개수(x.shape[0])
    y[i, :] = x[i, :] + v
#     y[i] = x[i] + v   # ':'를 생략해도 된다.
    
# [[ 2 2 4]
# [[ 5 5 7]
# [[ 8 8 10]
# [ 11 11 13]]
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


In [22]:
import numpy as np
x = np.array([[1,2,3], 
              [4,5,6], 
              [7,8,9], 
              [10,11,12]])
v = np.array([1,0,1])
vv = np.tile(v, (4, 1)) # v 내용을 4x1의 각 행에 반복함
print(vv)
# [[ 2 2 4]
# [[ 5 5 7]
# [[ 8 8 10]
# [ 11 11 13]]

y = x + vv
print(y)
# [[ 2 2 4]
# [[ 5 5 7]
# [[ 8 8 10]
# [ 11 11 13]]

[[1 0 1]
 [1 0 1]
 [1 0 1]
 [1 0 1]]
[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


In [71]:
# 브로드캐스팅 이용
import numpy as np
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10,11,12]])
v = np.array([1,0,1])
# 브로드캐스팅을 사용하여 x의 각 행에 v값을 더함
# shape이 안맞다..? 왜 그럴까? 자동으로 인식한다.
# 브로드캐스팅 유용하다.

y = x + v
# [[ 2 2 4]
# [[ 5 5 7]
# [[ 8 8 10]
# [ 11 11 13]]
print(y)

#y = x.T + v 트랜스 포즈를 하면 안된다.

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


In [57]:
# reshape은 필수
a = np.array([1,2,3])
a1 = a.reshape([3,1]) # reshape은 데이터가 같은 얘들끼리 바꿀 수 있다.
print(a1.shape)

a2 = a[:, None] # index 영역에 None을 사용하여 넣는 방법이 있음
print(a2.shape)

(3, 1)
(3, 1)


# Broadcasting 활용 예
- Covariance Matrix 구할 때
  - 어떤 행렬의 각 열의 값들과 해당 열의 평균의 차를 계산하여 구함

# 주요 함수
- numpy.linalg.inv – 역행렬 계산 함수
- numpy.matlib.repmat – 확장 함수
- numpy.linalg.norm – Euclidean Distance 계산 함수
- numpy.conv – Covariance Matrix 계산 함수

# 연습문제 2
-  연립 2차 방정식 풀기
 - a + b = 15
 - 2a + b = 25
- 행렬로 표현가능하다.
- 이를 계산하는 프로그램 작성하기

In [61]:
a = np.array([[1,1],[2,1]])
b = np.array([15,25])

In [66]:
c = np.dot(np.linalg.inv(a),b)
print(c)

[10.  5.]


# pickle
- 데이터를 타입 변경 없이, 파일로 저장 및 불러오기가 가능하도록 하는 모듈
 - list, dict, numpy.array, ...
 - cf.
   - read, write 함수는 string으로만 입출력 가능

- pickle.dump(npair, file)
  - npair를 file로 저장하는 함수
- pickle.load(file)
  - file을 읽고 로드하는 함수

예) 딕셔너리를 파일로 저장 & 불러오기

In [69]:
import pickle
favorite_color = {"lion": "yellow", "kitty": "red"}
pickle.dump( favorite_color, open("save.p", "wb"))

In [72]:
import pickle
favorite_color = pickle.load(open("save.p", "rb"))

In [29]:
import numpy as np
def mean_and_var(*val):
    #x = [x for x in zip(*val)]
    avg = [sum(x) / len(x) for x in zip(*val)]
    var = [np.var(x)for x in zip(*val)]

    return (avg, var)

In [30]:
v1 = (0, 1,3)
v2 = (0.5, 0.5,3)
v3 = (1, 0,4)
mean_and_var(v1, v2, v3)

([0.5, 0.5, 3.3333333333333335],
 [0.16666666666666666, 0.16666666666666666, 0.22222222222222224])

In [33]:
t ={1:'a'}
def test(a):
    a[2] = 'b'
    
test(t)
print(t)

{1: 'a', 2: 'b'}


In [34]:
t = (1,2,3)
def test(a):
    a += (4,5,6)
test(t)
print(t)

(1, 2, 3)


In [42]:
t = 1
def test(a):
    a+= 1
    
    return a

    T
b = test(t)
print(b)

2


In [43]:
for i in range(15+1,1,-1):
    print(i)

16
15
14
13
12
11
10
9
8
7
6
5
4
3
2


In [127]:
def mean_and_var(*val):
    list_avg = []
    list_var = []
    
    for i in range(len(val[0])):
        temp = []
        for j in val:
            temp.append(j[i])
        list_avg.append(sum(temp)/len(temp))
        temp2 = []
        
        for k in temp:
            temp2.append((k-list_avg[i])**2)
            print(temp2)
        list_var.append( (sum(temp2) / len(temp) )  )
        


In [128]:
v1 = (0, 1)
v2 = (0.5, 0.5)
v3 = (1, 3)
mean_and_var(v1, v2, v3)

[0.25]
[0.25, 0.0]
[0.25, 0.0, 0.25]
[0.25]
[0.25, 1.0]
[0.25, 1.0, 2.25]
[0.16666666666666666, 1.1666666666666667]


In [78]:
lst = [1,2]
sum(lst)
len(lst)

2

In [126]:
0.5/3

0.16666666666666666