# Numpy Summary

### 참고자료 

- Python 데이터 분석 강의
- Numpy Cheet Sheet
- 최성철 교수님 강의자료

##### Numpy 특징
- 파이썬의 고성능 과학 계산용 패키지
- Array 연산의 사실상의 표준 (vector, matrix, tensor)
- 일반 List에 비해 빠르고, 메모리 효율적
- 반복문 없이 데이터 배열에 대한 처리를 지원함
- numpy는 np.array 함수를 활용하여 배열을 생성함 
- numpy는 하나의 데이터 type만 배열에 넣을 수 있음 
- List와 가장 큰 차이점 : Dynamic typing not supported

<img src="./images/array_vs_list.png",width=50%,height=50%>

- np.array에 dtype도 있음
- 참고자료: http://jakevdp.github.io/images/array_vs_list.png

In [1]:
import numpy as np

### 배열의 생성1

In [2]:
data1 = [6,7,5,8,0,1]
data2 = [[1,2,3,4],[5,6,7,8]]

arr1 = np.array(data1)
arr1.shape

arr2 = np.array(data2)
arr2.shape

(2, 4)

### 배열의 생성2 (arange)

In [3]:
arr3 = np.arange(20)
arr4 = np.arange(0,5,0.5)
arr5 = np.arange(30).reshape(5,6)

print(arr3)
print(arr4)
print(arr5)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
[0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5]
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]
 [24 25 26 27 28 29]]


### shape, dtype, size, ndim, nbytes

In [4]:
# 데이터 타입 체크 및 
print(arr1.dtype)

# 원소 갯수
print(arr2.size)

# 차원수 (2차원 배열 -> 2차원)
print(arr2.ndim)

# nbytes
print(arr1.nbytes)

int32
8
2
24


### 데이터 타입 체크 및 변경

In [5]:
arr = np.array([1,2,3,4,5],dtype=np.int64)
arr = arr.astype(np.float64)
arr.dtype

dtype('float64')

### np.array와 기본 list와의  차이

In [6]:
m = [[1,2,3,4],[1,2,5,8]]

# print(m[0,1])  -> Error
# print(m[0][0]) -> Error

arr = np.array(m)

print(arr)
print(arr[1,1])
print(arr[1][1])
arr[1,1] = 10
print(arr)

[[1 2 3 4]
 [1 2 5 8]]
2
2
[[ 1  2  3  4]
 [ 1 10  5  8]]


### Slicing (원소 추출 및 변경)

In [7]:
m = [[1,7,3,4,5],[1,2,5,8,3],[2,3,2,1,3]]
print(m)

arr = np.array(m)

print(arr[:,0:2])
print(arr[:,(0,2)])
print(arr[0:2,])
print(arr[:,::2])

[[1, 7, 3, 4, 5], [1, 2, 5, 8, 3], [2, 3, 2, 1, 3]]
[[1 7]
 [1 2]
 [2 3]]
[[1 3]
 [1 5]
 [2 2]]
[[1 7 3 4 5]
 [1 2 5 8 3]]
[[1 3 5]
 [1 5 3]
 [2 2 3]]


In [8]:
arr = np.arange(10)
print(arr[5])
print(arr[5:8])
arr[5:8]= 12
print(arr)

5
[5 6 7]
[ 0  1  2  3  4 12 12 12  8  9]


In [9]:
arr2d = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12],[13,14,15,16]])

# 3행
print(arr2d[2,:])

# 2~3행
print(arr2d[1:3,:]) 

# 4열
print(arr2d[:,3]) 

# 4행 3열 값 변경
arr2d[3,2] = 13
print(arr2d)

# 3행 2,3열 값 변경
arr2d[2,1:3] = 0
print(arr2d)

[ 9 10 11 12]
[[ 5  6  7  8]
 [ 9 10 11 12]]
[ 4  8 12 16]
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 13 16]]
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9  0  0 12]
 [13 14 13 16]]


### reshape : array shape크기 변경

In [10]:
m = [[1,2,3,4],[1,2,5,8]]
m = np.array(m)

print(m.dtype)
print(m.shape)

# 1 * 8
print(m.reshape(8))

# 4 * 2
print(m.reshape(4,2))

# 열이 2열
print(m.reshape(-1,2))

int32
(2, 4)
[1 2 3 4 1 2 5 8]
[[1 2]
 [3 4]
 [1 2]
 [5 8]]
[[1 2]
 [3 4]
 [1 2]
 [5 8]]


### transpose

In [11]:
print(m.T)

[[1 1]
 [2 2]
 [3 5]
 [4 8]]


### Flatten : 다차원 -> 1차원

In [12]:
print(m.flatten())

[1 2 3 4 1 2 5 8]


### zeros, ones, identity, eye

In [13]:
# zeros
np.zeros((3,6))
np.zeros([3,6])

# ones
np.ones(10)

# identity, eye,
print(np.identity(3))
print(np.eye(3))

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


### diag : 대각원소 추출

In [14]:
m = [[1,7,3],[1,2,5],[2,3,2]]
arr = np.array(m)
print(arr)
print(np.diag(arr))

[[1 7 3]
 [1 2 5]
 [2 3 2]]
[1 2 2]


### 수학 함수

In [15]:
print(np.sqrt(arr))
print(np.log10(arr))

[[1.         2.64575131 1.73205081]
 [1.         1.41421356 2.23606798]
 [1.41421356 1.73205081 1.41421356]]
[[0.         0.84509804 0.47712125]
 [0.         0.30103    0.69897   ]
 [0.30103    0.47712125 0.30103   ]]


### 원소별 연산

In [16]:
arr1 = np.array([[1,2,3],[4,5,6]])
arr2 = np.array([[7,8,9],[10,11,12]])

print(arr1 + arr2)
print(arr1 - arr2)
print(arr1 * arr2)
print(arr1 / arr2)

print(arr1*2)
print(arr1**0.5)
print(1/arr1)

[[ 8 10 12]
 [14 16 18]]
[[-6 -6 -6]
 [-6 -6 -6]]
[[ 7 16 27]
 [40 55 72]]
[[0.14285714 0.25       0.33333333]
 [0.4        0.45454545 0.5       ]]
[[ 2  4  6]
 [ 8 10 12]]
[[1.         1.41421356 1.73205081]
 [2.         2.23606798 2.44948974]]
[[1.         0.5        0.33333333]
 [0.25       0.2        0.16666667]]


In [17]:
# 난수 생성
x = np.random.randn(8)
y = np.random.randn(8)

In [18]:
# 성분별 최대값
np.maximum(x,y) 

array([ 0.31032573,  1.33445771,  1.05498432, -0.09737465, -0.23998195,
        2.02092997,  1.32534823,  1.44838338])

In [19]:
# 행/열 연산
arr = np.random.rand(5,4)
arr.sum()
arr.mean()
arr.sum(axis=0) # 행방향 합
arr.sum(axis=1) # 열방향 합

array([2.48533435, 1.88163002, 2.08438664, 2.31397912, 2.2466273 ])

In [20]:
# 조건부 합
arr > 0
(arr>0).sum()

20

In [21]:
# 정렬
arr = np.random.randn(8)
print(arr)
print(np.sort(arr))

# 내림차순 정렬
print(np.sort(arr)[::-1])

[ 0.89183106  1.82604412  0.65035678  1.33801557  1.41645114 -0.60644189
  1.35062087  0.16346394]
[-0.60644189  0.16346394  0.65035678  0.89183106  1.33801557  1.35062087
  1.41645114  1.82604412]
[ 1.82604412  1.41645114  1.35062087  1.33801557  0.89183106  0.65035678
  0.16346394 -0.60644189]


In [22]:
# 정렬
arr = np.random.randn(3,3)
print(np.sort(arr,axis=0)) # 행 정렬
print(np.sort(arr,axis=1)) # 열 정렬

[[-0.39093456 -0.23175391 -1.25937851]
 [ 0.07543689  0.71784763 -0.17656029]
 [ 0.64162702  0.77655448  0.07498204]]
[[-1.25937851  0.64162702  0.71784763]
 [-0.39093456  0.07498204  0.77655448]
 [-0.23175391 -0.17656029  0.07543689]]


In [23]:
# 상위 5%의 값

large_arr = np.random.randn(30)
np.sort(large_arr)[::-1][int(0.05*len(large_arr))]

1.5705113034137663

In [24]:
ints = np.array([3,3,3,2,2,1,1,4,4])
print(np.unique(names))
print(np.unique(ints))

NameError: name 'names' is not defined

In [None]:
# random sampling
print(np.random.uniform(0,1,20))
print(np.random.normal(0,1,10))

In [None]:

a = np.array((1,2,3))
a = a.reshape(3,1)
b = np.array((4,5,6))
b = b.reshape(3,1)
np.hstack((a,b))

In [None]:
a = np.array((1,2,3))
b = np.array((4,5,6))

print(np.concatenate((a,b),axis=0))
a = a.reshape(3,1)
b = b.reshape(3,1)
print(np.concatenate((a,b),axis=1))

### where 함수

In [None]:
a = np.arange(10)
print(a)
print(np.where(a == 2))
print(np.where(a > 7))

# 원소 추출시
print(np.where(a > 7)[0])

# np.where(조건, 조건에 맞을 때 값, 조건과 다를 때 값) 
a = np.where(a > 7,7,a)

In [None]:
w = np.where(a > 7)

### NAN, inf

In [None]:
w[0]

In [None]:

a = np.arange(10)
a = a.astype(float)
a[2] = np.NAN
a[4] = np.Inf

print(a)

print(np.isnan(a))
print(np.isfinite(a))

### 최대값, 최소값 인덱스 찾기

In [None]:
a = np.array([1,3,10,2,7])
np.argmin(a) # a.argmin()
np.argmax(a) # a.argmax()

In [None]:
a = np.array((1,3,2,10,7,3,12,4,6,0,11,9)).reshape(3,4)
print(a)
np.argmin(a,axis=0)
np.argmax(a,axis=1)

### Boolean and fancy index

In [None]:
a = np.array([1,3,2,4,5])
print(a > 2)
a[a>2]

In [None]:
names = np.array(["criss","ken","junha","hayoung","suna","doyeon"])
data = np.random.randn(6,3)
print(names == "criss")
print(data[names=="criss"])

In [None]:
a = np.array([2,4,6,8], float)
b = np.array([0,1,2],int)

print(a[b])
print(a.take(b))

### Comparison

In [None]:
a = np.arange(10)
print(a)

print(np.any(a > 5))
print(np.all(a > 5))

### I/O

In [None]:
a = np.array([1,3,2,4,5])
a
np.savetxt("./arr.csv",a,delimiter=",")

In [None]:
b = np.loadtxt("arr.csv",delimiter=",")
print(b)