# Numpy

- 배열과 리스트의 차이점
- 배열 생성 및 다루는 기법
- 기술 통계
- 결과에 대한 분석하는 방법

- numpy의 배열은 모든 원소가 같은 자료형이어야 한다.
- resizing 불가능

- Vector : 1차원 배열 -> pandas : Series
- Matrix : 2차원 행렬 -> pandas : DataFrame

- 선형대수 (행렬을 이용한 연산 가능)

In [1]:
import numpy as np

In [17]:
# 배열의 차원과 크기, 타입
# ndim, shape, dtype

def arrInfo(arr) :
    print('type : {}'.format(type(arr)))
    print('shape : {}'.format(arr.shape))
    print('dimension : {}'.format(arr.ndim))
    print('dtype : {}'.format(arr.dtype))
    print('Array Data : \n', arr)

### 1차원 배열 생성
- array()

In [6]:
oneArr = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
arrInfo(oneArr)

type : <class 'numpy.ndarray'>
shape : (10,)
dimension : 1
dtype : int32
Array Data : 
 [0 1 2 3 4 5 6 7 8 9]


In [7]:
# List vs Array (Vector operation)

# List
# 각 항목에 각각 2를 곱해서 나타내고 싶은 경우
data = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
data * 2

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [8]:
# python 문법을 사용하여 직접 계산해야 한다.
result = []
for d in data :
    result.append(d * 2)

result

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [9]:
result2 = [d * 2 for d in data]
result2

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [10]:
# Array
# numpy 의 경우 바로 계산 가능
result3 = oneArr * 2
result3

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [11]:
# 벡터 연산은 비교, 산술, 논리 연산을 포함하는 모든 수학연산이 적용된다.

xArr = np.array([1, 2, 3])
yArr = np.array([10, 20, 30])

In [13]:
# 연산자 우선순위
2 * xArr + yArr

array([12, 24, 36])

In [14]:
xArr == 2

array([False,  True, False])

In [15]:
yArr > 20

array([False, False,  True])

In [16]:
(xArr == 2) & (yArr > 20)

array([False, False, False])

### 2차원 배열 생성
- ndarray(N-dimensional Array)
- 2차원, 3차원 (다차원 배열 자료구조)
- 2차원 배열은 행렬 (Matrix)
- list of list
- list of list of list (3차원)

In [41]:
twoArr = np.array([[1, 2, 3], [4, 5, 6]])
arrInfo(twoArr)

type : <class 'numpy.ndarray'>
shape : (2, 3)
dimension : 2
dtype : int32
Array Data : 
 [[1 2 3]
 [4 5 6]]


In [22]:
# 행의 개수, 열의 개수
print(len(twoArr))
print(len(twoArr[0]))
print(len(twoArr[1]))

2
3
3


In [25]:
# 배열 생성시 자료형의 변환 가능
twoArr = np.array([[1, 2, 3], [4, 5, 6]], dtype = np.float64)
arrInfo(twoArr)
print()

# <U11 : 문자열 자료형
twoArr = np.array([[1, 2, 3], [4, 5, '6']])
arrInfo(twoArr)

type : <class 'numpy.ndarray'>
shape : (2, 3)
dimension : 2
dtype : float64
Array Data : 
 [[1. 2. 3.]
 [4. 5. 6.]]

type : <class 'numpy.ndarray'>
shape : (2, 3)
dimension : 2
dtype : <U11
Array Data : 
 [['1' '2' '3']
 ['4' '5' '6']]


### 3차원 배열 생성

In [26]:
# 2 3 4
threeArr = np.array([[[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]], [[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]]])
arrInfo(threeArr)

type : <class 'numpy.ndarray'>
shape : (2, 3, 4)
dimension : 3
dtype : int32
Array Data : 
 [[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]]


In [35]:
print('dept', len(threeArr))
print('row', len(threeArr[0]))
print('col', len(threeArr[0][2]))

dept 2
row 3
col 4


In [36]:
# 만들어진 배열의 요소의 타입을 변경할 때는 astype()
typeChange = threeArr.astype(np.float64)
arrInfo(typeChange)

type : <class 'numpy.ndarray'>
shape : (2, 3, 4)
dimension : 3
dtype : float64
Array Data : 
 [[[ 1.  2.  3.  4.]
  [ 5.  6.  7.  8.]
  [ 9. 10. 11. 12.]]

 [[ 1.  2.  3.  4.]
  [ 5.  6.  7.  8.]
  [ 9. 10. 11. 12.]]]


In [37]:
indexArr = np.array([1, 2, 3, 4, 5, 6, 7])
arrInfo(indexArr)

type : <class 'numpy.ndarray'>
shape : (7,)
dimension : 1
dtype : int32
Array Data : 
 [1 2 3 4 5 6 7]


In [38]:
# 행렬 indexing, slicing
indexArr[2]

3

In [39]:
indexArr[-1]

7

In [48]:
# twoArr indexing
print(twoArr)

# 첫번째 행의 첫번째 열
print(twoArr[0][0])

# 첫번째 행의 두번째 열
print(twoArr[0][1])

# 마지막 행의 마지막 열
print(twoArr[-1][-1])

[[1 2 3]
 [4 5 6]]
1
2
6


In [60]:
slicingArr = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])
print(slicingArr)

# 첫번째 행의 전체
print(slicingArr[0, : ])

# 두번째 열의 전체
print(slicingArr[ : , 1])

# 두번째 행의 두번째 열부터 끝까지
print(slicingArr[1, 1:])

[[1 2 3 4]
 [5 6 7 8]]
[1 2 3 4]
[2 6]
[6 7 8]


In [68]:
m = np.array([[0,  1,  2,  3,  4], [5,  6,  7,  8,  9], [10, 11, 12, 13, 14]])
arrInfo(m)

# 이 행렬에서 값 7을 인덱싱
print(m[1][2])

# 이 행렬에서 값 14를 인덱싱
print(m[-1][-1])

# 이 행렬에서 배열 [6, 7]을 슬라이싱
print(m[1, 1:3])

# 이 행렬에서 배열 [7, 12]를 슬라이싱
print(m[1:3, 2])

# 이 행렬에서 배열 [[3, 4], [8, 9]]를 슬라이싱
print(m[0:2, -2:])

type : <class 'numpy.ndarray'>
shape : (3, 5)
dimension : 2
dtype : int32
Array Data : 
 [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
7
14
[6 7]
[ 7 12]
[[3 4]
 [8 9]]


In [70]:
# boolean indexing
# True, False를 배열의 인덱스로 활용을 하여 출력을 할 수 있다. 
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
arrInfo(arr)

# 짝수만 출력
idx = np.array([True, False, True, False, True, False, True, False, True, False])
print(arr[idx])

type : <class 'numpy.ndarray'>
shape : (10,)
dimension : 1
dtype : int32
Array Data : 
 [0 1 2 3 4 5 6 7 8 9]
[0 2 4 6 8]


In [73]:
arr[arr % 2 == 0]

array([0, 2, 4, 6, 8])

In [75]:
cntIdx = np.array([0, 2, 4, 6, 8])
arr[cntIdx]

array([0, 2, 4, 6, 8])

In [81]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20])
arrInfo(x)

# 이 배열에서 3의 배수를 찾기
print(x[x % 3 == 0])

# 이 배열에서 4로 나누면 1이 남는 수를 찾기
print(x[x % 4 == 1])

# 이 배열에서 3으로 나누면 나누어지고 4로 나누면 1이 남는 수를 찾기
print(x[(x % 3 == 0) & (x % 4 == 1)])

type : <class 'numpy.ndarray'>
shape : (20,)
dimension : 1
dtype : int32
Array Data : 
 [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20]
[ 3  6  9 12 15 18]
[ 1  5  9 13 17]
[9]


In [83]:
# fancy indexing
# reshape : 배열 생성시 차원을 정해준다.
fancyArr = np.arange(0, 12, 1).reshape(3, 4)
arrInfo(fancyArr)

type : <class 'numpy.ndarray'>
shape : (3, 4)
dimension : 2
dtype : int32
Array Data : 
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [87]:
# 1차원 배열 6 가져오기
arrInfo(fancyArr[1:2, 2])

type : <class 'numpy.ndarray'>
shape : (1,)
dimension : 1
dtype : int32
Array Data : 
 [6]


In [88]:
# 2차원 배열 5 가져오기
arrInfo(fancyArr[1:2, 1:2])

type : <class 'numpy.ndarray'>
shape : (1, 1)
dimension : 2
dtype : int32
Array Data : 
 [[5]]


In [92]:
# 2, 10 가져오기
arrInfo(fancyArr)
fancyArr[[0, 2], 2]

type : <class 'numpy.ndarray'>
shape : (3, 4)
dimension : 2
dtype : int32
Array Data : 
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


array([ 2, 10])

In [98]:
# [[2], [10]] 만들기
arrInfo(fancyArr[[0, 2], 2:3])

type : <class 'numpy.ndarray'>
shape : (2, 1)
dimension : 2
dtype : int32
Array Data : 
 [[ 2]
 [10]]


In [114]:
# [[0, 2], [8, 10]] 만들기
arrInfo(fancyArr)

rowIdx = np.array([0, 2])
colIdx = np.array([0, 2])
print(fancyArr[rowIdx][:, colIdx])

type : <class 'numpy.ndarray'>
shape : (3, 4)
dimension : 2
dtype : int32
Array Data : 
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 0  2]
 [ 8 10]]


In [119]:
# 배열에 대한 변형(타입, 형태)
x = np.array([1, 2, 3], dtype = 'U')
arrInfo(x)

type : <class 'numpy.ndarray'>
shape : (3,)
dimension : 1
dtype : <U1
Array Data : 
 ['1' '2' '3']


In [120]:
x[0] + x[1]

'12'

In [121]:
# inf : 무한대
# NaN : Not a Number
np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])

  """Entry point for launching an IPython kernel.
  """Entry point for launching an IPython kernel.


array([  0.,  inf, -inf,  nan])

In [122]:
# zeros, ones
# zeros_like, ones_like
# empty
# arange
# linespace, logspace

In [123]:
# zeros
# 크기가 정해져있고 모든 값이 0인 배열을 생성
z = np.zeros(5)
arrInfo(z)

type : <class 'numpy.ndarray'>
shape : (5,)
dimension : 1
dtype : float64
Array Data : 
 [0. 0. 0. 0. 0.]


In [127]:
z = np.zeros((2, 3), dtype = 'i')
arrInfo(z)

type : <class 'numpy.ndarray'>
shape : (2, 3)
dimension : 2
dtype : int32
Array Data : 
 [[0 0 0]
 [0 0 0]]


In [131]:
# ones
# i8 : int64 데이터 타입
o = np.ones((2, 3, 4), dtype = 'i8')
arrInfo(o)

type : <class 'numpy.ndarray'>
shape : (2, 3, 4)
dimension : 3
dtype : int64
Array Data : 
 [[[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]

 [[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]]


In [132]:
# ones_like
o_like = np.ones_like(o, dtype = 'f')
arrInfo(o_like)

type : <class 'numpy.ndarray'>
shape : (2, 3, 4)
dimension : 3
dtype : float32
Array Data : 
 [[[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]

 [[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]]


In [133]:
# zeros_like
z_like = np.zeros_like(z)
arrInfo(z_like)

type : <class 'numpy.ndarray'>
shape : (2, 3)
dimension : 2
dtype : int32
Array Data : 
 [[0 0 0]
 [0 0 0]]


In [134]:
# empty
# 값이 없는 비어있는 배열을 만든다.
# 나오는 값은 저장공간의 주소값이다. 실제 값이 아니다.
e = np.empty((4, 3))
arrInfo(e)

type : <class 'numpy.ndarray'>
shape : (4, 3)
dimension : 2
dtype : float64
Array Data : 
 [[0.0078125 0.0078125 0.0078125]
 [0.0078125 0.0078125 0.0078125]
 [0.0078125 0.0078125 0.0078125]
 [0.0078125 0.0078125 0.0078125]]


In [136]:
# arange
a = np.arange(10)
arrInfo(a)

type : <class 'numpy.ndarray'>
shape : (10,)
dimension : 1
dtype : int32
Array Data : 
 [0 1 2 3 4 5 6 7 8 9]


In [137]:
a = np.arange(3, 21, 2)
arrInfo(a)

type : <class 'numpy.ndarray'>
shape : (9,)
dimension : 1
dtype : int32
Array Data : 
 [ 3  5  7  9 11 13 15 17 19]


In [138]:
# 전치행렬
# 행렬의 행은 열로, 열은 행으로 바꾼 행렬
# 속성 T
# transpose operation
arr = np.array([[1, 2, 3], [4, 5, 6]])
arrInfo(arr)

type : <class 'numpy.ndarray'>
shape : (2, 3)
dimension : 2
dtype : int32
Array Data : 
 [[1 2 3]
 [4 5 6]]


In [139]:
arr_transpose = arr.T
arrInfo(arr_transpose)

type : <class 'numpy.ndarray'>
shape : (3, 2)
dimension : 2
dtype : int32
Array Data : 
 [[1 4]
 [2 5]
 [3 6]]


In [140]:
# Vector 에 transpose 하기
# 문법 상 오류는 없지만 의미가 없다.
vec = np.arange(10)
arrInfo(vec)

type : <class 'numpy.ndarray'>
shape : (10,)
dimension : 1
dtype : int32
Array Data : 
 [0 1 2 3 4 5 6 7 8 9]


In [141]:
vec_transpose = vec.T
arrInfo(vec_transpose)

type : <class 'numpy.ndarray'>
shape : (10,)
dimension : 1
dtype : int32
Array Data : 
 [0 1 2 3 4 5 6 7 8 9]


In [143]:
# Vector를 2차원 행렬로 변환하면 가능하다.
vec_transpose = vec.reshape(1, 10).T
arrInfo(vec_transpose)

type : <class 'numpy.ndarray'>
shape : (10, 1)
dimension : 2
dtype : int32
Array Data : 
 [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]


In [146]:
# 배열의 원소를 순차적으로 access
# for (Vector, Matrix)
# iterator (iternext(), finished 속성을 이용해서 ndarray의 모든 요소를 순차적으로 접근할 수 있다.)

arr = np.array([1, 2, 3, 4, 5])

for tmp in arr :
    print(tmp, end = ' ')

1 2 3 4 5 

In [147]:
for idx in range(len(arr)) :
    print(arr[idx], end = ' ')

1 2 3 4 5 

In [151]:
ite = np.nditer(arr, flags = ['c_index'])

while not ite.finished :
    print(arr[ite.index], end = ' ')
    ite.iternext()

1 2 3 4 5 

In [152]:
arr = np.array([[1, 2, 3], [4, 5, 6]])
arrInfo(arr)

type : <class 'numpy.ndarray'>
shape : (2, 3)
dimension : 2
dtype : int32
Array Data : 
 [[1 2 3]
 [4 5 6]]


In [156]:
# 2차원 배열에 대한 순차적 접근 코드 작성
for i in range(len(arr)) :
    for j in range(len(arr[i])) :
        print(arr[i][j], end = ' ')

1 2 3 4 5 6 

In [158]:
ite = np.nditer(arr, flags = ['multi_index'])

while not ite.finished :
    print(arr[ite.multi_index], end = ' ')
    ite.iternext()

1 2 3 4 5 6 