# Numpy

## Goal
>- 배열과 리스트의 차이점
- 배열 생성 다루는 기법
- 기술 통계
- 결과에 대한 분석하는 방법

>- Numpy 의 배열은 모소 원소가 같은 자료형이어야 한다.
- resizing 불가능

>- Vector(1차원 - 배열) - pandas (Series)
- Matrix(2차원 - 행렬) - pandas (DataFrame)

>- 선형대수(행렬을 이용한 연산 가능)

In [1]:
import numpy as np

- 배열의 차원과 크기, 타입
- ndim, shape, dtype

In [2]:
def aryInfo(ary) :
    print('type : {}'.format(type(ary)))
    print('shape : {}'.format(ary.shape))
    print('dimension : {}'.format(ary.ndim))
    print('dtype : {}'.format(ary.dtype))
    print("Array Data :\n", ary)

## 1차원 배열 생성
- array()

In [3]:
oneAry = np.array([0,1,2,3,4,5,6,7,8,9])
aryInfo(oneAry)

type : <class 'numpy.ndarray'>
shape : (10,)
dimension : 1
dtype : int32
Array Data :
 [0 1 2 3 4 5 6 7 8 9]


- List vs Array 차이점 (Vector operation)

In [4]:
data = [0,1,2,3,4,5,6,7,8,9]
data * 2

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [5]:
result = []
for d in data :
    result.append(d*2)
result

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [6]:
result2 = [d*2 for d in data]
result2

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [7]:
result3 = oneAry * 2
result3
# numpy를 활용할 때에 적용 가능하다. 현업에서는 빠른 numpy를 사용한다.

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

- 벡터 연산은 비교, 산술, 논리 연산을 포함하는 모든 수학연산에 적용됨

In [8]:
xAry = np.array([1,2,3])
yAry = np.array([10,20,30])

In [9]:
2 * xAry + yAry

array([12, 24, 36])

In [10]:
xAry == 2

array([False,  True, False])

In [11]:
yAry > 20

array([False, False,  True])

In [12]:
(xAry == 2) & (yAry > 20)

array([False, False, False])

## 2차원 배열 생성
- ndarray(N-dimensional Array)
- 2차원, 3차원(다차원 배열 자료구조)
- 2차원 배열은 행렬(Matrix)
- 2차원 : list of list
- 3차원 : list of list of list

In [13]:
# 2개의 행과 3개의 열을 가지는 배열 만든다면
twoAry = np.array([[1,2,3],[4,5,6]], dtype=np.float64)
aryInfo(twoAry)

type : <class 'numpy.ndarray'>
shape : (2, 3)
dimension : 2
dtype : float64
Array Data :
 [[1. 2. 3.]
 [4. 5. 6.]]


In [14]:
# 행의 갯수, 열의 갯수
print(len(twoAry))
print(len(twoAry[0]))
print(len(twoAry[1]))

2
3
3


## 3차원 배열 생성

In [15]:
# 2 3 4
threeAry = np.array([ 
                    [[1,2,3,4],[5,6,7,8],[9,10,11,12]],
                    [[13,14,15,16],[17,18,19,20],[21,22,23,24]]
                    ])
aryInfo(threeAry)

type : <class 'numpy.ndarray'>
shape : (2, 3, 4)
dimension : 3
dtype : int32
Array Data :
 [[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]


In [16]:
print('dept', len(threeAry))
print('row', len(threeAry[0]))
print('row', len(threeAry[1]))
print('row[0] col', len(threeAry[0][0]))

dept 2
row 3
row 3
row[0] col 4


- 요소의 타입을 변경할 때는 astype()

In [17]:
typeChange = threeAry.astype(np.float64)
aryInfo(typeChange)

type : <class 'numpy.ndarray'>
shape : (2, 3, 4)
dimension : 3
dtype : float64
Array Data :
 [[[ 1.  2.  3.  4.]
  [ 5.  6.  7.  8.]
  [ 9. 10. 11. 12.]]

 [[13. 14. 15. 16.]
  [17. 18. 19. 20.]
  [21. 22. 23. 24.]]]


In [18]:
indexAry = np.array([1,2,3,4,5,6,7])
aryInfo(indexAry)

type : <class 'numpy.ndarray'>
shape : (7,)
dimension : 1
dtype : int32
Array Data :
 [1 2 3 4 5 6 7]


In [19]:
print(indexAry[2])
indexAry[-1]

3


7

In [20]:
aryInfo(twoAry)
# twoAry indexing
# 첫번째 행의 첫번째 열
print(twoAry[0,0])
# 첫번째 행의 두번째 열
print(twoAry[0,1])
# 마지막 행의 마지막 열
twoAry[-1,-1]

type : <class 'numpy.ndarray'>
shape : (2, 3)
dimension : 2
dtype : float64
Array Data :
 [[1. 2. 3.]
 [4. 5. 6.]]
1.0
2.0


6.0

In [21]:
slicingAry = np.array([[1,2,3,4],[5,6,7,8]])
aryInfo(slicingAry)
# 첫번째 행의 전체
print(slicingAry[0, : ])
# 두번째 열의 전체
print(slicingAry[ :, 1])
# 두번째 행의 두번째 열부터 끝까지
print(slicingAry[1, 1:])

type : <class 'numpy.ndarray'>
shape : (2, 4)
dimension : 2
dtype : int32
Array Data :
 [[1 2 3 4]
 [5 6 7 8]]
[1 2 3 4]
[2 6]
[6 7 8]


In [22]:
m = np.array([[ 0,  1,  2,  3,  4],
            [ 5,  6,  7,  8,  9],
            [10, 11, 12, 13, 14]])
aryInfo(m)

# 이 행렬에서 값 7 을 인덱싱한다.
print(m[1,2])
# 이 행렬에서 값 14 을 인덱싱한다.
print(m[-1,-1])
# 이 행렬에서 배열 [6,7] 을 슬라이싱한다.
print(m[1,1:3])
# 이 행렬에서 배열 [7,12] 을 슬라이싱한다.
print(m[1:,2])
# 이 행렬에서 배열 [[3,4],[8,9]] 을 슬라이싱한다.
print(m[0:2,3:5])

type : <class 'numpy.ndarray'>
shape : (3, 5)
dimension : 2
dtype : int32
Array Data :
 [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
7
14
[6 7]
[ 7 12]
[[3 4]
 [8 9]]


- fancy indexing
- boolean index

In [23]:
arr = np.array([0,1,2,3,4,5,6,7,8,9])
aryInfo(arr)
idx = np.array([True, False, True, False, True, False, True, False, True, False])
print(arr[idx])

type : <class 'numpy.ndarray'>
shape : (10,)
dimension : 1
dtype : int32
Array Data :
 [0 1 2 3 4 5 6 7 8 9]
[0 2 4 6 8]


In [24]:
arr % 2 == 0

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [25]:
arr[arr % 2 == 0]

array([0, 2, 4, 6, 8])

In [26]:
cntIdx = np.array([0,2,4,6,8])
print(arr[cntIdx])

[0 2 4 6 8]


In [27]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
             11, 12, 13, 14, 15, 16, 17, 18, 19, 20])
aryInfo(x)

# 이 배열에서 3의 배수를 찾기
print(x[x % 3 == 0])
# 이 배열에서 4로 나누면 1이 남는 수를 찾기
print(x[x % 4 == 1])
# 이 배열에서 3으로 나누면 나누어지고 4로 나누면 1이 남는 수를 찾기
print(x[(x % 3 == 0) & (x % 4 == 1)])

type : <class 'numpy.ndarray'>
shape : (20,)
dimension : 1
dtype : int32
Array Data :
 [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20]
[ 3  6  9 12 15 18]
[ 1  5  9 13 17]
[9]


In [28]:
# fancy indexing
# reshape : 배열 생성시 차원을 정해준다.
# 배열에 index 배열을 전달하여 배열 요소를 참조

fancyAry = np.arange(0,12,1).reshape(3,4)
aryInfo(fancyAry)

type : <class 'numpy.ndarray'>
shape : (3, 4)
dimension : 2
dtype : int32
Array Data :
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [29]:
# 10을 가져오기
print(fancyAry[2,2])
# 6을 가져오기
print(fancyAry[1,2])
# 6을 array 형태로 가져오기
print(fancyAry[1:2, 2])
# 1차원 배열 6 가져오기
display(arrInfo(fancyArr[1:2, 2]))

10
6
[6]


NameError: name 'arrInfo' is not defined

In [None]:
aryInfo(fancyAry[1:2, 1:2])
# 출력되는 형식을 주의

In [None]:
# 2, 10을 가져오기
aryInfo(fancyAry[[0,2], 2])

In [None]:
# 2, 10을 배열 형식으로 가져오기
aryInfo(fancyAry[[0,2], 2:3])

In [None]:
# 배열 [[0,1,2],[8,9,10]]을 가져오기
aryInfo(fancyAry[[0,2], 0:2])

In [None]:
# [[0, 2], [8, 10]] 만들기
arrInfo(fancyArr)

rowIdx = np.array([0,2])
colIdx = np.array([0,2])

print(fancyAry[ [rowIdx]] [:,colIdx])

## 배열 변형(타입, 형태)

In [None]:
x = np.array([1,2,3], dtype='U')
aryInfo(x)

In [None]:
x[0] + x[1] # dtype f로 주면 3 나옴

- zeros, ones
- zeros_like, ones_like
- empty
- arange
- linspace, logspace


- zeros : 크기가 정해져 있고 모든 값이 0인 배열을 생성

In [None]:
# z = np.zeros(5)
# aryInfo(z)
z = np.zeros(5, dtype='U')
aryInfo(z)

In [None]:
z = np.zeros((2,3), dtype='i')
aryInfo(z)

In [None]:
o = np.ones((2,3,4), dtype='i8')
aryInfo(o)

In [None]:
o_like = np.ones_like(o, dtype='f')
aryInfo(o_like)

In [None]:
z_like = np.zeros_like(z)
aryInfo(z_like)

In [None]:
# empty
# 값이 없는 비어있는 배열을 만든다.
# 나오는 값은 저장공간의 주소값이다. 실제 값이 아니다.
e = np.empty((4, 3))
arrInfo(e)

In [None]:
a = np.arange(10)
aryInfo(a)

In [None]:
a = np.arange(3, 21, 2)
aryInfo(a)

In [None]:
# 전치행렬
# 행렬의 행은 열로, 열은 행으로 바꾼 행렬
# 속성 T
# transpose operation
arr = np.array([[1, 2, 3], [4, 5, 6]])
arrInfo(arr)

In [None]:
arr_transpose = arr.T
aryInfo(arr_transpose)

In [None]:
# Vector에 transpose 가능할까?
# 문법 상 오류는 없지만 의미가 없다.
vec = np.arange(10)
aryInfo(vec)

In [None]:
vec_transpose=vec.reshape(1,10).T
aryInfo(vec_transpose)

- 배열의 원소를 순차적으로 access
- for (Vector, Matrix)
- iterator(internext(), finished 속성을 이용해서 ndarray 모든 요소를 순차적으로 접근할 수 있다.)

In [None]:
arr = np.array([1,2,3,4,5])

In [None]:
for tmp in arr :
    print(tmp, end=" ")

In [None]:
for idx in range(len(arr)) :
    print(arr[idx], end=" ")

In [None]:
ite = np.nditer(arr, flags=['c_index'])
while not ite.finished :
    print(arr[ite.index], end=" ")
    ite.iternext()

In [None]:
arr = np.array([[1,2,3],[4,5,6]])
aryInfo(arr)

In [None]:
# 2차원 배열에 대한 순차적 접근 코드 작성
# print(arr.shape[0]) : row
# print(arr.shape[1]) : col

for i in range(arr.shape[0]) :
    for j in range(arr.shape[1]) :
        print(arr[i,j], end = "\t") # arr[i][j] 도 가능
    print("\n")

In [None]:
ite = np.nditer(arr, flags=['multi_index'])
while not ite.finished :
    print(arr[ite.multi_index], end=" ")
    ite.iternext()