# NumPy (Numerical Python)
- 파이썬에서 사용할 수 있는 수학적 계산을 위한 패키지
- 주요 특징<br>
   : ndarray라는 자료구조를 사용해 행렬, 다차원 배열 등에 대한 빠른 배열계산 가능<br>
   : 반복문 없이 전체 데이터를 배열로 처리 가능한 표준 수학 함수<br>
   : 배열 데이터의 파일 입출력<br>
   : 선형대수, 난수 생성, 푸리에 변환 기능<br>
   : C API를 제공해 C, C++, 포트란 코드 링크 가능<br>
- NumPy 설치<br>
   : pip install numpy<br>
- NumPy 사용<br> 
   : import numpy

In [1]:
# 넘파이를 사용하기 위해 라이브러리를 추가
# 프로그램에서는 np라는 별명으로 사용할 것임을 알림
import numpy as np

In [None]:
# 테스트
np_arr = np.array([101, 202, 303, 404, 505])

print(np_arr)
print(np_arr.dtype)
print(type(np_arr))

# 배열의 차원

In [None]:
# 0-D array
np_arr = np.array(129)
print(np_arr)

# 1-D array
np_arr = np.array([101, 202, 303, 404, 505])
print(np_arr)

# 퀴즈 아래 코드는 몇 차원?
# 1-D array
np_arr = np.array(129)
print(np_arr)

In [2]:
# 2-D array
#  - 1-D array들을 원소로 가지는 array
#  - 2nd order tensors라고도 함

np_arr = np.array([[101, 202, 303], [404, 505, 606]])
print(np_arr)  

[[101 202 303]]


In [None]:
# 3-D array
np_arr = np.array([[[101, 202, 303], [404, 505, 606]], [[101, 202, 303], [404, 505, 606]]])
print(np_arr)

In [None]:
# 퀴즈 : 아래는 몇차원?
np_arr = np.array([[[129]]])

In [None]:
# 배열의 차원 검사
dim_0 = np.array(129)
dim_1 = np.array([11, 22, 33, 44, 55])
dim_2 = np.array([[10, 20, 30], [40, 50, 60]])
dim_3 = np.array([[[10, 20, 30], [44, 55, 66]], [[110, 220, 330], [404, 505, 606]]])

print(dim_0.ndim)
print(dim_1.ndim)
print(dim_2.ndim)
print(dim_3.ndim)

In [2]:
# 고차원 배열 생성
np_arr = np.array([10, 20, 30, 40], ndmin=3)

print(np_arr)
print('차원의 수 :', np_arr.ndim)

[[[10 20 30 40]]]
차원의 수 : 3


# 배열 인덱싱
- 배열원소의 index는 0부터 시작 

In [7]:
np_arr = np.array([10, 20, 30, 40])

# 첫번째 원소 참조
print(np_arr[0])

# 두번째 원소 참조
print(np_arr[1])

# 인덱스 범위 벗어난 참조는?
# 인덱스 범위내에서 인덱스 번호는 사용 가능, 
# 음수는 사용 가능하지만 인덱스 갯수 내에서만 표현할 수 있음
print(np_arr[-4])

10
20
10


In [12]:
# 배열 원소 참조 계산
np_arr = np.array([10, 20, 30, 40])
print(np_arr[2] + np_arr[3])

# 원소가 문자열인 경우?
np_arr = np.array(['10', '20', '30', '40'])
print(int(np_arr[2]) + int(np_arr[3]))

# 배열 a, b에 대해 사칙연산 바로 표현 가능 단, 데이터 크기(size)가 같아야 함
a1 = np.array([10, 20, 30, 40])
a2 = np.array([10, 20, 30, 40])
print(a1/a2)
print(len(a1))

70
70
[1. 1. 1. 1.]
4


In [13]:
# 2차원 배열 참조
np_arr = np.array([[171,272,373,744,575], [661,771,881,991,111]])
print('1행의 2열 원소: ', np_arr[0, -4]) # np_arr[0, 1] 또는 np_arr[-2, 1]도 같은 결과
print('2행의 5열 원소: ', np_arr[1, 4])

# 문제: 2차원 배열에서 axis가 0인 행에 대해 음수 인덱스를 적용해 272가 나오게...
print('1행의 2열 원소: ', np_arr[-2, -4])

1행의 2열 원소:  272
2행의 5열 원소:  111
1행의 2열 원소:  272


In [15]:
# 3차원 배열 참조
np_arr = np.array([[[10, 20, 30], [40, 50, 60]], [[77, 88, 99], [101, 102, 103]]])
print('1면, 2행, 3열 원소: ', np_arr[0, 1, 2])

# 문제 : 다음 배열에서 20을 출력하도록 인덱싱하려면?
np_arr = np.array([[[10, 20, 30]]])
print(np_arr[0, 0, 1])

1면, 2행, 3열 원소:  60
20


In [None]:
# 음수 인덱스 값 사용
np_arr = np.array([[10,20,30,40,50], [66,77,88,99,100]])
print('2행의 마지막 원소: ', np_arr[1, -1])

# 배열 슬라이싱(Slicing)
- 기본 형태 : \[start:end\] 또는 \[start:end:step\]
- 생략 가능 부분 : 시작인덱스 0, 마지막 인덱스, step이 1인 경우


In [16]:
np_arr = np.array([101, 201, 301, 401, 501, 601, 701])

# 전체 원소
print(np_arr[:])    # print(np_arr)와 동일 결과
print(np_arr[:7])
print(np_arr[0:])

# 마지막 3개 원소
print(np_arr[4:])
print(np_arr[-3:])
print(np_arr[-3:7])

# 짝수번째 원소
print(np_arr[1::2])

# 문제 : 슬라이싱을 통해 4번째부터 6번째 원소를 출력하되 
#        인덱스 시작, 끝을 음수로 표현해 보자!
print(np_arr[-4:-1])

[101 201 301 401 501 601 701]
[101 201 301 401 501 601 701]
[101 201 301 401 501 601 701]
[501 601 701]
[501 601 701]
[501 601 701]
[201 401 601]
[401 501 601]


In [22]:
# 2차원 배열 슬라이싱
np_arr = np.array([[101, 201, 301, 401, 501], [301, 401, 501, 601, 701]])

print('두번째 행의 2열부터 4열까지 : ', np_arr[1, 1:4])
print('첫번째 행부터 두번째행에 대해 각 행의 2열 : ', np_arr[0:2, 1])
print('첫번째 행부터 두번째행에 대해 2열부터 4열까지 : ',np_arr[0:2, 1:4])

# 문제 : 위 배열에서 [[201,301],[401,501]]이 되도록 슬라이싱해보자
print(np_arr[0:2, 1:3])

두번째 행의 2열부터 4열까지 :  [401 501 601]
첫번째 행부터 두번째행에 대해 각 행의 2열 :  [201 401]
첫번째 행부터 두번째행에 대해 2열부터 4열까지 :  [[201 301 401]
 [401 501 601]]
[[201 301]
 [401 501]]


# 파이썬과 넘파이의 데이터 타입
- Python <br>
  : strings - 예) "ABCD"<br>
  : integer - 예) -1, 0, 1<br>
  : float - 예) 10.2, 4.2<br>
  : boolean - 예) True or False<br>
  : complex - 예) 10.0 + 20.0j, 1.8 + 4.2j<br>
  
- NumPy <br>
  : i - 정수(integer)<br>
  : b - 바이트(byte)<br>
  : ? - 불(boolean)<br>
  : u - 부호없는 정수(unsigned integer)<br>
  : f - 실수(float)<br>
  : c - 복소수(complex float)<br>
  : m - 시간(timedelta)<br>
  : M - 날짜시간(datetime)<br>
  : O - 객체(object)<br>
  : S - 문자열(string)<br>
  : U - 유니코드 문자열(unicode string)<br>
  : V - 여러 데이터 타입을 표현할 수 있는 고정단위 메모리( void )<br>


In [21]:
d = ['10', 20, 30, 40]
np_arr = np.array(d)
print(np_arr.dtype)

np_arr = np.array(['영주사과', '배', '복숭아'])
print(np_arr.dtype)

<U11
<U4


In [27]:
# 정의된 데이터 타입으로 배열 생성하기
np_arr = np.array([10, 20, 30, 40], dtype='U4') # S는 string

print(np_arr)
print(type(np_arr))
print(np_arr.dtype)

# 실습 1 : 출력된 데이터 타입(dtype)에 대해 분석해보기
# 실습 2 : dtype='S'인 경우와 dtype='U'의 차이점 찾아보기
# 실습 3 : i, u, f, S, U는 데이터의 크기를 줄 수 있음
#          위의 예제에서 20을 2222로 변경하고 dtype='S'를 dtype='S3'로 변경 후 실행해 결과 분석해보기

['10' '20' '30' '40']
<class 'numpy.ndarray'>
<U4


In [30]:
# 데이터 타입을 변경할 수 없는 경우 어떤 일이?
np_arr = np.array(['aa', '20', '30'], dtype='i8')
print(np_arr)
print(np_arr.dtype)

[10 20 30]
int64


In [33]:
# 기 정의된 배열의 데이터 타입 변경(1)
np_arr = np.array([10.1, 20.1, 30.1])

newarr = np_arr.astype('int32') # i, i4, i8, int32, int64

print(newarr)
print(newarr.dtype)

[10 20 30]
int32


In [34]:
# 기 정의된 배열의 데이터 타입 변경(2)
np_arr = np.array([10.1, 20.1, 30.1])

newarr = np_arr.astype(int)

print(newarr)
print(newarr.dtype)

[10 20 30]
int32


In [35]:
# 정수를 불(boolean) 타입으로 변경
np_arr = np.array([10, 0, 30, -10])

newarr = np_arr.astype(bool)

print(newarr)
print(newarr.dtype)

[ True False  True  True]
bool


# 배열의 Copy와 View
- Copy : 원본의 데이터 저장 공간과 다른 저장 공간을 할당해 배열 원소 복사, side-effect 없음
- View : 원본의 데이터 저장 공간을 참조, side-effect 발생

In [36]:
# 배열 Copy 예
np_arr = np.array([101, 201, 301, 401, 501])
x = np_arr.copy()
np_arr[0] = 129

print(np_arr)
print(x)

[129 201 301 401 501]
[101 201 301 401 501]


In [35]:
# 배열 View 예(원본 변경했을 경우 변화 확인)
np_arr = np.array([101, 201, 301, 401, 501])
x = np_arr.view()
np_arr[0] = 129

print(np_arr)
print(x)

[129 201 301 401 501]
[129 201 301 401 501]


In [34]:
# 배열 View 예(참조본 변경했을 경우 변화 확인)
np_arr = np.array([10, 20, 30, 40, 50])
x = np_arr.view()
x[0] = 129

print(np_arr)
print(x)

[129  20  30  40  50]
[129  20  30  40  50]


In [39]:
# 배열이 원본(데이터 저장을 위한 자신만의 메모리 공간을 가지고 있는 경우)인지 
# 참조본인지 확인하는 방법
# 배열의 base 속성
#    - None : 자신의 데이터를 따로 가진 경우(copy)
#    - 배열 : 자신의 데이터를 따로 가지지 못하는 경우(view)
np_arr = np.array([101, 201, 301, 401, 501])

x = np_arr.copy()
y = np_arr.view()

print(x.base)
print(y.base)

None
[101 201 301 401 501]


# NumPy 배열의 Shape
  - 각 차원의 원소 갯수

In [37]:
# 배열 형태 알아보기
np_arr = np.array([[101, 201, 301, 401], [501, 601, 701, 801]])

shape = np_arr.shape
print(shape)
print(type(shape))
print(len(shape))

# 실습 1 : 각 행의 원소 갯수가 다른 경우 출력은?
# ==> 행의 갯수만 확정됨, 단, 차원표시는 됨

(2, 4)
<class 'tuple'>
2


In [41]:
# 배열 형태(차원) 지정하기
np_arr = np.array([101, 201, 301, 401], ndmin=5)

print(np_arr)
print('배열의 모양(shape) :', np_arr.shape)

[[[[[101 201 301 401]]]]]
배열의 모양(shape) : (1, 1, 1, 1, 4)


# 배열 Reshaping(재구성, 차원 변경)
  - reshape은 배열의 형태를 바꾸는 것임
  - shape은 각 차원의 원소 갯수라고 정의되었으므로 reshape한다는 것은 차원을 증감하거나 원소 갯수를 증감하는 것

In [38]:
# 1차원 --> 2차원
np_arr = np.array([650, 950, 151, 152, 750, 850, 153, 150, 250, 350, 450, 550])
print(np_arr.shape)
newarr = np_arr.reshape(3, 4) # 3*4 = 12
print(newarr)

(12,)
[[650 950 151 152]
 [750 850 153 150]
 [250 350 450 550]]


In [40]:
# 1차원 --> 3차원
np_arr = np.array([650, 950, 151, 152, 750, 850, 153, 150, 250, 350, 450, 550])
newarr = np_arr.reshape(2, 2, 3) # 2*2*3=12
print(newarr)

[[[[[650 950 151 152 750 850 153 150 250 350 450 550]]]]]


In [45]:
# 갯수가 안맞으면?
np_arr = np.array([107, 207, 307, 407, 507, 607, 707, 807])
newarr = np_arr.reshape(2, 2)
print(newarr)

[[[[107 207]
   [307 407]]

  [[507 607]
   [707 807]]]]


In [46]:
# reshape된 배열은 copy일까? view일까?
np_arr = np.array([107, 207, 307, 407, 507, 607, 707, 807])
print(np_arr.reshape(2, 4).base)

[107 207 307 407 507 607 707 807]


In [49]:
# 차원을 모르는 배열??? 
# -1은 한군데만 써야 함
np_arr = np.array([107, 207, 307, 407, 507, 607, 707, 807])
print(np_arr.shape)

newarr = np_arr.reshape(2, 2, -5)
print(newarr.shape)
print(newarr)

# 실습 1 : -1을 여러군데 쓰면?
# 실습 2 : -1 대신 다른 음수를 쓰면?

(8,)
(2, 2, 2)
[[[107 207]
  [307 407]]

 [[507 607]
  [707 807]]]


In [52]:
# 다차원을 1차원으로 만들기
# shape 크기로 음수(-1) 사용
np_arr = np.array([[101, 201, 301], [410, 510, 610]])

newarr = np_arr.reshape(-1)
print(newarr)

newarr = np_arr.flatten() 
print(newarr)

<class 'numpy.ndarray'>
[101 201 301 410 510 610]
