# NumPy란?
- 데이터 분석을 위한 패키지
- 파이썬의 기본 데이터 형식과 내장함수를 이용하는 것보다 다차원 배열데이터(자료구조)를 효과적으로 처리할 수 있다.
- https://numpy.org/devdocs/user/quickstart.html <- 따로 책 사는 것보다는 여기서 공부해라.
- Numpy는 파이썬의 내장모듈이 아니므로 원래는 별도로 설치해야 하나, 아나콘다 배포판에는 NumPy가 포함돼 있다.
- 파이썬 콘솔에서 불러온 모듈이나 패키지는 한 번만 선언하면 다시 선언하지 않고 이용할 수 있으나, 주피터노트북에서는 새로운 노트북을 생성할 때마다 다시 선언
- 새로 설치해야 하는 경우, 콘솔 창에서는 어느 위치에서 시작하든 상관없다.
- NumPy쓰는 이유? 데이터를 NumPy의 배열(Array) 구조로 만들어서 불편한 인덱싱 기능을 효율적으로 바꿔주고, 차지하는 용량을 줄여서 내부 메모리기능 향상

#### 파이썬 패키지 관리 시스템(pip)으로 설치가 돼있는지, 무슨 버전인지 먼저 확인

In [None]:
# 콘솔 창에서 설치된 패키지 목록 확인
>>> pip list

# 버전 확인
>>> python --version

# pip 업데이트
>>> pip install --upgrade pip

# pip 언인스톨
>>> pip uninstall 패키지명

# 배열 생성하기

In [None]:
import numpy as np  #모듈명 줄여서 np로 사용

#### 시퀀스 데이터로 배열생성(numpy.array)

In [2]:
# 정수 리스트
data1 = [0,1,2,3,4,5]
a1 = np.array(data1)   # a1은 ndArray -> numPy를 통해 생성되는 n차원의 배열객체
a1

# list나 ndArray나 n차원을 지원하는건 동등하다.
# 그러나 list는 비정형화된 구조로 행과 열이 다 들어맞지 않는다.
# ndArray는 행과 열이 정형화된 구조로 list보다 계산을 빠르게 할 수 있다.

array([0, 1, 2, 3, 4, 5])

In [31]:
# 정수와 실수가 혼합된 리스트
data2 = [0.1,5,4,12,0.5]
a2 = np.array(data2)  # R의 벡터매트릭스와 비슷하다.
a2

# 정수와 실수가 혼합돼있으면 모두 실수로 변환 5 -> 5.

array([ 0.1,  5. ,  4. , 12. ,  0.5])

In [4]:
# 데이터타입 살펴보기(dtype)
a1.dtype    # int: 정수

dtype('int32')

In [32]:
a2.dtype    # float: 실수

dtype('float64')

In [34]:
# 다차원배열 생성
np.array([[1,2,3], [4,5,6], [7,8,9]])  # array()에 리스트 데이터 직접 넣어도 된다.

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

#### 범위 지정해 배열 생성

In [None]:
arr_obj = np.arange([start,] stop[,step])
# start:시작, stop:끝, step:더해지는크기

In [36]:
np.arange(0,10,2)

array([0, 2, 4, 6, 8])

In [37]:
np.arange(1,10)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [38]:
np.arange(5)

array([0, 1, 2, 3, 4])

#### 행렬구조 바꿔서 보여주기(reshape)

In [39]:
b1 = np.arange(12).reshape(4,3)
b1

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

#### 몇행 몇렬인지 보여주기(shape)

In [40]:
b1.shape

(4, 3)

In [43]:
b2 = np.arange(5)
b2.shape    # 5개의 요소를 갖는 1차원 배열이므로 (5,)

(5,)

#### 범위와 데이터의 개수로 배열을 생성(linspace)

In [44]:
np.linspace(1,10,10) # 1부터 10까지 10개

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

#### 특별한 형태의 배열 생성

In [50]:
# 모든 원소가 0: numpy.zero()
np.zeros(10)
np.zeros((2,3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [49]:
# 모든 원소가 1: numpy.ones()
np.ones(5)
np.ones((2,3))

array([[1., 1., 1.],
       [1., 1., 1.]])

In [51]:
# 단위행렬. 대각선만 1, 나머지는 0
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

#### 데이터 타입 변환(astype)

- b: 불, bool
- i: 기호가 있는 정수
- u: 기호가 없는 정수
- f: 실수
- c: 복소수
- M: 날짜
- O: 파이썬 객체
- S 혹은 a: 바이트문자열
- U: 유니코드(문자열)

In [56]:
str_a = np.array(['1.5','0.62','2','3,14','3,141592'])  # 데이터타입: 문자열
str_a.dtype

dtype('<U8')

In [62]:
str_a1 = np.array(['1.567', '0.123', '5.123', '9', '8'])
str_a1.dtype  # dtype('<U5')
num_a1 = str_a1.astype(float)
num_a1.dtype  # dtype('float64')

dtype('float64')

In [21]:
num_f1 = np.array([10,21,0.549,4.75,5.98])
num_i1 = num_f1.astype(int)
num_i1

# 실수 3.5는 각각 3과 0.5로 나눠져서 저장된다

array([10, 21,  0,  4,  5])

In [22]:
num_f1.dtype  #정수형은 소수점이하 관리하는 메모리가 없다
# float은 실수형 의미

dtype('float64')

In [23]:
num_i1.dtyp
# int는 정수형 의미

dtype('int32')

#### 난수 배열의 생성(random)

In [63]:
# rand(): 0 이상 1 미만의 실수 난수를 생성
np.random.rand(2,3)

array([[0.17441183, 0.88607734, 0.41789401],
       [0.82802912, 0.7070845 , 0.90827992]])

In [64]:
np.random.rand()

0.08989770840700895

In [65]:
np.random.rand(2,3,4)

array([[[0.85430103, 0.73226864, 0.52947725, 0.74429523],
        [0.70007634, 0.79693702, 0.19076275, 0.34278957],
        [0.26940871, 0.66236797, 0.53124528, 0.37057758]],

       [[0.46923262, 0.2871661 , 0.54472082, 0.20188623],
        [0.73535139, 0.66435089, 0.41197979, 0.9377266 ],
        [0.47486854, 0.7961252 , 0.96324702, 0.17989674]]])

In [66]:
# randint(): 지정한 범위에 해당하는 정수로 난수배열 생성
np.random.randint(10, size=(3,4))

array([[6, 2, 7, 9],
       [6, 3, 0, 4],
       [7, 9, 0, 3]])

In [68]:
np.random.randint(1,30)

2

# 배열의 연산

#### 기본연산

In [69]:
arr1 = np.array([10,20,30,40])
arr2 = np.array([1,2,3,4])

In [70]:
arr1 + arr2

array([11, 22, 33, 44])

In [71]:
arr1 - arr2

array([ 9, 18, 27, 36])

In [72]:
arr2 * 2

array([2, 4, 6, 8])

In [73]:
arr1 / arr2

array([10., 10., 10., 10.])

In [74]:
arr2 ** 2  # ** : 제곱승

array([ 1,  4,  9, 16], dtype=int32)

In [75]:
arr1 > 20 # 반복을 쓰지 않아도 정보값 T, F 리스트를 뿌려준다

array([False, False,  True,  True])

#### 통계를 위한 연산

In [77]:
arr3 = np.arange(5)
arr3

array([0, 1, 2, 3, 4])

In [78]:
[arr3.sum(), arr3.mean()]

[10, 2.0]

In [79]:
[arr3.std(), arr3.var()]

[1.4142135623730951, 2.0]

In [80]:
[arr3.min(), arr3.max()]

[0, 4]

In [81]:
# 누적합(cumsum)
arr4 = np.arange(1,5)
arr4
arr4.cumsum()

array([ 1,  3,  6, 10], dtype=int32)

In [82]:
# 누적곱(cumprod)
arr4.cumprod()

array([ 1,  2,  6, 24], dtype=int32)

#### 행렬연산

In [84]:
# 행렬곱, 내적(.dot)    -> 내적: 각 값을 곱한 후 더한 값. 각 요소의 거리값 구할 때 많이 쓰임
A = np.array([0,1,2,3]).reshape(2,2)
A

array([[0, 1],
       [2, 3]])

In [85]:
B = np.array([3,2,0,1]).reshape(2,2)
B

array([[3, 2],
       [0, 1]])

In [89]:
A.dot(B)
np.dot(A,B)  # 내적 구하는 NumPy 자체함수?

array([[0, 1],
       [6, 7]])

In [90]:
# 전치행렬: 행과 열 바꾸기
np.transpose(A)
A.transpose()

array([[0, 2],
       [1, 3]])

In [91]:
# 역행렬
np.linalg.inv(A)

array([[-1.5,  0.5],
       [ 1. ,  0. ]])

# 인덱싱과 슬라이싱

#### 인덱싱

In [93]:
a1 = np.array([0,10,20,30,40,50])
a1[4]
# np.array 제일 많이 쓰인다. 왜냐면 리스트가 아닌 NumPy형태를 받는 곳이 훨씬 많으므로

40

In [94]:
a1[5] = 70
a1

array([ 0, 10, 20, 30, 40, 70])

In [95]:
a1[[1,3,4]]

array([10, 30, 40])

In [96]:
a2 = np.arange(10,100,10).reshape(3,3)
a2

array([[10, 20, 30],
       [40, 50, 60],
       [70, 80, 90]])

In [97]:
a2[0,2]

30

In [98]:
a2[2,2] = 95  # 원래 파이썬의 리스트는 a2[2][2]로 써줘야 하나, ndarray가 되면서 이런 인덱싱이 가능
a2

array([[10, 20, 30],
       [40, 50, 60],
       [70, 80, 95]])

In [99]:
a2[1]

array([40, 50, 60])

In [101]:
a2[1] = np.array([45,55,65])   # 그냥 리스트 [45, 55, 65]를 넣어줘도 된다.
a2

array([[10, 20, 30],
       [45, 55, 65],
       [70, 80, 95]])

In [104]:
a2

array([[10, 20, 30],
       [45, 55, 65],
       [70, 80, 95]])

In [105]:
a2[[0,0],[2,1]]   # [0,2], [0,1]

array([30, 20])

#### 조건식에 의한 Filter

In [107]:
a = np.array([1,2,3,4,5,6])
a[a>3]                 

array([4, 5, 6])

In [108]:
a[(a%2)==0]

array([2, 4, 6])

#### 슬라이싱

In [109]:
b1 = np.array([0,10,20,30,40,50])
b1[1:4]

array([10, 20, 30])

In [110]:
b1[:3]

array([ 0, 10, 20])

In [111]:
b1[2:]

array([20, 30, 40, 50])

In [112]:
b1[3:6] = 60
b1

array([ 0, 10, 20, 60, 60, 60])

In [113]:
b2 = np.arange(10,100,10).reshape(3,3)
b2

array([[10, 20, 30],
       [40, 50, 60],
       [70, 80, 90]])

In [119]:
b2[1:3, 1:3]  # 1,2행 / 1,2열

array([[50, 60],
       [80, 90]])

In [120]:
b2[1][0:2]

array([40, 50])

In [121]:
# 2차원 슬라이싱된 배열에 값 지정
b2[0:2, 1:3] = np.array([[25,35],[55,65]])
b2

array([[10, 25, 35],
       [40, 55, 65],
       [70, 80, 90]])