<a href="https://colab.research.google.com/github/koogk7/ML_numpy/blob/master/Numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Numpy Introduction

- numpy 기반 데이터 타입은 ***ndarray***, 이를 이용해서 다차원 배열을 쉽게 생성하고 다양한 연산 수행 가능
- ***array()*** 함수는 파이썬 리스트와 같은 다양한 인자를 ndarray로 변환한다.
- ***ndarray의 shape 변수***는 행과 열의 수를 튜플 형태로 가지고 있다. 이를 통해 배열 차원까지 확인 할 수 있다.
- ndarray내의 데이터값은 숫자, 문자열 ,bool 값등 모두 가능, 단 모둔 원소들이 같은 데이터 타입이어야 함. 데이터타입은 ***dtype***속성으로 확인 할 수 있다.
- 만약 서로 다른 데이터타입을 ndarray로 변환 할 경우 데이터 크기가 ***더 큰 데이터 타입으로 형 변환을 일괄 적용***
- ***astype()*** 함수로 데이터값의 타입 변경 가능

In [0]:
import numpy as np

array1 = np.array([1, 2, 3]) # python list를 ndarray로 변환
print("array1 type:", type(array1))
print("array1 shape:", array1.shape)

array2 = np.array([ [1, 2, 3],[2, 3, 4] ])
print("array2 type:", type(array2))
print("array2 shape:", array2.shape)


array3 = np.array([[1, 2, 3]])
print("array3 type:", type(array3))
print("array3 shape:", array3.shape)

# ndim은 해당 ndarray의 차원을 나타낸다.
print('array1: {:0}차원, array2: {:1}차원, array3: {:2}차원'.format(array1.ndim,
                                                             array2.ndim, array3.ndim))
# dtype을 통한 데이터타입 확인
print(array1, array1.dtype)
print()

print("Several Type List to ndarray".center(100, "#"))

list1 = [1, 2, 'test']
array2 = np.array(list1)
print(array2, array2.dtype)

list2 = [1, 2, 3.0]
array3 = np.array(list2)
print(array3, array3.dtype)

#----astype를 이용한 타입변경------
toInt = array3.astype('int32')
print(toInt, toInt.dtype)

array1 type: <class 'numpy.ndarray'>
array1 shape: (3,)
array2 type: <class 'numpy.ndarray'>
array2 shape: (2, 3)
array3 type: <class 'numpy.ndarray'>
array3 shape: (1, 3)
array1: 1차원, array2: 2차원, array3:  2차원
[1 2 3] int64

####################################Several Type List to ndarray####################################
['1' '2' 'test'] <U21
[1. 2. 3.] float64
[1 2 3] int32


# Numpy Initialize

- ***arange*** 는 배열을 range로 표현 파이썬의 range 함수와 유사, 0부터 함수 인자값 -1 까지 순차적으로 ndarrayd의 데이터값으로 변환해준다.
- ***zeros()***는 함수 인자로 튜플 형태의 shape값을 입력하면 모든 값을 0으로 채운 해당 shape ndarray 반환 , ones는 마찬가지로 1을 채워서 반환, 함수인자로 dtype을 정해주지 않으면 float64 형의 데이터로 채운다.




In [0]:
sequence_array = np.arange(10)
print(sequence_array)

zero_array = np.zeros((3,2), dtype='int32')
one_array = np.ones((3,2))
print(zero_array, zero_array.shape)
print(one_array,  one_array.shape)

[0 1 2 3 4 5 6 7 8 9]
[[0 0]
 [0 0]
 [0 0]] (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]] (3, 2)


# reshape() 함수
- reshape() 함수를 통해 특정 차원 및 크기로 변환할 수 있다. 또한 인자로 -1을 넣어줄 경우 데이터와 호환될 수 있게게 자동으로 변환 해준다.
- 호환될 수 없는 형태는 반환할 수 없음으로 ValueError를 뱉어낸다.
- -1인자는 reshape(-1,1)와 같은 형태로 자주 사용, 이는 원본 ndarray가 어떤 형태라도 2차원이고 반드시 1개의 칼럼을 가진 ndarray를 리턴

In [0]:
array1 = np.arange(10)
print(array1)
array2 = array1.reshape(-1,5)
print("array2 shape:", array2.shape)
print(array2)

array1 = np.arange(8)
array3d = array1.reshape((2,2,2))
print('array3d:\n', array3d.tolist()) # tolist() 메소드를 통해 리스트 자료형으로 변환 할 수 있다.

# 3차원 ndarray를 2차원 ndarray로 변환
array5 = array3d.reshape(-1,1)
print('array5d:\n', array5.tolist())
print("array5d shape:",array5.shape)


[0 1 2 3 4 5 6 7 8 9]
array2 shape: (2, 5)
[[0 1 2 3 4]
 [5 6 7 8 9]]
array3d:
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
array5d:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5d shape: (8, 1)


# Indexing 및 정렬

 - Slicing : 슬라이싱은 연속된 인덱스상의 ndarray를 추출하는 방식
 - Fancy Indexing : 일정한 인덱싱 집합을 리스트 또는 ndarray 형태로 지정해 해당 위치에 있는 데이터 ndarray를 반환
 
- Boolean Indexing: 특정 조건에 해당하는지 여부인 True/False 값 인덱싱 집합을 기반으로 반환, ndarray의 조건식을 붙이면 해당 크기만큼의 boolean 배열이 반환되고 이 값이 true인 놈들의 인덱스만 저장하고 이를 반환한다.

- axis 0은 로우방향 축, axis 1은 칼럼방향의 축
- ***np.sort()*** 함수는 원 행렬을 유지한채 정렬된 행렬을 반환, ***ndarray.sort()***는 원 행렬 자체를 정렬, 반환값는 None
- ***np.argsort()***는 정렬 행렬의 원본 행렬 인덱스를 ndarray 형으로 반환
- 넘파이는  Table 칼럼이나, DataFrame과 같은 메타 데이터를 가질 수 없다. 때문에 실제값과 그 값이 뜻하는 메타 데이터를 별도의 ndarray로 가져야한다. 이때 np.argsort()는가 매우 유용하게 쓰일 수 있다.

In [0]:
array1 = np.arange(start=1, stop=10)
array3 = array1[:3] # 0~2인덱스까지 추출

array2d = array1.reshape(3,3)
print(array2d)
print("array2d[0:2, 0:2]\n", array2d[0:2, 0:2])

array3 = array1[array1 > 5]
print('array1 > 5 불린 인덱싱 값 : ', array3)

sort_array_desc = np.sort(array1)[::-1] # 내림차순 정렬
print(sort_array_desc)

array2d = np.array([[8, 12],
                    [7, 1]])
sort_array2d_axis0 = np.sort(array2d, axis=0)
print("로우 방향으로 정렬:\n", sort_array2d_axis0)

sort_array2d_axis1 = np.sort(array2d, axis=1)
print("컬럼 방향으로 정렬:\n", sort_array2d_axis1)


org_array = np.array([ 3, 1, 9, 5])
sort_indices = np.argsort(org_array)
print('행렬 정렬 시 원본 행렬의 인덱스:', sort_indices)


[[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2]
 [[1 2]
 [4 5]]
array1 > 5 불린 인덱싱 값 :  [6 7 8 9]
[9 8 7 6 5 4 3 2 1]
로우 방향으로 정렬:
 [[ 7  1]
 [ 8 12]]
컬럼 방향으로 정렬:
 [[ 8 12]
 [ 1  7]]
<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스: [1 0 3 2]


# 선형대수 연산
 
 - ***np.dot()***을 이용해 행렬 내적(행렬 곱)을 계산 할 수 있다.
 - 원 행렬에서 행과 열 위치를 교환한 원소로 구성한 행렬을 전치 행렬이라고 하고 이는 ***transpose()***를 이용해 쉽게 구할 수 있다.

In [0]:
A = np.array( [[1,2,3],
                [4,5,6]])
B = np.array([[7,8,],
              [9,10],
              [11,12]])
dot_product = np.dot(A,B)
print("행렬 내적 결과:\n", dot_product)

transpose_mat = np.transpose(A)
print('A의 전치 행렬:\n', transpose_mat)

행렬 내적 결과:
 [[ 58  64]
 [139 154]]
A의 전치 행렬:
 [[1 4]
 [2 5]
 [3 6]]
