## 파이썬 머신러닝/딥러닝 주요 생태계 라이브러리 정리
- 딥러닝 : Tensorflow, Keras, Pytorch
- 머신러닝 : Scikit-learn
- 선형대수, 통계 : Numpy, SciPy, Math
- 데이터 핸들링 : Pandas
- 시각화 : Matplotlib, Seaborn, Plotly
- 대화형 파이썬 툴 : Jupyter(notebook, lab)

## Numpy
- 기반 데이터 타입 : ndarray
- 다차원 배열을 쉽게 생성하고 다양한 연산을 수행하는데 용이
- ndarray내의 데이터 값은 숫자, 문자, bool값 모두 가능
    - 특성상 같은 타입의 데이터만 들어갈 수 있다
    - 속 안에 있는 데이터 타입은 `.dtype`을 이용해 확인 가능하다
    - 타입변환의 경우는 `astype()`함수를 통해 수행할 수 있다

### ndarray 의 형태(shape)와 차원

`array()`: list 또는 nested list를 인자로 받아 ndarray로 변환하는 함수
- type() : ndarray 클래스 반환
- .shape : ndarray 형태 반환
- .ndim : ndarray 차원반환

In [2]:
import numpy as np

# 1차원 ndarray
array1 = np.array([1,2,3])
print('array1 type:',type(array1))
print('array1 array 형태:',array1.shape)
print('array1 array 차원:',array1.ndim)

# 2차원 ndarray (주의!)
array2 = np.array([[1,2,3]])
print('array2 type:',type(array2))
print('array2 array 형태:',array2.shape)
print('array2 array 차원:',array2.ndim)


# 2차원 ndarray
array3 = np.array([[1,2,3],
                  [2,3,4]])
print('array3 type:',type(array3))
print('array3 array 형태:',array3.shape)
print('array3 array 차원:',array3.ndim)


array1 type: <class 'numpy.ndarray'>
array1 array 형태: (3,)
array1 array 차원: 1
array2 type: <class 'numpy.ndarray'>
array2 array 형태: (1, 3)
array2 array 차원: 2
array3 type: <class 'numpy.ndarray'>
array3 array 형태: (2, 3)
array3 array 차원: 2


### ndarray axis 기반의 연산 수행

- 수업이 많은 시간을 들여 혼자 고민한 결과 다음과 같이 axis와 numpy 차원을 연상할 수 있는 좋은 방법이 떠올라서 공유해보려고 한다.
- 고등학교 수학에서 배운, x, y, z 좌표계를 생각해보자.
- Numpy에서는 x축은 0축, y축은 1축, z축은 2축이라고 한다. (아래 그림 참고)
- 밑에서 소개하는 각각의 array1, array2, array3 은 1차원, 2차원, 3차원 Ndarray이고 이를 좌표계에 투영시킨 그림이다.

<img src="img/numpy_dimension.jpg" width="700">

In [3]:
array1 = np.array([1,2,3])
print(array1)
print("형태:", array1.shape)
print("전체 :", array1.sum())
print("행기준 :", array1.sum(axis=0)) # 행 기반 연산

[1 2 3]
형태: (3,)
전체 : 6
행기준 : 6


In [4]:
array2 = np.array([[1,2],
                  [3,4]])
print(array2)
print("형태:", array2.shape)
print("전체 :", array2.sum())
print("행기준 :", array2.sum(axis=0)) # 행 기반 연산
print("열기준 :", array2.sum(axis=1)) # 열 기반 연산

[[1 2]
 [3 4]]
형태: (2, 2)
전체 : 10
행기준 : [4 6]
열기준 : [3 7]


In [5]:
array3 = np.array(range(1,9)).reshape([2,2,2])

print(array3)
print("형태:", array3.shape)
print("전체 :", array3.sum())
print("X축기준 :", array3.sum(axis=0)) # axis=0 기반 연산
print("Y축기준 :", array3.sum(axis=1)) # axis=1 기반 연산
print("Z축기준 :", array3.sum(axis=2)) # axis=2 기반 연산

[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]
형태: (2, 2, 2)
전체 : 36
X축기준 : [[ 6  8]
 [10 12]]
Y축기준 : [[ 4  6]
 [12 14]]
Z축기준 : [[ 3  7]
 [11 15]]


### ndarray를 편리하게 생성하기 
- arange : 숫자 배열로 ndarray 생성
- zeros : 0 배열로 ndarray 생성
- ones : 1 배열로 ndarray 생성
---
- reshape : 지정해준 형태로 배열을 조정
    - *참고* reshape(-1,n)을 쓰게 되면 열 축은 n으로 고정되고, 행 축은 가변적이라는 의미

In [9]:
# arange
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape,'\n')

# zeros
zero_array = np.zeros((3,2),dtype='int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape,'\n')

# ones
one_array = np.ones((3,2))
print(one_array)
print(one_array.dtype, one_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int32 (10,) 

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2) 

[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


In [10]:
# reshape
array1 = np.arange(10)
print('array1:\n', array1)

array2 = array1.reshape(2,5)
print('array2:\n',array2)

array3 = array1.reshape(-1,5)
print('array3:\n',array3)

array1:
 [0 1 2 3 4 5 6 7 8 9]
array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3:
 [[0 1 2 3 4]
 [5 6 7 8 9]]


**(참고)** `reshape()`는 (-1, 1), (-1,)와 같은 형태로 주로 사용
- 머신러닝 API에서 고정된 차원의 값을 input으로 받는데가 많음
- .reshape(-1, 1) : 1차원 ndarray를 2차원으로 변환하되, 컬럼axis크기는 반드시 1이여야 함.
- .reshape(-1, ) : 2차원 ndarray를 1차원으로 변환 

In [12]:
# 1차원 ndarray를 2차원으로 또는 2차원 ndarray를 1차원으로 변환 시 사용. 
array1 = np.arange(5)

# .reshape(-1, 1) 
array2d_1 = array1.reshape(-1, 1)
print("array2d_1 shape:", array2d_1.shape)
print("array2d_1:\n",array2d_1)
print("\n")

# .reshape(-1, ) 
array1d = array2d_1.reshape(-1,)
print("array1d shape:", array1d.shape)
print("array1d:\n",array1d)

array2d_1 shape: (5, 1)
array2d_1:
 [[0]
 [1]
 [2]
 [3]
 [4]]


array1d shape: (5,)
array1d:
 [0 1 2 3 4]


### INDEXING
- `단일값 추출`, index를 이용하여 특정 위치에 있는 단일값 추출
- `slicing`, 연속된 index상의 ndarray를 추출하는 방식
- `fancy indexing`, 일정한 인덱싱 집합을 지정해 해당 위치에 있는 ndarray 반환
- `boolean indexing`, 특정 조건에 해당하는지 여부인 TRUE 값을 기준으로 ndarray 반환

In [16]:
# 단일값 추출
# 1차원
array1d = np.arange(start=1, stop=10)
print(array1d)
print('첫번째 index 가리키는 값:', array1d[0] )
print('마지막 index 가리키는 값:', array1d[-1] )

# 2차원
array2d = array1d.reshape(3,3)
print(array2d)

print('(row=0,col=0) index 가리키는 값:', array2d[0,0] )
print('(row=0,col=1) index 가리키는 값:', array2d[0,1] )
print('(row=1,col=0) index 가리키는 값:', array2d[1,0] )
print('(row=2,col=2) index 가리키는 값:', array2d[2,2] )

[1 2 3 4 5 6 7 8 9]
첫번째 index 가리키는 값: 1
마지막 index 가리키는 값: 9
[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0,col=0) index 가리키는 값: 1
(row=0,col=1) index 가리키는 값: 2
(row=1,col=0) index 가리키는 값: 4
(row=2,col=2) index 가리키는 값: 9


In [25]:
# Slicing
# 1차원
array1 = np.arange(start=1, stop=10)
print('1차원 원본: \n', array1)
array2 = array1[0:3]
print('array1[0:3]: \n', array2)
array3 = array1[:]
print('array1[:]: \n', array3)
print('--------------------')

# 2차원
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)
print('2차원 원본: \n',array2d)
print('array2d[0:2, 0:2]: \n', array2d[0:2, 0:2])
print('array2d[:, :]: \n', array2d[:, :])
print('array2d[:2, 1:]: \n', array2d[:2, 1:])
print('array2d[:2, 0]: \n', array2d[:2, 0])

1차원 원본: 
 [1 2 3 4 5 6 7 8 9]
array1[0:3]: 
 [1 2 3]
array1[:]: 
 [1 2 3 4 5 6 7 8 9]
--------------------
2차원 원본: 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2]: 
 [[1 2]
 [4 5]]
array2d[:, :]: 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, 1:]: 
 [[2 3]
 [5 6]]
array2d[:2, 0]: 
 [1 4]


In [27]:
# Fancy Indexing
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)
print(array2d)

array3 = array2d[[0,1], 2]
print('array2d[[0,1], 2] >>>>> ',array3.tolist())

array4 = array2d[[0,2], 0:2]
print('array2d[[0,2], 0:2] >>>>> ',array4.tolist())

array5 = array2d[[0,1]]
print('array2d[[0,1]] >>>>> ',array5.tolist())

[[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[[0,1], 2] >>>>>  [3, 6]
array2d[[0,2], 0:2] >>>>>  [[1, 2], [7, 8]]
array2d[[0,1]] >>>>>  [[1, 2, 3], [4, 5, 6]]


In [31]:
# Boolean Indexing
# [ ] 안에 "짝수"(조건) Boolean indexing을 적용 
print(array1d)
print(array1d%2==0)
array3 = array1d[array1d%2==0]
print('짝수인 불린 인덱싱 결과 값 :', array3)

[1 2 3 4 5 6 7 8 9]
[False  True False  True False  True False  True False]
짝수인 불린 인덱싱 결과 값 : [2 4 6 8]


### 정렬
- `sort()`
    - **np.sort()** : 원 행렬은 그대로 유지한 채 원 행렬의 정렬된 행렬을 반환
        - 2차원 이상인 경우, axis 조건을 주어 방향으로 정렬을 시킬 수 있다.
    - **ndarray.sort()** : 원 행렬 자체를 정렬한 형태로 변환하며 반환 값은 None

In [37]:
org_array = np.array([ 3, 1, 9, 5]) 
print('원본 행렬: \n', org_array)

# np.sort( )로 정렬 
sort_array1 = np.sort(org_array)
print ('np.sort( ) 호출 후 반환된 정렬 행렬:\n', sort_array1) 
print('np.sort( ) 호출 후 원본 행렬:\n', org_array)
sort_array1_desc = np.sort(org_array)[::-1]
print ('내림차순으로 정렬:', sort_array1_desc) 

# ndarray.sort( )로 정렬
sort_array2 = org_array.sort()
org_array.sort()
print('org_array.sort( ) 호출 후 반환된 행렬:\n', sort_array2)
print('org_array.sort( ) 호출 후 원본 행렬:\n', org_array)

원본 행렬: 
 [3 1 9 5]
np.sort( ) 호출 후 반환된 정렬 행렬:
 [1 3 5 9]
np.sort( ) 호출 후 원본 행렬:
 [3 1 9 5]
내림차순으로 정렬: [9 5 3 1]
org_array.sort( ) 호출 후 반환된 행렬:
 None
org_array.sort( ) 호출 후 원본 행렬:
 [1 3 5 9]


- `argsort()` : 원본 행렬을 정렬할때 행렬의 원래 인덱스를 필요로 할 때 np.argsort()를 이용한다. 반환값은 원본 행렬 인덱스의 ndarray이다.(META data mapping 용도))

In [40]:
org_array = np.array([ 3, 1, 9, 5]) 
print('원본',org_array)
print('오름차순',np.sort(org_array))
print('내림차순',np.sort(org_array)[::-1])

# argsort
sort_indices = np.argsort(org_array)
sort_indices_desc = np.argsort(org_array)[::-1]
print('오름차순 정렬 시 원본 행렬의 인덱스:', sort_indices)
print('내림차순 정렬 시 원본 행렬의 인덱스:', sort_indices_desc)

원본 [3 1 9 5]
오름차순 [1 3 5 9]
내림차순 [9 5 3 1]
오름차순 정렬 시 원본 행렬의 인덱스: [1 0 3 2]
내림차순 정렬 시 원본 행렬의 인덱스: [2 3 0 1]


In [42]:
name_array=np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array=np.array([78, 95, 84, 98, 88])

# score_array의 정렬된 값에 해당하는 원본 행렬 위치 인덱스 반환하고 이를 이용하여 name_array에서 name값 추출.  
sort_indices = np.argsort(score_array)[::-1]
print("sort indices:", sort_indices)

name_array_sort = name_array[sort_indices]
score_array_sort = score_array[sort_indices]

print(name_array_sort)
print(score_array_sort)

sort indices: [3 1 4 2 0]
['Kate' 'Mike' 'Samuel' 'Sarah' 'John']
[98 95 88 84 78]


### 기본 선형대수 연산
- np.dot, 행렬 곱
- np.transpose, 행렬 전치

In [43]:
A = np.array([[1, 2, 3],
              [4, 5, 6]])
B = np.array([[7, 8],
              [9, 10],
              [11, 12]])

dot_product = np.dot(A, B)
print('행렬 내적 결과:\n', dot_product)

행렬 내적 결과:
 [[ 58  64]
 [139 154]]


In [44]:
A = np.array([[1, 2],
              [3, 4]])
transpose_mat = np.transpose(A)
print('A의 전치 행렬:\n', transpose_mat)

A의 전치 행렬:
 [[1 3]
 [2 4]]
