## 머신러닝
### 지도학습
- 분류
- 회귀
- 추천 시스템
- 시각/음성 감지/인지
- 텍스트 분석, NLP

### 비지도학습
- 클러스터링
- 차원 축소
- 강화학습

## 파이썬 머신러닝 생태계 패키지
- 머신러닝: 사이킷런, 케라스 (딥러닝 전문)
- 행렬/선형대수/통계: 넘파이
- 데이터 핸들링: 판다스
- 시각화: 맷플롯립, 시본

## Numpy
- Numeric Python
- ndarray 내의 데이터타입은 연산 특성상 같은 데이터타입만 가능. 만약 다른 데이터 유형이 섞인 리스트를 변환하면 데이터 크기가 더 큰 데이터타입으로 형 변환을 일괄적용함

- np.array(): ndarray로 변환 원하는 인자 입력시 ndarray 출력
- ndarray.shape: (차원, 크기(칼럼수)) -> 데이터갯수: 차원 * 크기
- dtype: ndarray 내의 데이터 타입 확인
- astype: ndarray내 데이터값 타입 변경

In [1]:
import numpy as np

array1 = np.array([1, 2, 3])
print(f"type: {type(array1)}")
print(f"shape: {array1.shape}")

array2 = np.array([
    [1, 2, 3,],
    [2, 3, 4],
])
print(f"type: {type(array2)}")
print(f"shape: {array2.shape}")

array3 = np.array([[1, 2, 3]])
print(f"type: {type(array3)}")
print(f"shape: {array3.shape}")

type: <class 'numpy.ndarray'>
shape: (3,)
type: <class 'numpy.ndarray'>
shape: (2, 3)
type: <class 'numpy.ndarray'>
shape: (1, 3)


In [2]:
print(f"array1: {array1.ndim}, array2: {array2.ndim}, array3: {array3.ndim}")

array1: 1, array2: 2, array3: 2


In [6]:
list1 = [1, 2, 3]
print(type(list))
array1 = np.array(list1)
print(type(array1))
print(array1, array1.dtype)

list2 = [1, 2, 'test']
array2 = np.array(list2)
print(array2, array2.dtype)

list3 = [1, 2, 3.7]
array3 = np.array(list3)
print(array3, array3.dtype)

<class 'type'>
<class 'numpy.ndarray'>
[1 2 3] int64
['1' '2' 'test'] <U21
[1.  2.  3.7] float64


In [7]:
# atype
array_int = np.array([1, 2, 3])
array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

[1. 2. 3.] float64


## ndarray를 편리하게 생성하기
- arange
- zeros: 튜플 형태의 shape값 입력
- ones: 튜플 형태의 shape값 입력

In [12]:
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int64 (10,)


In [11]:
zero_array = np.zeros((3, 2), dtype='int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

one_array = np.ones((3, 2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


- reshape: ndarray의 차원과 크기를 변경. 지정된 사이즈로 변경이 불가하면 에러 발생
- -1를 인자로 사용하면 원래의 ndarray와 호환되는 새로운 shape로 변환해줌. 주로 reshape(-1, 1)같은 스타일로 많이 사용됨

In [17]:
array1 = np.arange(10)
print(array1)

array2 = array1.reshape(2, 5)
print(array2)

array3 = array1.reshape(5, -1)
print(array3)

[0 1 2 3 4 5 6 7 8 9]
[[0 1 2 3 4]
 [5 6 7 8 9]]
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


## indexing
- 특정 데이터만 추출 (이렇게 추출된거 제외한 다른 것들은 모두 ndarray 형식)
- 슬라이싱
- 팬시 인덱싱: 일정한 인덱싱 집합을 리스트나 ndarray형태로 지정해 해당 위치에 있는 데이터의 ndarray 반환
- 불린 인덱싱: 특정 조건에 해당하는지 여부인 T/F값 인덱싱 집한을 기반으로 True에 해당하는 인덱스 위치에 있는 데이터의 ndarray를 반환
    - 조건 필터링과 검색을 동시에 할 수 있어 자주 사용됨

In [23]:
# 단일값
array1 = np.arange(9)
print(array1[2])

array2 = array1.reshape(-1, 3)
print(array2)

# 슬라이싱
print(array1[0:3])
print(array2[0:3, 0:2]) # row, col

2
[[0 1 2]
 [3 4 5]
 [6 7 8]]
[0 1 2]
[[0 1]
 [3 4]
 [6 7]]


In [26]:
# 팬시 인덱싱
array1 = np.arange(start=1, stop=10)
array2 = array1.reshape(3, 3)

print(array2[[0,1], 2])
print(array2[[0, 1], 0:2])

[3 6]
[[1 2]
 [4 5]]


In [28]:
# 불린 인덱싱
array3 = array1[array1 > 5]
print(array3)

[6 7 8 9]


## 행렬의 정렬
### sort()
- np.sort(): 원 행렬을 유지한 채 원 행렬의 정렬된 행렬을 반환함
- ndarray.sort(): 원 행렬 자체를 정렬된 형태로 변환하며 None 값 반환
- 내림차순으로 반환하려면 맨 뒤에 [::-1]붙여주면 됨
- 행렬이 2차원 이상일 경우에는 axis 축값설정을 통해 로우나 칼럼방향으로 정렬 수행이 가능

### argsort()
- np.argsort(): 정렬행렬의 원본행렬 인덱스를 ndarray형으로 반환
- 내림차순으로 반환하려면 맨 뒤에 [::-1]붙여주면 됨
- 활용 예시: 시험 성적순으로 학생 이름을 출력하고자 할 때

In [32]:
# sort
org_arr = np.array([3, 1, 8, 6])
sort_arr1 = np.sort(org_arr)
print(sort_arr1)
print(org_arr)

sort_arr2 = org_arr.sort()
print(sort_arr2)
print(org_arr)

# 2차원 이상
array2d = np.array([
    [8,12],
    [7, 1]
])

# row
sort_array2d_axis0 = np.sort(array2d, axis=0)
print(sort_array2d_axis0)

# col
sort_array2d_axis1 = np.sort(array2d, axis=1)
print(sort_array2d_axis1)


# argsort()
org_arr = np.array([3, 1, 8, 6])
indices = np.argsort(org_arr)
print(indices)

[1 3 6 8]
[3 1 8 6]
None
[1 3 6 8]
[[ 7  1]
 [ 8 12]]
[[ 8 12]
 [ 1  7]]
[1 0 3 2]


## 선형대수 연산
### 행렬 내적
- np.dot(): 행렬 내적계산 가능

### 전치 행렬
- 원 행렬에서 행과 열위치를 교환한 원소로 구성한 행렬

In [34]:
# 행렬 내적
arr1 = np.array([
    [1, 2, 3],
    [4, 5, 6]
])
arr2 = np.array([
    [7, 8],
    [9, 10],
    [11, 12],
])
print(np.dot(arr1, arr2))

[[ 58  64]
 [139 154]]


In [35]:
# 전치행렬
arr = np.array([
    [1, 2],
    [3, 4]
])
transpost_mat = np.transpose(arr)
print(transpost_mat)

[[1 3]
 [2 4]]
