## **1. 파이썬 머신러닝 완벽 가이드**

---

### 01. 머신러닝의 개념

#### **머신러닝**
>데이터를 기반하여 패턴을 학습하고 결과를 예측하는 알고리즘 기법

<br>
<br>

**`머신러닝 특징`**
- 프로그램 로직에 다양한 환경 변수 or 규칙을 추가하는 것은 오히려 소스 코드가 복잡해져, 예측의 정확성을 떨어뜨리기도 한다.
  
<font color=blue>=> 머신러닝은 이러한 문제를 데이터 기반으로 숨겨진 패턴을 인지하여 해결</font>

<font color=red>(통계적 신뢰도 향상, 예측 오류 최소화. 이를 위한 다양한 수학적 기법을 적용)</font>
<br>

- 최근 들어 데이터 분석 영역은 머신러닝 기반의 예측 분석으로 재편되고 있다.
- 머신러닝은 크게 **지도학습**(분류, 회귀, 추천 시스템, 시각 및 음성 감지 인지) / **비지도학습**(클러스터링, 차원축소, 강화학습)으로 나눈다.
- 머신러닝의 가장 큰 단점은 **데이터에 매우 의존적**이다.

<font color=blue>=> 좋은 품질의 데이터가 '최적의 결과'를 도출한다.</font>

<font color=red>(최적의 결과 = 최적의 데이터 + 최적의 머신러닝 알고리즘 + 모델 파라미터 구축 능력)</font>

<br>
<br>

**`머신러닝 사용 프로그램`**
- 대표적: Python, R(통계 전용)

<font color=blue>=> 이외 개발 프로그램에서 머신러닝을 사용하지 않는 이유는 '개발 생산성 저하', '지원 패키지 부족', '좁은 생태계'</font>

- R 이외 통계 전용 프로그램 : SPSS, SAS, MATLAB 등

<font color=blue>=> 고비용으로 활용 가치가 떨어짐</font>

<br>
<br>

---

**`Python / R / SAS 비교`**

#### Python
>**특징** | 생산성 및 코드의 가독성을 강조 / Engineering 환경에서 선호

>**장점** | 알고리즘을 구현하기 용이하고 범용적인 사용성을 가짐 / 기존 모듈 뿐만 아니라 사용자가 정의한 알고리즘을 구현하는 것이 가능 / 딥러닝 라이브러리가 구현되어 있어 이를 이용한 알고리즘 개발에 용이 / 데이터 조작, 분석, 모델링 등이 용이

>**단점** | 특정 통계 부분에 있어서는 R, SAS 보다는 효율성이 떨어짐 / R에 비해 통계패키지가 부족한 편 / 일부 패키지는 유료

<br>

#### R
>**특징** | 통계의 대표적인 툴 / 메모리(RAM)기반의 분석 

>**장점** | 다양한 통계 분석에 용이 / 사용자가 정의한 함수를 이용한 분석도 가능 / 메모리 기반의 연산으로 빠른 속도 / 무료 소프트웨어 / Rstudio라는 훌륭한 IDE 보유 / 좋은 그래픽 / 오픈소스로 무료 사용 가능

>**단점** | 통계 및 데이터분석에 집중되어 있는 언어로 다른 분야에서 사용이 제한적 / 대용량 데이터 처리에 대한 한계점이 있음 / 빅데이터에 대한 처리속도가 다소 느림 / Python보다 복잡함

<br>

#### SAS
>**특징** | 의학 및 약학분야에서 선호하는 소프트웨어 / 전세계적으로 광범위하게 활용됨

>**장점** | 프로시저를 이용한 다양한 통계분석 가능 / 자료관리나 처리에 있어 효율적이며 코드가 간단 / 데이터 분석 결과가 다른 분석 tool보다 많은 양의 통계 정보를 제공 

>**단점** | 유료 프로그램이기에 비용적 부담 / 프로그램 용량이 크기 때문에 컴퓨터 사양 요구 / 분석 함수를 수정할 수 없기에 자유도가 떨어짐 

<font color=blue>=> 사용할 분석 tool를 선택할 때 **사용 목적, 사용자의 선호도, 필요한 기능, 데이터 크기** 등을 고려한 선택이 필요</font>

---

## 02. 파이썬 머신러닝 생태계를 구성하는 주요 패키지
- 머신러닝 패키지
사이킷런(Scikit-Learn)

- 딥러닝 패키지
텐서플로(TensorFlow), 케라스(Keras), 파이토치(Pytorch)

- 행렬/선형대수 패키지
넘파이(NumPy)

- 통계 패키지
사이파이(SciPy)

- 데이터 핸들링
판다스(Pandas)

- 데이터 시각화
맷플롯립(Matplotlib), 시본(Searborn)

---

## 03. 넘파이(NumPy) 


#### **넘파이**
> NumPy는 'Numerical Python'의 약어로, 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 패키지.

- 루프(반복문)를 사용하지 않고 대량 데이터의 배열 연산을 가능하게 하므로 빠른 배열 연산 속도가 보장되어 있다.
- C/C++과 같은 저수준 언어 기반의 호환 API를 제공하며, C/C++ 기반의 타 프로그램과 데이터를 주고받거나 API를 호출해 쉽게 통합할 수 있는 기능을 제공
- 배열 기반의 연산 외에 다양한 데이터 핸들링 기능을 제공
- 선형대수, 난수발생기, 푸리에 변환 가능

<font color=blue>=> 넘파이를 배워야 하는 이유는 **많은 머신러닝 알고리즘이 넘파이 기반**으로 작성되어 있고, 이들 알고리즘 **입력 데이터와 출력 데이터를 넘파이 배열 타입**으로 사용하기 때문이다.</font>

---

### 넘파이 ndarray 개요

In [1]:
import numpy as np

- ``import numpy`` : 'numpy'패키지 실행
- ``as np`` : 'import numpy'로도 충분하지만, `as np`를 추가해 약어로 모듈을 표현한다.

---

**``ndarray``는 Numpy의 N차원 배열 객체**를 말한다.

- 넘파이의 기반 데이터 타입은 ``ndarray``객체 이다.
- ``ndarray``를 통해 넘파이의 **다차원 배열을 쉽게 생성**한 후, **다양한 연산 수행**이 가능하다.

<font color=blue>=> 정리하면 ``ndarray``객체는 **파이썬에서 사용하는 대규모 데이터의 집합을 n차원 배열**로 담을 수 있는 것이다.</font>



In [2]:
array1 = np.array([1,2,3])
print('array1 type:',type(array1))
print('array1 array 형태:', array1.shape)

array2 = np.array([[1,2,3],
                  [2,3,4]])
print('array2 type:',type(array2))
print('array2 array 형태:', array2.shape)

array3 = np.array([[1,2,3]])
print('array3 type:',type(array3))
print('array3 array 형태:', array3.shape)

array1 type: <class 'numpy.ndarray'>
array1 array 형태: (3,)
array2 type: <class 'numpy.ndarray'>
array2 array 형태: (2, 3)
array3 type: <class 'numpy.ndarray'>
array3 array 형태: (1, 3)


- ``np.array()`` : ()안에 배열(객체)을 인자로 입력하면 ``ndarray`` 객체를 반환

<font color=blue>=> 파이썬 리스트 형식에서, ``ndarray`` 형식으로 변환</font>

- ``type()`` : ()안의 type 출력
- ``변수.shape`` : 변수로 지정한 ``np.array`` 형태를 튜플 형태로 출력
- array1 = [1,2,3] : 1차원 배열 / 3개의 데이터 
- array2 = [[1,2,3], [2,3,4]] : 2차원 배열 / 6개의 데이터(2개 로우, 3개 칼럼)
- array3 = [[1,2,3]] : 2차원 배열 / 3개의 데이터 (1개 로우, 3개 칼럼)
- 데이터 개수 = 행(로우)*열(칼럼)

---

- 데이터의 경우 차원이 다르면 오류가 발생할 수 있음

In [3]:
print('array1: {0}차원, array2: {1}차원, array3: {2}차원'.format(array1.ndim, array2.ndim, array3.ndim))

array1: 1차원, array2: 2차원, array3: 2차원


- ``'{}'.format()`` : 포맷함수, ()안에 내용을 {}에 입력
- ``ndarray.ndim`` : 각 array의 차원을 출력

---

####  ndarray의 데이터 타입

``ndarray`` 내에 들어갈 수 있는 값 

- 숫자 값 / 문자열 값 / 불 값

숫자형

- int형(8bit, 16bit, 32bit)
- flrat형(16bit, 32bit, 64bit, 128bit)
- complex 타입

<font color=blue>=> 이를 짚고 넘어가는 이유는, ``ndaraay``내의 데이터 타입은 **연산 특성상 같은 데이터 타입끼리만 가능**하기 때문이다.</font>

In [4]:
list1 = [1, 2, 3]
print(type(list1))

array1 = np.array(list1)
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int32


- list1: 리스트 -> 넘파이 형식(ndarray)으로 변환
- ``ndarray.dtype`` : ``ndarray``내의 데이터 타입 출력

In [5]:
list2 = [1, 2, 'test']
array2 = np.array(list2)
print(array2, array2.dtype)

list3 = [1, 2, 3.0]
array3 = np.array(list3)
print(array3, array3.dtype)

['1' '2' 'test'] <U11
[1. 2. 3.] float64


- ``ndarray`` 데이터값은 모두 같은 데이터 타입이어야 하므로 **서로 다른 데이터 타입일 때, 더 큰 데이터 타입으로 변환**된다.

<font color=blue>=> 특성상 '문자형 > 숫자형' 불가능 / '숫자형 > 문자형'은 가능</font>

- list2의 경우 'int형 + string형': int형 > srting형
- list3의 경우 'int형 + float형': int형 > float형

---
데이터 값은 같은 데이터 타입이 되어야 하기 때문에 타입 변경은 ``astype()`` 메서드로 변경이 가능하다.

- 대개 '대용량 메모리 > 저용량 메모리'로 메모리를 더 절약해야 하는 상황에 이용된다.
- 파이썬 머신러닝 알고리즘의 경우, **대부분 메모리로 데이터를 전체 로딩한 다음 이를 기반으로 알고리즘을 적용하기에** 메모리 부족으로 오류가 발생할 수 있기 때문이다.

In [6]:
array_int = np.array([1, 2, 3])
array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

array_int1 = array_float.astype('int32')
print(array_int1, array_int1.dtype)

array_float1 = np.array([1.1, 2.1, 3.1])
array_int2 = array_float1.astype('int32')
print(array_int2, array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


- ``변수2 = 변수1.astype('변경 데이터')``: 기존 데이터를 새로운 데이터 타입으로 변경

---

### ndarray를 편리하게 생성하기 - arange, zeros, ones

특정 크기와 차원을 가진 ndarray를 연속값 혹은 0 or 1로 초기화해 쉽게 생성해야 할 필요가 있는 경우가 발생

이 경우 `arange()` / `zeros()` / `ones()`를 사용.

아래와 같이 활용

- 테스트용 데이터 생성할 때
- 대규모의 데이터를 일괄 초기화할 때


In [7]:
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int32 (10,)


- ``np.arange()`` : 괄호 안의 값을 연속하여 출력. array를 ``range()``로 표현한 것. 0부터 괄호 안 길이만큼 출력한다고 보면 된다.
- 정수형 / 1차원 / 데이터개수 10개

In [8]:
zero_array = np.zeros((3, 2), dtype='int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

one_array = np.ones((3,2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


- ``np.zeros()``: 괄호 안 인자로 튜플 형태 shape을 입력하면 shape내의 값을 모두 0으로 채운 후 해당 shape 출력
- ``np.ones()``: 괄호 안 인자로 튜플 형태 shape을 입력하면 shape내의 값을 모두 1로 채운 후 해당 shape 출력
- dtype을 int형으로 지정하지 않으면, 기본 값으로 float64 형의 데이터로 채워지게 된다.

---

### ndarray의 차원과 크기를 변경하는 reshape()

``reshape()`` 메서드는 ``ndarray``를 특정 차원 및 크기(로우 및 칼럼)로 변환

- 함수 인자로는 변환을 원하는 크기를 넣으면 된다.
- 데이터의 크기가 같아야 한다. (ex. 10개의 데이터 > 12개의 데이터로 변환 불가)

In [9]:
array1 = np.arange(10)
print('array1:\n',array1)

array2 = array1.reshape(2, 5)
print('array2:\n',array2)

array3 = array1.reshape(5, 2)
print('array3:\n',array3)

array1:
 [0 1 2 3 4 5 6 7 8 9]
array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


- 0~9 까지의 데이터가 담긴 1차원을 array2(2차원, 2X5), array3(2차원, 5X2)로 변환

In [10]:
array1.reshape(4, 3)

ValueError: cannot reshape array of size 10 into shape (4,3)

- 위 같은 경우 데이터 개수가 다르므로 형태 변환이 불가능하다.

In [None]:
array1 = np.arange(10)
print(array1)

array2 = array1.reshape(-1,5)
print('array2 shape:',array2.shape,'\narray2: \n',array2)

array3 = array1.reshape(5,-1)
print('array3 shape:',array3.shape,'\narray3: \n',array3)

- 인자로 -1이 적용된 경우에는 **고정된 다른 인자에 맞는 인자로 변경하여 새롭게 생성해 변환하라는 의미**이다.

In [None]:
array1 = np.arange(10)
array4 = array1.reshape(-1, 4)

- 위 같은 경우 로우 인자가 -1임에도 오류가 발생했다. -1이 인자로 주어진다고 하더라도 데이터 개수를 맞추어야 하므로 -1이 2.5가 되어야 하는데, 인자가 정수가 아닌 실수로 변환될 수 없기 때문이다.

In [11]:
array1 = np.arange(8)
array3d = array1.reshape((2,2,2))
print('array3d:\n',array3d.tolist())

# 3차원 ndarray를 2차원 ndarray로 변환
array5 = array3d.reshape(-1,1)
print('array5:\n', array5.tolist())
print('array5 shape:', array5.shape)

# 1차원 ndarray를 2차원 ndarray로 변환
array6 = array1.reshape(-1,1)
print('array6:\n', array6.tolist())
print('array6 shape:', array6.shape)

array3d:
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
array5:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5 shape: (8, 1)
array6:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array6 shape: (8, 1)


- reshape(-1,1) 형태는 자주 이용됨( 3차원 > 2차원, 1차원 > 2차원 등)
- ``변수.tolist()``: ndarray 형식에서 list 형식으로 바꿔 줌

---

### 넘파이의 ndarray의 데이터 세트 선택하기 - 인덱싱(Indexing)

**인덱싱**이란? 
>배열에서의 요소 위치(인덱스)를 기준으로 배열 요소에 액세스하는 것

1. 단일 데이터값 추출: 원하는 위치의 인덱스 값을 지정하면 해당 위치의 데이터가 반환됨
2. 슬라이싱(Slicing): 연속된 인덱스상의 ndarray를 추출하는 방식
3. 팬시 인덱싱(Fancy Indexing): 일정한 인덱싱 집합을 리스트 또는 ndarray 형태로 지정해 해당 위치에 있는 데이터의 ndraay를 반환
4. 불린 인덱싱(Boolean Indexing): 특정 조건에 해당하는지 여부인 True/False 값 인덱싱 집합을 기반으로 True에 해당하는 인덱스 위치의 데이터의 ndarray를 반환 

- 단일 데이터값 추출을 제외하고 **슬라이싱, 팬시 인덱싱, 불린 인덱싱**으로 추출된 데이터 셋은 모두 **ndarray 타입**이다.

<br>

#### 단일 값 추출

In [12]:
# 1부터 9까지의 1차원 ndarray 생성
array1 = np.arange(start=1, stop=10)
print('array1:', array1)

# index 0부터 시작하므로 array1[2]는 3번째 index 위치의 데이터 값을 의미
value = array1[2]
print('value:', value)
print(type(value))

array1: [1 2 3 4 5 6 7 8 9]
value: 3
<class 'numpy.int32'>


- ``np.arange(start= a, stop= b)``: 기존의 ``arange()``메서드와는 다르게 괄호 안에 시작 숫자와, 끝나는 숫자를 지정할 수 있다.

- 리스트에서 인덱싱 하듯이 인덱스 값을 []안에 입력하면 된다.

In [13]:
print('맨 뒤의 값:',array1[-1], ', 맨 뒤에서 두 번째 값:',array1[-2])

맨 뒤의 값: 9 , 맨 뒤에서 두 번째 값: 8


- 리스트와 마찬가지로 마이너스 기호 이용 가능

In [14]:
array1[0] = 9 
array1[8] = 0
print('array1:', array1)

array1: [9 2 3 4 5 6 7 8 0]


- ndarray 내의 데이터 값도 수정이 가능

In [15]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3, 3)
print(array2d)

print('(row=0, col=0) index 가리키는 값:', array2d[0, 0])
print('(row=0, col=1) index 가리키는 값:', array2d[0, 1])
print('(row=1, col=0) index 가리키는 값:', array2d[1, 0])
print('(row=2, col=2) index 가리키는 값:', array2d[2, 2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0, col=0) index 가리키는 값: 1
(row=0, col=1) index 가리키는 값: 2
(row=1, col=0) index 가리키는 값: 4
(row=2, col=2) index 가리키는 값: 9


- 다차원 ndarray에서도 로우, 칼럼 값을 지정하여 해당 인덱스의 값을 출력할 수 있음
- 지금까지 표현한 로우, 칼럼 표현은 numpy의 ndarray에서 사용하지 않는 표현이다. 정확한 표현으로는 **'axis 0'은 로우방향의 축 / 'axis 1'은 칼럼방향의 축**을 의미한다.

---

#### 슬라이싱


In [16]:
array1 = np.arange(start=1, stop=10)
array3 = array1[0:3]
print(array3)
print(type(array3))

[1 2 3]
<class 'numpy.ndarray'>


- [] 괄호 안에 ':' 기호를 넣어 연속한 데이터를 슬라이싱하여 추출한다.
- 시작 인덱스부터, 종료 인덱스 -1의 위치에 있는 데이터의 ndarray 반환

In [17]:
array1 = np.arange(start=1, stop=10)
array4 = array1[:3]
print(array4)

array5 = array1[3:]
print(array5)

array6 = array1[:]
print(array6)

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


- [:인덱스] : 처음부터 지정 인덱스(-1의 위치까지)까지 ndarray 반환
- [인덱스:] : 지정 인덱스부터 종료까지 데이터의 ndarray 반환
- [ : ] : 처음부터 종료까지 데이터의 ndarray 반환

In [18]:
array1d = np.arange(start=1, stop=10)
print('array1d:\n', array1d)
array2d = array1d.reshape(3, 3)
print('array2d:\n', array2d)

print('array2d[0:2, 0:2]\n', array2d[0:2, 0:2])
print('array2d[1:3, 0:3]\n', array2d[1:3, 0:3])
print('array2d[1:3, :]\n', array2d[1:3, :])
print('array2d[:, :]\n', array2d[:, :])
print('array2d[:2, 1:]\n', array2d[:2, 1:])

#아래 경우 2차원에서 1차원으로 변환됨
print('array2d[:2, 0]\n', array2d[:2, 0]) 

array1d:
 [1 2 3 4 5 6 7 8 9]
array2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2]
 [[1 2]
 [4 5]]
array2d[1:3, 0:3]
 [[4 5 6]
 [7 8 9]]
array2d[1:3, :]
 [[4 5 6]
 [7 8 9]]
array2d[:, :]
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, 1:]
 [[2 3]
 [5 6]]
array2d[:2, 0]
 [1 4]


- 2차원 ndarray에서의 슬라이싱도 1차원 슬라이싱과 유사
- 콤마(,)로 로우(행) / 칼럼(열) 구분
- 슬라이싱으로도 차원의 변형이 가능하다.

---

#### 팬시 인덱싱

- 인덱스 집합을 지정하면 해당 위치의 인덱스에 해당하는 ndarray 반환하는 인덱싱 방식

In [19]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)

print(array2d)

array3 = array2d[[0,1],2]
print('array2d[[0,1],2] =>', array3.tolist())

array4 = array2d[[0,1], 0:2]
print('array2d[[0,1], 0:2] =>', array4.tolist())

array5 = array2d[[0,1]]
print('array2d[[0,1]] =>', array5.tolist())

[[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[[0,1],2] => [3, 6]
array2d[[0,1], 0:2] => [[1, 2], [4, 5]]
array2d[[0,1]] => [[1, 2, 3], [4, 5, 6]]


- array3의 경우, 로우 축 0,1행 / 칼럼 축 2열 => 해당하는 ndarray반환
- array4의 경우, 로우 축 0,1행 / 칼럼 축 0~1열 => 해당하는 ndarray반환
- array5의 경우, 로우 축 0,1행 / 칼럼 축 0~2열 => 해당하는 ndarray반환

---


#### 불린 인덱싱

- [  ] 내의 조건문을 통해 True에 해당하는 인덱스 위치의 데이터의 ndarray를 반환

In [20]:
array1d = np.arange(start=1, stop=10)
# [ ] 안에 array1d > 5 Boolean indexing 적용
array3 = array1d[array1d > 5]
print('array1d > 5 불린 인덱싱 결과 값:',array3)

array1d > 5 불린 인덱싱 결과 값: [6 7 8 9]


- [  ] 안 조건문에 따라 인덱싱한 결과 5보다 큰 True에 해당하는 인덱스 위치의 ndarray 반환

In [21]:
array1d > 5

array([False, False, False, False, False,  True,  True,  True,  True])

- 조건문에 해당하는 False 및 True 값 출력

In [22]:
array1d = np.arange(start=1, stop=10)

boolean_indexes = np.array([False, False, False, False, False,  True,  True,  True,  True])
array3 = array1d[boolean_indexes]
print('불린 인덱스로 필터링 결과:', array3)

불린 인덱스로 필터링 결과: [6 7 8 9]


- 기존에 ``array1d > 5`` 조건문 대신 조건문의 결과 값을 넣어도 동일한 데이터 셋이 반환된다.

In [23]:
array1d = np.arange(start=1, stop=10)

indexes = np.array([5, 6, 7, 8])
array4 = array1d[indexes]
print('일반 인덱스로 필터링 결과:', array4)

일반 인덱스로 필터링 결과: [6 7 8 9]


- 1차원 배열 [1, 2, 3, 4, 5, 6, 7, 8, 9]에서 5~8번 위치에 해당하는 인덱스 ndarray 반환

---

### 행렬의 정렬 - sort( )와 argsort( )

#### 행렬 정렬

넘파이의 행렬 정렬 방식은 두 방식이 있다.

- ``np.sort()`` : **넘파이에서** sort() 호출하는 방식 

원본 행렬: **기존 행렬 형태를 유지** 

반환 행렬: 정렬된 행렬

<br>

- ``ndarray.sort()`` : **행렬 자체에서** sort() 호출하는 방식 

원본 행렬: **기존 행렬 형태를 정렬**한 형태로 반환 

반환 행렬: 동일(None)

<br>


sort는 기본적으로 **오름차순**으로 행렬 내 원소를 정렬

In [24]:
org_array = np.array([3, 1, 9, 5])
print('원본 행렬:', org_array)

#np.sort( )로 정렬
sort_array1 = np.sort(org_array)
print('np.sort( ) 호출 후 반환된 정렬 행렬:', sort_array1)
print('np.sort( ) 호출 후 원본 정렬 행렬:', org_array)

#ndarray.sort( )로 정렬
sort_array2 = org_array.sort()
print('org_array.sort( ) 호출 후 반환된 행렬', sort_array2)
print('org_array.sort( ) 호출 후 원본 행렬', org_array)

원본 행렬: [3 1 9 5]
np.sort( ) 호출 후 반환된 정렬 행렬: [1 3 5 9]
np.sort( ) 호출 후 원본 정렬 행렬: [3 1 9 5]
org_array.sort( ) 호출 후 반환된 행렬 None
org_array.sort( ) 호출 후 원본 행렬 [1 3 5 9]


위 코드를 통해 정렬 방식을 확인해 보면

- ``np.sort()`` 호출 후 원본 행렬은 유지되고, 반환된 행렬에 대해서 정렬
- ``ndarray.sort()`` 호출 후 원본 행렬이 정렬되고, 반환된 행렬에 대해선 변화가 없으므로 None값 출력

In [25]:
# 내림차순으로 정렬

sort_array1_desc = np.sort(org_array)[::-1]
print('내림차순으로 정렬:', sort_array1_desc)

내림차순으로 정렬: [9 5 3 1]


- ``np.sort()[::-1]`` : 내림차순으로 정렬

In [26]:
# 행렬이 2차원 이상일 경우

array2d = np.array([[8,12],
                   [7, 1]])
print('기존 행렬:\n', array2d)

sort_array2d_axis0 = np.sort(array2d, axis=0)
print('로우 방향으로 정렬:\n', sort_array2d_axis0)

sort_array2d_axis1 = np.sort(array2d, axis=1)
print('칼럼 방향으로 정렬:\n', sort_array2d_axis1)

기존 행렬:
 [[ 8 12]
 [ 7  1]]
로우 방향으로 정렬:
 [[ 7  1]
 [ 8 12]]
칼럼 방향으로 정렬:
 [[ 8 12]
 [ 1  7]]


- 행렬이 2차원 이상일 경우 axis 축 값을 기준으로 정렬이 가능
- ``axis = 0`` : 로우 방향(행 축,아래로 갈수록 오름차순)으로 정렬
- ``axix = 1`` : 칼럼 방향(열 축,오른쪽으로 갈수록 오름차순)으로 정렬

---

#### 정렬된 행렬의 인덱스 반환하기

원본 행렬이 정렬된 후, 기존(원본) 행렬의 원소에 대한 인덱스가 요구될 때

인덱스 반환 방식은 다음과 같다.

- ``np.argsort()`` : 정렬 행렬의 원본 행렬 인덱스를 ndarray 형으로 반환

<br>

**argsort( ) 가 중요한 이유**

'넘파이의 ndarray'는 'RDBMS의 TABLE 칼럼' / '판다스의 DataFrame 칼럼'과

동일한 메타데이터(속성정보)를 가질 수 없다.

<font color=blue>=> 다른 데이터 구조 / 메타데이터 관리 방식 / 목적의 차이</font>

<br>
<br>

**데이터 구조의 차이(넘파이 <-> 판다스)**
>넘파이의 ndarray는 다차원 배열로, 주로 숫자 데이터를 다루는데 사용된다. ndarray는 행과 열에 대한 레이블 또는 인덱스를 가지지 않으며, 그 자체로 메타데이터를 저장하거나 관리하지 않는다.
판다스의 DataFrame은 테이블 형태의 데이터 구조로, 행과 열에 레이블을 부여하여 데이터를 저장한다. DataFrame은 데이터 뿐만 아니라 행과 열의 레이블, 데이터 유형, 결측값 처리 등 다양한 메타데이터를 포함하는 데이터 구조이다.

**목적의 차이(넘파이 <-> 판다스)**
>넘파이의 주요 목적은 고성능 수치 연산을 위한 다차원 배열을 제공하는 것이며, 데이터 메타데이터 관리에 중점을 두지 않는다.
판다스의 주요 목적은 데이터 조작과 분석을 위한 데이터 구조를 제공하는 것이다. DataFrame은 데이터를 효과적으로 탐색하고 분석하기 위한 다양한 기능을 제공하며, 이를 위해 메타데이터를 활용한다.

In [27]:
org_array = np.array([3,1,9,5])
sort_indices = np.argsort(org_array)
print(type(sort_indices))
print('행렬 정렬 시 원본 행렬의 인덱스:', sort_indices)

<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스: [1 0 3 2]


- 기존 [3, 1, 9, 5] 행렬에서의 인덱스 값은 다음과 같다.

3의 인덱스 값: 0

1의 인덱스 값: 1

9의 인덱스 값: 2

5의 인덱스 값: 3

- 기존 행렬을 오름차순으로 정렬하면, [1, 3, 5, 9]가 되는데 여기서 원본 행렬의 인덱스 값을 ndarray형식으로 뽑으면 [1 0 3 2]로 출력된다.

In [28]:
org_array = np.array([3, 1, 9, 5])
sort_indices_desc = np.argsort(org_array)[::-1]
print('행렬 내림차순 정렬 시 원본 행렬의 인덱스:', sort_indices_desc)

행렬 내림차순 정렬 시 원본 행렬의 인덱스: [2 3 0 1]


- 기존 [3, 1, 9, 5] 행렬에서의 인덱스 값은 다음과 같다.

3의 인덱스 값: 0

1의 인덱스 값: 1

9의 인덱스 값: 2

5의 인덱스 값: 3

- 기존 행렬을 내림차순으로 정렬하면, [9, 5, 3, 1]가 되는데 여기서 원본 행렬의 인덱스 값을 ndarray형식으로 뽑으면 [2 3 0 1]로 출력된다.

In [29]:
# John = 78, Mike = 95, Sarah = 84, Kate = 98, Samuel = 88을 ndarray로 활용

import numpy as np

name_array = np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array = np.array([78, 95, 84, 98, 88])

sort_indices_asc = np.argsort(score_array)
print('성적 오름차순 정렬 시 score_array의 인덱스:', sort_indices_asc)
print('성적 오름차순으로 name_array의 이름 출력:', name_array[sort_indices_asc])

성적 오름차순 정렬 시 score_array의 인덱스: [0 2 4 1 3]
성적 오름차순으로 name_array의 이름 출력: ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


- name_array에 팬시 인덱싱을 적용해 주석처리한 부분처럼 인덱스를 적용하고, 이를 오름차순으로 적용한 것

---

### 선형대수 연산 - 행렬 내적과 전치 행렬 구하기

머신러닝 및 데이터 분석에서 **선형대수**가 중요한 이유는 여러가지 측면이 있는데 대표적으로 다음과 같다.

**데이터의 표현**

> 데이터는 다차원 벡터 or 행렬의 형태로 표현될 때가 있는데, 선형대수는 **데이터의 구조와 표현을 이해**하는 데 도움을 준다. (예를 들어, 이미지 데이터 픽셀 값 - 행렬로 표현)


**모델링**

> 대부분의 머신러닝 모델은 선형대수적 개념이 도입되어 있다. 즉, **선형대수의 원리에 근거하여 데이터를 모델링하고 예측하는 것**이다. (예를 들어, 선형 회귀, 주성분 분석, 서포트 벡터 머신 등의 모델이 있음)


**차원 축소**

> 선형대수적 기법을 사용하여 **데이터의 차원을 축소**하거나 **중요한 특성을 추출**한다.

**최적화**
> 많은 머신러닝 알고리즘은 최적화 문제로 정의된다. **최적화 문제를 다루는데 필수적인 도구**로 사용된다.

**이미지 처리**
> CV(컴퓨터 비전)분야에서는 이미지나 비디오 데이터를 다룰 때 **행렬 연산과 컨볼루션 연산**이 중요하다.

**모델 해석**
> **모델의 해석 혹은 해석 가능성을 높이는 데 선형대수적 기법이 유용**하다.

**노이즈와 불확실성 관리**
> 데이터를 다루다 보면 종종 노이즈 혹은 불확실성이 포함될 때가 있는데, 선형대수는 이러한 **노이즈, 불확실성을 처리하고 관리하는 것에 도움**을 준다.

---

#### 행렬 내적(행렬 곱)

![행렬내적](https://raw.githubusercontent.com/angeloyeo/angeloyeo.github.io/master/pics/2020-09-08-matrix_multiplication/pic2.png)

행렬 A와 B가 주어졌을 때, 내적 결과 행렬 C는 다음과 같이 계산된다.

A = m x k

B = k x n

C = A * B = (m x k) * (k x n) = (m x n)

---

위 예시 행렬처럼 넘파이에서도 ``np.dot()``을 사용하여 행렬 내적이 가능하다.

우선적으로 내적 연산이 가능하려면, **왼쪽 행렬의 열과 오른쪽 행렬의 행 개수가 동일**해야 한다.

In [30]:
A = np.array([[1, 2, 3],
             [4, 5, 6]])

B = np.array([[7, 8],
             [9, 10],
             [11, 12]])

print(A)
print('*')
print(B)

dot_product = np.dot(A, B)
print('행렬 내적 결과:\n', dot_product)

[[1 2 3]
 [4 5 6]]
*
[[ 7  8]
 [ 9 10]
 [11 12]]
행렬 내적 결과:
 [[ 58  64]
 [139 154]]


- 2x3 행렬 A와 3x2 행렬 B를 내적한 결과 2x2의 dot_product가 계산됨

---

### 전치 행렬

**전치행렬**은 기존 **원 행렬에서 행과 열을 교환**하여 새롭게 구성한 행렬을 말한다.

![전치행렬](https://codetorial.net/numpy/_images/numpy_transpose_01.png)


<br>

넘파이에서의 전치행렬은 ``transpose()``를 이용해 구할 수 있다.

In [31]:
A = np.array([[1, 2],
             [3, 4]])

transpose_mat = np.transpose(A)
print('A의 전치 행렬:\n', transpose_mat)

A의 전치 행렬:
 [[1 3]
 [2 4]]


- ``np.transpse(A)`` : A 행렬의 전치행렬을 만든다.

In [32]:
A = np.array([[1, 2],
             [3, 4]])

B = A.T
print('A의 전치 행렬:\n', B)

A의 전치 행렬:
 [[1 3]
 [2 4]]


- 번외로 해당 행렬에 ``.T``를 붙여 간단하게 전치행렬을 표현할 수도 있다.

---

#### 회고 사항

> 추가 예정

---