# 01. 머신러닝의 개념
머신러닝이란 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법
예를 들어 기존의 소프트웨어 코드는 현실 세계의 매우 복잡한 조건 및 다양한 환경 변수, 규칙들에 의해서 매번 시간과 비용을 들어서 프로그램의 로직을 변경해야 한다.
하지만, 머신러닝을 활용한다면 모든 경우를 포괄하는 일정한 패턴을 찾기 어려운 경우에서도 훌륭항 솔루션이 된다. 
이러한 이유는 머신러닝 알고리즘은 데이터를 기반으로 통게적인 신뢰도를 강화하고 예측 오류를 최소화하기 위한 다양한 수학적 기법을 적용해 데이터 내 패턴을 스스로 인지하고 신뢰도 있는 예측 결과를 도출해 낸다.
이를 통해 데이터 분석 영역은 머신 러닝 기반의 예측 분석으로 변화하였으며, 데이터 마이닝, 영상인식, 음성 인식, 자연어 처리 등의 난이도 및 개발 복잡도가 높은 분야에서도 급격히 발전을 이루고 있다.

## 머신러닝의 분류
머신러닝에는 크게 지도학습, 비지도 학습, 강화학습으로 나뉜다.
### 지도학습
    지도학습에는 분류, 회귀, 추천 시스템, 시각/음성 감지/인지, 데이터 분석, NLP 등이 있다.
### 비지도 학습
    비지도 학습에는 클러스터링, 차원 축소, 강화학습이 있다.

이렇게 머신러닝은 엄청난 장점을 가지고 있지만, 가장 큰 단점은 데이터에 매우 의존적이라는 것이다.
좋은 품질의 데이터를 갖추지 못한다면 머신 러닝 수행 결과도 좋지 않게 되며, 데이터를 넣어주기만 하면 좋은 머신 러닝 수행 결과를 얻을 수 있는 것도 아니다.
따라서 좋은 머신 러닝 결과를 얻기 위해서는 최적의 머신러닝 알고리즘과 모델 파라미터를 구축하는 능력도 필요하지만, 데이터를 이해하고 효율적으로 가공, 처리, 추출해 최적의 데이터르 ㄹ기반으로 알고리즘을 구동할 수 있도록 준비되는 것 역시 필요하다.

## 파이썬과 R 기반의 머신 러닝 비교
머신 러닝 프로그램을 작성하는 대표적인 오픈 소스 프로그램은 파이썬과 R로, 이 두 언어가 다른 언어들에 비해 각광받는 이들은 컴파일러 언어여서 즉각적인 수행 시간이 중요한 머신러닝 애플리케이션에 적용이 활발하게 이루어지며, 다양한 패키지들이 지원되고 있다.
이 둘의 차이점은 우선 R은 통계 전용 프로그램 언어로서 통계 전문가들이 사용하기위해 만든 언어인 반면, 파이썬은 다양한 영역에서 사용되는 개발 전문 프로그램 언어로서 직관적인 문법과 객체 지향과 함수형 프로그래밍을 모두 포괄하는 유연한 프로그래밍 언어이다. 또한, 다양한 라이브러리가 지원되는 것 또한 큰 장점이다.

# 02. 파이썬 머신러닝 생태계를 구성하는 주요 패키지
* 머신러닝 패키지
    Scikit-Learn 패키지가 대표적이다. 

* 행렬/선형대수/통계 패키지
    NumPy 패키지는 Scikit-Learn 패키지 뿐만 아니라 다양한 머신러닝 패키지들이 NumPy 패키지 기반으로 구현
    행렬 기반의 데이터 처리에 특화
    
    또 다른 패키지는 자연 과학과 통계를 위해서 다양한 패키지를 SciPy 패키지에서 제공

* 데이터 핸들링
    Pandas 패키지로서 대표적인 데이터 처리 패키지로, 2차원 데이터 처리에 특화되어 있으며 Matplotlib을 호출해 쉽게 시각화가 가능

* 시각화
    Matplotlib 패키지를 사용해서 시각화를 하지만, API가 매우 세분화되어 있고, 시각적인 디자인 부분에서 아쉬운 점이 있다. 
    따라서 이를 보완하기 위한 대표적인 패키지가 Seaborn이다.


# 03. 넘파이
넘파이는 Numerical Python을 의미하는 패키지로 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지이다.
1. 루프를 사용하지 않고 대량 데이터의 배열 연산을 가능하게 하므로 빠른 배열 연산 속도를 보장하는 장점
2. C/C++ 과 같은 저수준 언어 기반의 호환 API를 제공하여 기존 C/C++ 기반의 타 프로그램과 데이터를 주고받거나 API를 호출해 쉽게 통합할 수 있는 기능을 제공
3. 다양한 데이터 핸들링 기능 제공

따라서 많은 파이썬 기반의 패키지가 넘파이를 이용해 데이터 처리를 수행하지만,편의성과 다양한 API 지원 측면에서는 아쉽다.

## 넘파이 ndarray 개요
1. 넘파이 모듈을 임포드
넘파이 기반 데이터 타입은 ndarray이다.
ndarray를 이용해 넘파이에서 다차원 배열을 쉽게 생성하고 다양한 연산을 수행

In [1]:
import numpy as np

### array() 함수
파이썬의 리스트와 같은 다양한 인자를 입력 받아서 ndarray로 변환하는 기능을 수행
생성된 ndarray 배열의 shape 변수는 ndarray의 크기 즉, 행과 열의 수를 튜플 형태로 가지고 있으며 이를 통해 ndarray 배열의 차원까지 알 수 있다.

#### array() 함수 사용법
ndarray로 변환을 원하는 객체를 인자로 입력하면 ndarray를 반환

#### ndarray.shape 속성
ndarray의 차원과 크기를 튜플 형태로 나타내준다.

In [2]:
array1 = np.array([1, 2, 3])
print('array1 type : ', type(array1)) # array1 type : <class 'numpy.ndarray'>
print('array1 array 형태 : ', array1.shape) # array1 array 형태 : (3, )

array1 type :  <class 'numpy.ndarray'>
array1 array 형태 :  (3,)


In [3]:
array2 = np.array([[1, 2, 3],
                 [2, 3, 4]])
print('array2 type : ', type(array2)) # array2 type : <class 'numpy.ndarray'>
print('array2 array 형태 : ', array2.shape) # arrary2 array 형태 : (2, 3)

array2 type :  <class 'numpy.ndarray'>
array2 array 형태 :  (2, 3)


In [4]:
array3 = np.array([[1, 2, 3]])
print('array3 type : ', type(array3)) # array3 type : <class 'numpy.ndarray'>
print('array3 array 형태 : ', array3.shape) # array3 array 형태 : (1, 3)

array3 type :  <class 'numpy.ndarray'>
array3 array 형태 :  (1, 3)


### ndarray.ndim 속성
ndarray의 차원

In [5]:
print('array1 : {:0}차원 , array2 : {:1}차원 , array3 : {:2}차원'.format(array1.ndim, array2.ndim, array3.ndim))
# array1 : 1차원 , array2 : 2차원 , array3 : 2차원

array1 : 1차원 , array2 : 2차원 , array3 :  2차원


## ndarray 데이터 타입
ndarray내의 데이터값은 숫자 값, 문자열 값, 불값 등이 모두 가능
* 숫자형 : int형(8bit, 16bit, 32bit) , unsigned int형(8bit, 16bit, 32bit) , float형(16bit , 32bit , 128bit) , 이보다 더 큰 숫자 값이나 정밀도를 위해 complex 타입도 제공
ndarray내의 데이터 타입은 연산의 특성상 같은 데이터 타입만 가능 따라서, ndarray내의 데이터 타입은 dtype 속성으로 확인 가능

In [6]:
list1 = [1, 2, 3]
print(type(list1)) # <class 'list'>
array1 = np.array(list1)
print(type(array1)) # <class 'numpy.ndarray'>
print(array1, array1.dtype) # [1, 2, 3] int64

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int64


서로 다른 데이터 타입을 가질 수 있는 리스트와 달리 ndarray 내의 데이터 타입은 연산의 특성 상 같은 데이터 타입만 가능
다른 데이터 유형이 섞여 있는 리스트를 ndarray로 변경하면 데이터 크기가 더 큰 데이터 타입으로 형 변환을 일괄 적용

따라서 아래의 예제의 list2의 경우, 
int형 값과 문자열이 섞여 있기 때문에 숫자형 값이 모두 유니코드 문자열 값으로 치환

list3의 경우, int형 값과 float형 값이 섞여 있기 때문에 int형 값이 모두 float 값을 치환

In [9]:
list2 =[1, 2, 'test']
array2 = np.array(list2)
print(array2, array2.dtype) # ['1', '2', 'test'] <U21

list3 = [1, 2, 3.0]
array3 = np.array(list3)
print(array3, array3.dtype) # [1. 2. 3. ] float64

['1' '2' 'test'] <U21
[1. 2. 3.] float64


### ndarray.astype() 메소드
데이터 값 타입 변경하는 메소드
해당 메소드에 인자로 원하는 타입을 문자열로 지정

In [12]:
array_int = np.array([1, 2, 3])
array_float = array_int.astype('float')
print(array_float, array_float.dtype) # [1. , 2. , 3.] float64

array_int1 = array_float.astype('int32')
print(array_int1 , array_int1.dtype) # [1 , 2 , 3] int32

array_float1 = np.array([1.1 , 2.1 , 3.1])
array_int2 = array_float1.astype('int32')
print(array_int2, array_int2.dtype) # [1, 2, 3] int32

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


## ndarray를 편리하게 생성하기 - arrange , zeros , ones
특정한 크기와 차원을 가진 ndarray를 연속값이나 0 또는 1로 초기화해 쉽게 생성할 수 있는 메소드

### ndarray.arrange()
파이썬 표준 함수인 range()와 유사한 기능
0부터 함수 인자 값 -1까지 값을 순차적으로 ndarray의 데이터 값으로 반환

In [15]:
sequence_array = np.arange(10)
print(sequence_array) # [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
print(sequence_array.dtype , sequence_array.shape) # int64 (10,)

[0 1 2 3 4 5 6 7 8 9]
int64 (10,)


### ndarray.zeros()
함수 인자로 튜플 형태의 shape 값을 입력하면 모든 값을 0으로 채운 해당 shape을 가진 ndarray를 반환

### ndarray.ones()
함수 인자로 튜플 형태의 shape 값을 입력하면 모든 값을 1로 채운 해당 shape을 가진 ndarray로 반환
함수 인자로 dtype을 정해주지 않으면 default로 float64형 데이터로 ndarray를 채운다.

In [18]:
zero_array = np.zeros((3, 2), dtype='int32')
print(zero_array) # [[0 0], [0 0], [0 0]]
print(zero_array.dtype , zero_array.shape) # int32 (3, 2)

one_array = np.ones((3, 2))
print(one_array) # [[1. 1.] , [1. 1.] , [1. 1.]]
print(one_array.dtype , one_array.shape) # float64 (3,2)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)
