## 머신러닝

- 컴퓨터 프로그램이 데이터와 처리 경험을 이용한 학습을 통해 정보처리 능력을 향상시키는 것 or 이와 관련된 연구 분야
- 자율주행, 필기체 문자 인식 등과 같이 알고리즘 개발이 어려운 문제의 해결에 유용



### Machine Learning defined in Wikipedia

- **경험**을 통하여 **자동으로** 개선되는 컴퓨터 알고리즘에 대한 학문
- 샘플 데이터인 **Training Data**를 사용하여 **수학적 모델**을 생성
- 생성된 모델은 **예측 또는 의사결정**에 활용
- **통계학, 최적화, Data Mining, AI** 등과 밀접한 학문이고 자주 함께 언급됨
- 비즈니스 환경에서 활용하면서 **Predictive Analytics** 라고 표현하기도 함  



## 머신러닝의 주요 알고리즘

### 확률적 모델링
- 통계학 이론을 데이터 분석에 응용
- 초창기 머신러닝 형태 중 하나
- 나이브 베이즈(Naive Bayes)
- 로지스틱 회귀
* 참고 : 베이즈정리와 통계학 : 18세기

### 신경망
- 1세대 : Perceptron
- 2세대 : Multilayer Perceptron, Back Propagation
- 3세대 : Boltzmann Machine, ReLU, Dropout, Local Minima

### 커널(Kernel) 방법
- 분류 알고리즘의 한 종류
- 서포트 벡터 머신(support vector machine)

### 결정 트리
- 랜덤 포레스트
- 그래디언트 부스팅
- 머신러닝 경연대회 사이트인 캐글(Kaggle)
    - 2010년 시작되었을 때 랜덤포레스트가 가장 선호하는 알고리즘 
    - 2014년 그래디언트 부스팅이 선호

# 머신러닝과 AI

![image-2.png](attachment:image-2.png)

https://docs.microsoft.com/ko-kr/azure/machine-learning/concept-deep-learning-vs-machine-learning

## 전통적 방식과 머신러닝 차이


- 전통적 방법의 경우 사소한 문제가 아닌 경우 규칙이 점점 길고 복잡해져 유지보수가 매우 어려움

- 기존 솔루션으로는 많은 수동 조정과 규칙이 필요한 경우, 머신러닝 모델 코드를 간단하게 만들 수 있음

- 전통적인 방식으로 해결할 수 없는 복잡한 문제를 머신러닝으로 해결

![image-2.png](attachment:image-2.png)

https://www.oreilly.com/library/view/hands-on-machine-learning/9781491962282/ch01.html

### 머신러닝의 장점

- 기존 솔루션으로는 많은 수동 조정과 규칙이 필요한 문제
    - 하나의 머신러닝 모델이 코드를 간단하게 만들고 전통적인 방법보다 더 잘 수행되도록 할 수 있음

- 전통적인 방식으로는 해결 방법이 없는 복잡한 문제
    - 가장 뛰어난 머신러닝 기법으로 해결 방법을 찾을 수 있음
    
- 유동적인 환경: 머신러닝 시스템은 새로운 데이터에 적응 가능

- 복잡한 문제와 대량의 데이터에서 통찰 얻기




## 어플리케이션 사례

- 이미지 분류 작업: 생산 라인에서 제품 이미지를 분석해 자동으로 분류
- 시맨틱 분할 작업: 뇌를 스캔하여 종양 진단  Tip. 시맨틱은 조각의 의미를 나타냄
- 텍스트 분류(자연어 처리)
    - 자동으로 뉴스 기사 분류
    - 토론 포럼에서 부정적인 코멘트를 자동으로 구분
- 텍스트 요약
    - 긴 문서를 자동으로 요약
- 자연어 이해 : 챗봇(chatbot) 또는 개인 비서 만들기
- 회사의 내년도 수익을 예측하기 : 회귀분석
- 음성 인식 : 음성 명령에 반응하는 앱
- 이상치 탐지: 신용 카드 부정 거래 감지
- 군집 작업 : 구매 이력을 기반으로 고객을 나누고 각 집합마다 다른 마케팅 전략을 계획
- 데이터 시각화 : 고차원의 복잡한 데이터셋을 명확하고 의미 있는 그래프로 표현하기
- 추천 시스템 : 과거 구매 이력을 기반으로 고객이 관심을 가질 수 있는 상품 추천하기
- 강화 학습 : 지능형 게임 봇(bot) 만들기

## 머신러닝 종류

- 지도(Supervised) 학습
- 비지도(Unsupervised) 학습
- 준지도(Semi-supervised) 학습
- 강화(Reinforcement) 학습
- 전이(Transfer) 학습
   

## 지도 학습(Supervised Learning)
- 학습 데이터에 입력값(특성)에 대한 출력값(레이블)이 함께 제시됨
    - 입력으로 훈련 데이터 세트가 있고 출력으로 각 훈련 세트에 대한 레이블 또는 "정답" 세트가 있음
    
    
- 알고리즘은 입력값과 출력값 사이의 관계를 가장 잘 설명할 수 있는 "모델"을 찾음


- "모델"을 사용하여 새로운 입력값에 대한 예측 수행


- 출력값이 수치형인 회귀와 범주형인 분류 문제로 나누어 짐


- 알고리즘
    - k-최근접이웃(K-Nearest Neightbor: KNN)
    - 선형 회귀(Linear Regression)
    - 로지스틱 회귀(Logistic Regression)
    - 서포트 벡터 머신(Support Vector Machine)
    - 의사결정트리(Decision Tree)
    - 랜덤 포레스트(Random Forest)
    - 신경망

## 비지도 학습(Unsupervised Learning)
- 학습 데이터에 레이블이 지정되거나 분류되지 않은 테스트 데이터에서 학습  


- 알고리즘은 학습 데이터의 특징만을 활용하여 목표한 결과를 산출  


- 적절한 군집을 찾거나, 변수의 복잡성을 낮추기 위한 차원 축소 등  


- GAN(Generative Adversarial Nets) 등과 같은 새로운 기법이 등장하고 있음


- 알고리즘
    - 군집분석(Clustering)
        - K-평균(K-Means)
        - 계층적 군집 분석(Hierarchical Cluster Analysis,HCA)
        - DBSCAN
    - 시각화와 차원축소
        - 주성분 분석(Principal Component Analysis, PCA)
        - 커널(Kernel) PCA
        - 지역적 선형 임베딩(Locally-Linear Embedding, LLE)
        - t-SNE(t-distributed Stochastic Neighbor Embedding)
    - 이상치 탐지
        - 가우스 분포를 이용한 이상치 탐지
    - 연관규칙(Association Rule)
        - Apriori
        - Eclat

## 준지도 학습(Semi-supervised Learning)
- 모든 데이터에 항상 레이블을 달아 줄 수 있는 것이 아닌 현실을 고려한 접근법


- 레이블이 달려있는 데이터와 레이블이 달려있지 않은 데이터를 동시에 사용하여 더 좋은 모델을 만들고자 함
    - 지도와 비지도 알고리즘 조합 
    
    
- 항상 최선의 성능이 발휘되는 것은 아니나, 군집 형태에 가까운 경우 좋은 결과를 나타냄


- 알고리즘
    - 심층신뢰신경망(DBN)
    - 제한된 볼츠만 기계(RBM)

## 강화학습(Reinforcement Learning)
- 행동심리학에서 영감을 받은
- 구체적인 행동에 대한 지시가 없이 목표만 주어짐
- 현재 상태에 대한 최선의 액션을 보상에 의해 스스로 찾아 학습하게 하는 방법 
- 학습한 내용은 최고의 결과를 얻기 위한 전략으로 활용됨
    - Agent인 환경(environment)을 관찰하고 행동(action)을 실행하고 그 결과 보상(reward)을 받음
    - 보상을 얻기 위한 정책이라 부르는 최상의 전략(policy)을 스스로 학습
- 데이터에서 보지 못한 내용에도 적응하여 반복하면서 더 좋은 결과를 얻을 수 있음


- 알고리즘
    - SARSA
    - Q-Learning

## 전이학습(Transfer Learning)
- 기존의 학습 방법들은 학습에 사용한 데이터와 이후 분석을 하려는 데이터가 같은 분포를 가지고 있다는 가정을 바탕으로 함
- 새로운 문제를 해결하고자 할 때 기존에 학습된 모델을 이용하여 새로운 모델을 만드는 방법
- 이미 잘 훈련된 모델이 있고, 해결하고자 하는 문제가 유사성이 있을 경우, 학습 데이터가 부족한 경우 등에 사용
- 기존의 pre-trained model을 미세 조정하여 사용하는 학습 방법이 대표적

# 머신러닝 워크플로우(Workflow)

![image.png](attachment:image.png)

https://www.altexsoft.com/whitepapers/machine-learning-bridging-between-business-and-data-science/

1. Collect data  : 유용한 데이터를 최대한 많이 확보하고 하나의 데이터 세트로 통합
2. Prepare data  : 결측값, 이상값, 기타 데이터 문제를 적절하게 처리하여 사용 가능한 상태로 준비
3. Split data :  데이터 세트를 학습용과 평가용 세트로 분리
4. Train a model :  이력 데이터의 일부를 활용하여 알고리즘이 데이터 내의 패턴을 잘 찾아 주는지 확인
5. Test and validate a model :  학습 후 모델의 성능을 평가용 데이터 세트로 확인하여 예측 성능을 파악
6. Deploy a model :  모델을 의사결정 시스템에 탑재 / 적용
7. Iterate :  새로운 데이터를 확보하고 점진적으로 모델을 개선

## 머신러닝 사용 X 

- 데이터
    - 충분하지 않은 양의 데이터
    - 대표성 없는 데이터
    - 낮은 품질의 데이터 : 오류, 잡음, 이상치
    - 연관성이 적은 특성(변수)
    
    
- 알고리즘
    - 훈련 데이터 과대적합
    - 훈련 데이터 과소적합
    

### 테스트와 검증

- 모델이 새로운 사례에 잘 일반화 여부 확인

# 머신러닝에서 사용되는 주요 패키지

머신러닝 패키지
- 사이킷런(Scikit-Learn)

배열/선형대수/통계 패키지
- NumPy
- SciPy

데이터 핸들링
- Pandas

시각화
- Matplotlib
- Seaborn

딥러닝
- 텐서플로(Tensorflow)
- 케라스(Keras)