# 머신러닝(Machine Learning) 개요

인공지능 : 인간의 학습 능력, 추론 능력 등을 컴퓨터를 통해 구현하는 포괄적인 개념

### 머신러닝 (기계학습)
- 인공지능 한 분야
- 데이터를 이용하여 명시적으로 정의되지 않은 패턴을 학습해서 미래 결과(값, 분포)를 예측
- 즉, 샘플 데이터인 Training Data를 사용하여 수학적 모델을 생성하고
- 생성된 모델을 예측 또는 의사결정에 활용
- 특히 인간의 인지능력만으로 해결 가능했던 다양한 분야에서 머신러닝 응용이 두드러지고 있음

### 머신러닝 특징
- 데이터를 기반으로 숨겨진 패턴을 인지해서 복잡한 문제를 해결
- 다양한 수학적 기법 사용
- 머신러닝 알고리즘은 데이터를 기반으로 통계적인 신뢰도를 강화하고 예측 오류를 최소화
- 데이터 내의 패턴을 스스로 인지하고 신뢰도 있는 예측 결과 도출

### 머신러닝의 분류

지도 학습 (Supervised Learning)
- 회귀 (Regression)
- 분류 (Classification)

비지도 학습 (Unsupervisd Learning)
- 군집화 (Clustering)
- 차원 축소 (Dimension Reduction)

강화학습 


### 지도 학습 (Supervised Learning)  
- 학습할 데이터의 입력과 그 입력에 대응하는 **정답**을 이용해서  
- 데이터의 특성과 분포를 **학습**하고 미래 결과를 **예측**하는 방법  
- 즉, 정답을 주고 학습을 시키는 방식  
    - 새로운 입력값에 대한 예측 수행  
- 회귀 (출력값이 수치형)  : 주택가격 예측  
- 분류 (출력값이 범주형)  : 당뇨병 예측 (yes/no)

### 지도 학습 알고리즘  
- 대표적인 분류 알고리즘
    - k-최근접이웃(K-Nearest Neightbor: KNN) 
    - 로지스틱 회귀(Logistic Regression) 
    - 의사결정 트리(Decision Tree)
    - 앙상블 알고리즘  
        - Random Forest (렌덤 포레스트)  
        - XGBoost  
        - GBM / LightGBM   
        
- 대표적인 회귀 알고리즘    
    - 선형 회귀(Linear Regression)       
    - 다항 회귀(Polynomial Regression)   
    - 릿지 (Ridge)  
    - 라쏘 (Lasso)  
    - 엘라스틱 넷 (Elastic Net)  
     

### 비지도 학습 (Unsupervised Learning)
- **결과값(정답) 없이** 입력값만 주고 학습을 시켜 **유사성을 파악**하게 하는 방식 
- 정답이 없는 입력 데이터만 이용하기 때문에 
    - 입력값 자체의 특성과 분포만을 파악해서 그룹핑하는 군집화에 사용하거나  
    - 변수의 복잡성을 낮추기 위한 차원 축소에 주로 사용  
- 패턴, 특성을 발견  
- 예 : 군집화 알고리즘을 이용한 뉴스 그룹핑 / 고객 세그먼테이션   
    
### 비지도 학습 알고리즘  
- 군집분석(Clustering)  
    - K-평균(K-Means)  
    - 계층적 군집 분석(Hierarchical Cluster Analysis,HCA)  
    - DBSCAN  
- 시각화와 차원축소  
    - 주성분 분석(Principal Component Analysis, PCA)  
    - 커널(Kernel) PCA  
    - 지역적 선형 임베딩(Locally-Linear Embedding, LLE)   
- 이상치 탐지  
    - 가우스 분포를 이용한 이상치 탐지  
- 연관규칙(Association Rule)  
    - Apriori  

### 강화 학습
- 행동 심리학에서 나온 이론
- 구체적인 행동에 대한 지시가 없이 목표만 주어짐
- 어떤 일을 잘했을 때 보상을 줘서 어떤 행동이 최선인지를 알게 하는 방식
- 최선의 액션에 대한 보상에 의해 스스로 찾아 학습
- 게임, 로봇 분야

### 광범위한 분류에는 준지도 학습과 전이 학습도 포함

### 준지도 학습(Semi-supervised Learning)  
- 지도 학습 + 비지도 학습  
- 모든 데이터에 항상 정답을 줄 수 있는 것이 아닌 현실을 고려한 접근법   
- 정답이 있는 데이터와 정답이 없는 데이터를 동시에 사용하여 더 좋은 모델을 만들고자 함  
- 항상 최선의 성능이 발휘되는 것은 아니나, 군집 형태에 가까운 경우 좋은 결과를 나타냄  
- 알고리즘  
    - 심층신뢰신경망(DBN)  

### 전이 학습(Transfer Learning) 
- 기존의 학습된 모델을 새로운 문제 해결에 적용하는 학습 방법  
- 이미 잘 훈련된 모델이 있고, 해결하고자 하는 문제가 유사성이 있을 경우, 학습 데이터가 부족한 경우 등에 사용
- 기존의 pre-trained model을 미세 조정하여 사용하는 학습 방법이 대표적

### 머신러닝 워크플로우(Workflow)

- 데이터 수집
  - 유용한 데이터를 최대한 많이 확보
- 데이터 점검 및 탐색 (EDA)
  - 본격적인 데이터 분석을 수행하기에 전에 데이터의 전체적인 특성 파악
    - (수집된 데이터가 적절한지 파악하는 과정) 
    - 기본 정보 확인
    - 목적변수(타겟 변수)와 다른 입력 변수(피처)들 과의 관계 확인
    - 카테고리 특성과의 관계 확인  
    - 결측치 확인 / 이상치 확인
- 데이터 전처리
  - 데이터 클리닝 - 결측치 처리, 잘못된 값 처리
  - 스케일링 - 변수들의 값의 범위를 동일하게 맞추는 것: 표준 스케일링, min-max 스케일링
  - 이상치 처리 - 이상치 탐지 및 제거
  - 데이터 변환 - 로그 변환, 카테고리 인코딩 등
- 모델 생성/학습/예측 수행   
  - 모델 생성 : 머신러닝 알고리즘 선택하여 모델 생성
  - 모델 학습 : 준비된 데이터로 모델 학습
  - 분류 및 회귀 (예측 수행)
  - 하이퍼 파라미터 튜닝을 통해 모델의 성능 극대화 
- 평가
  - 모델의 성능 평가 
  - 학습된 모델을 여러 개 준비하고 각 모델들의 성능을 비교하여 
  - 최종 모델 선정 
- 배포
  - 머신러닝 결과 활용 
    - 서비스로 구현 
    - 모델링을 통해 도출된 인사이트 제공
    - 도출된 인사이트를 기반으로 문제 해결방안/새로운 사업/비즈니스 전략 제공 



#### 인사이트    
- 데이터 분석 또는 AI 모델링 할 때 과정(프로젝트에서) 사용  
- 데이터 분석 내용을 토대로해서 최종적으로 도출해낸 핵심 사항 (핵심 결론)  
- 예 : 커뮤니티를 여러 개 운영하는 사이트  
    - 회원 가입 기간 분석   
    - 분석  
      - 회원별 가입 기간 분석  
      - 회원별 커뮤니티 활동 분석 (가입 커뮤니티 수, 커뮤니티 참여 횟수, 활동 내용)  
    - 인사이트 도출  
        - 커뮤니티를 최소 3개 이상 가입한 회원의 가입 기간이 더 길다   
    - 인사이트 도출 결과를 관련 부서에 제공  
      - 관련 부서에서의 대응 : 커뮤니티 활성화를 위한 대책, 방안   
            - 좀 더 많은 회원이 커뮤니티에 참여할 수 있는 컨텐츠 개발   
        

### 머신러닝 사용 시 주의점
- 머신러닝의 주요 작업이 학습 알고리즘을 선택해서 데이터에 훈련시키는 것인데
- 잘못된 데이터와 알고리즘을 사용해서 오차가 증가하여 정확성이 떨어질 수 있음

--- 
- **나쁜 데이터**  
    - 충분하지 않은 양의 데이터
    - 낮은 품질의 데이터 : 오류, 잡음, 이상치   
    - 연관성이 적은 특성(변수)   
    - 대표성 없는 데이터   
     
    
- **나쁜 알고리즘**  
    - 훈련 데이터 과대적합
        - 모델이 훈련 데이터 세트에 과하게 적합한 상태가 되어 일반성이 떨어지는 현상  
        - 과적합 : 학습 데이터를 과하게 학습해서  테스트 데이터로는 예측 정확도가 높지만  
                - 실제 데이터 적용 시 오차가 증가
        - 과적합이 발생하는 경우  
              - 데이터가 충분하지 못한  경우  
              - 데이터의 분산이 크거나 노이즈(관련성이 없거나 무의미한 데이터, 오류가 많은 데이터 등)가 심한 경우  
              - 모델의 복잡도가 큰 경우 : 변수 종류와 개수가 많거나, 앙상블에서 모델 개수가 많은 경우    
    - 훈련 데이터 과소적합
        - 모델이 훈련 데이터 세트의 규칙을 제대로 찾지 못해 모델의 성능이 낮게 나오는 현상  
        - 모델이 너무 단순한(복잡도가 낮은) 경우  
        - 모델에 너무 많은 규제가 적용된 경우    
    
    
---
- 데이터 의존적 : 잘못되거나 편향적인 데이터를 사용할 경우 왜곡된 결과 산출 (Garbage In, Garbage Out)
- 머신러닝에 대한 환상 : 데이터만 넣으면 자동으로 최적화된 결과를 도출하지 않음
    - 직접 작성한 코드보다 정확성이 떨어질 수 있음


### 머신러닝 사용되는 주요 패키지

- 머신러닝 패키지
    - 사이킷런 (Scikit-Learn)

- 배열/선형대수/통계 패킺
    - NumPy
    - SciPy

- 데이터 핸들링
    - Pandas

- 시각화
    - Matplotlib
    - Seaborn
    
- 딥러닝
    - 텐서플로(Tensorflow)
    - 케라스(Keras)    