# 머신러닝 모델의 처리 패턴

## 1. AI와 머신러닝의 관계

AI는 목적에 해당하며, 머신러닝은 AI를 실현하기 위해 현재 가장 유력시 되는 수단.

- 모델 : 입력을 받아 유용한 출력을 내놓는 AI 프로그램.
수학적으로는 함수와 같이 동작하는 블랙박스.
머신러닝은 '학습'이라는 수단을 통해 모델을 만듬.

- 학습 : 학습 데이터를 사용해 바람직한 행동을 하는 모델을 만드는 일.

## 2. 머신러닝의 세 가지 학습 방식

### 1) 지도 학습

**'문제의 답'을 아는 상태에서 학습을 진행하는 것이 특징.**

지도 학습에는 일반적으로 정답 데이터를 가진 상태에서 모델을 최적화하는 '학습 단계'와
정답을 모르는 상태에서 이미 학습된 모델의 출력을 예측 결과로 삼는 '예측 단계'가 있음.

처음 보는 데이터에 대해 적절한 예측 결과를 출력하는 것이 모델의 목적.

지도 학습은 '학습 단계에서 정답 데이터를 반드시 함께 제공' 해야 하고
정답 데이터를 사람이 직접 만들어야 하는 경우에는 '정답 데이터를 만드는 작업(라벨링)'에 큰 수고가 들지만,
그만큼 중요한 작업.

#### 지도 학습에 속하는 처리 패턴

지도 학습은 머신러닝에서 가장 널리 쓰이는 학습방식.

예측하려는 값이나 입력값의 종류에 따라 '분류', '회귀', '시계열 분석'의 세 가지 처리 패턴이 있음.

##### 1) 분류

'어떤 그룹에 속하는지'가 예측 대상.

>예를 들어 은행의 전화 영업 업무에서 고객 정보를 입력받아 해당 고객에 대한 전화 영업의 성공 여부를 예측하는 모델이 있는 경우 예측 결과에서 정보가 입력된 고객의 AI의 판단에 따라 '계약 성공' 혹은 '계약 실패' 두 그룹중 하나로 분류.

AI가 사람 대신 판단을 수행해주기 때문에 실무에서도 가장 많이 쓰이는 패턴.

영업 성공 예측 모델은 '계약 성공'과 '계약 실패'로 그룹이 두 가지뿐(이진 분류)이지만, 분류 그룹이 세 개 이상인 경우도 있으며, 이런 경우를 '다중 분류'라고 함.

다중 분류는 딥러닝이 발전하면서 이미지나 텍스트를 대상으로 많이 사용.

##### 2) 회귀

출력값이 '속하는 그룹'이 아니라 수치를 예측하는 모델.

>예를 들어 자전거 대여 회사의 자전거 이용 수를 예측하는 모델로, 요일, 날씨, 풍속 등을 통해 자전거 이용 수의 변동을 예측.

자전거 이용 수를 정확히 예측한다면 담당자의 수를 결정하거나 자전거가 부족할 경우 예비 자전거를 준비하는 등의 조치를 취할 수 있음.

>케이크 가게의 '케이크 판매 수', 테마파크의 '입장객 수'처럼 수치를 정확하게 예측해 업무적인 효과를 볼 수 있는 다양한 유스케이스에 회귀를 활용할 수 있음.

##### 3) 시계열 분석

특정한 값의 과거 데이터를 입력해 미래의 값을 예측하는 것.

수치를 예측한다는 점에서는 회귀와 같지만, 원칙적으로 다른 값을 사용하지 않고 자기 자신의 과거 데이터를 입력.

>예를 들어 한 종목의 몇년간 주가 변동 자료를 가지고 미래의 주가를 예측.

### 2) 비지도 학습

**정답 데이터 없이 학습을 진행하는 방식.**

지도 학습과 비교하면 난이도가 높으며 적용 범위도 한정적.

비지도 학습에는 지도 학습처럼 학습 단계와 예측 단계의 구분이 없음. 

데이터를 입력하면 곧바로 출력이 나옴.

비지도 학습은 머신러닝 기법의 한 종류지만, 일종의 데이터 분석이라고 볼 수도 있음.

#### 비지도 학습에 속하는 처리 패턴

지도 학습의 최종 목적은 '미지의 데이터에 대한 결과를 예측'하는 것이라면
비지도 학습은 **'이미 알고 있는 데이터에 대한 분석 결과를 얻는' 것.**

다만 구체적으로 어떤 분석이 될지는 출력 데이터의 종류에 따라 전혀 달라질 수 있으며
각각이 별개의 처리 패턴이 됨.

##### 1) 연관 분석

연관 분석은 **'장바구니 분석'**이라고도 하며,
>고객이 여러 가지 상품을 동시에 구입 가능한 상황에서 상품의 어떤 조합이 연관 관계가 큰지
(A라는 상품을 구입한 고객이 또 다른 B라는 상품을 동시에 구입할 가능성이 높은지)를 수학적으로 분석하는 기법.

연관 분석은 그 결과에 따라 어떤 대책을 실행해야 분석을 수행한 의미가 있음.

>예를 들어 고객의 편의를 위해 연관도가 높은 상품을 가까이 배치한다거나,
언뜻 잘 팔리지 않을 것 같은 상품이 고가의 다른 상품과 연관도가 높다는 걸 알고 해당 상품을 철수 하지 않는 것.

##### 2) 클러스터링

지도 학습의 분류와 **같은 그룹 나누기를 정답 데이터 없이 수행**하는 처리 패턴.

>예를 들어 고객의 구매 이력 데이터를 보고 고객을 4개의 그룹(그룹 0 ~ 3)으로 분류할 수 있음

    그룹 0 : (신선식품) 신선식품 구매액이 높은 그룹
    그룹 1 : (식품) 식료품 구매액이 높은 그룹
    그룹 2 : (대량) 전체 구매액이 높은 그룹
    그룹 3 : (소량) 전체 구매액이 낮은 그룹

>각 그룹의 특징을 파악하고 나면 특정 그룹을 타깃으로 삼는 대책(예를 들어 그룹 1을 대상으로
신선식품 특판을 실행하는 등)을 생각할 수 있음.

이런 식으로 대책의 근거가 되는 정보를 알아내는 것이 클러스터링의 목적 중 하나.

클러스터링 결과를 가치있게 이용하려면 사람이 직접 그룹의 특징을 발견해야 함.

기술통계나 시각화 등 그룹의 특성을 어떻게 발견하고,
발견한 특성을 어떻게 다시 비지니스 활용할 것인가는 분석가(도메인 전문가)의 역량에 달림.

##### 3) 차원 축소

>체중만으로 어떤 사람이 비만인지 아닌지를 판정할 수는 없음.
키가 크다면 체중이 많이 나가더라도 비만이라 할 수 없음.
이 점에 착안해 체중과 키라는 두 가지 값에서 BMI라는 수치를 계산하는 아이디어가 나옴.
BMI 값 하나만 보면 키와 상관없이 비만도를 판단할 수 있음.

차원 축소는 **이와 같은 아이디어를 머신러닝의 처리 패턴**으로 만든 것.

머신러닝 모델은 적게는 수십 가지, 많게는 수백 가지에 이르는 입력 필드를 다룸.

하지만 필드 수가 너무 많으면 사람이 데이터의 상황을 제대로 파악하기 어려움.

    구체적으로는 다차원을 2차원 또는 3차원으로 축소해 
    그 결과를 산점도로 만들어 시각화하는 방식으로 많이 쓰임.

### 3) 강화 학습

* 강화 학습과 지도학습, 비지도 학습과의 차이

에이젼트(모델)과 환경의 상호 작용을 전제로 함.

모델의 출력은 환경에 대한 조작의 형태.

모델은 관측을 통해 '조작'의 결과로 환경이 어떻게 변화했는지 알 수 있음.

'관측'과는 별개로 비정기적으로 '보상'이 주어지는데, 이 보상이 정답에 해당.

그러나 정답은 '조작'으로 부터 어느 정도 시간이 흐른 후에 알 수 있음.

>강화 학습은 딥러닝 알고리즘과 함께 '게임을 플레이하는 프로그램', '로봇 제어', '바둑 AI'등 다양한 분야에서 활용됨.

# 머신러닝 모델을 개발하는 순서

## 1) 데이터 읽어 들이기

머신러닝에서 사용할 데이터를 파이썬에서 다루려면 먼저 데이터를 불러와야 되는데, 크게 3가지로 나눔.

* CSV 파일로부터 읽어 들이기
가장 표준적인 방법. read_csv() 사용.

* 함수를 호출해 읽어 들이기
공부의 경우 머신러닝에서 자주 사용되는 데이터 집합은 라이브러리에서 데이터를 읽어 들이기 위한 함수가 따로 제공됨.
이 경우 함수만 호출하면 데이터를 읽어 들일 수 있음.

* ZIP 파일을 내려받는 방법
학습 데이터가 ZIP 파일로 압축된 형태로 인터넷에 배포되기도 함.

## 2) 데이터 확인

데이터를 읽어 들인 후에는 읽어 들인 데이터의 상태를 확인해야 함.

info() 메서드를 호출하거나, df.head()로 읽어 들인 데이터의 처음 다섯 줄의 내용을 확인하는 방법이 가장 넓리 쓰임.

또 입력 데이터에서 특정한 두 필드를 골라 이 값들을 산점도를 그리는 방법도 사용.

이 외에도 필드별로 누락값의 유무나 평균, 분산 같은 통계 정보를 확인하는 방법도 있음.

## 3) 데이터 전처리

파이썬에 읽어 들인 표 형태의 데이터는 그대로 머신러닝 모델에 입력할 수 없음.

알기 쉽게 설명하자면, 머신러닝 모델에 입력하는 데이터는 수치 데이터여야 함.

따라서 '남자' 혹은 '여자' 같은 값은 1과 0 등의 수치로 먼저 변환해야 함.

또 표 형태의 데이터에 누락 값이 있는 경우에도 이런 누락 값이 모델에 입력되는 않게 손질이 필요.

이렇게 머신러닝 모델에 입력할 수 있게 데이터를 정돈하는 과정을 '데이터 전처리'

## 4) 데이터 분할

일반적으로 데이터에서 특정 필드(칼럼)가 모델에서 예측하려는 값(정답 데이터)이고
나머지 필드가 예측에 사용되는 입력값(입력 데이터)가 됨.

또 정답 데이터가 들어갈 변수는 목적변수, 입력 데이터가 들어가는 변수는 입력변수라 부름.


머신러닝에서는 학습에 사용할 데이터(학습 데이터)와 평가에 사용할 데이터(검증 데이터)를 나누어 정확도를 평가하는 경우가 많음.

머신러닝 분류 모델은 정확하게 예측한 데이터의 비율인 정확도 Accuracy를 기준으로 모델의 성능을 평가.

그러나 학습에 사용했던 데이터를 평가에 그대로 사용하는 것은
시험에서 커닝하는 것과 마찬가지이므로 정확도를 평가하기에 적절하지 않음.

실제로도 머신러닝 모델에서 학습에 사용된 데이터에는 100%에 가까운 정확도를 보이면서도
그 외의 데이터는 정확도가 잘 나오지 않는 경우가 있음.

이러한 현상을 과적합 overfitting 이라고 함.
과적합은 머신러닝 모델을 만들 때 가장 주의해야 할 사항.


이러한 연유로 정답을 이미 알고 있는 데이터를 학습용과 검증용 두 그룹으로 나눠
학습 데이터로 모델을 학습시키고 검증 데이터로 정확도를 평가하자는 아이디어가 제안.

표 형태의 데이터는 '학습 데이터'와 '검증 데이터', 즉 상하로 분할되는 형태가 되고 이것을 데이터 분할.

## 5) 알고리즘 선택하기

알고리즘은 모델을 구현하기 위한 처리 방법.

처리 패턴마다 다양한 알고리즘이 있고 이 중 적절한 알고리즘을 선택하는 것이 '알고리즘 선택' scikit-learn 등의 라이브러리에서는 알고리즘이 완전히 블랙박스로 되어 있어

단순히 몇 가지 초기 파라미터를 지정해 라이브러리를 호출하면 쉽게 머신러닝 모델을 학습할 수 있음.

하지만 어떤 알고리즘을 선택할지는 명시적으로 지정해줘야 함.


알고리즘을 선택할 때 파라미터 설정이 필요한 경우도 있어서 알고리즘 선택과 함께 파라미터를 지정하면 됨.

## 6) 학습

머신러닝에서 가장 중요한 과정인 '학습'을 실제로 수행하는 단계.

사전 준비를 잘 마쳤다면 실제 학습은 fit() 함수를 한번 호출하는 것으로 끝남.

데이터 분할에서 학습 데이터와 검증 데이터를 분할했다면 학습에는 학습 데이터만 사용.

## 7) 예측

학습과 마찬가지로 predict()함수를 한 번 호출하는 것으로 끝.

예측은 엄밀히 말해 정확도를 평가하기 위해 학습과 동시에 실시하는 경우와
정답을 알지 못하는 데이터에 대해 실제 예측을 위해 실시하는 두 가지가 있음.

여기서 말하는 예측은 전자를 의미.

검증 데이터에 대해 예측을 실시한 후 평가 단계에서 이 예측 결과와 정답 데이터를 사용.

## 8) 평가

모델의 좋고 나쁨은 검증 데이터에 포함된 정답 데이터와 모델의 예측 결과가 얼마나 가까운지로 결정.

가까운 정도를 수치로 나타내기 위한 다양한 평가 방법이 있음.

업무와 데이터의 여건에 따라 알맞은 방법을 선택해 사용.

## 9) 튜닝

평가 결과 업무에 바로 활용할 수 있을 정도의 정확도가 나왔다면 문제가 없지만,
그런 경우는 드물고 대개 업무에 활용하려면 정확도를 더 향상시켜야 함.

이런 상황에서 시행착오를 통해 성능을 향상시키는 단계가 '튜닝'

구체적인 방법으로는 '알고리즘 선택', '파라미터 튜닝', '특징값 최적화'등이 있음.

주의할 점은 모든 모델 개발에서 이 모든 단계가 필요한 것은 아니고,
상황에 따라 적절히 특정 단계를 생략할 수 있음.

# 머신러닝 모델 알아보기

## 1. 머신러닝 모델이란?

1) 머신러닝 모델 만들기 = 함수 만들기
머신러닝 모델은 함수와 비슷.
함수에 값을 입력하면 규칙에 따라 계산한 값을 출력하듯이
머신러닝 모델도 값을 입력하면 정해진 규칙에 따라 계산한 예측 값을 출력.

머신러닝이 함수와 다른 점은 만드는 방법.
함수를 만들 때는 사람이 계산 규칙을 정해 입력.
머신러닝 모델을 만들 때는 사람이 계산 규칙을 정하지 않고 컴퓨터가 데이터에서 패턴을 찾아 스스로 규칙을 정하게 함.

예를 들어 환자의 정보를 입력하면 당뇨병 발병 여부를 예측하는 모델을 만든다면,
사람이 해야 할 일은 여러 환자의 정보와 당뇨병 발병 여부 데이터를 수집해 머신러닝 알고리즘에 입력하는 거 뿐.
컴퓨터가 환자의 정보와 당뇨병 발병 간의 패턴을 찾아낸 다음
환자의 정보를 입력하면 당뇨병 발병 여부를 출력하는 모델을 만듬.
어떤 사람의 당뇨병 발생 여부를 알고 싶다면 환자의 정보를 모델에 입력하기만 하면 됨.

2) 예측 변수와 타겟 변수
머신러닝 모델을 만들 때 두 종류의 변수를 사용.
* 예측 변수 predictor variable : 예측하는 데 활용하는 변수 또는 모델에 입력하는 값.
* 타겟 변수 target variable : 예측하고자 하는 변수 또는 모델이 출력하는 값.
만약 환자의 성별, 나이, 흡연 여부, 음주 여부로 당뇨병 발병을 예측하는 모델을 만든다면
성별, 나이, 흡연 여부, 음주 여부는 예측변수로 사용하고, 당뇨병 발병 여부는 타겟 변수로 사용.

3) 머신러닝 모델을 이용해 미래 예측하기
머신러닝 모델은 미래의 값을 예측하는 용도로 자주 사용.
과거의 값을 예측 변수로 사용하고 미래의 값을 타겟 변수로 사용하면 미래를 예측하는 모델을 만들 수 있음.
예를 들어 현재 환자의 신체, 생활 정보를 입력하면 3년 뒤의 당뇨병 발병 여부를 예측하는 모델을 만들 수 있음.

머신 러닝 모델은 다양한 사업 영역에서 미래를 예측하는 데 활용.
온라인 커머스는 고객이 구매할 가능성이 높은 상품을 예측해 추천.
마케팅사는 서비스에 가입할 가능성이 높은 이용자를 예측해 홍보 전화를 검.
금융사는 고객이 대출금을 제때 상환할지 예측해 대출 승인 여부를 결정.
반도체 공장은 설비 고장을 예측해 설비가 고장 나기 전에 미리 정비.

## 2. 의사결정나무 모델

머신러닝 모델중 의사결정나무 모델은 구조가 단순하고 작동 원리를 이해하기 쉬워 여러분야에 사용.
규모가 크고 복잡한 모델도 의사결정나무 모델에 기반을 두고 만들어 지는 경우가 많음.

1) 의사결정나무 모델이란?
의사결정나무 decision tree 모델은 마치 스무고개 놀이 처럼 순서대로 주어진 질문에
yes / no로 답하면 마지막에 결론을 얻는 구조.
질문이 나열된 모양이 가지를 뻗은 '나무'와 비슷하고,
예측값을 무엇으로 할지 '의사 결정'해 주기 때문에 의사결정나무하는 이름을 가지고 있음.

2) 의사결정나무 모델을 이용해 예측하기
의사결정나무 모델을 만들면 yes / no로 답할 수 있는 질문 목록을 갖게 됨.
새 데이터가 주어졌을 때 질문 목록에 따라 순서대로 답을 하면 최종적으로 둘 중 한 가지 값을 부여받게 됨.

3) 의사결정나무 모델이 만들어지는 원리
4가지 예측 변수로 당뇨병 발병 여부를 예측하는 모델을 만든다고 가정을 하고
모델이 만들어지는 과정을 단계별로 살펴봄.

예측 변수 : 흡연 여부, 음주 여부, 성별, 나이
타겟 변수 : 당뇨병 발병 여부

1단계 : 타겟 변수를 가장 잘 분리하는 예측 변수 선택하기
의사결정나무 모델은 어떤 순서로 어떤 질문을 할지 정하는 과정을 거쳐 만들어짐.
가장 먼저 첫 질문을 할 때 예측 변수 중에서 무엇을 사용할지 정함.
의사결정나무 알고리즘은 '타겟 변수를 가장 잘 분리해 주는 예측 변수'를 찾아 첫 질문으로 함.

예를 들어
a. 모든 예측 변수를 YES/ NO로 답할 수 있는 질문으로 만듬.
'흡연여부'는 '흡연을 하십니까?'
'음주여부'는 '음주를 하십니까?'
'성별'은 '남자입니까?' 또는 '여자입니까?'의 형태로 만듬.

b. 모델을 만드는데 사용할 데이터를 앞에서 만든 각각의 질문에 대입한 다음 'YES'로 답한 데이터만 추출.

c. 추출한 데이터 중 발병인과 정상인의 비율을 구함.
발병인과 정상인의 비율 차이가 크면 클수록 예측 변수가 타겟 변수를 잘 분리한다고 볼 수 있음.
흡연 여부, 음주 여부, 성별은 범주 변수이므로 yes / no로 답할 수 있는 질문을 바로 만들 수 있지만
나이와 같은 연속 변수는 질문을 바로 만들 수 없음.
이 경우에는 몇 세를 기준으로 질문할지 정해야 함.
'18세 이하인가?', '19세 이하인가?', ..., '60세 이하인가? 같은 모든 경우의 수대로 질문 후보를 만들어 비교.
그 중에 발병인과 정상인의 비율 차이가 큰 질문을 선택.

각 질문중 발병인과 정상인의 비율 차이가 큰 질문이 첫 번째 질문에 사용.

2단계 : 첫 번째 질문의 답변에 따라 데이터를 두 노드로 분할하기.
질문의 답변이 같아서 함께 분류된 집단을 노드 node 라고 함.
노드는 의사결정나무 도식에 사각형으로 표현.
전체 데이터를 첫 번째 질문의 답변에 따라 서로 다른 노드로 보냄.

3단계 : 각 노드에서 타겟 변수를 가장 잘 분리해 주는 예측변수를 선택.
1단계 작업을 노드 별로 반복.
'흡연 여부'를 사용했면 이를 제외하고 나머지 변수 중에서 타겟 변수를 가장 잘 분리해 주는 두 번째 예측 변수를 찾음.

4단계 : 노드가 완벽하게 분리될 때까지 반복하기
노드에 한 범주만 남아 완벽하게 분리될 때까지 변수를 선택하고 노드를 분할하는 과정을 반복.
노드에 발병과 정상 중 한 쪽 범주만 남으면 분할을 종료.

## 3. 의사결정나무 모델의 특징

1) 노드마다 분할 횟수가 다르다.
예측 변수를 선택하고 노드를 분할하는 횟수가 노드마다 다르므로 가지가 뻗어 나간 횟수도 노드마다 제각각.
어떤 노드는 다섯 번 분할해야 한 범주가 남지만 어떤 노드는 두 번만에 한 범주만 남을 수 있음.
따라서 모든 사람에게 같은 횟수로 질문하는게 아니라 앞의 질문에 어떻게 답변했는지에 따라 서로 다른 횟수로 질문하게 됨.

2) 노드마다 선택되는 예측 변수가 다르다.
예측 변수 선택 작업을 노드별로 따로 하므로 노드마다 선택되는 변수가 다름.
예를 들어 흡연자에게는 '음주 여부'가. 비흡연자에게는 '나이'가 타겟 변수를 가장 잘 분리해주는 예측 변수일 수 있음.
모든 사람에게 일괄적으로 같은 질문을 하는 게 아니라 앞의 질문에 어떻게 답변했는지에 따라 서로 다른 질문을 하게 됨.

3) 어떤 예측 변수는 모델에서 탈락한다.
어떤 예측 변수는 노드를 분할하는 과정에서 한 번도 선택되지 않아 모델에서 탈락할 수 있음(사용되지 않을 수 있음).
예를 들어 당뇨병 발병 예측 모델을 만들 때 '발 크기' 변수는 타겟 변수를 분리해주는 정도가 다른 변수보다
항상 떨어져서 분할을 종료할 때까지 한 번도 선택되지 않을 수 있음.
따라서 데이터에 있는 모든 변수를 예측에 사용하는 게 아니라 일부는 사용하고 일부는 제외하게 됨.