# 지도학습과 비지도 학습
- 학습: 데이터를 특별한 알고리즘에 적용해 머신러닝 모델을 정의된 문제에 최적화

### 지도 학습(supervised Learning)
- 정답을 알려주면서 진행되는 학습
- 정답, 실제값, 레이블, 타깃, 클래스, y값: 동일한 의미
- 머신러닝 모델을 통해 예측된 값을 예측값, 분류값, Y^ 등으로 표현
- 지도학습늬 예로는 분류(classification)와 회귀(regression)이 대표적

### 비지도학습(Unsupervised Learning)
- 정답(레이블)이 없이 진행되는 학습
- 데이터 자체에서 패턴을 찾아내야 할 때 사용
- 예로는 군집화와 차원축소가 대표적

--- 
# 분류와 회귀
- 분류: 분리된 값
- 회귀: 연속된 값

### 분류(Classification)
- 데이터가 입력되었을 때 지도학습을 통해 미리 학습된 레이블 중 하나 또는 여러개의 레이블로 예측하는 것

##### 이진분류
- 둘 중 하나의 값으로 분류 (sigmoid)

##### 다중분류
- 여러 개의 분류값 중에서 하나로 예측하는 경우 (softmax)

--- 
# 과대적합(overfitting)과 과소적합(underfitting)
- 데이터에서 충분히 특징을 찾아내지 못하고 모델 학습 -> 과소적합이 되기 쉬움
- 필요 이상의 특징으로 학습할 경우 -> 과대적합이 되기 쉬움

##### 과대적합이 더 나쁨

##### 과소적합: 테스트 데이터, 학습데이터 모두 정확도가 낮게 나올 경우 과소적합인 경우가 많음
##### 과대적합
- 학습 데이터보다 테스트 데이터 정확도가 많이 떨어지는 모델
- 데이터의 특징들 수치값을 정규화함으로써 특정 특징에 의한 편향을 줄이는 것도 좋음
- 딥러닝 같은 경우 조기종료(early stopping), 드롭아웃(drop out)을 사용해 과대적합을 피할 수 있다

---
# 혼동행렬(confusion matrix)
- 모델의 성능을 평가할 때 사용하는 지표
- 실제값과 예측값을 비교하여 실제값에 예측값이 어느정도 일치되었는지를 파악
- 모델의 성능은 이 혼동행렬을 기반으로 단 하나의 수치로 표현 가능

# 머신러닝 모델의 성능 평가
### TP(True Positive): 맞은 것을 맞다고 예측
### TN(True Negative): 틀린 것을 틀렸다고 예측
### FP(False Positive): 틀린 것을 맞다고 잘못 예측
### FN(False Negative): 맞은 것을 틀리다고 잘못 예측

# 정확도(Accuracy)
- 가장 일반적인 모델 성능 평가 지표
- 혼동행렬상에서는 TP를 전체 셀로 나눈 값에 해당

In [None]:
def 정확도(ar):
  for i in range(len(ar)):
    if len(ar[i]) != len(ar[0]):
      return '정사각 행렬이 아닙니다.'
  sumall = 0
  tp = 0
  

In [3]:
# make 4x4 array

ar = [[9,1,0,0],[1,15,3,1],[5,0,24,1],[0,4,1,15]]
sumall = 0
tp = 0
for i in range(4):
    for j in range(4):
        if(i == j):
            tp += ar[i][j]
        sumall += ar[i][j]
print(tp/sumall * 100)

78.75


---
# 정밀도
- 각 모델들의 예측값이 얼마나 정확하게 예측 되었는가?
- 2가지 모델의 정밀도: TP / (TP+FP)

In [18]:
def 정밀도(ar):
  #정사각 행렬인지 확인
  for i in range(len(ar)):
    if len(ar[i]) != len(ar[0]):
      return '정사각 행렬이 아닙니다.'
  fp = 0
  tp = 0
  for i in range(len(ar)):
    for j in range(len(ar)):
        if(i == 0 and j == 0): # 암환자 예측의 TP는 죄상단만! 전체 TP는 
            tp += ar[i][j]
        elif(i > j): # 죄하단 - FP
            fp += ar[i][j]
  return (tp / (tp + fp))

In [27]:
ar1 = [[9, 1], [30,60]]
ar2 = [[1,9], [20, 70]]

정밀도(ar1)


0.23076923076923078

In [28]:
정밀도(ar2)

0.047619047619047616

### 재현율(Recall)
- 실제값 중에서 모델이 검출한 실제값의 비율을 나타낸 지표
- 재현율 = TP / (TP + FN)

In [23]:
def 재현율(ar):
  #정사각 행렬인지 확인
  for i in range(len(ar)):
    if len(ar[i]) != len(ar[0]):
      return '정사각 행렬이 아닙니다.'
  fn = 0
  tp = 0
  for i in range(len(ar)):
    for j in range(len(ar)):
        if(i == 0 and j == 0): # 암환자 예측의 TP는 죄상단만! 전체 TP는 
            tp += ar[i][j]
        elif(i ==0 and j == 1): # 우하단 - FP
            fn += ar[i][j]
  return (tp / (tp + fn))

In [29]:
ar1 = [[9, 1], [30,60]]
ar2 = [[1,9], [20, 70]]

print(재현율(ar1))
print(재현율(ar2))


0.9
0.1


### F1점수 (F1 Score)
- 정밀도도 중요하고 재현율도 중요한데 어떤 것을 선택할 지 혼돈시 이 두 값을 조화평균 해서 수치로 나타낸 지표

In [30]:
# F1 of ar1
2 * 정밀도(ar1) * 재현율(ar1) / (정밀도(ar1) + 재현율(ar1))

0.3673469387755102

In [31]:
# F1 of ar2
2 * 정밀도(ar2) * 재현율(ar2) / (정밀도(ar2) + 재현율(ar2))

0.06451612903225806

In [34]:
answer = 'bat.y.abcdefghijklm'
if len(answer) > 15:
    answer = answer[:14]
else:
    pass

answer

'bat.y.abcdefgh'

---
# K-폴드 교차 검증
- r에서 5번 돌려 평균 낸 것처럼 test/train을 k번 나눠서 학습과 테스트 반복
- 데이터가 적은 머신러닝에서 사용하고, 딥러닝에서는 거의 안 씀

In [37]:
def solution(s):
    words = ['zero', 'one', 'two', 'three', 'four', 'five', 'six', 'seven', 'eight', 'nine']
    
    for word in words:
        s = s.replace(word, str(words.index(word)))
    
    return int(s)