<a href="https://colab.research.google.com/github/sominshim/sominshim.github.io/blob/master/%5BKaggle%5D_Costa_Rican_Household_Poverty_Level_Prediction.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Costa Rican Household Poverty Level Prediction

## Introduction to competition

- Train set: 9,557 rows, 142 columns
- Test set: 23,856 rows, 142 columns

Target: 1-4로 빈곤 수준, 1이면 가장 극심한 빈곤 의미.


- 훈련 데이터에 대한 레이블이 함께 제공됨 → **지도 학습 (Supervised)**
- 레이블은 4개의 클래스를 가짐 → **다중 클래스 분류
(Multi-class classification)**

즉 이것은 **지도 다중 클래스 분류 기계학습** 문제이다.


Important note:

모든 가족 구성원이 교육 데이터에서 동일한 레이블을 가져야 하지만 동일 가구의 개인이 다른 레이블을 갖는 오류가 있다. 이러한 경우, parentesco1 == 1.0(가구주)인 값으로 통일시키면 된다.

**Core Data fields**
- Id: 각 개인에 대한 고유 식별자
- idhogar: 각 가구의 고유 식별자. 가구별로 그룹화하는 데 사용.
- parentesco1: 가구주인지의 여부.
- Target: 소득 수준을 나타내는 순서형 목표 변수.
```
1 = extreme poverty 
2 = moderate poverty 
3 = vulnerable households 
4 = non vulnerable households
```


가구 단위로 훈련하기 때문에 가장을 기준으로 가구별로 그룹화해야 한다. 가장이 없는 가구가 있다면 훈련에 사용될 수 없으므로 그 데이터는 제거가 필요하다.

# F1 score

F1 score: 분류 문제에 대한 정밀도와 재현율의 조화 평균.

$$F1 = {2*precision*recall \over precision + recall}$$

다중 클래스 문제의 경우 각 클래스의 F1 점수를 평균화해야 한다. 매크로 F1 점수는 레이블 불균형을 고려하지 않고 각 클래스의 F1 점수를 평균화한다.

$$Macro F1 = {F1 Class 1 + F1 Class 2 + F1 Class 3 + F1 Class 4 \over 4}$$

average{‘micro’, ‘macro’, ‘samples’,’weighted’, ‘binary’} or None, default=’binary’

이 매개변수는 multiclass/multilabel Target에 따라 다르게 적용해야 한다. 
- `'binary'`: default, only **binary**.

- `None`: 클래스 별 f1-score 반환. 

- `'macro'`: **각 class에 대한** f1-score 계산 후, 평균 값.

- `'weighted'`: **각 class에 대한** f1-score 계산 후, 각 클래스 별 데이터 비율에 따른 가중 평균 값.
    - it can result in an F-score that is not between precision and recall.

- `'micro'`: **전체 class에 대한** TP/FP/FN을 합산 후 f1-score 계산.
- `'samples'`: **각 label**의 f1-score 평균 값. (multilabel classification)

![](https://miro.medium.com/max/1400/1*JqzG5_K4fWLa-_VFswQbxQ.png)

![그림](https://miro.medium.com/max/739/1*ytdBywq7W65GyMqvx33PYQ.png)

- Macro-F1 = (42.1% + 30.8% + 66.7%) / 3 = 46.5%


- Weighted Average F1-score = (6 × 42.1% + 10 × 30.8% + 9 × 66.7%) / 25 = 46.4%

### Micro f1-score

    TP = 4+2+6 = 12 (대각선을 따라 녹색 셀)

    FP = 6+3+1+0+1+2 = 13

    FN = 6+3+1+0+1+2 = 13
---

정밀도 = TP/(TP+FP) = 12 / (12+13) = 48.0%

재현율 = TP/(TP+FN) = 12 / (12+13) = 48.0%

따라서 micro-f1 = 2*(48 * 48)/(48+48) = 48%
== 전체 정확도

In [1]:
from sklearn.metrics import f1_score

y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]

f1_macro = f1_score(y_true, y_pred, average='macro')
f1_micro = f1_score(y_true, y_pred, average='micro')
f1_weighted = f1_score(y_true, y_pred, average='weighted')
f1_none = f1_score(y_true, y_pred, average=None)

In [3]:
print(f1_macro)
print(f1_micro)
print(f1_weighted)
print(f1_none)

0.26666666666666666
0.3333333333333333
0.26666666666666666
[0.8 0.  0. ]


# 