# 랜덤 포레스트
학습 전용 데이터를 샘플링해서 여러 개의 의사결정 트리를 만들고, 만들어진 의사결정 트리를 기반으로 다수결로 결과를 결정하는 방법. -> 높은 정밀도 <br>
집단 학습을 기반으로 고정밀 분류, 회귀, 클러스터링 등을 구현하는 머신러닝 알고리즘. <br>
* 의사결정 트리: 트리 구조를 하고 있는 그래프로 예측과 분류를 수행하는 알고리즘 <br>
일반적으로 부정확한 학습 방법이라 약학습 방법으로 분류되지만 집단 학습을 하면 정밀도를 굉장히 높일 수 있다.
<img src="img/img2.jpeg" alt="Scatter" style="width: 600px; height: 300px"/><br>

## 랜덤 포레스트 사용하기
* 데이터 세트: 버섯의 특징을 기반으로 독의 유무를 판정하기 위한 것

### 버섯 데이터 세트 내려받고 CSV 형식으로 파일 저장하기

In [1]:
import urllib.request as req

local = "mushroom.csv"
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/agaricus-lepiota.data"
req.urlretrieve(url, local)
print("ok!!")

ok!!


### 랜덤 포레스트를 사용해 버섯을 분류하는 프로그램

In [7]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
from sklearn.model_selection import train_test_split

# 데이터 읽어 들이기
mr = pd.read_csv("mushroom.csv", header=None)

# 데이터 내부의 기호를 숫자로 변환하기
label = []
data = []
attr_list = []

for row_index, row in mr.iterrows(): # Q) iterrows() ?
    label.append(row.loc[0]) # Q) ix[]: pandas 0.20?부터 사라짐
    row_data = []
    for v in row.loc[1:]:
        row_data.append(ord(v))
    data.append(row_data)

# 학습 전용과 테스트 전용 데이터로 나누기
data_train, data_test, label_train, label_test = \
    train_test_split(data, label)

# 데이터 학습시키기
clf = RandomForestClassifier()
clf.fit(data_train, label_train)

# 데이터 예측하기
predict = clf.predict(data_test)

# 결과 테스트하기
ac_score = metrics.accuracy_score(label_test, predict)
cl_report = metrics.classification_report(label_test, predict)
print("정답률 =", ac_score)
print("리포트 =\n", cl_report)

정답률 = 1.0
리포트 =
               precision    recall  f1-score   support

           e       1.00      1.00      1.00      1069
           p       1.00      1.00      1.00       962

    accuracy                           1.00      2031
   macro avg       1.00      1.00      1.00      2031
weighted avg       1.00      1.00      1.00      2031



### Pandas iterrows() : 행에 대해 순환 반복
첫번째 변수 row_index에 인덱스를 받고, member는 member 열의 행에 하나씩 접근하여 출력
```python
df = pd.DataFrame(
    {'price': [100, 200, 300],
     'weight': [20.3, 15.1, 25.9]},
    index=['idx_a', 'idx_b', 'idx_c'])

>>>
        price weight
idx_a	 100   20.3
idx_b	 200   15.1
idx_c	 300   25.9

## DataFrame.iterrows()
for idx, row in df.iterrows():
    print("** index name:", idx)
    print(row)
    print("------"*5)
    
>>>
[Output]
** index name: idx_a
price     100.0
weight     20.3
Name: idx_a, dtype: float64
------------------------------
** index name: idx_b
price     200.0
weight     15.1
Name: idx_b, dtype: float64
------------------------------
** index name: idx_c
price     300.0
weight     25.9
Name: idx_c, dtype: float64
------------------------------

## accessing to column of each rows by indexing
for idx, row in df.iterrows():
    print(idx)
    print(row['price']) # or print(row[0])
    print("-----")
 
>>>
[Output]
idx_a
100.0
-----
idx_b
200.0
-----
idx_c
300.0
-----

# 출처: https://rfriend.tistory.com/601 [R, Python 분석과 프로그래밍의 친구 (by R Friend)]
```