# 랜덤 포레스트

In [1]:
# 모듈 불러오기
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
from sklearn.model_selection import train_test_split


# 데이터 읽어 들이기
mr = pd.read_csv("mushroom.csv", header=None)

# 데이터 내부의 기호를 숫자로 변환하기
label = []
data = []
attr_list = [] # 여기선 쓸모 x

# .iterrows()는 Pandas DataFrame에서 각 행(row)을 반복(iterate)하기 위해 사용하는 메서드
for row_index, row in mr.iterrows():
    label.append(row.loc[0])
    row_data = []
    for v in row.loc[1:]:
        # ord() 함수는 문자열에서 단일 문자(길이가 1인 문자열)의 유니코드 코드 포인트(또는 ASCII 값)를 반환
        row_data.append(ord(v))
    data.append(row_data)
    
# 학습 전용과 테스트 전용 데이터로 나누기
data_train, data_test, label_train, label_test = train_test_split(data, label)

# 데이터 학습시키기
clf = RandomForestClassifier()
clf.fit(data_train, label_train)

# 데이터 예측 후 결과 확인하기 
predict = clf.predict(data_test)

ac_score = metrics.accuracy_score(label_test, predict)                 # 정확도 = 올바르게 예측한 샘플 수/ 전체 샘플 수
cl_report = metrics.classification_report(label_test, predict)         # 분류 리포트 = 아래의 항목 출
print("정답률 =", ac_score)
print("리포트 =\n", cl_report)

# precision: 각 클래스에 대해 정밀도를 계산
# recall: 각 클래스에 대해 재현율을 계산
# f1-score: 각 클래스에 대해 F1-score를 계산
# support: 각 클래스의 실제 샘플 수
# accuracy: 전체 정확도
# macro avg: 각 클래스의 성능 지표에 대해 평균
# weighted avg: 각 클래스의 성능 지표에 대해 실제 샘플 수에 비례한 가중 평균을 계산

정답률 = 1.0
리포트 =
               precision    recall  f1-score   support

           e       1.00      1.00      1.00      1035
           p       1.00      1.00      1.00       996

    accuracy                           1.00      2031
   macro avg       1.00      1.00      1.00      2031
weighted avg       1.00      1.00      1.00      2031



In [13]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
from sklearn.model_selection import train_test_split
# 데이터 읽어 들이기
mr = pd.read_csv("mushroom.csv", header=None)
# 데이터 내부의 분류 변수 전개하기
label = []
data = []
attr_list = []
for row_index, row in mr.iterrows():
    label.append(row.loc[0])
    exdata = []
    # enumerate()는 리스트나 시퀀스의 각 원소를 인덱스와 함께 순차적으로 반환하는 함수
    for col, v in enumerate(row.loc[1:]):
        if row_index == 0:
            # 첫번째 행에서 모든 특성(열)에 대한 원핫 인코딩 정보 초기화
            # "dic" = 고유값을 매칭할 수 있는 딕션너리
            # "cnt" = 고유값의 개수를 추적하는 카운터
            attr = {"dic": {}, "cnt":0}
            attr_list.append(attr)
        else:
            # 각 특성에 대해 원핫 인코딩 정보를 재사용
            # attr_list[col]은 col 번째 특성에 대한 원핫 인코딩 정보를 포함
            attr = attr_list[col]
            
        # 버섯의 특징 기호를 배열로 나타내기
        # 특성 값(v)을 고유한 숫자 인덱스로 매핑하는 과정
        # v 값이 이미 매핑되어 있는지 확인하고, 없으면 새로운 고유 인덱스를 할당
        d = [0,0,0,0,0,0,0,0,0,0,0,0]
        if v in attr["dic"]:
            idx = attr["dic"][v]
        else:
            idx = attr["cnt"]
            attr["dic"][v] = idx
            attr["cnt"] += 1
        d[idx] = 1
        exdata += d
    data.append(exdata)

# print(data[:1])

# 학습 전용 데이터와 테스트 전용 데이터로 나누기
data_train, data_test, label_train, label_test = train_test_split(data, label)
# 데이터 학습시키기
clf = RandomForestClassifier()
clf.fit(data_train, label_train)
# 데이터 예측하기
predict = clf.predict(data_test)
# 결과 테스트하기
ac_score = metrics.accuracy_score(label_test, predict)
print("정답률 =", ac_score)

[[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]
정답률 = 1.0


# 데이터를 검증하는 방법

In [15]:
from sklearn import svm, metrics
import random, re

# 데이터 읽어 들이기
lines = open('iris.csv', 'r', encoding='utf-8').read().split("\n")
f_tonum = lambda n : float(n) if re.match(r'^[0-9\.]+$', n) else n
f_cols  = lambda li: list(map(f_tonum,li.strip().split(',')))
csv = list(map(f_cols, lines))

# 첫행은 속성에 대한 값이라 헤더를 제거
del csv[0] # 헤더 제거하기

random.shuffle(csv) # 데이터 섞기

# 데이터를 K개로 분할하기
K = 5
# csvk는 K개의 빈 리스트를 포함하는 리스트
csvk = [ [] for i in range(K) ]
for i in range(len(csv)):
    # 나머지를 사용하여 데이터를 K개의 리스트 중 하나에 분배
    csvk[i % K].append(csv[i])
    
# 리스트를 훈련 전용 데이터와 테스트 전용 데이터로 분할하는 함수
def split_data_label(rows):
    data = []     # 독립변수
    label = []    # 종속변수
    for row in rows:
        data.append(row[0:4])
        label.append(row[4])
    return (data, label)
    
# 정답률 구하기
def calc_score(test, train):
    test_f, test_l = split_data_label(test)
    train_f, train_l = split_data_label(train)
    # 서포트 백터머신으로 학습시키고 정답률 구하기
    clf = svm.SVC()
    clf.fit(train_f, train_l)
    pre = clf.predict(test_f)
    return metrics.accuracy_score(test_l, pre)
    
# K개로 분할해서 정답률 구하기
score_list = []
for testc in csvk:
    # testc 이외의 데이터를 훈련 전용 데이터로 사용하기
    trainc = []
    for i in csvk:
        # 테스트 데이터가 아닌 나머지 데이터를 모두 훈련 데이터로 합치는 역할
        if i != testc: trainc += i
    # calc_score(testc, trainc) 함수는 testc(테스트 데이터)와 trainc(훈련 데이터)를 이용하여 정답률을 계산
    sc = calc_score(testc, trainc)
    score_list.append(sc)
print("각각의 정답률 =", score_list)
print("평균 정답률 =", sum(score_list) / len(score_list))

각각의 정답률 = [0.9666666666666667, 0.9666666666666667, 0.9333333333333333, 1.0, 0.9666666666666667]
평균 정답률 = 0.9666666666666666


In [21]:
import pandas as pd
from sklearn import svm, metrics, model_selection
import random, re

# 붓꽃의 CSV 데이터 읽어 들이기
csv = pd.read_csv('iris.csv')


# 리스트를 훈련 전용 데이터와 테스트 전용 데이터로 분할하기
data = csv[["SepalLength","SepalWidth","PetalLength","PetalWidth"]]
label = csv["Name"]

# 크로스 밸리데이션하기
clf = svm.SVC()

scores = model_selection.cross_val_score(clf, data, label, cv=5)
print("각각의 정답률 =", scores)
print("평균 정답률 =", scores.mean())

각각의 정답률 = [0.96666667 0.96666667 0.96666667 0.93333333 1.        ]
평균 정답률 = 0.9666666666666666


In [61]:
import pandas as pd
from sklearn import svm, metrics
from sklearn.model_selection import GridSearchCV
# MNIST 학습 데이터 읽어 들이기
# header = None 으로 설정해야만 동작 가능
train_csv = pd.read_csv("./mnist/train.csv", header=None)
test_csv = pd.read_csv("./mnist/t10k.csv", header=None)
# train_csv.info()
# 필요한 열 추출하기
train_label = train_csv.loc[:, 0]
train_data  = train_csv.loc[:, 1:577]
test_label  = test_csv.loc[:, 0]
test_data   = test_csv.loc[:, 1:577]
print("학습 데이터의 수 =", len(train_label))


# 그리드 서치 매개변수 설정
params = [
    {"C": [1,10,100,1000], "kernel":["linear"]},
    {"C": [1,10,100,1000], "kernel":["rbf"], "gamma":[0.001, 0.0001]}
]
# 그리드 서치 수행
clf = GridSearchCV( svm.SVC(), params, n_jobs=-1 )
clf.fit(train_data, train_label)
print("학습기 =", clf.best_estimator_)

# 테스트 데이터 확인하기
pre = clf.predict(test_data)
ac_score = metrics.accuracy_score(pre, test_label)
print("정답률 =",ac_score)

학습 데이터의 수 = 1000
학습기 = SVC(C=1, kernel='linear')
정답률 = 0.8642714570858283
