### 임의추출, 층화추출 sampling 및 비교

In [135]:
from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd

In [136]:
rawdata = pd.read_csv("./total_data.csv")

In [137]:
rawdata.head()

Unnamed: 0,title,description,url,data_type,source,ori_label,ori_source,label
0,충청남도 당진시_산업단지 입주기업 현황_20220304,"충청남도 당진시 산업단지 입주 기업 현황입니다.(연번, 단지명, 회사명, 업종명, ...",https://www.data.go.kr/data/15106898/fileData.do,텍스트,충청남도 당진시,산업·통상·중소기업,공공데이터포털,제조소비
1,전라남도 강진군_미곡처리장현황_20221006,"전라남도 강진군 미곡처리장 현황에 대한 데이터로소 시군, 명칭, 소재지, 관리부서,...",https://www.data.go.kr/data/15106993/fileData.do,텍스트,전라남도 강진군,농림,공공데이터포털,식품건강
2,경상남도 거창군_월별 코로나 확진자 현황_20221007,경상남도 거창군 월별 코로나19 관련 확진자 및 사망자 수 현황 데이터로 월별 확진...,https://www.data.go.kr/data/15098865/fileData.do,텍스트,경상남도 거창군,보건,공공데이터포털,보건의료
3,충청남도 부여군_1인당지방세부담액_20221006,상기 데이터는 연도별 주민 1인당 또는 세대 당 부담된 지방세액에 대한 정보로 조...,https://www.data.go.kr/data/15080007/fileData.do,텍스트,충청남도 부여군,재정·세제·금융,공공데이터포털,경제금융
4,전라남도 보성군_담배소매인지정현황_20221006,"전라남도 보성군 담배소매인지정현황에 관한 공공데이터로 업소명, 지번주소, 도로명주소...",https://www.data.go.kr/data/15035564/fileData.do,텍스트,전라남도 보성군,일반공공행정,공공데이터포털,행정법률


In [138]:
rawdata.shape

(127051, 8)

In [139]:
target = list(set(rawdata['label'].values))
print(target)

['통일외교안보', '사회복지', '행정법률', '주택토지', '교육과학', '문화관광', '제조소비', '기타', '경제금융', '식품건강', '교통물류', '보건의료', '환경기상', '재난안전']


In [140]:
# 임의 추출
# train : 80%, test : 20%
train_rnd, test_rnd = train_test_split(rawdata, test_size = 0.2, shuffle=True, random_state=42)

In [141]:
# 층화 추출 (stratify = rawdata['label'])
# train : 80%, test : 20%
train_str, test_str = train_test_split(rawdata, test_size = 0.2, shuffle=True, stratify = rawdata['label'], random_state=42)

In [142]:
# 임의 vs 층화 추출 결과 비교

def label_cat_proportions(rawdata):
    return rawdata["label"].value_counts() / len(rawdata)


compare_props = pd.DataFrame(
    {
        "Random": test_rnd["label"].value_counts(),
        "Stratified": test_str["label"].value_counts(),
        "Overall (%)": label_cat_proportions(rawdata) * 100, # 전체 대비 label
        "Random (%)": label_cat_proportions(test_rnd) * 100, # 임의추출
        "Stratified (%)": label_cat_proportions(test_str) * 100, # 층화추출 
    }
).sort_index()

compare_props["Random %err"] = (
    100 * compare_props["Random (%)"] / compare_props["Overall (%)"] - 100
)
compare_props["Stratified %err"] = (
    100 * compare_props["Stratified (%)"] / compare_props["Overall (%)"] - 100
)

# 층화추출이 전체 데이터의 비율을 좀 더 잘 반영하고 있는 모습
compare_props

Unnamed: 0,Random,Stratified,Overall (%),Random (%),Stratified (%),Random %err,Stratified %err
경제금융,3486,3431,13.504026,13.718468,13.502027,1.587989,-0.014805
교육과학,1917,1937,7.621349,7.543977,7.622683,-1.015199,0.017506
교통물류,2412,2376,9.349789,9.491952,9.350281,1.520501,0.00527
기타,27,35,0.136166,0.106253,0.137736,-21.967775,1.152885
문화관광,2949,2908,11.442649,11.60521,11.443863,1.420662,0.010608
보건의료,908,920,3.619019,3.573256,3.620479,-1.264527,0.040348
사회복지,792,783,3.080653,3.11676,3.081343,1.172083,0.0224
식품건강,1851,1910,7.515092,7.284247,7.51643,-3.071757,0.017798
재난안전,1329,1321,5.199487,5.230018,5.198536,0.587206,-0.018286
제조소비,2209,2254,8.871241,8.693086,8.870174,-2.008231,-0.01202


In [143]:
### 층화추출 X, Y 분리

X_train_strat = train_str.drop('label', axis = 1)
Y_train_strat = train_str['label']

X_test_strat = test_str.drop('label', axis = 1)
Y_test_strat = test_str['label']

In [144]:
X_train_strat.head()

Unnamed: 0,title,description,url,data_type,source,ori_label,ori_source
77789,차량별 전력 사용량 현황 - 2021년08월,"전기버스 충전 전력 이력, SOC, 충전전력, 부하시간대별 전력 사용량(8월)- ...",https://bigdata-region.kr/#/dataset/889f4414-d...,CSV,지역경제,건설에너지,빅데이터지도
59718,2021년 12월 배달앱 관련 키워드에 대한 원문정보,배달앱 관련 키워드에 대한 일별/채널별 원문정보\n- 기간 : 2021.12.01 ...,https://kdx.kr/data/view/32133,"CSV, XLSX",유통,교통통신,빅데이터지도
94439,경상남도 양산시_민방위 경보시설 현황,"경상남도 양산시 민방위 경보시설 (11개소) 현황 데이터를 제공합니다. ( 단말명,...",https://www.data.go.kr/data/15103742/fileData.do,CSV,공공데이터포털,재난안전,빅데이터지도
18388,서울특별시 중구_흡연구역정보_20220405,서울특별시 중구 간접흡연 피해방지 조례 제8조의 2 흡연부스의 설치 등흡연부스의 ...,https://www.data.go.kr/data/15080296/fileData.do,텍스트,서울특별시 중구,보건,공공데이터포털
54233,울산항만공사_선박 입항 관련 통계(톤급별),"울산항만공사 선박 입항 정보입니다. (연도별, 월별, 국적별, 전국, 지역별, 종류...",https://www.data.go.kr/data/15058633/openapi.do,,공공데이터포털,교통통신,빅데이터지도


In [145]:
Y_train_strat.head()

77789    주택토지
59718    교통물류
94439    재난안전
18388    보건의료
54233    교통물류
Name: label, dtype: object

In [146]:
# 층화추출
X_train_strat["label"] = Y_train_strat
X_test_strat["label"] = Y_test_strat

In [147]:
X_train_strat.head(5)

Unnamed: 0,title,description,url,data_type,source,ori_label,ori_source,label
77789,차량별 전력 사용량 현황 - 2021년08월,"전기버스 충전 전력 이력, SOC, 충전전력, 부하시간대별 전력 사용량(8월)- ...",https://bigdata-region.kr/#/dataset/889f4414-d...,CSV,지역경제,건설에너지,빅데이터지도,주택토지
59718,2021년 12월 배달앱 관련 키워드에 대한 원문정보,배달앱 관련 키워드에 대한 일별/채널별 원문정보\n- 기간 : 2021.12.01 ...,https://kdx.kr/data/view/32133,"CSV, XLSX",유통,교통통신,빅데이터지도,교통물류
94439,경상남도 양산시_민방위 경보시설 현황,"경상남도 양산시 민방위 경보시설 (11개소) 현황 데이터를 제공합니다. ( 단말명,...",https://www.data.go.kr/data/15103742/fileData.do,CSV,공공데이터포털,재난안전,빅데이터지도,재난안전
18388,서울특별시 중구_흡연구역정보_20220405,서울특별시 중구 간접흡연 피해방지 조례 제8조의 2 흡연부스의 설치 등흡연부스의 ...,https://www.data.go.kr/data/15080296/fileData.do,텍스트,서울특별시 중구,보건,공공데이터포털,보건의료
54233,울산항만공사_선박 입항 관련 통계(톤급별),"울산항만공사 선박 입항 정보입니다. (연도별, 월별, 국적별, 전국, 지역별, 종류...",https://www.data.go.kr/data/15058633/openapi.do,,공공데이터포털,교통통신,빅데이터지도,교통물류


In [148]:
Y_train_strat.head(5)

77789    주택토지
59718    교통물류
94439    재난안전
18388    보건의료
54233    교통물류
Name: label, dtype: object

In [149]:
# train, vali split
# train : 80%, vali : 20%
X_train_data, X_val_data, Y_train_data, Y_val_data = train_test_split(X_train_strat, Y_train_strat, test_size=0.2, stratify = Y_train_strat, random_state=42)

In [150]:
X_train_data["label"] = Y_train_data
X_val_data["label"] = Y_val_data

In [151]:
# to csv
X_train_data.to_csv("./train_data.csv", index=None)
X_val_data.to_csv("./valid_data.csv", index=None)
X_test_strat.to_csv("./test_data.csv", index=None)

In [152]:
# 검증
print(rawdata.shape, X_train_data.shape, X_val_data.shape,X_test_strat.shape)

(127051, 8) (81312, 8) (20328, 8) (25411, 8)
