## 설문조사 단일항목(산림엑스포 설문) 데이터 전처리

데이터수집 - 전처리 - 분석 - 결과도출 순으로 진행

In [4]:
import math # NaN값 구별때문에 import
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import plotly.express as px
import numpy as np

# matplotlib 한글 글꼴 설정
plt.rc('font', family='Malgun Gothic')

# 모든 열이 생략되지 않도록 설정
pd.set_option('display.max_columns', None)

# 테마 컬러맵 미리 정의
color_scale = ['rgb(5,31,69)',
               'rgb(8,48,107)',
               'rgb(11,62,138)',
               'rgb(8,81,156)',
               'rgb(7,90,176)',
               'rgb(33,113,181)',
               'rgb(66,146,198)',
               'rgb(81,157,207)',
               'rgb(107,174,214)',
               'rgb(158,202,225)',
               'rgb(198,219,239)',
               'rgb(222,235,247)',
               'rgb(247,251,255)']

### 응답자 특성 설문
| `문항` | `보기` |
|:---------:|:---------:|
| <b>`성별`<b> | ①남성    ②여성 |
| <b>`연령`<b>   | ①10대(15세이상)    ②20대   ③30대   ④40대   ⑤50대   ⑥60대이상, 추가설문 : 출생년도(___)년 |
| <b>`학력`<b>   | ①초등학교 졸업(무학 포함)    ②중학교 재학   ③중학교 졸업   ④고등학교 재학   ⑤고등학교 졸업<br>   ⑥대학교 재학    ⑦대학교 졸업    ⑧대학원 재학(석사 또는 박사) ⑨ 대학원 졸업(석사또는 박사) |
| <b>`거주지역`<b>   | ①서울    ②부산   ③대구   ④인천   ⑤광주   ⑥대전    ⑦울산    ⑧세종   ⑨경기<br>   ⑩강원   ⑪충북   ⑫충남   ⑬전북   ⑭전남   ⑮경북   ⑯경남   ⑰제주 |
| <b>`직업`<b>   | ①산림임업종사자    ②사무종사자   ③서비스종사자   ④판매종사자   ⑤기술기능종사자   ⑥단순노무종사자    ⑦전문가(교수 포함)<br>    ⑧경영직종사자   ⑨자영업자(개인사업자)   ⑩공무원(교사포함)   ⑪학생(대학원생포함)   ⑫전업주부   ⑬기타(___) |

In [5]:
# 응답자 특성 딕셔너리
Resp_Character = {
    '성별': {1: '남성', 2: '여성'},
    '연령': {1: '10대(15세이상)', 2: '20대', 3: '30대', 4: '40대', 5: '50대', 6: '60대이상'},
    '학력': {1: '초등학교 졸업(무학 포함)', 2: '중학교 재학', 3: '중학교 졸업', 4: '고등학교 재학', 5: '고등학교 졸업', 6: '대학교 재학', 7: '대학교 졸업', 8: '대학원 재학(석사 또는 박사)', 9: '대학원 졸업(석사또는 박사)'},
    '거주지역': {1: '서울', 2: '부산', 3: '대구', 4: '인천', 5: '광주', 6: '대전', 7: '울산', 8: '세종', 9: '경기', 10: '강원', 11: '충북', 12: '충남', 13: '전북', 14: '전남', 15: '경북', 16: '경남', 17: '제주'},
    '직업': {1: '산림임업종사자', 2: '사무종사자', 3: '서비스종사자', 4: '판매종사자', 5: '기술기능종사자', 6: '단순노무종사자', 7: '전문가(교수 포함)', 8: '경영직종사자', 9: '자영업자(개인사업자)', 10: '공무원(교사포함)', 11: '학생(대학원생포함)', 12: '전업주부', 13: '기타'}}

In [6]:
# 산림엑스포 설문데이터 로드 및 응답자 특성 매핑
df_expo = pd.read_excel('dataset/전국민 산림문화 인식 및 태도 향유실태 조사_산림엑스포_230922.xlsx', sheet_name="DATA")
df_expo['SQ1'] = df_expo['SQ1'].replace(Resp_Character['성별'])
df_expo['SQ2_1'] = df_expo['SQ2_1'].replace(Resp_Character['연령'])
df_expo['SQ3'] = df_expo['SQ3'].replace(Resp_Character['학력'])
df_expo['SQ4'] = df_expo['SQ4'].replace(Resp_Character['거주지역'])
df_expo['SQ5'] = df_expo['SQ5'].replace(Resp_Character['직업'])
# 응답자 특성 5번항목의 '기타'항목자 처리
df_expo['SQ5_13_ETC'] = df_expo['SQ5_13_ETC'].fillna('')
# 연도 column float to int 변환
df_expo['SQ2_2'] = ['' if np.isnan(i) else int(i) for i in df_expo['SQ2_2']]

# 일반국민 설문데이터 로드 및 응답자 특성 매핑
df_common= pd.read_excel('dataset/전국민 산림문화 인식 태도 향유실태 조사_일반국민_230530.xlsx', sheet_name="DATA")
df_common['SQ1'] = df_common['SQ1'].replace(Resp_Character['성별'])
df_common['SQ2_1'] = df_common['SQ2_1'] - 1
df_common['SQ2_1'] = df_common['SQ2_1'].replace(Resp_Character['연령'])
df_common['SQ3'] = df_common['SQ3'].replace(Resp_Character['학력'])
df_common['SQ4'] = df_common['SQ4'].replace(Resp_Character['거주지역'])
df_common['SQ5'] = df_common['SQ5'].replace(Resp_Character['직업'])
# 응답자 특성 5번항목의 '기타'항목자 처리
df_common['SQ5_13_ETC'] = df_common['SQ5_13_ETC'].fillna('')

## Q1. 귀하가 강원세계산림엑스포에 참여하는 참여동기는 무엇입니까? - 빈도분석

In [7]:
# 매핑 딕셔너리 정의
Q1_map = {'1': '휴식 및 건강증진',
        '2': '자기계발',
        '3': '산림에 대한 소양증진(지식,정보등 습득)',
        '4': '즐겁고 재미난 체험',
        '5': '자연(산림) 감수성함양',
        '6': '가족과의 시간',
        '7': '대인관계형성',
        '8': '창작활동에 대한 기대',
        '9': '지역의 독특한 자연 또는 문화체험',
        '10': '기타'}

# 데이터프레임에서 'Q1_1' 열과 'Q1_2' 열의 빈도분석을 수행
frequency1_1 = df_expo['Q1_1'].value_counts().reset_index()
frequency1_1.columns = ['값', '1순위']

frequency1_2 = df_expo['Q1_2'].value_counts().reset_index()
frequency1_2.columns = ['값', '2순위']

# '값' 열의 값을 딕셔너리를 사용하여 일괄적으로 변경하는 함수 정의
def map_val(series, dic):
        lst = []
        for value in series:
                if str(value).isdigit():
                        lst.append(dic[str(value)])
                else:
                        lst.append(value.replace('10', '기타'))
        return lst
        
frequency1_1['값'] = map_val(frequency1_1['값'], Q1_map)
frequency1_2['값'] = map_val(frequency1_2['값'], Q1_map)

In [8]:
# '값' column을 기준으로 데이터프레임을 병합
frequency1_C = pd.merge(frequency1_1, frequency1_2, on='값', how='outer')
frequency1_C.fillna(0, inplace=True)
frequency1_C['2순위'] = frequency1_C['2순위'].astype(int)
# '1순위'와 '2순위' 빈도를 합산
frequency1_C['1순위+2순위_빈도'] = frequency1_C['1순위'] + frequency1_C['2순위']
frequency1_C = frequency1_C[['값', '1순위+2순위_빈도']]
frequency1_C.sort_values('1순위+2순위_빈도', ascending=False, inplace=True)
frequency1_C

Unnamed: 0,값,1순위+2순위_빈도
3,즐겁고 재미난 체험,37
0,휴식 및 건강증진,35
1,"산림에 대한 소양증진(지식,정보등 습득)",33
2,지역의 독특한 자연 또는 문화체험,33
4,자기계발,17
9,자연(산림) 감수성함양,17
6,대인관계형성,14
5,기타(업무),7
7,기타(학과행사),6
8,기타(체험학습),5


In [36]:
# 빈도를 비율로 변환
frequency1_1['비율'] = frequency1_1['1순위'] / frequency1_1['1순위'].sum()

# 파이 차트 시각화 (크기 조절)
fig = px.pie(frequency1_1, values='비율', names='값', title="<b>귀하가 강원세계산림엑스포에 참여하는 참여동기는 무엇입니까? - 1순위</b>", hole=0.2,
                color_discrete_sequence=color_scale)

fig.update_layout(
    font=dict(size=13),
    height=900,  # 그림의 높이 설정
    width=1400,    # 그림의 너비 설정
    legend=dict(x=1.3, y=0.5)  # 범례 위치 조정 (x, y 조절 가능)
)
# 차트 내에 비율 숫자 직접 표시
pull_lst = [0.01] * 12
fig.update_traces(textinfo='percent+label', pull=pull_lst, insidetextorientation='horizontal')  # 비율 숫자를 라벨과 함께 표시

fig.show()


In [None]:
# 빈도를 비율로 변환
frequency1_2['비율'] = frequency1_2['2순위'] / frequency1_2['2순위'].sum()

# 파이 차트 시각화 (크기 조절)
fig = px.pie(frequency1_2, values='비율', names='값', title="<b>귀하가 강원세계산림엑스포에 참여하는 참여동기는 무엇입니까? - 2순위</b>", hole=0.2,
                color_discrete_sequence=color_scale)
fig.update_layout(
    font=dict(size=13),
    height=900,  # 그림의 높이 설정
    width=1400,    # 그림의 너비 설정
    legend=dict(x=1.3, y=0.5)  # 범례 위치 조정 (x, y 조절 가능)
)
# 차트 내에 비율 숫자 직접 표시
pull_lst = [0.01] * 12
fig.update_traces(textinfo='percent+label', pull=pull_lst, insidetextorientation='horizontal')  # 비율 숫자를 라벨과 함께 표시

fig.show()

In [11]:
# 빈도를 비율로 변환
frequency1_C['비율'] = frequency1_C['1순위+2순위_빈도'] / frequency1_C['1순위+2순위_빈도'].sum()

# 파이 차트 시각화 (크기 조절)
fig = px.pie(frequency1_C, values='비율', names='값', title="<b>귀하가 강원세계산림엑스포에 참여하는 참여동기는 무엇입니까? - 1순위+2순위</b>", hole=0.2,
                color_discrete_sequence=color_scale)
fig.update_layout(
    font=dict(size=13),
    height=900,  # 그림의 높이 설정
    width=1400,    # 그림의 너비 설정
    legend=dict(x=1.3, y=0.5)  # 범례 위치 조정 (x, y 조절 가능)
)
# 차트 내에 비율 숫자 직접 표시
pull_lst = [0.01] * 12
fig.update_traces(textinfo='percent+label', pull=pull_lst, insidetextorientation='horizontal')  # 비율 숫자를 라벨과 함께 표시

fig.show()

### 1순위만 합산한 표 생성

In [38]:
# 응답자 특성별 표 정리
q1 = ['휴식 및 건강증진','자기계발','산림에 대한 소양증진(지식,정보등 습득)','즐겁고 재미난 체험','자연(산림) 감수성함양','가족과의 시간','대인관계형성','창작활동에 대한 기대','지역의 독특한 자연 또는 문화체험','기타(업무)','기타(학과행사)','기타(체험학습)']
combined_list = q1
column_lst = []
for i in combined_list:
    column_lst.append("%s-빈도"%i)
    column_lst.append("%s-비율"%i)
resp_map_df = pd.DataFrame(columns = column_lst)

# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링
        filtered_rows = df_expo[df_expo[sq_dic[sq]] == val].reset_index(drop=True)
        frequency_rate_df = filtered_rows['Q1_1'].value_counts().reset_index()
        frequency_rate_df.columns = ['값', '빈도']
        frequency_rate_df['값'] = map_val(frequency_rate_df['값'], Q1_map)
        frequency_rate_df['비율'] = round((frequency_rate_df['빈도'] / frequency_rate_df['빈도'].sum())*100,1)
        frequency_rate_df = frequency_rate_df.set_index(keys='값')
        
        resp_map = {}
        for i in resp_map_df.columns:
            if i.endswith('빈도'):
                resp_map[i] = [0]
            else:
                resp_map[i] = [0.0]

        for i in resp_map_df.columns:
            try:       
                response, method = i.split('-')
                resp_map[i][0] = frequency_rate_df.loc[response, method]
            except:
                pass
        else:
            map_df = pd.DataFrame(resp_map)
            map_df.index = [val]
            resp_map_df = pd.concat([resp_map_df,map_df])
resp_map_df['사례수'] = resp_map_df.filter(like='빈도').sum(axis=1).astype(int)
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df


The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.



Unnamed: 0,Unnamed: 1,휴식 및 건강증진-빈도,휴식 및 건강증진-비율,자기계발-빈도,자기계발-비율,"산림에 대한 소양증진(지식,정보등 습득)-빈도","산림에 대한 소양증진(지식,정보등 습득)-비율",즐겁고 재미난 체험-빈도,즐겁고 재미난 체험-비율,자연(산림) 감수성함양-빈도,자연(산림) 감수성함양-비율,가족과의 시간-빈도,가족과의 시간-비율,대인관계형성-빈도,대인관계형성-비율,창작활동에 대한 기대-빈도,창작활동에 대한 기대-비율,지역의 독특한 자연 또는 문화체험-빈도,지역의 독특한 자연 또는 문화체험-비율,기타(업무)-빈도,기타(업무)-비율,기타(학과행사)-빈도,기타(학과행사)-비율,기타(체험학습)-빈도,기타(체험학습)-비율,사례수
성별,남성,13,26.0,4,8.0,9,18.0,5,10.0,1,2.0,1,2.0,4,8.0,1,2.0,5,10.0,4,8.0,2,4.0,1,2.0,50
성별,여성,8,14.5,3,5.5,11,20.0,8,14.5,2,3.6,0,0.0,2,3.6,0,0.0,12,21.8,3,5.5,3,5.5,3,5.5,55
연령,10대(15세이상),0,0.0,0,0.0,0,0.0,1,14.3,0,0.0,0,0.0,0,0.0,0,0.0,2,28.6,0,0.0,0,0.0,4,57.1,7
연령,20대,5,17.9,3,10.7,6,21.4,6,21.4,1,3.6,0,0.0,0,0.0,0,0.0,1,3.6,1,3.6,5,17.9,0,0.0,28
연령,30대,4,28.6,2,14.3,1,7.1,1,7.1,1,7.1,1,7.1,0,0.0,0,0.0,1,7.1,3,21.4,0,0.0,0,0.0,14
연령,40대,3,21.4,0,0.0,2,14.3,2,14.3,0,0.0,0,0.0,2,14.3,1,7.1,2,14.3,2,14.3,0,0.0,0,0.0,14
연령,50대,6,31.6,1,5.3,3,15.8,1,5.3,0,0.0,0,0.0,2,10.5,0,0.0,5,26.3,1,5.3,0,0.0,0,0.0,19
연령,60대이상,3,13.0,1,4.3,8,34.8,2,8.7,1,4.3,0,0.0,2,8.7,0,0.0,6,26.1,0,0.0,0,0.0,0,0.0,23
학력,초등학교 졸업(무학 포함),0,0.0,0,0.0,1,25.0,0,0.0,1,25.0,0,0.0,0,0.0,0,0.0,2,50.0,0,0.0,0,0.0,0,0.0,4
학력,중학교 재학,0,0.0,1,10.0,1,10.0,1,10.0,0,0.0,0,0.0,0,0.0,0,0.0,3,30.0,0,0.0,0,0.0,4,40.0,10


### 1순위 + 2순위 합산한 표 생성

In [40]:
# 응답자 특성별 표 정리
combined_list = q1
column_lst = []
for i in combined_list:
    column_lst.append("%s-빈도"%i)
    column_lst.append("%s-비율"%i)
resp_map_df = pd.DataFrame(columns = column_lst)

# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링
        filtered_rows = df_expo[df_expo[sq_dic[sq]] == val].reset_index(drop=True)
        filtered_rows_1 = filtered_rows['Q1_1'].value_counts().reset_index()
        filtered_rows_1.columns = ['값', '빈도']
        filtered_rows_2 = filtered_rows['Q1_2'].value_counts().reset_index()
        filtered_rows_2.columns = ['값', '빈도']
        # 'index' column을 기준으로 데이터프레임을 병합
        filtered_rows_C = pd.concat([filtered_rows_1, filtered_rows_2])
        filtered_rows_C = filtered_rows_C.groupby('값')['빈도'].sum().reset_index()
        filtered_rows_C.sort_values('빈도', ascending=False, inplace=True)
        filtered_rows_C['값'] = map_val(filtered_rows_C['값'], Q1_map)
        filtered_rows_C['비율'] = round((filtered_rows_C['빈도'] / filtered_rows_C['빈도'].sum())*100,1)
        filtered_rows_C = filtered_rows_C.set_index(keys='값')
        
        resp_map = {}
        for i in resp_map_df.columns:
            if i.endswith('빈도'):
                resp_map[i] = [0]
            else:
                resp_map[i] = [0.0]

        for i in resp_map_df.columns:           
            response, method = i.split('-')
            try:
                resp_map[i][0] = filtered_rows_C.loc[response, method]
            except:
                pass
        else:
            map_df = pd.DataFrame(resp_map)
            map_df.index = [val]
            resp_map_df = pd.concat([resp_map_df,map_df])
resp_map_df['사례수'] = resp_map_df.filter(like='빈도').sum(axis=1).astype(int)
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df


The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.



Unnamed: 0,Unnamed: 1,휴식 및 건강증진-빈도,휴식 및 건강증진-비율,자기계발-빈도,자기계발-비율,"산림에 대한 소양증진(지식,정보등 습득)-빈도","산림에 대한 소양증진(지식,정보등 습득)-비율",즐겁고 재미난 체험-빈도,즐겁고 재미난 체험-비율,자연(산림) 감수성함양-빈도,자연(산림) 감수성함양-비율,가족과의 시간-빈도,가족과의 시간-비율,대인관계형성-빈도,대인관계형성-비율,창작활동에 대한 기대-빈도,창작활동에 대한 기대-비율,지역의 독특한 자연 또는 문화체험-빈도,지역의 독특한 자연 또는 문화체험-비율,기타(업무)-빈도,기타(업무)-비율,기타(학과행사)-빈도,기타(학과행사)-비율,기타(체험학습)-빈도,기타(체험학습)-비율,사례수
성별,남성,20,20.0,11,11.0,16,16.0,16,16.0,7,7.0,2,2.0,7,7.0,1,1.0,13,13.0,4,4.0,2,2.0,1,1.0,100
성별,여성,15,13.6,6,5.5,17,15.5,21,19.1,10,9.1,0,0.0,7,6.4,3,2.7,20,18.2,3,2.7,4,3.6,4,3.6,110
연령,10대(15세이상),0,0.0,1,7.1,0,0.0,3,21.4,1,7.1,0,0.0,0,0.0,1,7.1,3,21.4,0,0.0,0,0.0,5,35.7,14
연령,20대,7,12.5,11,19.6,9,16.1,8,14.3,8,14.3,0,0.0,1,1.8,1,1.8,4,7.1,1,1.8,6,10.7,0,0.0,56
연령,30대,8,28.6,2,7.1,2,7.1,7,25.0,2,7.1,1,3.6,0,0.0,0,0.0,3,10.7,3,10.7,0,0.0,0,0.0,28
연령,40대,5,17.9,0,0.0,5,17.9,7,25.0,0,0.0,1,3.6,3,10.7,1,3.6,4,14.3,2,7.1,0,0.0,0,0.0,28
연령,50대,9,23.7,1,2.6,6,15.8,4,10.5,4,10.5,0,0.0,5,13.2,1,2.6,7,18.4,1,2.6,0,0.0,0,0.0,38
연령,60대이상,6,13.0,2,4.3,11,23.9,8,17.4,2,4.3,0,0.0,5,10.9,0,0.0,12,26.1,0,0.0,0,0.0,0,0.0,46
학력,초등학교 졸업(무학 포함),0,0.0,0,0.0,1,12.5,1,12.5,1,12.5,0,0.0,2,25.0,0,0.0,3,37.5,0,0.0,0,0.0,0,0.0,8
학력,중학교 재학,1,5.0,2,10.0,2,10.0,4,20.0,1,5.0,0,0.0,0,0.0,1,5.0,4,20.0,0,0.0,0,0.0,5,25.0,20


## Q2 귀하는 강원세계산림엑스포에 누구와 함께 참여하셨습니까? - 빈도분석

In [14]:
Q2_map = {'1': '혼자',
          '2': '가족과 함께',
          '3': '친구 또는 연인과 함께',
          '4': '직장동료와 함께',
          '5': '친목단체 또는 모임에서',
          '6': '학교에서',
          '7': '기타'}

# 데이터프레임에서 'Q2' 열의 빈도 정의
frequency2 = df_expo['Q2'].value_counts().reset_index()
frequency2.columns = ['값', '빈도']

# map_val 함수('값' 열의 값을 딕셔너리를 사용하여 일괄적으로 변경하는 함수)를 사용
frequency2['값'] = map_val(frequency2['값'], Q2_map)

In [15]:
import plotly.express as px

# 빈도를 비율로 변환
frequency2['비율'] = frequency2['빈도'] / frequency2['빈도'].sum()

# 파이 차트 시각화 (크기 조절)
fig = px.pie(frequency2, values='비율', names='값', title="<b>빈도 비율 분석</b>", hole=0.2,
                color_discrete_sequence=color_scale)
fig.update_layout(
        title={
        'text': '귀하는 강원세계산림엑스포에 누구와 함께 참여하셨습니까?',
        'font': {'size': 24}  # 제목의 폰트 크기 설정
    },
    font=dict(size=13),
    height=900,  # 그림의 높이 설정
    width=1400,    # 그림의 너비 설정
    legend=dict(x=0.9, y=0.5)  # 범례 위치 조정 (x, y 조절 가능)
)
# 차트 내에 비율 숫자 직접 표시
pull_lst = [0.01] * 6
fig.update_traces(textinfo='percent+label', pull=pull_lst, insidetextorientation='horizontal')  # 비율 숫자를 라벨과 함께 표시

fig.show()

### 합산한 표 생성

In [42]:
# 응답자 특성별 표 정리
q2 = ['혼자', '가족과 함께', '친구 또는 연인과 함께', '직장동료와 함께', '친목단체 또는 모임에서', '학교에서', '기타']
combined_list = q2
column_lst = []
for i in combined_list:
    column_lst.append("%s-빈도"%i)
    column_lst.append("%s-비율"%i)
resp_map_df = pd.DataFrame(columns = column_lst)

# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 응답자 특성 값으로 필터링
        filtered_rows = df_expo[df_expo[sq_dic[sq]] == val].reset_index(drop=True)
        frequency_rate_df = filtered_rows['Q2'].value_counts().reset_index()
        frequency_rate_df.columns = ['값', '빈도']
        frequency_rate_df['값'] = map_val(frequency_rate_df['값'], Q2_map)
        frequency_rate_df['비율'] = round((frequency_rate_df['빈도'] / frequency_rate_df['빈도'].sum())*100,1)
        frequency_rate_df = frequency_rate_df.set_index(keys='값')
        
        resp_map = {}
        for i in resp_map_df.columns:
            if i.endswith('빈도'):
                resp_map[i] = [0]
            else:
                resp_map[i] = [0.0]

        for i in resp_map_df.columns:           
            response, method = i.split('-')
            try:
                resp_map[i][0] = frequency_rate_df.loc[response, method]
            except:
                pass
        else:
            map_df = pd.DataFrame(resp_map)
            map_df.index = [val]
            resp_map_df = pd.concat([resp_map_df,map_df])
resp_map_df['사례수'] = resp_map_df.filter(like='빈도').sum(axis=1).astype(int)
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df


The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.



Unnamed: 0,Unnamed: 1,혼자-빈도,혼자-비율,가족과 함께-빈도,가족과 함께-비율,친구 또는 연인과 함께-빈도,친구 또는 연인과 함께-비율,직장동료와 함께-빈도,직장동료와 함께-비율,친목단체 또는 모임에서-빈도,친목단체 또는 모임에서-비율,학교에서-빈도,학교에서-비율,기타-빈도,기타-비율,사례수
성별,남성,1,2.0,5,10.0,1,2.0,21,42.0,7,14.0,15,30.0,0,0.0,50
성별,여성,3,5.5,3,5.5,2,3.6,22,40.0,13,23.6,12,21.8,0,0.0,55
연령,10대(15세이상),0,0.0,0,0.0,1,14.3,0,0.0,0,0.0,6,85.7,0,0.0,7
연령,20대,1,3.6,0,0.0,0,0.0,4,14.3,2,7.1,21,75.0,0,0.0,28
연령,30대,1,7.1,1,7.1,0,0.0,12,85.7,0,0.0,0,0.0,0,0.0,14
연령,40대,0,0.0,2,14.3,0,0.0,11,78.6,1,7.1,0,0.0,0,0.0,14
연령,50대,0,0.0,2,10.5,0,0.0,13,68.4,4,21.1,0,0.0,0,0.0,19
연령,60대이상,2,8.7,3,13.0,2,8.7,3,13.0,13,56.5,0,0.0,0,0.0,23
학력,초등학교 졸업(무학 포함),0,0.0,0,0.0,1,25.0,0,0.0,3,75.0,0,0.0,0,0.0,4
학력,중학교 재학,0,0.0,0,0.0,1,10.0,0,0.0,3,30.0,6,60.0,0,0.0,10


## Q3 귀하는 강원세계산림엑스포의 가장 기대되는 프로그램이 무엇입니까? - 빈도분석

In [44]:
# 매핑 딕셔너리 정의
Q3_map = {'1': '문화·예술 관람 행사(예 : 뮤직콘서트, 뮤지컬 갈라쇼 등)',
          '2': '문화·예술 참여 행사(예 : 나무장난감 놀이마당축제 등)',
          '3': '레포츠 행사(예 : 전국 스포츠 클라이밍 대회 등)',
          '4': '학습 행사(예 : 산림과학 학술대회 등)',
          '5': '관광 활동(예 : 설악산 자생식물원, 용대관광단지 등)',
          '6': '전시 관람 활동(예 : 푸른지구관, 산림평화관, 문화유산관 등)',
          '7': '체험 활동(예 : 저탄소 업사이클링 공예체험 등)',
          '8': '사회 활동(예 : 개·폐회식 참여, 인적교류 등) ',
          '9': '기타'}

# 데이터프레임에서 'Q1_1' 열과 'Q1_2' 열의 빈도분석을 수행
frequency3_1 = df_expo['Q3_1'].value_counts().reset_index()
frequency3_1.columns = ['값', '1순위']

frequency3_2 = df_expo['Q3_2'].value_counts().reset_index()
frequency3_2.columns = ['값', '2순위']

# '값' 열의 값을 딕셔너리를 사용하여 일괄적으로 변경하는 함수 정의
def map_val(series, dic):
        lst = []
        for value in series:
                if str(value).isdigit():
                        lst.append(dic[str(value)])
                else:
                        lst.append(value.replace('10', '기타'))
        return lst
        
frequency3_1['값'] = map_val(frequency3_1['값'], Q3_map)
frequency3_2['값'] = map_val(frequency3_2['값'], Q3_map)

In [45]:
# '값' column을 기준으로 데이터프레임을 병합
frequency3_C = pd.merge(frequency3_1, frequency3_2, on='값', how='outer')
frequency3_C.fillna(0, inplace=True)
frequency3_C['2순위'] = frequency3_C['2순위'].astype(int)
# '1순위'와 '2순위' 빈도를 합산
frequency3_C['1순위+2순위_빈도'] = frequency3_C['1순위'] + frequency3_C['2순위']
frequency3_C = frequency3_C[['값', '1순위+2순위_빈도']]
frequency3_C.sort_values('1순위+2순위_빈도', ascending=False, inplace=True)
frequency3_C

Unnamed: 0,값,1순위+2순위_빈도
1,"전시 관람 활동(예 : 푸른지구관, 산림평화관, 문화유산관 등)",48
4,문화·예술 참여 행사(예 : 나무장난감 놀이마당축제 등),38
0,"문화·예술 관람 행사(예 : 뮤직콘서트, 뮤지컬 갈라쇼 등)",36
2,체험 활동(예 : 저탄소 업사이클링 공예체험 등),33
3,"관광 활동(예 : 설악산 자생식물원, 용대관광단지 등)",25
5,학습 행사(예 : 산림과학 학술대회 등),15
6,레포츠 행사(예 : 전국 스포츠 클라이밍 대회 등),9
7,"사회 활동(예 : 개·폐회식 참여, 인적교류 등)",6


In [46]:
# 빈도를 비율로 변환
frequency3_1['비율'] = frequency3_1['1순위'] / frequency3_1['1순위'].sum()

# 파이 차트 시각화 (크기 조절)
fig = px.pie(frequency3_1, values='비율', names='값', title="<b>귀하는 강원세계산림엑스포의 가장 기대되는 프로그램이 무엇입니까? - 1순위</b>", hole=0.2,
                color_discrete_sequence=color_scale)

fig.update_layout(
    font=dict(size=13),
    height=900,  # 그림의 높이 설정
    width=1400,    # 그림의 너비 설정
    legend=dict(x=1.3, y=0.5)  # 범례 위치 조정 (x, y 조절 가능)
)
# 차트 내에 비율 숫자 직접 표시
pull_lst = [0.01] * 12
fig.update_traces(textinfo='percent+label', pull=pull_lst, insidetextorientation='horizontal')  # 비율 숫자를 라벨과 함께 표시

fig.show()

In [None]:
# 빈도를 비율로 변환
frequency3_2['비율'] = frequency3_2['2순위'] / frequency3_2['2순위'].sum()

# 파이 차트 시각화 (크기 조절)
fig = px.pie(frequency3_2, values='비율', names='값', title="<b>귀하는 강원세계산림엑스포의 가장 기대되는 프로그램이 무엇입니까? - 2순위</b>", hole=0.2,
                color_discrete_sequence=color_scale)
fig.update_layout(
    font=dict(size=13),
    height=900,  # 그림의 높이 설정
    width=1400,    # 그림의 너비 설정
    legend=dict(x=1.3, y=1.1)  # 범례 위치 조정 (x, y 조절 가능)
)
# 차트 내에 비율 숫자 직접 표시
pull_lst = [0.01] * 12
fig.update_traces(textinfo='percent+label', pull=pull_lst, insidetextorientation='horizontal')  # 비율 숫자를 라벨과 함께 표시

fig.show()

In [21]:
# 빈도를 비율로 변환
frequency3_C['비율'] = frequency3_C['1순위+2순위_빈도'] / frequency3_C['1순위+2순위_빈도'].sum()

# 파이 차트 시각화 (크기 조절)
fig = px.pie(frequency3_C, values='비율', names='값', title="<b>귀하는 강원세계산림엑스포의 가장 기대되는 프로그램이 무엇입니까? - 1순위+2순위</b>", hole=0.2,
                color_discrete_sequence=color_scale)
fig.update_layout(
    font=dict(size=13),
    height=900,  # 그림의 높이 설정
    width=1400,    # 그림의 너비 설정
    legend=dict(x=1.3, y=1.1)  # 범례 위치 조정 (x, y 조절 가능)
)
# 차트 내에 비율 숫자 직접 표시
pull_lst = [0.01] * 12
fig.update_traces(textinfo='percent+label', pull=pull_lst, insidetextorientation='horizontal')  # 비율 숫자를 라벨과 함께 표시

fig.show()

### 1순위 합산한 표 생성

In [47]:
# 응답자 특성별 표 정리
q3 = list(Q3_map.values())
combined_list = q3
column_lst = []
for i in combined_list:
    column_lst.append("%s-빈도"%i)
    column_lst.append("%s-비율"%i)
resp_map_df = pd.DataFrame(columns = column_lst)

# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 응답자 특성 값으로 필터링
        filtered_rows = df_expo[df_expo[sq_dic[sq]] == val].reset_index(drop=True)
        frequency_rate_df = filtered_rows['Q3_1'].value_counts().reset_index()
        frequency_rate_df.columns = ['값', '빈도']
        frequency_rate_df['값'] = map_val(frequency_rate_df['값'], Q3_map)
        frequency_rate_df['비율'] = round((frequency_rate_df['빈도'] / frequency_rate_df['빈도'].sum())*100,1)
        frequency_rate_df = frequency_rate_df.set_index(keys='값')
        
        resp_map = {}
        for i in resp_map_df.columns:
            if i.endswith('빈도'):
                resp_map[i] = [0]
            else:
                resp_map[i] = [0.0]

        for i in resp_map_df.columns:           
            response, method = i.split('-')
            try:
                resp_map[i][0] = frequency_rate_df.loc[response, method]
            except:
                pass
        else:
            map_df = pd.DataFrame(resp_map)
            map_df.index = [val]
            resp_map_df = pd.concat([resp_map_df,map_df])
resp_map_df['사례수'] = resp_map_df.filter(like='빈도').sum(axis=1).astype(int)
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df


The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.



Unnamed: 0,Unnamed: 1,"문화·예술 관람 행사(예 : 뮤직콘서트, 뮤지컬 갈라쇼 등)-빈도","문화·예술 관람 행사(예 : 뮤직콘서트, 뮤지컬 갈라쇼 등)-비율",문화·예술 참여 행사(예 : 나무장난감 놀이마당축제 등)-빈도,문화·예술 참여 행사(예 : 나무장난감 놀이마당축제 등)-비율,레포츠 행사(예 : 전국 스포츠 클라이밍 대회 등)-빈도,레포츠 행사(예 : 전국 스포츠 클라이밍 대회 등)-비율,학습 행사(예 : 산림과학 학술대회 등)-빈도,학습 행사(예 : 산림과학 학술대회 등)-비율,"관광 활동(예 : 설악산 자생식물원, 용대관광단지 등)-빈도","관광 활동(예 : 설악산 자생식물원, 용대관광단지 등)-비율","전시 관람 활동(예 : 푸른지구관, 산림평화관, 문화유산관 등)-빈도","전시 관람 활동(예 : 푸른지구관, 산림평화관, 문화유산관 등)-비율",체험 활동(예 : 저탄소 업사이클링 공예체험 등)-빈도,체험 활동(예 : 저탄소 업사이클링 공예체험 등)-비율,"사회 활동(예 : 개·폐회식 참여, 인적교류 등) -빈도","사회 활동(예 : 개·폐회식 참여, 인적교류 등) -비율",기타-빈도,기타-비율,사례수
성별,남성,8,16.0,5,10.0,3,6.0,3,6.0,6,12.0,15,30.0,9,18.0,1,2.0,0,0.0,50
성별,여성,19,34.5,7,12.7,1,1.8,1,1.8,7,12.7,11,20.0,8,14.5,1,1.8,0,0.0,55
연령,10대(15세이상),1,14.3,3,42.9,0,0.0,0,0.0,1,14.3,1,14.3,1,14.3,0,0.0,0,0.0,7
연령,20대,4,14.3,2,7.1,1,3.6,1,3.6,5,17.9,9,32.1,5,17.9,1,3.6,0,0.0,28
연령,30대,3,21.4,1,7.1,0,0.0,0,0.0,1,7.1,7,50.0,1,7.1,1,7.1,0,0.0,14
연령,40대,4,28.6,3,21.4,0,0.0,0,0.0,2,14.3,0,0.0,5,35.7,0,0.0,0,0.0,14
연령,50대,6,31.6,1,5.3,2,10.5,1,5.3,2,10.5,4,21.1,3,15.8,0,0.0,0,0.0,19
연령,60대이상,9,39.1,2,8.7,1,4.3,2,8.7,2,8.7,5,21.7,2,8.7,0,0.0,0,0.0,23
학력,초등학교 졸업(무학 포함),3,75.0,0,0.0,0,0.0,0,0.0,0,0.0,1,25.0,0,0.0,0,0.0,0,0.0,4
학력,중학교 재학,3,30.0,3,30.0,0,0.0,0,0.0,1,10.0,2,20.0,1,10.0,0,0.0,0,0.0,10


### 1순위 + 2순위 합산한 표 생성

In [49]:
# 응답자 특성별 표 정리
q3 = list(Q3_map.values())
combined_list = q3
column_lst = []
for i in combined_list:
    column_lst.append("%s-빈도"%i)
    column_lst.append("%s-비율"%i)
resp_map_df = pd.DataFrame(columns = column_lst)

# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링
        filtered_rows = df_expo[df_expo[sq_dic[sq]] == val].reset_index(drop=True)
        filtered_rows_1 = filtered_rows['Q3_1'].value_counts().reset_index()
        filtered_rows_1.columns = ['값', '빈도']
        filtered_rows_2 = filtered_rows['Q3_2'].value_counts().reset_index()
        filtered_rows_1.columns = ['값', '빈도']
        # 'index' column을 기준으로 데이터프레임을 병합
        filtered_rows_C = pd.concat([filtered_rows_1, filtered_rows_2])
        filtered_rows_C = filtered_rows_C.groupby('값')['빈도'].sum().reset_index()
        filtered_rows_C.sort_values('빈도', ascending=False, inplace=True)
        filtered_rows_C = filtered_rows_C.astype(int)
        filtered_rows_C['값'] = map_val(filtered_rows_C['값'], Q3_map)
        filtered_rows_C['비율'] = round((filtered_rows_C['빈도'] / filtered_rows_C['빈도'].sum())*100,1)
        filtered_rows_C = filtered_rows_C.set_index(keys='값')
        
        resp_map = {}
        for i in resp_map_df.columns:
            if i.endswith('빈도'):
                resp_map[i] = [0]
            else:
                resp_map[i] = [0.0]

        for i in resp_map_df.columns:           
            response, method = i.split('-')
            try:
                resp_map[i][0] = filtered_rows_C.loc[response, method]
            except:
                pass
        else:
            map_df = pd.DataFrame(resp_map)
            map_df.index = [val]
            resp_map_df = pd.concat([resp_map_df,map_df])
resp_map_df['사례수'] = resp_map_df.filter(like='빈도').sum(axis=1).astype(int)
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df


The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.



Unnamed: 0,Unnamed: 1,"문화·예술 관람 행사(예 : 뮤직콘서트, 뮤지컬 갈라쇼 등)-빈도","문화·예술 관람 행사(예 : 뮤직콘서트, 뮤지컬 갈라쇼 등)-비율",문화·예술 참여 행사(예 : 나무장난감 놀이마당축제 등)-빈도,문화·예술 참여 행사(예 : 나무장난감 놀이마당축제 등)-비율,레포츠 행사(예 : 전국 스포츠 클라이밍 대회 등)-빈도,레포츠 행사(예 : 전국 스포츠 클라이밍 대회 등)-비율,학습 행사(예 : 산림과학 학술대회 등)-빈도,학습 행사(예 : 산림과학 학술대회 등)-비율,"관광 활동(예 : 설악산 자생식물원, 용대관광단지 등)-빈도","관광 활동(예 : 설악산 자생식물원, 용대관광단지 등)-비율","전시 관람 활동(예 : 푸른지구관, 산림평화관, 문화유산관 등)-빈도","전시 관람 활동(예 : 푸른지구관, 산림평화관, 문화유산관 등)-비율",체험 활동(예 : 저탄소 업사이클링 공예체험 등)-빈도,체험 활동(예 : 저탄소 업사이클링 공예체험 등)-비율,"사회 활동(예 : 개·폐회식 참여, 인적교류 등) -빈도","사회 활동(예 : 개·폐회식 참여, 인적교류 등) -비율",기타-빈도,기타-비율,사례수
성별,남성,8,16.0,5,10.0,3,6.0,3,6.0,6,12.0,15,30.0,9,18.0,1,2.0,0,0.0,50
성별,여성,19,34.5,7,12.7,1,1.8,1,1.8,7,12.7,11,20.0,8,14.5,1,1.8,0,0.0,55
연령,10대(15세이상),1,14.3,3,42.9,0,0.0,0,0.0,1,14.3,1,14.3,1,14.3,0,0.0,0,0.0,7
연령,20대,4,14.3,2,7.1,1,3.6,1,3.6,5,17.9,9,32.1,5,17.9,1,3.6,0,0.0,28
연령,30대,3,21.4,1,7.1,0,0.0,0,0.0,1,7.1,7,50.0,1,7.1,1,7.1,0,0.0,14
연령,40대,4,28.6,3,21.4,0,0.0,0,0.0,2,14.3,0,0.0,5,35.7,0,0.0,0,0.0,14
연령,50대,6,31.6,1,5.3,2,10.5,1,5.3,2,10.5,4,21.1,3,15.8,0,0.0,0,0.0,19
연령,60대이상,9,39.1,2,8.7,1,4.3,2,8.7,2,8.7,5,21.7,2,8.7,0,0.0,0,0.0,23
학력,초등학교 졸업(무학 포함),3,75.0,0,0.0,0,0.0,0,0.0,0,0.0,1,25.0,0,0.0,0,0.0,0,0.0,4
학력,중학교 재학,3,30.0,3,30.0,0,0.0,0,0.0,1,10.0,2,20.0,1,10.0,0,0.0,0,0.0,10


## Q7 귀하가 산림문화 활동에 참여하고 싶은 목적은 무엇입니까 - 빈도분석

In [69]:
# 매핑 딕셔너리 정의
Q7_map = {'1': '휴식 및 건강증진',
        '2': '자기계발',
        '3': '산림에 대한 소양증진(지식,정보등 습득)',
        '4': '즐겁고 재미난 체험',
        '5': '자연(산림) 감수성함양',
        '6': '가족과의 시간',
        '7': '대인관계형성',
        '8': '창작활동에 대한 기대',
        '9': '지역의 독특한 자연 또는 문화체험',
        '10': '기타'}

# 데이터프레임에서 'Q7_1' 열과 'Q7_2' 열의 빈도분석을 수행
frequency7_1 = df_expo['Q7_1'].value_counts().reset_index()
frequency7_1.columns = ['값', '1순위']

frequency7_2 = df_expo['Q7_2'].value_counts().reset_index()
frequency7_2.columns = ['값', '2순위']

# 데이터프레임에서 'Q7_1' 열과 'Q7_2' 열의 빈도분석을 수행
frequency7_1_common = df_common['Q7_1'].value_counts().reset_index()
frequency7_1_common.columns = ['값', '1순위']
frequency7_1_common = frequency7_1_common.astype(int)

frequency7_2_common = df_common['Q7_2'].value_counts().reset_index()
frequency7_2_common.columns = ['값', '2순위']
frequency7_2_common = frequency7_2_common.astype(int)

# '값' 열의 값을 딕셔너리를 사용하여 일괄적으로 변경하는 함수 정의
def map_val(series, dic):
        lst = []
        for value in series:
                if str(value).isdigit():
                        lst.append(dic[str(value)])
                else:
                        lst.append(value.replace('10', '기타'))
        return lst
        
frequency7_1['값'] = map_val(frequency7_1['값'], Q7_map)
frequency7_2['값'] = map_val(frequency7_2['값'], Q7_map)
frequency7_1_common['값'] = map_val(frequency7_1_common['값'], Q7_map)
frequency7_2_common['값'] = map_val(frequency7_2_common['값'], Q7_map)

In [73]:
# '값' column을 기준으로 데이터프레임을 병합
frequency7_C = pd.merge(frequency7_1, frequency7_2, on='값', how='outer')
frequency7_C.fillna(0, inplace=True)
frequency7_C['2순위'] = frequency7_C['2순위'].astype(int)
# '1순위'와 '2순위' 빈도를 합산
frequency7_C['1순위+2순위_빈도'] = frequency7_C['1순위'] + frequency7_C['2순위']
frequency7_C = frequency7_C[['값', '1순위+2순위_빈도']]
frequency7_C.sort_values('1순위+2순위_빈도', ascending=False, inplace=True)
frequency7_C

Unnamed: 0,값,1순위+2순위_빈도
0,휴식 및 건강증진,58
1,"산림에 대한 소양증진(지식,정보등 습득)",28
2,자연(산림) 감수성함양,28
3,즐겁고 재미난 체험,28
4,지역의 독특한 자연 또는 문화체험,24
5,가족과의 시간,21
8,자기계발,10
6,창작활동에 대한 기대,8
7,대인관계형성,5


In [74]:
# '값' column을 기준으로 데이터프레임을 병합
frequency7_C_common = pd.merge(frequency7_1_common, frequency7_2_common, on='값', how='outer')
frequency7_C_common.fillna(0, inplace=True)
frequency7_C_common['2순위'] = frequency7_C_common['2순위'].astype(int)
# '1순위'와 '2순위' 빈도를 합산
frequency7_C_common['1순위+2순위_빈도'] = frequency7_C_common['1순위'] + frequency7_C_common['2순위']
frequency7_C_common = frequency7_C_common[['값', '1순위+2순위_빈도']]
frequency7_C_common.sort_values('1순위+2순위_빈도', ascending=False, inplace=True)
frequency7_C_common

Unnamed: 0,값,1순위+2순위_빈도
0,휴식 및 건강증진,774
3,자연(산림) 감수성함양,308
2,즐겁고 재미난 체험,276
1,"산림에 대한 소양증진(지식,정보등 습득)",261
5,지역의 독특한 자연 또는 문화체험,195
6,가족과의 시간,193
4,자기계발,172
7,대인관계형성,68
8,창작활동에 대한 기대,27
9,기타,2


In [75]:
# 빈도를 비율로 변환
frequency7_1['비율'] = frequency7_1['1순위'] / frequency7_1['1순위'].sum()

# 파이 차트 시각화 (크기 조절)
fig = px.pie(frequency7_1, values='비율', names='값', title="<b>귀하가 산림문화 활동에 참여하고 싶은 목적은 무엇입니까? - 1순위</b>", hole=0.2,
                color_discrete_sequence=color_scale)

fig.update_layout(
    font=dict(size=13),
    height=900,  # 그림의 높이 설정
    width=1400,    # 그림의 너비 설정
    legend=dict(x=1.3, y=0.5)  # 범례 위치 조정 (x, y 조절 가능)
)
# 차트 내에 비율 숫자 직접 표시
pull_lst = [0.01] * 12
fig.update_traces(textinfo='percent+label', pull=pull_lst, insidetextorientation='horizontal')  # 비율 숫자를 라벨과 함께 표시

fig.show()

In [94]:
# 빈도를 비율로 변환
frequency7_1_common['비율'] = frequency7_1_common['1순위'] / frequency7_1_common['1순위'].sum()

# 파이 차트 시각화 (크기 조절)
fig = px.pie(frequency7_1_common, values='비율', names='값', title="<b>귀하가 산림문화 활동에 참여하고 싶은 목적은 무엇입니까? - 일반국민 1순위</b>", hole=0.2,
                color_discrete_sequence=color_scale)

fig.update_layout(
    font=dict(size=13),
    height=900,  # 그림의 높이 설정
    width=1400,    # 그림의 너비 설정
    legend=dict(x=1.3, y=0.5)  # 범례 위치 조정 (x, y 조절 가능)
)
# 차트 내에 비율 숫자 직접 표시
pull_lst = [0.01] * 12
fig.update_traces(textinfo='percent+label', pull=pull_lst, insidetextorientation='horizontal')  # 비율 숫자를 라벨과 함께 표시

fig.show()

In [89]:
# 빈도를 비율로 변환
frequency7_C['비율'] = frequency7_C['1순위+2순위_빈도'] / frequency7_C['1순위+2순위_빈도'].sum()

# 파이 차트 시각화 (크기 조절)
fig = px.pie(frequency7_C, values='비율', names='값', title="<b>귀하가 산림문화 활동에 참여하고 싶은 목적은 무엇입니까? - 1순위+2순위</b>", hole=0.2,
                color_discrete_sequence=color_scale)
fig.update_layout(
    font=dict(size=13),
    height=900,  # 그림의 높이 설정
    width=1400,    # 그림의 너비 설정
    legend=dict(x=1.3, y=0.5)  # 범례 위치 조정 (x, y 조절 가능)
)
# 차트 내에 비율 숫자 직접 표시
pull_lst = [0.01] * 12
fig.update_traces(textinfo='percent+label', pull=pull_lst, insidetextorientation='horizontal')  # 비율 숫자를 라벨과 함께 표시

fig.show()

In [96]:
# 빈도를 비율로 변환
frequency7_C_common['비율'] = frequency7_C_common['1순위+2순위_빈도'] / frequency7_C_common['1순위+2순위_빈도'].sum()

# 파이 차트 시각화 (크기 조절)
fig = px.pie(frequency7_C_common, values='비율', names='값', title="<b>귀하가 산림문화 활동에 참여하고 싶은 목적은 무엇입니까? - 일반국민 1순위+2순위</b>", hole=0.2,
                color_discrete_sequence=color_scale)
fig.update_layout(
    font=dict(size=13),
    height=900,  # 그림의 높이 설정
    width=1400,    # 그림의 너비 설정
    legend=dict(x=1.3, y=0.5)  # 범례 위치 조정 (x, y 조절 가능)
)
# 차트 내에 비율 숫자 직접 표시
pull_lst = [0.01] * 12
fig.update_traces(textinfo='percent+label', pull=pull_lst, insidetextorientation='horizontal')  # 비율 숫자를 라벨과 함께 표시

fig.show()

### 카이제곱검정

In [123]:
import pandas as pd

# '값' 열을 인덱스로 설정
df1 = frequency7_C.set_index('값')[['비율']]
df2 = frequency7_C_common.set_index('값')[['비율']]

# 두 데이터프레임을 합쳐서 교차표를 생성
cross_table = pd.concat([df1, df2], axis=1, sort=False).fillna(0)

# 교차표 출력
cross_table

Unnamed: 0_level_0,비율,비율
값,Unnamed: 1_level_1,Unnamed: 2_level_1
휴식 및 건강증진,0.27619,0.34007
"산림에 대한 소양증진(지식,정보등 습득)",0.133333,0.114675
자연(산림) 감수성함양,0.133333,0.135325
즐겁고 재미난 체험,0.133333,0.121265
지역의 독특한 자연 또는 문화체험,0.114286,0.085677
가족과의 시간,0.1,0.084798
자기계발,0.047619,0.075571
창작활동에 대한 기대,0.038095,0.011863
대인관계형성,0.02381,0.029877
기타,0.0,0.000879


In [124]:
from scipy.stats import chi2_contingency

# 카이제곱 검정 수행
chi2, p, dof, expected = chi2_contingency(cross_table)

# 결과 출력
print("카이제곱 검정 통계량:", chi2)
print("p-값:", p)
print("자유도:", dof)
print("기대값 테이블:")
print(expected)

카이제곱 검정 통계량: 0.03563694691447172
p-값: 0.9999999997466443
자유도: 9
기대값 테이블:
[[0.30813039 0.30813039]
 [0.1240041  0.1240041 ]
 [0.13432923 0.13432923]
 [0.12729936 0.12729936]
 [0.09998117 0.09998117]
 [0.09239895 0.09239895]
 [0.06159511 0.06159511]
 [0.02497908 0.02497908]
 [0.02684325 0.02684325]
 [0.00043937 0.00043937]]


### 1순위만 합산한 표 생성

In [55]:
# 응답자 특성별 표 정리
q7 = ['휴식 및 건강증진','자기계발','산림에 대한 소양증진(지식,정보등 습득)','즐겁고 재미난 체험','자연(산림) 감수성함양','가족과의 시간','대인관계형성','창작활동에 대한 기대','지역의 독특한 자연 또는 문화체험','기타']
combined_list = q7
column_lst = []
for i in combined_list:
    column_lst.append("%s-빈도"%i)
    column_lst.append("%s-비율"%i)
resp_map_df = pd.DataFrame(columns = column_lst)

# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링
        filtered_rows = df_expo[df_expo[sq_dic[sq]] == val].reset_index(drop=True)
        frequency_rate_df = filtered_rows['Q7_1'].value_counts().reset_index()
        frequency_rate_df.columns = ['값', '빈도']
        frequency_rate_df['값'] = map_val(frequency_rate_df['값'], Q7_map)
        frequency_rate_df['비율'] = round((frequency_rate_df['빈도'] / frequency_rate_df['빈도'].sum())*100,1)
        frequency_rate_df = frequency_rate_df.set_index(keys='값')
        
        resp_map = {}
        for i in resp_map_df.columns:
            if i.endswith('빈도'):
                resp_map[i] = [0]
            else:
                resp_map[i] = [0.0]

        for i in resp_map_df.columns:
            try:       
                response, method = i.split('-')
                resp_map[i][0] = frequency_rate_df.loc[response, method]
            except:
                pass
        else:
            map_df = pd.DataFrame(resp_map)
            map_df.index = [val]
            resp_map_df = pd.concat([resp_map_df,map_df])
resp_map_df['사례수'] = resp_map_df.filter(like='빈도').sum(axis=1).astype(int)
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df


The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.



Unnamed: 0,Unnamed: 1,휴식 및 건강증진-빈도,휴식 및 건강증진-비율,자기계발-빈도,자기계발-비율,"산림에 대한 소양증진(지식,정보등 습득)-빈도","산림에 대한 소양증진(지식,정보등 습득)-비율",즐겁고 재미난 체험-빈도,즐겁고 재미난 체험-비율,자연(산림) 감수성함양-빈도,자연(산림) 감수성함양-비율,가족과의 시간-빈도,가족과의 시간-비율,대인관계형성-빈도,대인관계형성-비율,창작활동에 대한 기대-빈도,창작활동에 대한 기대-비율,지역의 독특한 자연 또는 문화체험-빈도,지역의 독특한 자연 또는 문화체험-비율,기타-빈도,기타-비율,사례수
성별,남성,26,52.0,2,4.0,9,18.0,2,4.0,3,6.0,2,4.0,0,0.0,3,6.0,3,6.0,0,0.0,50
성별,여성,25,45.5,0,0.0,9,16.4,6,10.9,7,12.7,3,5.5,2,3.6,1,1.8,2,3.6,0,0.0,55
연령,10대(15세이상),4,57.1,0,0.0,0,0.0,1,14.3,0,0.0,0,0.0,0,0.0,1,14.3,1,14.3,0,0.0,7
연령,20대,8,28.6,2,7.1,7,25.0,3,10.7,3,10.7,3,10.7,0,0.0,1,3.6,1,3.6,0,0.0,28
연령,30대,10,71.4,0,0.0,3,21.4,0,0.0,1,7.1,0,0.0,0,0.0,0,0.0,0,0.0,0,0.0,14
연령,40대,9,64.3,0,0.0,0,0.0,2,14.3,0,0.0,2,14.3,0,0.0,1,7.1,0,0.0,0,0.0,14
연령,50대,9,47.4,0,0.0,1,5.3,1,5.3,3,15.8,0,0.0,2,10.5,1,5.3,2,10.5,0,0.0,19
연령,60대이상,11,47.8,0,0.0,7,30.4,1,4.3,3,13.0,0,0.0,0,0.0,0,0.0,1,4.3,0,0.0,23
학력,초등학교 졸업(무학 포함),2,50.0,0,0.0,2,50.0,0,0.0,0,0.0,0,0.0,0,0.0,0,0.0,0,0.0,0,0.0,4
학력,중학교 재학,5,50.0,0,0.0,1,10.0,2,20.0,0,0.0,0,0.0,0,0.0,1,10.0,1,10.0,0,0.0,10


### 1순위 + 2순위 합산한 표 생성

In [57]:
# 응답자 특성별 표 정리
combined_list = q7
column_lst = []
for i in combined_list:
    column_lst.append("%s-빈도"%i)
    column_lst.append("%s-비율"%i)
resp_map_df = pd.DataFrame(columns = column_lst)

# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링
        filtered_rows = df_expo[df_expo[sq_dic[sq]] == val].reset_index(drop=True)
        filtered_rows_1 = filtered_rows['Q7_1'].value_counts().reset_index()
        filtered_rows_1.columns = ['값', '빈도']
        filtered_rows_2 = filtered_rows['Q7_2'].value_counts().reset_index()
        filtered_rows_2.columns = ['값', '빈도']
        # 'index' column을 기준으로 데이터프레임을 병합
        filtered_rows_C = pd.concat([filtered_rows_1, filtered_rows_2])
        filtered_rows_C = filtered_rows_C.groupby('값')['빈도'].sum().reset_index()
        filtered_rows_C.sort_values('빈도', ascending=False, inplace=True)
        filtered_rows_C['값'] = map_val(filtered_rows_C['값'], Q7_map)
        filtered_rows_C['비율'] = round((filtered_rows_C['빈도'] / filtered_rows_C['빈도'].sum())*100,1)
        filtered_rows_C = filtered_rows_C.set_index(keys='값')
        
        resp_map = {}
        for i in resp_map_df.columns:
            if i.endswith('빈도'):
                resp_map[i] = [0]
            else:
                resp_map[i] = [0.0]

        for i in resp_map_df.columns:           
            response, method = i.split('-')
            try:
                resp_map[i][0] = filtered_rows_C.loc[response, method]
            except:
                pass
        else:
            map_df = pd.DataFrame(resp_map)
            map_df.index = [val]
            resp_map_df = pd.concat([resp_map_df,map_df])
resp_map_df['사례수'] = resp_map_df.filter(like='빈도').sum(axis=1).astype(int)
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df


The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.



Unnamed: 0,Unnamed: 1,휴식 및 건강증진-빈도,휴식 및 건강증진-비율,자기계발-빈도,자기계발-비율,"산림에 대한 소양증진(지식,정보등 습득)-빈도","산림에 대한 소양증진(지식,정보등 습득)-비율",즐겁고 재미난 체험-빈도,즐겁고 재미난 체험-비율,자연(산림) 감수성함양-빈도,자연(산림) 감수성함양-비율,가족과의 시간-빈도,가족과의 시간-비율,대인관계형성-빈도,대인관계형성-비율,창작활동에 대한 기대-빈도,창작활동에 대한 기대-비율,지역의 독특한 자연 또는 문화체험-빈도,지역의 독특한 자연 또는 문화체험-비율,기타-빈도,기타-비율,사례수
성별,남성,30,30.0,4,4.0,12,12.0,14,14.0,13,13.0,11,11.0,0,0.0,4,4.0,12,12.0,0,0.0,100
성별,여성,28,25.5,6,5.5,16,14.5,14,12.7,15,13.6,10,9.1,5,4.5,4,3.6,12,10.9,0,0.0,110
연령,10대(15세이상),4,28.6,0,0.0,0,0.0,2,14.3,1,7.1,0,0.0,1,7.1,3,21.4,3,21.4,0,0.0,14
연령,20대,9,16.1,4,7.1,12,21.4,9,16.1,9,16.1,4,7.1,0,0.0,1,1.8,8,14.3,0,0.0,56
연령,30대,11,39.3,0,0.0,4,14.3,3,10.7,4,14.3,3,10.7,0,0.0,0,0.0,3,10.7,0,0.0,28
연령,40대,9,32.1,0,0.0,2,7.1,3,10.7,4,14.3,6,21.4,1,3.6,1,3.6,2,7.1,0,0.0,28
연령,50대,12,31.6,2,5.3,3,7.9,6,15.8,6,15.8,2,5.3,2,5.3,2,5.3,3,7.9,0,0.0,38
연령,60대이상,13,28.3,4,8.7,7,15.2,5,10.9,4,8.7,6,13.0,1,2.2,1,2.2,5,10.9,0,0.0,46
학력,초등학교 졸업(무학 포함),2,25.0,1,12.5,2,25.0,0,0.0,1,12.5,1,12.5,0,0.0,0,0.0,1,12.5,0,0.0,8
학력,중학교 재학,5,25.0,1,5.0,1,5.0,3,15.0,1,5.0,1,5.0,1,5.0,3,15.0,4,20.0,0,0.0,20


## Q8 귀하의 산림문화 활동 또는 프로그램에 누구와 함께 참여하고 싶으십니까? - 빈도분석

In [107]:
Q8_map = {'1': '혼자',
          '2': '가족과 함께',
          '3': '친구 또는 연인과 함께',
          '4': '직장동료와 함께',
          '5': '친목단체 또는 모임에서',
          '6': '학교에서',
          '7': '기타'}

# 데이터프레임에서 'Q2' 열의 빈도 정의
frequency8 = df_expo['Q8'].value_counts().reset_index()
frequency8.columns = ['값', '빈도']

# 데이터프레임에서 'Q2' 열의 빈도 정의
frequency8_common = df_common['Q8'].value_counts().reset_index()
frequency8_common.columns = ['값', '빈도']
frequency8_common = frequency8_common.astype(int)

# map_val 함수('값' 열의 값을 딕셔너리를 사용하여 일괄적으로 변경하는 함수)를 사용
frequency8['값'] = map_val(frequency8['값'], Q8_map)
frequency8_common['값'] = map_val(frequency8_common['값'], Q8_map)

In [108]:
import plotly.express as px

# 빈도를 비율로 변환
frequency8['비율'] = frequency8['빈도'] / frequency8['빈도'].sum()

# 파이 차트 시각화 (크기 조절)
fig = px.pie(frequency8, values='비율', names='값', title="<b>빈도 비율 분석</b>", hole=0.2,
                color_discrete_sequence=color_scale)
fig.update_layout(
        title={
        'text': '귀하는 산림문화 활동 또는 프로그램에 누구와 함께 참여하고 싶으싶니까?',
        'font': {'size': 24}  # 제목의 폰트 크기 설정
    },
    font=dict(size=13),
    height=900,  # 그림의 높이 설정
    width=1400,    # 그림의 너비 설정
    legend=dict(x=0.9, y=0.5)  # 범례 위치 조정 (x, y 조절 가능)
)
# 차트 내에 비율 숫자 직접 표시
pull_lst = [0.01] * 6
fig.update_traces(textinfo='percent+label', pull=pull_lst, insidetextorientation='horizontal')  # 비율 숫자를 라벨과 함께 표시

fig.show()

In [109]:
import plotly.express as px

# 빈도를 비율로 변환
frequency8_common['비율'] = frequency8_common['빈도'] / frequency8_common['빈도'].sum()

# 파이 차트 시각화 (크기 조절)
fig = px.pie(frequency8_common, values='비율', names='값', hole=0.2,
                color_discrete_sequence=color_scale)
fig.update_layout(
        title={
        'text': '귀하는 산림문화 활동 또는 프로그램에 누구와 함께 참여하고 싶으싶니까? - 일반국민',
        'font': {'size': 24}  # 제목의 폰트 크기 설정
    },
    font=dict(size=13),
    height=900,  # 그림의 높이 설정
    width=1400,    # 그림의 너비 설정
    legend=dict(x=0.9, y=0.5)  # 범례 위치 조정 (x, y 조절 가능)
)
# 차트 내에 비율 숫자 직접 표시
pull_lst = [0.01] * 6
fig.update_traces(textinfo='percent+label', pull=pull_lst, insidetextorientation='horizontal')  # 비율 숫자를 라벨과 함께 표시

fig.show()

### 카이제곱검정

In [121]:
import pandas as pd

# '값' 열을 인덱스로 설정
df1 = frequency8.set_index('값')[['비율']]
df2 = frequency8_common.set_index('값')[['비율']]

# 두 데이터프레임을 합쳐서 교차표를 생성
cross_table = pd.concat([df1, df2], axis=1, sort=False).fillna(0)

# 교차표 출력
cross_table

Unnamed: 0_level_0,비율,비율
값,Unnamed: 1_level_1,Unnamed: 2_level_1
가족과 함께,0.390476,0.621265
친구 또는 연인과 함께,0.314286,0.22232
직장동료와 함께,0.104762,0.036907
친목단체 또는 모임에서,0.095238,0.034271
학교에서,0.057143,0.002636
혼자,0.038095,0.080844
기타,0.0,0.001757


In [122]:
from scipy.stats import chi2_contingency

# 카이제곱 검정 수행
chi2, p, dof, expected = chi2_contingency(cross_table)

# 결과 출력
print("카이제곱 검정 통계량:", chi2)
print("p-값:", p)
print("자유도:", dof)
print("기대값 테이블:")
print(expected)

카이제곱 검정 통계량: 0.19642964531911106
p-값: 0.999853287127248
자유도: 6
기대값 테이블:
[[0.50587078 0.50587078]
 [0.26830279 0.26830279]
 [0.07083438 0.07083438]
 [0.06475437 0.06475437]
 [0.02988953 0.02988953]
 [0.05946941 0.05946941]
 [0.00087873 0.00087873]]


### 합산한 표 생성

In [33]:
# 응답자 특성별 표 정리
q8 = ['혼자', '가족과 함께', '친구 또는 연인과 함께', '직장동료와 함께', '친목단체 또는 모임에서', '학교에서', '기타']
combined_list = q8
column_lst = []
for i in combined_list:
    column_lst.append("%s-빈도"%i)
    column_lst.append("%s-비율"%i)
resp_map_df = pd.DataFrame(columns = column_lst)

# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 응답자 특성 값으로 필터링
        filtered_rows = df_expo[df_expo[sq_dic[sq]] == val].reset_index(drop=True)
        frequency_rate_df = filtered_rows['Q8'].value_counts().reset_index()
        frequency_rate_df.columns = ['값', '빈도']
        frequency_rate_df['값'] = map_val(frequency_rate_df['값'], Q8_map)
        frequency_rate_df['비율'] = round((frequency_rate_df['빈도'] / frequency_rate_df['빈도'].sum())*100,1)
        frequency_rate_df = frequency_rate_df.set_index(keys='값')
        
        resp_map = {}
        for i in resp_map_df.columns:
            if i.endswith('빈도'):
                resp_map[i] = [0]
            else:
                resp_map[i] = [0.0]

        for i in resp_map_df.columns:           
            response, method = i.split('-')
            try:
                resp_map[i][0] = frequency_rate_df.loc[response, method]
            except:
                pass
        else:
            map_df = pd.DataFrame(resp_map)
            map_df.index = [val]
            resp_map_df = pd.concat([resp_map_df,map_df])
resp_map_df['사례수'] = resp_map_df.filter(like='빈도').sum(axis=1).astype(int)
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df


The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.



Unnamed: 0,Unnamed: 1,혼자-빈도,혼자-비율,가족과 함께-빈도,가족과 함께-비율,친구 또는 연인과 함께-빈도,친구 또는 연인과 함께-비율,직장동료와 함께-빈도,직장동료와 함께-비율,친목단체 또는 모임에서-빈도,친목단체 또는 모임에서-비율,학교에서-빈도,학교에서-비율,기타-빈도,기타-비율,사례수
성별,남성,2,4.0,21,42.0,15,30.0,3,6.0,4,8.0,5,10.0,0,0.0,50
성별,여성,2,3.6,20,36.4,18,32.7,8,14.5,6,10.9,1,1.8,0,0.0,55
연령,10대(15세이상),1,14.3,1,14.3,4,57.1,0,0.0,0,0.0,1,14.3,0,0.0,7
연령,20대,1,3.6,7,25.0,14,50.0,0,0.0,1,3.6,5,17.9,0,0.0,28
연령,30대,2,14.3,8,57.1,3,21.4,1,7.1,0,0.0,0,0.0,0,0.0,14
연령,40대,0,0.0,11,78.6,0,0.0,3,21.4,0,0.0,0,0.0,0,0.0,14
연령,50대,0,0.0,7,36.8,5,26.3,5,26.3,2,10.5,0,0.0,0,0.0,19
연령,60대이상,0,0.0,7,30.4,7,30.4,2,8.7,7,30.4,0,0.0,0,0.0,23
학력,초등학교 졸업(무학 포함),0,0.0,0,0.0,2,50.0,0,0.0,2,50.0,0,0.0,0,0.0,4
학력,중학교 재학,1,10.0,1,10.0,4,40.0,0,0.0,3,30.0,1,10.0,0,0.0,10
