## 설문조사 산림엑스포, 일반국민 데이터 전처리

데이터수집 - 전처리 - 분석 - 결과도출 순으로 진행

In [2]:
import math # NaN값 구별때문에 import
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import plotly.express as px
import numpy as np

# matplotlib 한글 글꼴 설정
plt.rc('font', family='Malgun Gothic')

# 모든 열이 생략되지 않도록 설정
pd.set_option('display.max_columns', None)

# 테마 컬러맵 미리 정의
color_scale = ['rgb(5,31,69)',
               'rgb(8,48,107)',
               'rgb(11,62,138)',
               'rgb(8,81,156)',
               'rgb(7,90,176)',
               'rgb(33,113,181)',
               'rgb(66,146,198)',
               'rgb(81,157,207)',
               'rgb(107,174,214)',
               'rgb(158,202,225)',
               'rgb(198,219,239)',
               'rgb(222,235,247)',
               'rgb(247,251,255)']

### 응답자 특성 설문
| `문항` | `보기` |
|:---------:|:---------:|
| <b>`성별`<b> | ①남성    ②여성 |
| <b>`연령`<b>   | ①10대(15세이상)    ②20대   ③30대   ④40대   ⑤50대   ⑥60대이상, 추가설문 : 출생년도(___)년 |
| <b>`학력`<b>   | ①초등학교 졸업(무학 포함)    ②중학교 재학   ③중학교 졸업   ④고등학교 재학   ⑤고등학교 졸업<br>   ⑥대학교 재학    ⑦대학교 졸업    ⑧대학원 재학(석사 또는 박사) ⑨ 대학원 졸업(석사또는 박사) |
| <b>`거주지역`<b>   | ①서울    ②부산   ③대구   ④인천   ⑤광주   ⑥대전    ⑦울산    ⑧세종   ⑨경기<br>   ⑩강원   ⑪충북   ⑫충남   ⑬전북   ⑭전남   ⑮경북   ⑯경남   ⑰제주 |
| <b>`직업`<b>   | ①산림임업종사자    ②사무종사자   ③서비스종사자   ④판매종사자   ⑤기술기능종사자   ⑥단순노무종사자    ⑦전문가(교수 포함)<br>    ⑧경영직종사자   ⑨자영업자(개인사업자)   ⑩공무원(교사포함)   ⑪학생(대학원생포함)   ⑫전업주부   ⑬기타(___) |

In [3]:
# 응답자 특성 딕셔너리
Resp_Character = {
    '성별': {1: '남성', 2: '여성'},
    '연령': {1: '10대(15세이상)', 2: '20대', 3: '30대', 4: '40대', 5: '50대', 6: '60대이상'},
    '학력': {1: '초등학교 졸업(무학 포함)', 2: '중학교 재학', 3: '중학교 졸업', 4: '고등학교 재학', 5: '고등학교 졸업', 6: '대학교 재학', 7: '대학교 졸업', 8: '대학원 재학(석사 또는 박사)', 9: '대학원 졸업(석사또는 박사)'},
    '거주지역': {1: '서울', 2: '부산', 3: '대구', 4: '인천', 5: '광주', 6: '대전', 7: '울산', 8: '세종', 9: '경기', 10: '강원', 11: '충북', 12: '충남', 13: '전북', 14: '전남', 15: '경북', 16: '경남', 17: '제주'},
    '직업': {1: '산림임업종사자', 2: '사무종사자', 3: '서비스종사자', 4: '판매종사자', 5: '기술기능종사자', 6: '단순노무종사자', 7: '전문가(교수 포함)', 8: '경영직종사자', 9: '자영업자(개인사업자)', 10: '공무원(교사포함)', 11: '학생(대학원생포함)', 12: '전업주부', 13: '기타'}}

In [4]:
# 산림엑스포 설문데이터 로드 및 응답자 특성 매핑
df_expo = pd.read_excel('dataset/전국민 산림문화 인식 및 태도 향유실태 조사_산림엑스포_230922.xlsx', sheet_name="DATA")
df_expo['SQ1'] = df_expo['SQ1'].replace(Resp_Character['성별'])
df_expo['SQ2_1'] = df_expo['SQ2_1'].replace(Resp_Character['연령'])
df_expo['SQ3'] = df_expo['SQ3'].replace(Resp_Character['학력'])
df_expo['SQ4'] = df_expo['SQ4'].replace(Resp_Character['거주지역'])
df_expo['SQ5'] = df_expo['SQ5'].replace(Resp_Character['직업'])
# 응답자 특성 5번항목의 '기타'항목자 처리
df_expo['SQ5_13_ETC'] = df_expo['SQ5_13_ETC'].fillna('')
# 연도 column float to int 변환
df_expo['SQ2_2'] = ['' if np.isnan(i) else int(i) for i in df_expo['SQ2_2']]

# 일반국민 설문데이터 로드 및 응답자 특성 매핑
df_common= pd.read_excel('dataset/전국민 산림문화 인식 태도 향유실태 조사_일반국민_230530.xlsx', sheet_name="DATA")
df_common['SQ1'] = df_common['SQ1'].replace(Resp_Character['성별'])
df_common['SQ2_1'] = df_common['SQ2_1'] - 1
df_common['SQ2_1'] = df_common['SQ2_1'].replace(Resp_Character['연령'])
df_common['SQ3'] = df_common['SQ3'].replace(Resp_Character['학력'])
df_common['SQ4'] = df_common['SQ4'].replace(Resp_Character['거주지역'])
df_common['SQ5'] = df_common['SQ5'].replace(Resp_Character['직업'])
# 응답자 특성 5번항목의 '기타'항목자 처리
df_common['SQ5_13_ETC'] = df_common['SQ5_13_ETC'].fillna('')

## Q4. 산림문화가 추구하는 가치

In [5]:
# 응답자 특성과 4번 설문에 대한 항목만 필터링
df_expo_4 = df_expo[list(df_expo.columns[:7]) + list(df_expo.columns[12:23])]
df_common_4 = df_common[list(df_common.columns[:7]) + list(df_common.columns[11:22])]

expo_4_map_dic = { 'Q4_1': '공익적 가치',
        'Q4_2': '경제적 가치',
        'Q4_3': '환경적 가치',
        'Q4_4': '도덕적 가치',
        'Q4_5': '역사적 가치',
        'Q4_6': '예술적 가치',
        'Q4_7': '학술적 가치',
        'Q4_8': '생활적 가치',
        'Q4_9': '공존적 가치',
        'Q4_10': '공동체적 가치',
        'Q4_11': '정서적 가치' }

In [6]:
# 가중평균 계산 및 리스트 형태로 저장
expo_4_dic = {'설문':list(df_expo_4.columns[7:]),
              '평균':[],
              '5_빈도':[],
              '4_빈도':[],
              '3_빈도':[],
              '2_빈도':[],
              '1_빈도':[],
              '5_비율':[],
              '4_비율':[],
              '3_비율':[],
              '2_비율':[],
              '1_비율':[],
            }

for question in df_expo_4.columns[7:]:
    score_counts = df_expo_4[question].value_counts()#.reset_index()
    weighted_sum = (score_counts.index * score_counts).sum()
    total_count = score_counts.sum()
    weighted_mean = round(weighted_sum / total_count, 2)
    expo_4_dic['평균'].append(weighted_mean)

    score_counts = score_counts.reset_index()
    score_counts.columns = ['점수', '빈도']
    score_counts['비율'] = round((score_counts['빈도'] / score_counts['빈도'].sum()) * 100, 1)
    for num, freq, rate in zip(range(5,0,-1),score_counts['빈도'].tolist(),score_counts['비율'].tolist()):
        expo_4_dic[str(num) + '_빈도'].append(freq)
        expo_4_dic[str(num) + '_비율'].append(rate)
expo_4_df = pd.DataFrame(expo_4_dic)
expo_4_df['설문'] = expo_4_df['설문'].replace(expo_4_map_dic)

In [7]:
# 가중평균 계산 및 리스트 형태로 저장
common_4_dic = {'설문':list(df_common_4.columns[7:]),
              '평균':[],
              '5_빈도':[],
              '4_빈도':[],
              '3_빈도':[],
              '2_빈도':[],
              '1_빈도':[],
              '5_비율':[],
              '4_비율':[],
              '3_비율':[],
              '2_비율':[],
              '1_비율':[],
            }

for question in df_common_4.columns[7:]:
    score_counts = df_common_4[question].value_counts()#.reset_index()
    weighted_sum = (score_counts.index * score_counts).sum()
    total_count = score_counts.sum()
    weighted_mean = round(weighted_sum / total_count, 2)
    common_4_dic['평균'].append(weighted_mean)

    score_counts = score_counts.reset_index()
    score_counts.columns = ['점수', '빈도']
    score_counts['비율'] = round((score_counts['빈도'] / score_counts['빈도'].sum()) * 100, 1)
    for num, freq, rate in zip(range(5,0,-1),score_counts['빈도'].tolist(),score_counts['비율'].tolist()):
        common_4_dic[str(num) + '_빈도'].append(freq)
        common_4_dic[str(num) + '_비율'].append(rate)
common_4_df = pd.DataFrame(common_4_dic)
common_4_df['설문'] = common_4_df['설문'].replace(expo_4_map_dic)

In [203]:
common_4_df

Unnamed: 0,설문,평균,5_빈도,4_빈도,3_빈도,2_빈도,1_빈도,5_비율,4_비율,3_비율,2_비율,1_비율,그래프
0,공익적 가치,3.6,671,583,274,147,25,39.5,34.3,16.1,8.6,1.5,다른 데이터
1,경제적 가치,3.6,684,595,260,143,18,40.2,35.0,15.3,8.4,1.1,다른 데이터
2,환경적 가치,4.01,633,587,363,95,22,37.2,34.5,21.4,5.6,1.3,다른 데이터
3,도덕적 가치,3.48,694,648,184,153,21,40.8,38.1,10.8,9.0,1.2,다른 데이터
4,역사적 가치,3.49,698,651,184,142,25,41.1,38.3,10.8,8.4,1.5,다른 데이터
5,예술적 가치,3.44,690,663,160,156,31,40.6,39.0,9.4,9.2,1.8,다른 데이터
6,학술적 가치,3.53,704,636,191,146,23,41.4,37.4,11.2,8.6,1.4,다른 데이터
7,생활적 가치,3.81,759,449,376,94,22,44.6,26.4,22.1,5.5,1.3,다른 데이터
8,공존적 가치,3.88,692,458,455,79,16,40.7,26.9,26.8,4.6,0.9,다른 데이터
9,공동체적 가치,3.55,680,654,214,128,24,40.0,38.5,12.6,7.5,1.4,다른 데이터


In [81]:
import plotly.express as px
import plotly.graph_objects as go

# 그래프 생성
fig = go.Figure()

# 엑스포 그래프 추가
fig.add_trace(go.Scatter(x=expo_4_df['설문'], y=expo_4_df['평균'], mode='lines', name='산림엑스포', line=dict(color='blue')))
# 일반국민 그래프 추가
fig.add_trace(go.Scatter(x=common_4_df['설문'], y=common_4_df['평균'], mode='lines', name='일반국민', line=dict(color='red')))

# 각 지점에 숫자 표시하기
for i, row in expo_4_df.iterrows():
    fig.add_annotation(
        text=row['평균'],
        x=row['설문'],
        y=row['평균'],
        showarrow=True,
        arrowhead=7,
        font=dict(size=14)  # annotation 폰트
    )

# 두 번째 꺾은선 그래프의 annotation 추가
for i, row in common_4_df.iterrows():
    fig.add_annotation(
        text=row['평균'],
        x=row['설문'],
        y=row['평균'],
        showarrow=True,
        arrowhead=7,
        font=dict(size=14)  # annotation 폰트
    )

# 그래프 레이아웃 설정
fig.update_layout(
    xaxis_title='문항',
    yaxis_title='평균',
    margin=dict(l=100, r=20, t=50, b=50),  # 그래프 마진 조정
    yaxis_title_font=dict(
        size=15,  # Y 레이블 폰트 크기
    ),
    xaxis_title_font=dict(
        size=15,  # X 레이블 폰트 크기
    )
)

# 범례 추가
fig.update_layout(legend=dict(orientation="h", x=0.02, y=0.98), showlegend=True)

# 여백 (margin) 조정
fig.update_layout(margin=dict(l=100, r=100, b=70, t=70))

# 그래프 그리기
fig.show()

In [116]:
import plotly.colors as pc
expo_4_num_df = expo_4_df[['설문','5_비율','4_비율', '3_비율', '2_비율', '1_비율']]
common_4_num_df = common_4_df[['설문','5_비율','4_비율', '3_비율', '2_비율', '1_비율']]

# 컬러맵을 리스트로 불러오기
blues_color_map = pc.sequential.Blues
reds_color_map = pc.sequential.Reds

# 누적 막대그래프 시각화
fig = go.Figure()

# 막대 그래프 추가 (expo_4_num_df 데이터 사용)
for i in range(1, 6):
    text_labels = [f'<span style="font-size: 15px !important;">{val:.1f}%</span>' for val in expo_4_num_df[f'{i}_비율']]
    fig.add_trace(go.Bar(x=expo_4_num_df['설문'], y=expo_4_num_df[f'{i}_비율'], text=text_labels,
                         name=f'{i}점 (산림엑스포)', textposition='auto', marker=dict(color=blues_color_map[i-1])))

# 두 번째 막대 그래프 추가 (common_4_num_df 데이터 사용) - 겹치게 표시
for i in range(1, 6):
    text_labels = [f'<span style="font-size: 15px">{val:.1f}%</span>' for val in common_4_num_df[f'{i}_비율']]
    fig.add_trace(go.Bar(x=common_4_num_df['설문'], y=common_4_num_df[f'{i}_비율'], text=text_labels,
                         name=f'{i}점 (일반국민대상)', textposition='auto', marker=dict(color=reds_color_map[i-1])))

# 그래프 레이아웃 설정
fig.update_layout(title="산림문화의 추구 가치 비교", xaxis_title="<span style='font-size: 15px'>설문</span>", yaxis_title="<span style='font-size: 15px'>비율(%)</span>",
                  barmode='group', showlegend=True)

# 범례 텍스트 수정
fig.update_layout(legend=dict(traceorder="reversed"))

# 그래프 높이와 너비 조정
fig.update_layout(height=700, width=1400)

# 여백 (margin) 조정
fig.update_layout(margin=dict(l=100, r=100, b=70, t=70))

fig.show()


In [None]:
import plotly.colors as pc

# 컬러맵을 리스트로 불러오기
blues_color_map = pc.sequential.Blues
reds_color_map = pc.sequential.Reds

# 누적 막대그래프 시각화
fig = go.Figure()

# 막대 그래프 추가 (expo_4_num_df 데이터 사용)
for i in range(1, 6):
    text_labels = [f'<span style="font-size: 14px !important;">{val:.1f}%</span>' for val in expo_4_num_df[f'{i}_비율']]
    fig.add_trace(go.Bar(x=expo_4_num_df['설문'], y=expo_4_num_df[f'{i}_비율'], text=text_labels,
                         name=f'{i}점 (산림엑스포)', textposition='auto', marker=dict(color=blues_color_map[i-1])))

# 두 번째 막대 그래프 추가 (common_4_df 데이터 사용) - 겹치게 표시
for i in range(1, 6):
    text_labels = [f'<span style="font-size: 14px !important;">{val:.1f}%</span>' for val in common_4_df[f'{i}_비율']]
    fig.add_trace(go.Bar(x=common_4_df['설문'], y=common_4_df[f'{i}_비율'], text=text_labels,
                         name=f'{i}점 (다른 데이터)', textposition='auto', marker=dict(color=reds_color_map[i-1])))

# 그래프 레이아웃 설정
fig.update_layout(title="산림문화의 추구 가치 비교", xaxis_title="설문", yaxis_title="비율 (%)",
                  barmode='relative', showlegend=True)

# 범례 텍스트 수정
fig.update_layout(legend=dict(traceorder="reversed"))

# 그래프 높이와 너비 조정
fig.update_layout(height=700, width=1400)

# 여백 (margin) 조정
fig.update_layout(margin=dict(l=100, r=100, b=70, t=70))

fig.show()


### 산림엑스포만 합산한 표 생성

In [None]:
# 응답자 특성별 표 정리
q4 = ['공익적 가치', '경제적 가치', '환경적 가치', '도덕적 가치', '역사적 가치', '예술적 가치', '학술적 가치', '생활적 가치', '공존적 가치', '공동체적 가치', '정서적 가치', '사례수']
resp_map_df = pd.DataFrame(columns = q4)
# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링 및 평균계산
        filtered_rows = df_expo_4[df_expo_4[sq_dic[sq]] == val].reset_index(drop=True)
        mean_list = [round(filtered_rows[i].mean(),2) for i in filtered_rows.columns[7:]]

        resp_map = {}
        for col, mean in zip(resp_map_df.columns, mean_list + [0]):
            if col == '사례수':
                resp_map[col] = filtered_rows.shape[0]
            else:
                resp_map[col] = [mean]
        else:
            resp_map = pd.DataFrame(resp_map)
            resp_map.index = [val]
            resp_map_df = pd.concat([resp_map_df,resp_map])
            resp_map_df.fillna(0.0, inplace=True)
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df

### 가치별 비율 표 (문항만 변경하면 원하는 가치 표출력 가능)

In [150]:
# '값' 열의 값을 딕셔너리를 사용하여 일괄적으로 변경하는 함수 정의
def map_val(series, dic):
        lst = []
        for value in series:
                lst.append(dic[str(value)])
        return lst

In [None]:
# 응답자 특성별 표 정리
q4_map = {'1':'1.매우 가치가 낮다', '2':'2.다소 가치가 낮다', '3':'3.보통이다', '4':'4.다소 가치가 높다', '5':'5.매우 가치가 높다'}
q4 = ['1.매우 가치가 낮다', '2.다소 가치가 낮다', '3.보통이다', '4.다소 가치가 높다', '5.매우 가치가 높다', '부정(1+2)', '보통(3)', '긍정(4+5)']
resp_map_df = pd.DataFrame(columns = q4)

# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링 및 평균계산
        filtered_rows = df_expo_4[df_expo_4[sq_dic[sq]] == val].reset_index(drop=True)
        frequency_rate_df = filtered_rows['Q4_1'].value_counts().reset_index()
        frequency_rate_df.columns = ['값', '빈도']
        frequency_rate_df['값'] = map_val(frequency_rate_df['값'], q4_map)
        frequency_rate_df['비율'] = round((frequency_rate_df['빈도'] / frequency_rate_df['빈도'].sum())*100,1)
        frequency_rate_df = frequency_rate_df.set_index(keys='값')
        
        resp_map = {}
        for i in resp_map_df.columns:
            resp_map[i] = [0.0]
        for i in resp_map_df.columns[:5]:
            try:
                resp_map[i][0] = frequency_rate_df.loc[i, '비율']
            except:
                pass
        for i in resp_map_df.columns[5:]:
            try:
                f,s = i.split('+')
                resp_map[i][0] = resp_map[q4_map[f[-1]]][0] + resp_map[q4_map[s[0]]][0]
            except:
                f = i.split('(')[1][0]
                resp_map[i][0] = resp_map[q4_map[f]][0]
        else:
            resp_map = pd.DataFrame(resp_map)
            resp_map.index = [val]
            resp_map_df = pd.concat([resp_map_df,resp_map])
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df

### 일반국민만 합산한 표 생성

In [None]:
# 응답자 특성별 표 정리
q4 = ['공익적 가치', '경제적 가치', '환경적 가치', '도덕적 가치', '역사적 가치', '예술적 가치', '학술적 가치', '생활적 가치', '공존적 가치', '공동체적 가치', '정서적 가치', '사례수']
resp_map_df = pd.DataFrame(columns = q4)
# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링 및 평균계산
        filtered_rows = df_common_4[df_common_4[sq_dic[sq]] == val].reset_index(drop=True)
        mean_list = [round(filtered_rows[i].mean(),2) for i in filtered_rows.columns[7:]]

        resp_map = {}
        for col, mean in zip(resp_map_df.columns, mean_list + [0]):
            if col == '사례수':
                resp_map[col] = filtered_rows.shape[0]
            else:
                resp_map[col] = [mean]
        else:
            resp_map = pd.DataFrame(resp_map)
            resp_map.index = [val]
            resp_map_df = pd.concat([resp_map_df,resp_map])
            resp_map_df.fillna(0.0, inplace=True)
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df

### 가치별 비율 표 (문항만 변경하면 원하는 가치 표출력 가능)

In [179]:
# '값' 열의 값을 딕셔너리를 사용하여 일괄적으로 변경하는 함수 정의
def map_val(series, dic):
        lst = []
        for value in series:
                lst.append(dic[str(value)])
        return lst

In [180]:
# 응답자 특성별 표 정리
q4_map = {'1':'1.매우 가치가 낮다', '2':'2.다소 가치가 낮다', '3':'3.보통이다', '4':'4.다소 가치가 높다', '5':'5.매우 가치가 높다'}
q4 = ['1.매우 가치가 낮다', '2.다소 가치가 낮다', '3.보통이다', '4.다소 가치가 높다', '5.매우 가치가 높다', '부정(1+2)', '보통(3)', '긍정(4+5)']
resp_map_df = pd.DataFrame(columns = q4)

# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링 및 평균계산
        filtered_rows = df_common_4[df_common_4[sq_dic[sq]] == val].reset_index(drop=True)
        frequency_rate_df = filtered_rows['Q4_1'].value_counts().reset_index()
        frequency_rate_df.columns = ['값', '빈도']
        frequency_rate_df['값'] = map_val(frequency_rate_df['값'], q4_map)
        frequency_rate_df['비율'] = round((frequency_rate_df['빈도'] / frequency_rate_df['빈도'].sum())*100,1)
        frequency_rate_df = frequency_rate_df.set_index(keys='값')
        
        resp_map = {}
        for i in resp_map_df.columns:
            resp_map[i] = [0.0]
        for i in resp_map_df.columns[:5]:
            try:
                resp_map[i][0] = frequency_rate_df.loc[i, '비율']
            except:
                pass
        for i in resp_map_df.columns[5:]:
            try:
                f,s = i.split('+')
                resp_map[i][0] = resp_map[q4_map[f[-1]]][0] + resp_map[q4_map[s[0]]][0]
            except:
                f = i.split('(')[1][0]
                resp_map[i][0] = resp_map[q4_map[f]][0]
        else:
            resp_map = pd.DataFrame(resp_map)
            resp_map.index = [val]
            resp_map_df = pd.concat([resp_map_df,resp_map])
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df

Unnamed: 0,Unnamed: 1,1.매우 가치가 낮다,2.다소 가치가 낮다,3.보통이다,4.다소 가치가 높다,5.매우 가치가 높다,부정(1+2),보통(3),긍정(4+5)
성별,남성,1.3,8.9,33.8,39.0,17.1,10.2,33.8,56.1
성별,여성,1.7,8.4,34.9,40.0,15.1,10.1,34.9,55.1
연령,10대(15세이상),1.8,3.5,36.8,35.1,22.8,5.3,36.8,57.9
연령,20대,1.9,9.7,36.8,37.7,13.8,11.6,36.8,51.5
연령,30대,1.4,13.4,38.4,29.6,17.3,14.8,38.4,46.9
연령,40대,1.4,9.2,33.2,40.4,15.8,10.6,33.2,56.2
연령,50대,1.4,6.2,31.9,45.7,14.9,7.6,31.9,60.6
연령,60대이상,1.2,6.5,31.7,42.5,18.0,7.7,31.7,60.5
학력,초등학교 졸업(무학 포함),0.0,0.0,16.7,33.3,50.0,0.0,16.7,83.3
학력,중학교 재학,0.0,0.0,28.6,28.6,42.9,0.0,28.6,71.5


## Q5 '산림문화 활동'에 참여하고 싶은 정도

In [8]:
df_common.columns[24:43]

Index(['Q5_1', 'Q5_2', 'Q5_3', 'Q5_4', 'Q5_5', 'Q5_6', 'Q5_7', 'Q5_8', 'Q5_9',
       'Q5_10', 'Q5_11', 'Q5_12', 'Q5_13', 'Q5_14', 'Q5_15', 'Q5_16', 'Q5_17',
       'Q5_18', 'Q5_19'],
      dtype='object')

In [37]:
a = [i.split(' ▶ ')[1].split('(')[0] for i in pd.read_excel('dataset/전국민 산림문화 인식 및 태도 향유실태 조사_산림엑스포_230922.xlsx', sheet_name="변수가이드")['문항'].tolist()[154:266:6]]

In [38]:
dic = {}
for k,v in zip(df_common.columns[24:43],a):
    dic[k] = v
dic

{'Q5_1': '숲속 박물관·전시회 관람',
 'Q5_2': '숲속 공연·음악연주회 관람',
 'Q5_3': '숲속 문학행사 참여',
 'Q5_4': '숲속 예술·활동 참여',
 'Q5_5': '숲 기반 생활공예·취미활동 참여',
 'Q5_6': '숲가꾸기 체험',
 'Q5_7': '임산물 수확 체험',
 'Q5_8': '동식물 관찰 및 학습',
 'Q5_9': '산림레포츠 참여',
 'Q5_10': '계곡레포츠 참여',
 'Q5_11': '건강증진 활동 참여',
 'Q5_12': '숲 탐방',
 'Q5_13': '산림문화자산·자연명승지 탐방',
 'Q5_14': '자연경관 감상',
 'Q5_15': '숲속 생활 체험',
 'Q5_16': '산림',
 'Q5_17': '산림',
 'Q5_18': '산림분야 자기계발 및 학습',
 'Q5_19': '산림 관련 사회봉사활동'}

In [39]:
# 응답자 특성과 4번 설문에 대한 항목만 필터링
df_expo_5 = df_expo[list(df_expo.columns[:7]) + list(df_expo.columns[24:43])]
df_common_5 = df_common[list(df_common.columns[:7]) + list(df_common.columns[24:43])]

q5_map_dic = {'Q5_1': '숲속 박물관·전시회 관람',
            'Q5_2': '숲속 공연·음악연주회 관람',
            'Q5_3': '숲속 문학행사 참여',
            'Q5_4': '숲속 예술·활동 참여',
            'Q5_5': '숲 기반 생활공예·취미활동 참여',
            'Q5_6': '숲가꾸기 체험',
            'Q5_7': '임산물 수확 체험',
            'Q5_8': '동식물 관찰 및 학습',
            'Q5_9': '산림레포츠 참여',
            'Q5_10': '계곡레포츠 참여',
            'Q5_11': '건강증진 활동 참여',
            'Q5_12': '숲 탐방',
            'Q5_13': '산림문화자산·자연명승지 탐방',
            'Q5_14': '자연경관 감상',
            'Q5_15': '숲속 생활 체험',
            'Q5_16': '산림주제 게임활동',
            'Q5_17': '산림주제 독서활동',
            'Q5_18': '산림분야 자기계발 및 학습',
            'Q5_19': '산림 관련 사회봉사활동'}

In [40]:
# 가중평균 계산 및 리스트 형태로 저장
expo_5_dic = {'설문':[],
              '평균':[],
              '5_빈도':[],
              '4_빈도':[],
              '3_빈도':[],
              '2_빈도':[],
              '1_빈도':[],
              '5_비율':[],
              '4_비율':[],
              '3_비율':[],
              '2_비율':[],
              '1_비율':[],
            }

for question in df_expo_5.columns[7:]:
    score_counts = df_expo_5[question].value_counts()#.reset_index()
    weighted_sum = (score_counts.index * score_counts).sum()
    total_count = score_counts.sum()
    weighted_mean = round(weighted_sum / total_count, 2)
    expo_5_dic['설문'].append(question)
    expo_5_dic['평균'].append(weighted_mean)

    score_counts = score_counts.reset_index()
    score_counts.columns = ['점수', '빈도']
    score_counts['비율'] = round((score_counts['빈도'] / score_counts['빈도'].sum()) * 100, 1)
    
    # 존재하는 점수들, 1개도 안나온 값들이 있음
    existing_scores = [1, 2, 3, 4, 5]
    # 누락된 점수들 찾기
    missing_scores = [score for score in existing_scores if score not in score_counts['점수'].tolist()]
    # 누락된 점수들을 데이터프레임에 추가
    for missing_score in missing_scores:
        new_row = {'점수': missing_score, '빈도': 0, '비율': 0.0}
        score_counts = score_counts.append(new_row, ignore_index=True)
    for num, freq, rate in zip(range(5,0,-1),score_counts['빈도'].tolist(),score_counts['비율'].tolist()):
        expo_5_dic[str(num) + '_빈도'].append(freq)
        expo_5_dic[str(num) + '_비율'].append(rate)
expo_5_df = pd.DataFrame(expo_5_dic)
expo_5_df['설문'] = expo_5_df['설문'].replace(q5_map_dic)
expo_5_df


The frame.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.


The frame.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.



Unnamed: 0,설문,평균,5_빈도,4_빈도,3_빈도,2_빈도,1_빈도,5_비율,4_비율,3_비율,2_비율,1_비율
0,숲속 박물관·전시회 관람,4.07,42.0,37.0,19.0,5.0,2.0,40.0,35.2,18.1,4.8,1.9
1,숲속 공연·음악연주회 관람,3.7,39.0,29.0,17.0,17.0,3.0,37.1,27.6,16.2,16.2,2.9
2,숲속 문학행사 참여,3.53,33.0,27.0,24.0,17.0,4.0,31.4,25.7,22.9,16.2,3.8
3,숲속 예술·활동 참여,3.8,36.0,29.0,27.0,11.0,2.0,34.3,27.6,25.7,10.5,1.9
4,숲 기반 생활공예·취미활동 참여,4.1,45.0,32.0,21.0,7.0,0.0,42.9,30.5,20.0,6.7,0.0
5,숲가꾸기 체험,3.99,41.0,31.0,25.0,7.0,1.0,39.0,29.5,23.8,6.7,1.0
6,임산물 수확 체험,3.91,43.0,30.0,16.0,12.0,4.0,41.0,28.6,15.2,11.4,3.8
7,동식물 관찰 및 학습,3.82,33.0,32.0,30.0,8.0,2.0,31.4,30.5,28.6,7.6,1.9
8,산림레포츠 참여,3.62,32.0,28.0,23.0,17.0,5.0,30.5,26.7,21.9,16.2,4.8
9,계곡레포츠 참여,3.69,34.0,30.0,20.0,16.0,5.0,32.4,28.6,19.0,15.2,4.8


In [41]:
# 가중평균 계산 및 리스트 형태로 저장
common_5_dic = {'설문':[],
              '평균':[],
              '5_빈도':[],
              '4_빈도':[],
              '3_빈도':[],
              '2_빈도':[],
              '1_빈도':[],
              '5_비율':[],
              '4_비율':[],
              '3_비율':[],
              '2_비율':[],
              '1_비율':[],
            }

for question in df_common_5.columns[7:]:
    score_counts = df_common_5[question].value_counts()#.reset_index()
    weighted_sum = (score_counts.index * score_counts).sum()
    total_count = score_counts.sum()
    weighted_mean = round(weighted_sum / total_count, 2)
    common_5_dic['설문'].append(question)
    common_5_dic['평균'].append(weighted_mean)

    score_counts = score_counts.reset_index()
    score_counts.columns = ['점수', '빈도']
    score_counts['비율'] = round((score_counts['빈도'] / score_counts['빈도'].sum()) * 100, 1)
    
    # 존재하는 점수들, 1개도 안나온 값들이 있음
    existing_scores = [1, 2, 3, 4, 5]
    # 누락된 점수들 찾기
    missing_scores = [score for score in existing_scores if score not in score_counts['점수'].tolist()]
    # 누락된 점수들을 데이터프레임에 추가
    for missing_score in missing_scores:
        new_row = {'점수': missing_score, '빈도': 0, '비율': 0.0}
        score_counts = score_counts.append(new_row, ignore_index=True)
    for num, freq, rate in zip(range(5,0,-1),score_counts['빈도'].tolist(),score_counts['비율'].tolist()):
        common_5_dic[str(num) + '_빈도'].append(freq)
        common_5_dic[str(num) + '_비율'].append(rate)
common_5_df = pd.DataFrame(common_5_dic)
common_5_df['설문'] = common_5_df['설문'].replace(q5_map_dic)
common_5_df

Unnamed: 0,설문,평균,5_빈도,4_빈도,3_빈도,2_빈도,1_빈도,5_비율,4_비율,3_비율,2_비율,1_비율
0,숲속 박물관·전시회 관람,3.68,490,326,215,68,39,43.1,28.6,18.9,6.0,3.4
1,숲속 공연·음악연주회 관람,3.8,436,310,297,70,25,38.3,27.2,26.1,6.2,2.2
2,숲속 문학행사 참여,3.23,439,318,179,131,71,38.6,27.9,15.7,11.5,6.2
3,숲속 예술·활동 참여,3.49,401,366,193,129,49,35.2,32.2,17.0,11.3,4.3
4,숲 기반 생활공예·취미활동 참여,3.78,462,284,282,76,34,40.6,25.0,24.8,6.7,3.0
5,숲가꾸기 체험,3.82,477,287,279,70,25,41.9,25.2,24.5,6.2,2.2
6,임산물 수확 체험,3.88,444,337,265,66,26,39.0,29.6,23.3,5.8,2.3
7,동식물 관찰 및 학습,3.65,459,340,218,86,35,40.3,29.9,19.2,7.6,3.1
8,산림레포츠 참여,3.25,366,320,178,173,101,32.2,28.1,15.6,15.2,8.9
9,계곡레포츠 참여,3.34,352,325,201,148,112,30.9,28.6,17.7,13.0,9.8


In [45]:
import plotly.express as px
import plotly.graph_objects as go

# 그래프 생성
fig = go.Figure()

# 엑스포 그래프 추가
fig.add_trace(go.Scatter(x=expo_5_df['설문'], y=expo_5_df['평균'], mode='lines', name='산림엑스포', line=dict(color='blue')))
# 일반국민 그래프 추가
fig.add_trace(go.Scatter(x=common_5_df['설문'], y=common_5_df['평균'], mode='lines', name='일반국민', line=dict(color='red')))

# 각 지점에 숫자 표시하기
for i, row in expo_5_df.iterrows():
    fig.add_annotation(
        text=row['평균'],
        x=row['설문'],
        y=row['평균'],
        showarrow=True,
        arrowhead=7,
        font=dict(size=14)  # annotation 폰트
    )

# 두 번째 꺾은선 그래프의 annotation 추가
for i, row in common_5_df.iterrows():
    fig.add_annotation(
        text=row['평균'],
        x=row['설문'],
        y=row['평균'],
        showarrow=True,
        arrowhead=7,
        font=dict(size=14)  # annotation 폰트
    )

# 그래프 레이아웃 설정
fig.update_layout(
    xaxis_title='문항',
    yaxis_title='평균',
    margin=dict(l=100, r=20, t=50, b=50),  # 그래프 마진 조정
    yaxis_title_font=dict(
        size=15,  # Y 레이블 폰트 크기
    ),
    xaxis_title_font=dict(
        size=15,  # X 레이블 폰트 크기
    )
)

# 범례 추가
fig.update_layout(legend=dict(orientation="h", x=0.02, y=0.98), showlegend=True)

# 여백 (margin) 조정
fig.update_layout(margin=dict(l=100, r=100, b=70, t=70))

fig.update_xaxes(tickangle=60)

# 그래프 그리기
fig.show()

In [52]:
expo_5_num_df = expo_5_df[['설문','5_비율','4_비율', '3_비율', '2_비율', '1_비율']]
common_5_num_df = common_5_df[['설문','5_비율','4_비율', '3_비율', '2_비율', '1_비율']]

In [46]:
import plotly.colors as pc

# 컬러맵을 리스트로 불러오기
blues_color_map = pc.sequential.Blues
reds_color_map = pc.sequential.Reds

# 누적 막대그래프 시각화
fig = go.Figure()

# 막대 그래프 추가 (expo_5_num_df 데이터 사용)
for i in range(1, 6):
    text_labels = [f'<span style="font-size: 15px !important;">{val:.1f}%</span>' for val in expo_5_num_df[f'{i}_비율']]
    fig.add_trace(go.Bar(x=expo_5_num_df['설문'], y=expo_5_num_df[f'{i}_비율'], text=text_labels,
                         name=f'{i}점 (산림엑스포)', textposition='auto', marker=dict(color=blues_color_map[i-1])))

# 두 번째 막대 그래프 추가 (common_5_num_df 데이터 사용) - 겹치게 표시
for i in range(1, 6):
    text_labels = [f'<span style="font-size: 15px">{val:.1f}%</span>' for val in common_5_num_df[f'{i}_비율']]
    fig.add_trace(go.Bar(x=common_5_num_df['설문'], y=common_5_num_df[f'{i}_비율'], text=text_labels,
                         name=f'{i}점 (일반국민대상)', textposition='auto', marker=dict(color=reds_color_map[i-1])))

# 그래프 레이아웃 설정
fig.update_layout(title="산림문화의 추구 가치 비교", xaxis_title="<span style='font-size: 15px'>설문</span>", yaxis_title="<span style='font-size: 15px'>비율(%)</span>",
                  barmode='group', showlegend=True)

# 범례 텍스트 수정
fig.update_layout(legend=dict(traceorder="reversed"))

# 그래프 높이와 너비 조정
fig.update_layout(height=700, width=1400)

# 여백 (margin) 조정
fig.update_layout(margin=dict(l=100, r=100, b=70, t=70))

fig.update_xaxes(tickangle=60)

fig.show()


In [48]:
import plotly.colors as pc

# 컬러맵을 리스트로 불러오기
blues_color_map = pc.sequential.Blues
reds_color_map = pc.sequential.Reds

# 누적 막대그래프 시각화
fig = go.Figure()

# 막대 그래프 추가 (expo_5_num_df 데이터 사용)
for i in range(1, 6):
    text_labels = [f'<span style="font-size: 14px !important;">{val:.1f}%</span>' for val in expo_5_num_df[f'{i}_비율']]
    fig.add_trace(go.Bar(x=expo_5_num_df['설문'], y=expo_5_num_df[f'{i}_비율'], text=text_labels,
                         name=f'{i}점 (산림엑스포)', textposition='auto', marker=dict(color=blues_color_map[i-1])))

# 두 번째 막대 그래프 추가 (common_5_df 데이터 사용) - 겹치게 표시
for i in range(1, 6):
    text_labels = [f'<span style="font-size: 14px !important;">{val:.1f}%</span>' for val in common_5_df[f'{i}_비율']]
    fig.add_trace(go.Bar(x=common_5_df['설문'], y=common_5_df[f'{i}_비율'], text=text_labels,
                         name=f'{i}점 (다른 데이터)', textposition='auto', marker=dict(color=reds_color_map[i-1])))

# 그래프 레이아웃 설정
fig.update_layout(title="산림문화의 추구 가치 비교", xaxis_title="설문", yaxis_title="비율 (%)",
                  barmode='relative', showlegend=True)

# 범례 텍스트 수정
fig.update_layout(legend=dict(traceorder="reversed"))

# 그래프 높이와 너비 조정
fig.update_layout(height=700, width=1400)

# 여백 (margin) 조정
fig.update_layout(margin=dict(l=100, r=100, b=70, t=70))

fig.update_xaxes(tickangle=60)

fig.show()


### 산림엑스포만 합산한 표 생성

In [None]:
q5 = list(q5_map_dic.values())

In [None]:
# 응답자 특성별 표 정리
q5 = list(q5_map_dic.values())
resp_map_df = pd.DataFrame(columns = q5)
# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링 및 평균계산
        filtered_rows = df_expo_5[df_expo_5[sq_dic[sq]] == val].reset_index(drop=True)
        mean_list = [round(filtered_rows[i].mean(),2) for i in filtered_rows.columns[7:]]

        resp_map = {}
        for col, mean in zip(resp_map_df.columns, mean_list + [0]):
            if col == '사례수':
                resp_map[col] = filtered_rows.shape[0]
            else:
                resp_map[col] = [mean]
        else:
            resp_map = pd.DataFrame(resp_map)
            resp_map.index = [val]
            resp_map_df = pd.concat([resp_map_df,resp_map])
            resp_map_df.fillna(0.0, inplace=True)
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df

### 가치별 비율 표 (문항만 변경하면 원하는 가치 표출력 가능)

In [55]:
# '값' 열의 값을 딕셔너리를 사용하여 일괄적으로 변경하는 함수 정의
def map_val(series, dic):
        lst = []
        for value in series:
                lst.append(dic[str(value)])
        return lst

In [None]:
# 응답자 특성별 표 정리
q5_map = {'1':'1.매우 참여하고 싶지않다', '2':'2.참여하고 싶지않다', '3':'3.보통이다', '4':'4.참여하고 싶다', '5':'5.매우 참여하고 싶다'}
q5 = ['1.매우 참여하고 싶지않다', '2.참여하고 싶지않다', '3.보통이다', '4.참여하고 싶다', '5.매우 참여하고 싶다', '부정(1+2)', '보통(3)', '긍정(4+5)']
resp_map_df = pd.DataFrame(columns = q5)

# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링 및 평균계산
        filtered_rows = df_expo_5[df_expo_5[sq_dic[sq]] == val].reset_index(drop=True)
        frequency_rate_df = filtered_rows['Q5_1'].value_counts().reset_index()
        frequency_rate_df.columns = ['값', '빈도']
        frequency_rate_df['값'] = map_val(frequency_rate_df['값'], q5_map)
        frequency_rate_df['비율'] = round((frequency_rate_df['빈도'] / frequency_rate_df['빈도'].sum())*100,1)
        frequency_rate_df = frequency_rate_df.set_index(keys='값')
        
        resp_map = {}
        for i in resp_map_df.columns:
            resp_map[i] = [0.0]
        for i in resp_map_df.columns[:5]:
            try:
                resp_map[i][0] = frequency_rate_df.loc[i, '비율']
            except:
                pass
        for i in resp_map_df.columns[5:]:
            try:
                f,s = i.split('+')
                resp_map[i][0] = resp_map[q5_map[f[-1]]][0] + resp_map[q5_map[s[0]]][0]
            except:
                f = i.split('(')[1][0]
                resp_map[i][0] = resp_map[q5_map[f]][0]
        else:
            resp_map = pd.DataFrame(resp_map)
            resp_map.index = [val]
            resp_map_df = pd.concat([resp_map_df,resp_map])
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df

### 일반국민만 합산한 표 생성

In [None]:
# 응답자 특성별 표 정리
q5 = list(q5_map_dic.values())
resp_map_df = pd.DataFrame(columns = q5)
# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링 및 평균계산
        filtered_rows = df_common_5[df_common_5[sq_dic[sq]] == val].reset_index(drop=True)
        mean_list = [round(filtered_rows[i].mean(),2) for i in filtered_rows.columns[7:]]

        resp_map = {}
        for col, mean in zip(resp_map_df.columns, mean_list + [0]):
            if col == '사례수':
                resp_map[col] = filtered_rows.shape[0]
            else:
                resp_map[col] = [mean]
        else:
            resp_map = pd.DataFrame(resp_map)
            resp_map.index = [val]
            resp_map_df = pd.concat([resp_map_df,resp_map])
            resp_map_df.fillna(0.0, inplace=True)
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df

### 가치별 비율 표 (문항만 변경하면 원하는 가치 표출력 가능)

In [60]:
# '값' 열의 값을 딕셔너리를 사용하여 일괄적으로 변경하는 함수 정의
def map_val(series, dic):
        lst = []
        for value in series:
                lst.append(dic[str(value)])
        return lst

In [67]:
# 응답자 특성별 표 정리
q5_map = {'1':'1.매우 참여하고 싶지않다', '2':'2.참여하고 싶지않다', '3':'3.보통이다', '4':'4.참여하고 싶다', '5':'5.매우 참여하고 싶다'}
q5 = ['1.매우 참여하고 싶지않다', '2.참여하고 싶지않다', '3.보통이다', '4.참여하고 싶다', '5.매우 참여하고 싶다', '부정(1+2)', '보통(3)', '긍정(4+5)']
resp_map_df = pd.DataFrame(columns = q5)

# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링 및 평균계산
        filtered_rows = df_common_5[df_common_5[sq_dic[sq]] == val].reset_index(drop=True)
        frequency_rate_df = filtered_rows['Q5_1'].value_counts().reset_index()
        frequency_rate_df.columns = ['값', '빈도']
        frequency_rate_df['값'] = frequency_rate_df['값'].astype(int)
        frequency_rate_df['값'] = map_val(frequency_rate_df['값'], q5_map)
        frequency_rate_df['비율'] = round((frequency_rate_df['빈도'] / frequency_rate_df['빈도'].sum())*100,1)
        frequency_rate_df = frequency_rate_df.set_index(keys='값')
        
        resp_map = {}
        for i in resp_map_df.columns:
            resp_map[i] = [0.0]
        for i in resp_map_df.columns[:5]:
            try:
                resp_map[i][0] = frequency_rate_df.loc[i, '비율']
            except:
                pass
        for i in resp_map_df.columns[5:]:
            try:
                f,s = i.split('+')
                resp_map[i][0] = resp_map[q5_map[f[-1]]][0] + resp_map[q5_map[s[0]]][0]
            except:
                f = i.split('(')[1][0]
                resp_map[i][0] = resp_map[q5_map[f]][0]
        else:
            resp_map = pd.DataFrame(resp_map)
            resp_map.index = [val]
            resp_map_df = pd.concat([resp_map_df,resp_map])
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df

Unnamed: 0,Unnamed: 1,1.매우 참여하고 싶지않다,2.참여하고 싶지않다,3.보통이다,4.참여하고 싶다,5.매우 참여하고 싶다,부정(1+2),보통(3),긍정(4+5)
성별,남성,4.0,7.2,30.7,42.9,15.2,11.2,30.7,58.1
성별,여성,2.8,4.6,26.4,43.3,22.9,7.4,26.4,66.2
연령,10대(15세이상),2.6,2.6,18.4,57.9,18.4,5.2,18.4,76.3
연령,20대,2.5,5.5,31.2,41.2,19.6,8.0,31.2,60.8
연령,30대,3.9,7.7,24.3,48.1,16.0,11.6,24.3,64.1
연령,40대,4.1,5.3,29.4,43.3,18.0,9.4,29.4,61.3
연령,50대,3.1,7.4,29.2,40.9,19.5,10.5,29.2,60.4
연령,60대이상,3.7,4.6,30.3,40.4,21.1,8.3,30.3,61.5
학력,초등학교 졸업(무학 포함),0.0,0.0,50.0,50.0,0.0,0.0,50.0,50.0
학력,중학교 재학,0.0,0.0,20.0,60.0,20.0,0.0,20.0,80.0
