## 설문조사 산림엑스포, 일반국민 데이터 전처리

데이터수집 - 전처리 - 분석 - 결과도출 순으로 진행

In [1]:
import math # NaN값 구별때문에 import
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import plotly.express as px
import numpy as np

# matplotlib 한글 글꼴 설정
plt.rc('font', family='Malgun Gothic')

# 모든 열이 생략되지 않도록 설정
pd.set_option('display.max_columns', None)

# 테마 컬러맵 미리 정의
color_scale = ['rgb(5,31,69)',
               'rgb(8,48,107)',
               'rgb(11,62,138)',
               'rgb(8,81,156)',
               'rgb(7,90,176)',
               'rgb(33,113,181)',
               'rgb(66,146,198)',
               'rgb(81,157,207)',
               'rgb(107,174,214)',
               'rgb(158,202,225)',
               'rgb(198,219,239)',
               'rgb(222,235,247)',
               'rgb(247,251,255)']

### 응답자 특성 설문
| `문항` | `보기` |
|:---------:|:---------:|
| <b>`성별`<b> | ①남성    ②여성 |
| <b>`연령`<b>   | ①10대(15세이상)    ②20대   ③30대   ④40대   ⑤50대   ⑥60대이상, 추가설문 : 출생년도(___)년 |
| <b>`학력`<b>   | ①초등학교 졸업(무학 포함)    ②중학교 재학   ③중학교 졸업   ④고등학교 재학   ⑤고등학교 졸업<br>   ⑥대학교 재학    ⑦대학교 졸업    ⑧대학원 재학(석사 또는 박사) ⑨ 대학원 졸업(석사또는 박사) |
| <b>`거주지역`<b>   | ①서울    ②부산   ③대구   ④인천   ⑤광주   ⑥대전    ⑦울산    ⑧세종   ⑨경기<br>   ⑩강원   ⑪충북   ⑫충남   ⑬전북   ⑭전남   ⑮경북   ⑯경남   ⑰제주 |
| <b>`직업`<b>   | ①산림임업종사자    ②사무종사자   ③서비스종사자   ④판매종사자   ⑤기술기능종사자   ⑥단순노무종사자    ⑦전문가(교수 포함)<br>    ⑧경영직종사자   ⑨자영업자(개인사업자)   ⑩공무원(교사포함)   ⑪학생(대학원생포함)   ⑫전업주부   ⑬기타(___) |

In [2]:
# 응답자 특성 딕셔너리
Resp_Character = {
    '성별': {1: '남성', 2: '여성'},
    '연령': {1: '10대(15세이상)', 2: '20대', 3: '30대', 4: '40대', 5: '50대', 6: '60대이상'},
    '학력': {1: '초등학교 졸업(무학 포함)', 2: '중학교 재학', 3: '중학교 졸업', 4: '고등학교 재학', 5: '고등학교 졸업', 6: '대학교 재학', 7: '대학교 졸업', 8: '대학원 재학(석사 또는 박사)', 9: '대학원 졸업(석사또는 박사)'},
    '거주지역': {1: '서울', 2: '부산', 3: '대구', 4: '인천', 5: '광주', 6: '대전', 7: '울산', 8: '세종', 9: '경기', 10: '강원', 11: '충북', 12: '충남', 13: '전북', 14: '전남', 15: '경북', 16: '경남', 17: '제주'},
    '직업': {1: '산림임업종사자', 2: '사무종사자', 3: '서비스종사자', 4: '판매종사자', 5: '기술기능종사자', 6: '단순노무종사자', 7: '전문가(교수 포함)', 8: '경영직종사자', 9: '자영업자(개인사업자)', 10: '공무원(교사포함)', 11: '학생(대학원생포함)', 12: '전업주부', 13: '기타'}}

In [3]:
# 산림엑스포 설문데이터 로드 및 응답자 특성 매핑
df_expo = pd.read_excel('dataset/전국민 산림문화 인식 및 태도 향유실태 조사_산림엑스포_230922.xlsx', sheet_name="DATA")
df_expo['SQ1'] = df_expo['SQ1'].replace(Resp_Character['성별'])
df_expo['SQ2_1'] = df_expo['SQ2_1'].replace(Resp_Character['연령'])
df_expo['SQ3'] = df_expo['SQ3'].replace(Resp_Character['학력'])
df_expo['SQ4'] = df_expo['SQ4'].replace(Resp_Character['거주지역'])
df_expo['SQ5'] = df_expo['SQ5'].replace(Resp_Character['직업'])
# 응답자 특성 5번항목의 '기타'항목자 처리
df_expo['SQ5_13_ETC'] = df_expo['SQ5_13_ETC'].fillna('')
# 연도 column float to int 변환
df_expo['SQ2_2'] = ['' if np.isnan(i) else int(i) for i in df_expo['SQ2_2']]

# 일반국민 설문데이터 로드 및 응답자 특성 매핑
df_common= pd.read_excel('dataset/전국민 산림문화 인식 태도 향유실태 조사_일반국민_230530.xlsx', sheet_name="DATA")
df_common['SQ1'] = df_common['SQ1'].replace(Resp_Character['성별'])
df_common['SQ2_1'] = df_common['SQ2_1'] - 1
df_common['SQ2_1'] = df_common['SQ2_1'].replace(Resp_Character['연령'])
df_common['SQ3'] = df_common['SQ3'].replace(Resp_Character['학력'])
df_common['SQ4'] = df_common['SQ4'].replace(Resp_Character['거주지역'])
df_common['SQ5'] = df_common['SQ5'].replace(Resp_Character['직업'])
# 응답자 특성 5번항목의 '기타'항목자 처리
df_common['SQ5_13_ETC'] = df_common['SQ5_13_ETC'].fillna('')

## Q4. 산림문화가 추구하는 가치

In [4]:
# 응답자 특성과 4번 설문에 대한 항목만 필터링
df_expo_4 = df_expo[list(df_expo.columns[:7]) + list(df_expo.columns[12:23])]
df_common_4 = df_common[list(df_common.columns[:7]) + list(df_common.columns[11:22])]

expo_4_map_dic = { 'Q4_1': '공익적 가치',
        'Q4_2': '경제적 가치',
        'Q4_3': '환경적 가치',
        'Q4_4': '도덕적 가치',
        'Q4_5': '역사적 가치',
        'Q4_6': '예술적 가치',
        'Q4_7': '학술적 가치',
        'Q4_8': '생활적 가치',
        'Q4_9': '공존적 가치',
        'Q4_10': '공동체적 가치',
        'Q4_11': '정서적 가치' }

In [5]:
# 가중평균 계산 및 리스트 형태로 저장
expo_4_dic = {'설문':list(df_expo_4.columns[7:]),
              '평균':[],
              '5_빈도':[],
              '4_빈도':[],
              '3_빈도':[],
              '2_빈도':[],
              '1_빈도':[],
              '5_비율':[],
              '4_비율':[],
              '3_비율':[],
              '2_비율':[],
              '1_비율':[],
            }

for question in df_expo_4.columns[7:]:
    score_counts = df_expo_4[question].value_counts()#.reset_index()
    weighted_sum = (score_counts.index * score_counts).sum()
    total_count = score_counts.sum()
    weighted_mean = round(weighted_sum / total_count, 2)
    expo_4_dic['평균'].append(weighted_mean)

    score_counts = score_counts.reset_index()
    score_counts.columns = ['점수', '빈도']
    score_counts['비율'] = round((score_counts['빈도'] / score_counts['빈도'].sum()) * 100, 1)
    for num, freq, rate in zip(range(5,0,-1),score_counts['빈도'].tolist(),score_counts['비율'].tolist()):
        expo_4_dic[str(num) + '_빈도'].append(freq)
        expo_4_dic[str(num) + '_비율'].append(rate)
expo_4_df = pd.DataFrame(expo_4_dic)
expo_4_df['설문'] = expo_4_df['설문'].replace(expo_4_map_dic)

In [6]:
# 가중평균 계산 및 리스트 형태로 저장
common_4_dic = {'설문':list(df_common_4.columns[7:]),
              '평균':[],
              '5_빈도':[],
              '4_빈도':[],
              '3_빈도':[],
              '2_빈도':[],
              '1_빈도':[],
              '5_비율':[],
              '4_비율':[],
              '3_비율':[],
              '2_비율':[],
              '1_비율':[],
            }

for question in df_common_4.columns[7:]:
    score_counts = df_common_4[question].value_counts()#.reset_index()
    weighted_sum = (score_counts.index * score_counts).sum()
    total_count = score_counts.sum()
    weighted_mean = round(weighted_sum / total_count, 2)
    common_4_dic['평균'].append(weighted_mean)

    score_counts = score_counts.reset_index()
    score_counts.columns = ['점수', '빈도']
    score_counts['비율'] = round((score_counts['빈도'] / score_counts['빈도'].sum()) * 100, 1)
    for num, freq, rate in zip(range(5,0,-1),score_counts['빈도'].tolist(),score_counts['비율'].tolist()):
        common_4_dic[str(num) + '_빈도'].append(freq)
        common_4_dic[str(num) + '_비율'].append(rate)
common_4_df = pd.DataFrame(common_4_dic)
common_4_df['설문'] = common_4_df['설문'].replace(expo_4_map_dic)

In [50]:
import plotly.express as px
import plotly.graph_objects as go

# 그래프 생성
fig = go.Figure()

# 엑스포 그래프 추가
fig.add_trace(go.Scatter(x=expo_4_df['설문'], y=expo_4_df['평균'], mode='lines', name='산림엑스포', line=dict(color='blue')))
# 일반국민 그래프 추가
fig.add_trace(go.Scatter(x=common_4_df['설문'], y=common_4_df['평균'], mode='lines', name='일반국민', line=dict(color='red')))

# 각 지점에 숫자 표시하기
for i, row in expo_4_df.iterrows():
    fig.add_annotation(
        text=row['평균'],
        x=row['설문'],
        y=row['평균'],
        showarrow=True,
        arrowhead=7,
        font=dict(size=14)  # annotation 폰트
    )

# 두 번째 꺾은선 그래프의 annotation 추가
for i, row in common_4_df.iterrows():
    fig.add_annotation(
        text=row['평균'],
        x=row['설문'],
        y=row['평균'],
        showarrow=True,
        arrowhead=7,
        font=dict(size=14)  # annotation 폰트
    )

# 그래프 레이아웃 설정
fig.update_layout(
    xaxis_title='문항',
    yaxis_title='평균',
    margin=dict(l=100, r=20, t=50, b=50),  # 그래프 마진 조정
    yaxis_title_font=dict(
        size=15,  # Y 레이블 폰트 크기
    ),
    xaxis_title_font=dict(
        size=15,  # X 레이블 폰트 크기
    )
)
# 평균선 추가
average_line1 = expo_4_df['평균'].mean()  # 평균값 계산
average_line2 = common_4_df['평균'].mean()  # 평균값 계산
fig.add_shape(
    go.layout.Shape(
        type='line',
        x0=expo_4_df['설문'].tolist()[0],
        x1=expo_4_df['설문'].tolist()[-1],
        y0=average_line1,
        y1=average_line1,
        line=dict(color='green', width=2, dash='dash'),
    )
)
fig.add_shape(
    go.layout.Shape(
        type='line',
        x0=common_4_df['설문'].tolist()[0],
        x1=common_4_df['설문'].tolist()[-1],
        y0=average_line2,
        y1=average_line2,
        line=dict(color='green', width=2, dash='dash'),
    )
)

# 평균선에 평균을 나타내는 annotation 추가
fig.add_annotation(
    text=f'평균: {average_line1:.2f}',
    x=expo_4_df['설문'].min(),
    y=average_line1,
    showarrow=True,
    arrowhead=7,
    font=dict(size=10)
)
# 평균선에 평균을 나타내는 annotation 추가
fig.add_annotation(
    text=f'평균: {average_line2:.2f}',
    x=common_4_df['설문'].min(),
    y=average_line2,
    showarrow=True,
    arrowhead=7,
    font=dict(size=10)
)
# 범례 추가
fig.update_layout(legend=dict(orientation="h", x=0.02, y=0.98), showlegend=True)

# 여백 (margin) 조정
fig.update_layout(margin=dict(l=100, r=100, b=70, t=70))

# 그래프 그리기
fig.show()

### 위 그래프에 종합평균 추가 + t검정

In [9]:
import plotly.colors as pc
expo_4_num_df = expo_4_df[['설문','5_비율','4_비율', '3_비율', '2_비율', '1_비율']]
common_4_num_df = common_4_df[['설문','5_비율','4_비율', '3_비율', '2_비율', '1_비율']]

# 컬러맵을 리스트로 불러오기
blues_color_map = pc.sequential.Blues
reds_color_map = pc.sequential.Reds

# 누적 막대그래프 시각화
fig = go.Figure()

# 막대 그래프 추가 (expo_4_num_df 데이터 사용)
for i in range(1, 6):
    text_labels = [f'<span style="font-size: 15px !important;">{val:.1f}%</span>' for val in expo_4_num_df[f'{i}_비율']]
    fig.add_trace(go.Bar(x=expo_4_num_df['설문'], y=expo_4_num_df[f'{i}_비율'], text=text_labels,
                         name=f'{i}점 (산림엑스포)', textposition='auto', marker=dict(color=blues_color_map[i-1])))

# 두 번째 막대 그래프 추가 (common_4_num_df 데이터 사용) - 겹치게 표시
for i in range(1, 6):
    text_labels = [f'<span style="font-size: 15px">{val:.1f}%</span>' for val in common_4_num_df[f'{i}_비율']]
    fig.add_trace(go.Bar(x=common_4_num_df['설문'], y=common_4_num_df[f'{i}_비율'], text=text_labels,
                         name=f'{i}점 (일반국민)', textposition='auto', marker=dict(color=reds_color_map[i-1])))

# 그래프 레이아웃 설정
fig.update_layout(title="산림문화의 추구 가치 비교", xaxis_title="<span style='font-size: 15px'>설문</span>", yaxis_title="<span style='font-size: 15px'>비율(%)</span>",
                  barmode='group', showlegend=True)

# 범례 텍스트 수정
fig.update_layout(legend=dict(traceorder="reversed"))

# 그래프 높이와 너비 조정
fig.update_layout(height=700, width=1400)

# 여백 (margin) 조정
fig.update_layout(margin=dict(l=100, r=100, b=70, t=70))

fig.show()


In [10]:
import plotly.colors as pc

# 컬러맵을 리스트로 불러오기
blues_color_map = pc.sequential.Blues
reds_color_map = pc.sequential.Reds

# 누적 막대그래프 시각화
fig = go.Figure()

# 막대 그래프 추가 (expo_4_num_df 데이터 사용)
for i in range(1, 6):
    text_labels = [f'<span style="font-size: 14px !important;">{val:.1f}%</span>' for val in expo_4_num_df[f'{i}_비율']]
    fig.add_trace(go.Bar(x=expo_4_num_df['설문'], y=expo_4_num_df[f'{i}_비율'], text=text_labels,
                         name=f'{i}점 (산림엑스포)', textposition='auto', marker=dict(color=blues_color_map[i-1])))

# 두 번째 막대 그래프 추가 (common_4_df 데이터 사용) - 겹치게 표시
for i in range(1, 6):
    text_labels = [f'<span style="font-size: 14px !important;">{val:.1f}%</span>' for val in common_4_df[f'{i}_비율']]
    fig.add_trace(go.Bar(x=common_4_df['설문'], y=common_4_df[f'{i}_비율'], text=text_labels,
                         name=f'{i}점 (다른 데이터)', textposition='auto', marker=dict(color=reds_color_map[i-1])))

# 그래프 레이아웃 설정
fig.update_layout(title="산림문화의 추구 가치 비교", xaxis_title="설문", yaxis_title="비율 (%)",
                  barmode='relative', showlegend=True)

# 범례 텍스트 수정
fig.update_layout(legend=dict(traceorder="reversed"))

# 그래프 높이와 너비 조정
fig.update_layout(height=700, width=1400)

# 여백 (margin) 조정
fig.update_layout(margin=dict(l=100, r=100, b=70, t=70))

fig.show()


### 산림엑스포만 합산한 표 생성

In [11]:
# 응답자 특성별 표 정리
q4 = ['공익적 가치', '경제적 가치', '환경적 가치', '도덕적 가치', '역사적 가치', '예술적 가치', '학술적 가치', '생활적 가치', '공존적 가치', '공동체적 가치', '정서적 가치', '사례수']
resp_map_df = pd.DataFrame(columns = q4)
# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링 및 평균계산
        filtered_rows = df_expo_4[df_expo_4[sq_dic[sq]] == val].reset_index(drop=True)
        mean_list = [round(filtered_rows[i].mean(),2) for i in filtered_rows.columns[7:]]

        resp_map = {}
        for col, mean in zip(resp_map_df.columns, mean_list + [0]):
            if col == '사례수':
                resp_map[col] = filtered_rows.shape[0]
            else:
                resp_map[col] = [mean]
        else:
            resp_map = pd.DataFrame(resp_map)
            resp_map.index = [val]
            resp_map_df = pd.concat([resp_map_df,resp_map])
            resp_map_df.fillna(0.0, inplace=True)
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df

Unnamed: 0,Unnamed: 1,공익적 가치,경제적 가치,환경적 가치,도덕적 가치,역사적 가치,예술적 가치,학술적 가치,생활적 가치,공존적 가치,공동체적 가치,정서적 가치,사례수
성별,남성,4.36,4.1,4.62,3.92,3.8,3.9,4.06,4.28,4.56,4.1,4.18,50
성별,여성,3.85,3.69,4.25,3.96,3.85,3.84,3.65,3.91,4.36,3.91,3.96,55
연령,10대(15세이상),4.14,3.86,4.29,3.86,3.43,4.43,3.86,3.86,4.43,3.57,3.86,7
연령,20대,4.36,3.96,4.54,4.18,3.96,3.93,4.21,4.32,4.43,4.14,4.21,28
연령,30대,4.71,3.86,4.79,4.0,3.93,3.93,4.36,4.57,4.93,4.43,4.43,14
연령,40대,3.93,4.14,4.5,3.79,3.79,3.79,3.64,4.14,4.64,3.93,4.07,14
연령,50대,3.95,3.79,4.05,3.58,3.42,3.58,3.47,3.58,4.21,3.74,3.79,19
연령,60대이상,3.61,3.74,4.39,4.04,4.09,3.87,3.52,3.96,4.3,3.96,3.96,23
학력,초등학교 졸업(무학 포함),3.75,2.5,4.25,3.0,4.0,3.75,2.5,3.75,3.75,3.5,3.25,4
학력,중학교 재학,3.5,3.6,4.3,3.9,3.7,4.3,4.1,4.1,4.4,3.7,4.0,10


### 가치별 비율 표 (문항만 변경하면 원하는 가치 표출력 가능)

In [12]:
# '값' 열의 값을 딕셔너리를 사용하여 일괄적으로 변경하는 함수 정의
def map_val(series, dic):
        lst = []
        for value in series:
                lst.append(dic[str(value)])
        return lst

In [13]:
# 응답자 특성별 표 정리
q4_map = {'1':'1.매우 가치가 낮다', '2':'2.다소 가치가 낮다', '3':'3.보통이다', '4':'4.다소 가치가 높다', '5':'5.매우 가치가 높다'}
q4 = ['1.매우 가치가 낮다', '2.다소 가치가 낮다', '3.보통이다', '4.다소 가치가 높다', '5.매우 가치가 높다', '부정(1+2)', '보통(3)', '긍정(4+5)']
resp_map_df = pd.DataFrame(columns = q4)

# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링 및 평균계산
        filtered_rows = df_expo_4[df_expo_4[sq_dic[sq]] == val].reset_index(drop=True)
        frequency_rate_df = filtered_rows['Q4_1'].value_counts().reset_index()
        frequency_rate_df.columns = ['값', '빈도']
        frequency_rate_df['값'] = map_val(frequency_rate_df['값'], q4_map)
        frequency_rate_df['비율'] = round((frequency_rate_df['빈도'] / frequency_rate_df['빈도'].sum())*100,1)
        frequency_rate_df = frequency_rate_df.set_index(keys='값')
        
        resp_map = {}
        for i in resp_map_df.columns:
            resp_map[i] = [0.0]
        for i in resp_map_df.columns[:5]:
            try:
                resp_map[i][0] = frequency_rate_df.loc[i, '비율']
            except:
                pass
        for i in resp_map_df.columns[5:]:
            try:
                f,s = i.split('+')
                resp_map[i][0] = resp_map[q4_map[f[-1]]][0] + resp_map[q4_map[s[0]]][0]
            except:
                f = i.split('(')[1][0]
                resp_map[i][0] = resp_map[q4_map[f]][0]
        else:
            resp_map = pd.DataFrame(resp_map)
            resp_map.index = [val]
            resp_map_df = pd.concat([resp_map_df,resp_map])
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df

Unnamed: 0,Unnamed: 1,1.매우 가치가 낮다,2.다소 가치가 낮다,3.보통이다,4.다소 가치가 높다,5.매우 가치가 높다,부정(1+2),보통(3),긍정(4+5)
성별,남성,0.0,6.0,4.0,38.0,52.0,6.0,4.0,90.0
성별,여성,1.8,9.1,29.1,21.8,38.2,10.9,29.1,60.0
연령,10대(15세이상),0.0,0.0,28.6,28.6,42.9,0.0,28.6,71.5
연령,20대,0.0,0.0,14.3,35.7,50.0,0.0,14.3,85.7
연령,30대,0.0,0.0,0.0,28.6,71.4,0.0,0.0,100.0
연령,40대,0.0,7.1,28.6,28.6,35.7,7.1,28.6,64.3
연령,50대,0.0,10.5,26.3,21.1,42.1,10.5,26.3,63.2
연령,60대이상,4.3,21.7,13.0,30.4,30.4,26.0,13.0,60.8
학력,초등학교 졸업(무학 포함),0.0,0.0,50.0,25.0,25.0,0.0,50.0,50.0
학력,중학교 재학,0.0,30.0,20.0,20.0,30.0,30.0,20.0,50.0


### 일반국민만 합산한 표 생성

In [14]:
# 응답자 특성별 표 정리
q4 = ['공익적 가치', '경제적 가치', '환경적 가치', '도덕적 가치', '역사적 가치', '예술적 가치', '학술적 가치', '생활적 가치', '공존적 가치', '공동체적 가치', '정서적 가치', '사례수']
resp_map_df = pd.DataFrame(columns = q4)
# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링 및 평균계산
        filtered_rows = df_common_4[df_common_4[sq_dic[sq]] == val].reset_index(drop=True)
        mean_list = [round(filtered_rows[i].mean(),2) for i in filtered_rows.columns[7:]]

        resp_map = {}
        for col, mean in zip(resp_map_df.columns, mean_list + [0]):
            if col == '사례수':
                resp_map[col] = filtered_rows.shape[0]
            else:
                resp_map[col] = [mean]
        else:
            resp_map = pd.DataFrame(resp_map)
            resp_map.index = [val]
            resp_map_df = pd.concat([resp_map_df,resp_map])
            resp_map_df.fillna(0.0, inplace=True)
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df

Unnamed: 0,Unnamed: 1,공익적 가치,경제적 가치,환경적 가치,도덕적 가치,역사적 가치,예술적 가치,학술적 가치,생활적 가치,공존적 가치,공동체적 가치,정서적 가치,사례수
성별,남성,3.62,3.59,3.97,3.46,3.43,3.4,3.51,3.76,3.86,3.52,3.75,865
성별,여성,3.58,3.61,4.05,3.51,3.54,3.48,3.55,3.86,3.89,3.58,3.79,835
연령,10대(15세이상),3.74,3.56,3.93,3.58,3.65,3.7,3.67,3.89,3.95,3.74,3.72,57
연령,20대,3.52,3.42,3.88,3.43,3.44,3.47,3.45,3.7,3.78,3.53,3.65,318
연령,30대,3.48,3.49,3.82,3.42,3.38,3.38,3.44,3.65,3.69,3.5,3.64,284
연령,40대,3.6,3.64,3.96,3.55,3.54,3.45,3.51,3.75,3.84,3.58,3.76,349
연령,50대,3.66,3.66,4.12,3.5,3.44,3.42,3.54,3.92,4.01,3.52,3.88,370
연령,60대이상,3.7,3.78,4.23,3.49,3.6,3.45,3.66,3.97,4.01,3.58,3.89,322
학력,초등학교 졸업(무학 포함),4.33,3.67,4.0,4.17,3.83,3.67,3.67,4.33,4.33,3.83,4.0,6
학력,중학교 재학,4.14,3.71,4.0,3.57,4.14,3.71,4.0,4.29,4.57,3.86,3.86,7


### 가치별 비율 표 (문항만 변경하면 원하는 가치 표출력 가능)

In [15]:
# '값' 열의 값을 딕셔너리를 사용하여 일괄적으로 변경하는 함수 정의
def map_val(series, dic):
        lst = []
        for value in series:
                lst.append(dic[str(value)])
        return lst

In [16]:
# 응답자 특성별 표 정리
q4_map = {'1':'1.매우 가치가 낮다', '2':'2.다소 가치가 낮다', '3':'3.보통이다', '4':'4.다소 가치가 높다', '5':'5.매우 가치가 높다'}
q4 = ['1.매우 가치가 낮다', '2.다소 가치가 낮다', '3.보통이다', '4.다소 가치가 높다', '5.매우 가치가 높다', '부정(1+2)', '보통(3)', '긍정(4+5)']
resp_map_df = pd.DataFrame(columns = q4)

# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링 및 평균계산
        filtered_rows = df_common_4[df_common_4[sq_dic[sq]] == val].reset_index(drop=True)
        frequency_rate_df = filtered_rows['Q4_1'].value_counts().reset_index()
        frequency_rate_df.columns = ['값', '빈도']
        frequency_rate_df['값'] = map_val(frequency_rate_df['값'], q4_map)
        frequency_rate_df['비율'] = round((frequency_rate_df['빈도'] / frequency_rate_df['빈도'].sum())*100,1)
        frequency_rate_df = frequency_rate_df.set_index(keys='값')
        
        resp_map = {}
        for i in resp_map_df.columns:
            resp_map[i] = [0.0]
        for i in resp_map_df.columns[:5]:
            try:
                resp_map[i][0] = frequency_rate_df.loc[i, '비율']
            except:
                pass
        for i in resp_map_df.columns[5:]:
            try:
                f,s = i.split('+')
                resp_map[i][0] = resp_map[q4_map[f[-1]]][0] + resp_map[q4_map[s[0]]][0]
            except:
                f = i.split('(')[1][0]
                resp_map[i][0] = resp_map[q4_map[f]][0]
        else:
            resp_map = pd.DataFrame(resp_map)
            resp_map.index = [val]
            resp_map_df = pd.concat([resp_map_df,resp_map])
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df

Unnamed: 0,Unnamed: 1,1.매우 가치가 낮다,2.다소 가치가 낮다,3.보통이다,4.다소 가치가 높다,5.매우 가치가 높다,부정(1+2),보통(3),긍정(4+5)
성별,남성,1.3,8.9,33.8,39.0,17.1,10.2,33.8,56.1
성별,여성,1.7,8.4,34.9,40.0,15.1,10.1,34.9,55.1
연령,10대(15세이상),1.8,3.5,36.8,35.1,22.8,5.3,36.8,57.9
연령,20대,1.9,9.7,36.8,37.7,13.8,11.6,36.8,51.5
연령,30대,1.4,13.4,38.4,29.6,17.3,14.8,38.4,46.9
연령,40대,1.4,9.2,33.2,40.4,15.8,10.6,33.2,56.2
연령,50대,1.4,6.2,31.9,45.7,14.9,7.6,31.9,60.6
연령,60대이상,1.2,6.5,31.7,42.5,18.0,7.7,31.7,60.5
학력,초등학교 졸업(무학 포함),0.0,0.0,16.7,33.3,50.0,0.0,16.7,83.3
학력,중학교 재학,0.0,0.0,28.6,28.6,42.9,0.0,28.6,71.5


## Q5 '산림문화 활동'에 참여하고 싶은 정도

In [17]:
# 응답자 특성과 4번 설문에 대한 항목만 필터링
df_expo_5 = df_expo[list(df_expo.columns[:7]) + list(df_expo.columns[24:43])]
df_common_5 = df_common[list(df_common.columns[:7]) + list(df_common.columns[24:43])]

q5_map_dic = {'Q5_1': '숲속 박물관·전시회 관람',
            'Q5_2': '숲속 공연·음악연주회 관람',
            'Q5_3': '숲속 문학행사 참여',
            'Q5_4': '숲속 예술·활동 참여',
            'Q5_5': '숲 기반 생활공예·취미활동 참여',
            'Q5_6': '숲가꾸기 체험',
            'Q5_7': '임산물 수확 체험',
            'Q5_8': '동식물 관찰 및 학습',
            'Q5_9': '산림레포츠 참여',
            'Q5_10': '계곡레포츠 참여',
            'Q5_11': '건강증진 활동 참여',
            'Q5_12': '숲 탐방',
            'Q5_13': '산림문화자산·자연명승지 탐방',
            'Q5_14': '자연경관 감상',
            'Q5_15': '숲속 생활 체험',
            'Q5_16': '산림주제 게임활동',
            'Q5_17': '산림주제 독서활동',
            'Q5_18': '산림분야 자기계발 및 학습',
            'Q5_19': '산림 관련 사회봉사활동'}

In [18]:
# 가중평균 계산 및 리스트 형태로 저장
expo_5_dic = {'설문':[],
              '평균':[],
              '5_빈도':[],
              '4_빈도':[],
              '3_빈도':[],
              '2_빈도':[],
              '1_빈도':[],
              '5_비율':[],
              '4_비율':[],
              '3_비율':[],
              '2_비율':[],
              '1_비율':[],
            }

for question in df_expo_5.columns[7:]:
    score_counts = df_expo_5[question].value_counts()#.reset_index()
    weighted_sum = (score_counts.index * score_counts).sum()
    total_count = score_counts.sum()
    weighted_mean = round(weighted_sum / total_count, 2)
    expo_5_dic['설문'].append(question)
    expo_5_dic['평균'].append(weighted_mean)

    score_counts = score_counts.reset_index()
    score_counts.columns = ['점수', '빈도']
    score_counts['비율'] = round((score_counts['빈도'] / score_counts['빈도'].sum()) * 100, 1)
    
    # 존재하는 점수들, 1개도 안나온 값들이 있음
    existing_scores = [1, 2, 3, 4, 5]
    # 누락된 점수들 찾기
    missing_scores = [score for score in existing_scores if score not in score_counts['점수'].tolist()]
    # 누락된 점수들을 데이터프레임에 추가
    for missing_score in missing_scores:
        new_row = {'점수': missing_score, '빈도': 0, '비율': 0.0}
        score_counts = pd.concat([score_counts, pd.DataFrame([new_row])], ignore_index=True)
    for num, freq, rate in zip(range(5,0,-1),score_counts['빈도'].tolist(),score_counts['비율'].tolist()):
        expo_5_dic[str(num) + '_빈도'].append(freq)
        expo_5_dic[str(num) + '_비율'].append(rate)
expo_5_df = pd.DataFrame(expo_5_dic)
expo_5_df['설문'] = expo_5_df['설문'].replace(q5_map_dic)
expo_5_df

Unnamed: 0,설문,평균,5_빈도,4_빈도,3_빈도,2_빈도,1_빈도,5_비율,4_비율,3_비율,2_비율,1_비율
0,숲속 박물관·전시회 관람,4.07,42,37,19,5,2,40.0,35.2,18.1,4.8,1.9
1,숲속 공연·음악연주회 관람,3.7,39,29,17,17,3,37.1,27.6,16.2,16.2,2.9
2,숲속 문학행사 참여,3.53,33,27,24,17,4,31.4,25.7,22.9,16.2,3.8
3,숲속 예술·활동 참여,3.8,36,29,27,11,2,34.3,27.6,25.7,10.5,1.9
4,숲 기반 생활공예·취미활동 참여,4.1,45,32,21,7,0,42.9,30.5,20.0,6.7,0.0
5,숲가꾸기 체험,3.99,41,31,25,7,1,39.0,29.5,23.8,6.7,1.0
6,임산물 수확 체험,3.91,43,30,16,12,4,41.0,28.6,15.2,11.4,3.8
7,동식물 관찰 및 학습,3.82,33,32,30,8,2,31.4,30.5,28.6,7.6,1.9
8,산림레포츠 참여,3.62,32,28,23,17,5,30.5,26.7,21.9,16.2,4.8
9,계곡레포츠 참여,3.69,34,30,20,16,5,32.4,28.6,19.0,15.2,4.8


In [19]:
# 가중평균 계산 및 리스트 형태로 저장
common_5_dic = {'설문':[],
              '평균':[],
              '5_빈도':[],
              '4_빈도':[],
              '3_빈도':[],
              '2_빈도':[],
              '1_빈도':[],
              '5_비율':[],
              '4_비율':[],
              '3_비율':[],
              '2_비율':[],
              '1_비율':[],
            }

for question in df_common_5.columns[7:]:
    score_counts = df_common_5[question].value_counts()#.reset_index()
    weighted_sum = (score_counts.index * score_counts).sum()
    total_count = score_counts.sum()
    weighted_mean = round(weighted_sum / total_count, 2)
    common_5_dic['설문'].append(question)
    common_5_dic['평균'].append(weighted_mean)

    score_counts = score_counts.reset_index()
    score_counts.columns = ['점수', '빈도']
    score_counts['비율'] = round((score_counts['빈도'] / score_counts['빈도'].sum()) * 100, 1)
    
    # 존재하는 점수들, 1개도 안나온 값들이 있음
    existing_scores = [1, 2, 3, 4, 5]
    # 누락된 점수들 찾기
    missing_scores = [score for score in existing_scores if score not in score_counts['점수'].tolist()]
    # 누락된 점수들을 데이터프레임에 추가
    for missing_score in missing_scores:
        new_row = {'점수': missing_score, '빈도': 0, '비율': 0.0}
        score_counts = score_counts.append(new_row, ignore_index=True)
    for num, freq, rate in zip(range(5,0,-1),score_counts['빈도'].tolist(),score_counts['비율'].tolist()):
        common_5_dic[str(num) + '_빈도'].append(freq)
        common_5_dic[str(num) + '_비율'].append(rate)
common_5_df = pd.DataFrame(common_5_dic)
common_5_df['설문'] = common_5_df['설문'].replace(q5_map_dic)
common_5_df

Unnamed: 0,설문,평균,5_빈도,4_빈도,3_빈도,2_빈도,1_빈도,5_비율,4_비율,3_비율,2_비율,1_비율
0,숲속 박물관·전시회 관람,3.68,490,326,215,68,39,43.1,28.6,18.9,6.0,3.4
1,숲속 공연·음악연주회 관람,3.8,436,310,297,70,25,38.3,27.2,26.1,6.2,2.2
2,숲속 문학행사 참여,3.23,439,318,179,131,71,38.6,27.9,15.7,11.5,6.2
3,숲속 예술·활동 참여,3.49,401,366,193,129,49,35.2,32.2,17.0,11.3,4.3
4,숲 기반 생활공예·취미활동 참여,3.78,462,284,282,76,34,40.6,25.0,24.8,6.7,3.0
5,숲가꾸기 체험,3.82,477,287,279,70,25,41.9,25.2,24.5,6.2,2.2
6,임산물 수확 체험,3.88,444,337,265,66,26,39.0,29.6,23.3,5.8,2.3
7,동식물 관찰 및 학습,3.65,459,340,218,86,35,40.3,29.9,19.2,7.6,3.1
8,산림레포츠 참여,3.25,366,320,178,173,101,32.2,28.1,15.6,15.2,8.9
9,계곡레포츠 참여,3.34,352,325,201,148,112,30.9,28.6,17.7,13.0,9.8


In [49]:
import plotly.express as px
import plotly.graph_objects as go

# 그래프 생성
fig = go.Figure()

# 엑스포 그래프 추가
fig.add_trace(go.Scatter(x=expo_5_df['설문'], y=expo_5_df['평균'], mode='lines', name='산림엑스포', line=dict(color='blue')))
# 일반국민 그래프 추가
fig.add_trace(go.Scatter(x=common_5_df['설문'], y=common_5_df['평균'], mode='lines', name='일반국민', line=dict(color='red')))

# 각 지점에 숫자 표시하기
for i, row in expo_5_df.iterrows():
    fig.add_annotation(
        text=row['평균'],
        x=row['설문'],
        y=row['평균'],
        showarrow=True,
        arrowhead=7,
        font=dict(size=14)  # annotation 폰트
    )

# 두 번째 꺾은선 그래프의 annotation 추가
for i, row in common_5_df.iterrows():
    fig.add_annotation(
        text=row['평균'],
        x=row['설문'],
        y=row['평균'],
        showarrow=True,
        arrowhead=7,
        font=dict(size=14)  # annotation 폰트
    )

# 그래프 레이아웃 설정
fig.update_layout(
    xaxis_title='문항',
    yaxis_title='평균',
    margin=dict(l=100, r=20, t=50, b=50),  # 그래프 마진 조정
    yaxis_title_font=dict(
        size=15,  # Y 레이블 폰트 크기
    ),
    xaxis_title_font=dict(
        size=15,  # X 레이블 폰트 크기
    )
)
# 평균선 추가
average_line1 = expo_5_df['평균'].mean()  # 평균값 계산
average_line2 = common_5_df['평균'].mean()  # 평균값 계산
fig.add_shape(
    go.layout.Shape(
        type='line',
        x0=expo_5_df['설문'].tolist()[0],
        x1=expo_5_df['설문'].tolist()[-1],
        y0=average_line1,
        y1=average_line1,
        line=dict(color='green', width=2, dash='dash'),
    )
)
fig.add_shape(
    go.layout.Shape(
        type='line',
        x0=common_5_df['설문'].tolist()[0],
        x1=common_5_df['설문'].tolist()[-1],
        y0=average_line2,
        y1=average_line2,
        line=dict(color='green', width=2, dash='dash'),
    )
)

# 평균선에 평균을 나타내는 annotation 추가
fig.add_annotation(
    text=f'평균: {average_line1:.2f}',
    x='산림 관련 사회봉사활동',
    y=average_line1,
    showarrow=True,
    arrowhead=7,
    font=dict(size=10)
)
# 평균선에 평균을 나타내는 annotation 추가
fig.add_annotation(
    text=f'평균: {average_line2:.2f}',
    x='산림 관련 사회봉사활동',
    y=average_line2,
    showarrow=True,
    arrowhead=7,
    font=dict(size=10)
)
# 범례 추가
fig.update_layout(legend=dict(orientation="h", x=0.02, y=0.98), showlegend=True)

# 여백 (margin) 조정
fig.update_layout(margin=dict(l=100, r=100, b=70, t=70))

fig.update_xaxes(tickangle=60)

# 그래프 그리기
fig.show()

### 총평균 + t검정 하기

In [21]:
expo_5_num_df = expo_5_df[['설문','5_비율','4_비율', '3_비율', '2_비율', '1_비율']]
common_5_num_df = common_5_df[['설문','5_비율','4_비율', '3_비율', '2_비율', '1_비율']]

In [22]:
import plotly.colors as pc

# 컬러맵을 리스트로 불러오기
blues_color_map = pc.sequential.Blues
reds_color_map = pc.sequential.Reds

# 누적 막대그래프 시각화
fig = go.Figure()

# 막대 그래프 추가 (expo_5_num_df 데이터 사용)
for i in range(1, 6):
    text_labels = [f'<span style="font-size: 15px !important;">{val:.1f}%</span>' for val in expo_5_num_df[f'{i}_비율']]
    fig.add_trace(go.Bar(x=expo_5_num_df['설문'], y=expo_5_num_df[f'{i}_비율'], text=text_labels,
                         name=f'{i}점 (산림엑스포)', textposition='auto', marker=dict(color=blues_color_map[i-1])))

# 두 번째 막대 그래프 추가 (common_5_num_df 데이터 사용) - 겹치게 표시
for i in range(1, 6):
    text_labels = [f'<span style="font-size: 15px">{val:.1f}%</span>' for val in common_5_num_df[f'{i}_비율']]
    fig.add_trace(go.Bar(x=common_5_num_df['설문'], y=common_5_num_df[f'{i}_비율'], text=text_labels,
                         name=f'{i}점 (일반국민)', textposition='auto', marker=dict(color=reds_color_map[i-1])))

# 그래프 레이아웃 설정
fig.update_layout(title="산림문화의 추구 가치 비교", xaxis_title="<span style='font-size: 15px'>설문</span>", yaxis_title="<span style='font-size: 15px'>비율(%)</span>",
                  barmode='group', showlegend=True)

# 범례 텍스트 수정
fig.update_layout(legend=dict(traceorder="reversed"))

# 그래프 높이와 너비 조정
fig.update_layout(height=700, width=1400)

# 여백 (margin) 조정
fig.update_layout(margin=dict(l=100, r=100, b=70, t=70))

fig.update_xaxes(tickangle=60)

fig.show()


In [23]:
import plotly.colors as pc

# 컬러맵을 리스트로 불러오기
blues_color_map = pc.sequential.Blues
reds_color_map = pc.sequential.Reds

# 누적 막대그래프 시각화
fig = go.Figure()

# 막대 그래프 추가 (expo_5_num_df 데이터 사용)
for i in range(1, 6):
    text_labels = [f'<span style="font-size: 14px !important;">{val:.1f}%</span>' for val in expo_5_num_df[f'{i}_비율']]
    fig.add_trace(go.Bar(x=expo_5_num_df['설문'], y=expo_5_num_df[f'{i}_비율'], text=text_labels,
                         name=f'{i}점 (산림엑스포)', textposition='auto', marker=dict(color=blues_color_map[i-1])))

# 두 번째 막대 그래프 추가 (common_5_df 데이터 사용) - 겹치게 표시
for i in range(1, 6):
    text_labels = [f'<span style="font-size: 14px !important;">{val:.1f}%</span>' for val in common_5_df[f'{i}_비율']]
    fig.add_trace(go.Bar(x=common_5_df['설문'], y=common_5_df[f'{i}_비율'], text=text_labels,
                         name=f'{i}점 (다른 데이터)', textposition='auto', marker=dict(color=reds_color_map[i-1])))

# 그래프 레이아웃 설정
fig.update_layout(title="산림문화의 추구 가치 비교", xaxis_title="설문", yaxis_title="비율 (%)",
                  barmode='relative', showlegend=True)

# 범례 텍스트 수정
fig.update_layout(legend=dict(traceorder="reversed"))

# 그래프 높이와 너비 조정
fig.update_layout(height=700, width=1400)

# 여백 (margin) 조정
fig.update_layout(margin=dict(l=100, r=100, b=70, t=70))

fig.update_xaxes(tickangle=60)

fig.show()


### 산림엑스포만 합산한 표 생성

In [24]:
q5 = list(q5_map_dic.values())

In [25]:
# 응답자 특성별 표 정리
q5 = list(q5_map_dic.values())
resp_map_df = pd.DataFrame(columns = q5)
# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링 및 평균계산
        filtered_rows = df_expo_5[df_expo_5[sq_dic[sq]] == val].reset_index(drop=True)
        mean_list = [round(filtered_rows[i].mean(),2) for i in filtered_rows.columns[7:]]

        resp_map = {}
        for col, mean in zip(resp_map_df.columns, mean_list + [0]):
            if col == '사례수':
                resp_map[col] = filtered_rows.shape[0]
            else:
                resp_map[col] = [mean]
        else:
            resp_map = pd.DataFrame(resp_map)
            resp_map.index = [val]
            resp_map_df = pd.concat([resp_map_df,resp_map])
            resp_map_df.fillna(0.0, inplace=True)
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df

Unnamed: 0,Unnamed: 1,숲속 박물관·전시회 관람,숲속 공연·음악연주회 관람,숲속 문학행사 참여,숲속 예술·활동 참여,숲 기반 생활공예·취미활동 참여,숲가꾸기 체험,임산물 수확 체험,동식물 관찰 및 학습,산림레포츠 참여,계곡레포츠 참여,건강증진 활동 참여,숲 탐방,산림문화자산·자연명승지 탐방,자연경관 감상,숲속 생활 체험,산림주제 게임활동,산림주제 독서활동,산림분야 자기계발 및 학습,산림 관련 사회봉사활동
성별,남성,4.08,3.64,3.46,3.7,4.02,3.96,3.88,3.94,3.72,3.8,4.16,4.14,4.06,4.46,4.24,3.74,3.24,3.5,3.5
성별,여성,4.05,3.76,3.6,3.89,4.16,4.02,3.95,3.71,3.53,3.58,3.84,3.89,3.8,4.15,4.09,3.75,3.58,3.67,3.69
연령,10대(15세이상),4.0,4.14,3.71,4.43,4.57,4.0,3.14,4.29,2.86,3.71,3.29,3.43,3.43,4.0,4.57,4.14,3.57,3.43,2.86
연령,20대,4.29,3.68,3.5,3.82,4.43,4.07,3.96,4.14,3.68,3.71,3.86,4.0,4.0,4.43,4.18,3.79,3.32,3.79,3.5
연령,30대,4.36,3.36,2.93,3.71,4.07,4.21,4.29,4.29,4.07,4.14,4.29,4.21,4.07,4.57,4.29,3.43,3.21,3.79,3.79
연령,40대,4.14,4.0,3.64,3.79,3.93,3.64,3.36,3.36,3.21,3.21,3.86,3.64,3.57,3.86,4.0,3.43,3.29,3.21,3.07
연령,50대,3.84,3.68,3.42,3.79,3.79,3.53,3.95,3.42,3.79,3.68,4.26,4.32,4.0,4.16,4.21,4.21,3.42,3.58,3.89
연령,60대이상,3.78,3.65,3.91,3.65,3.91,4.35,4.17,3.61,3.61,3.65,4.04,4.04,4.04,4.43,4.0,3.57,3.7,3.52,3.91
학력,초등학교 졸업(무학 포함),3.75,3.0,4.25,3.5,4.25,5.0,4.75,4.25,3.5,3.75,3.5,4.0,4.25,4.25,3.75,4.25,4.0,3.5,4.0
학력,중학교 재학,3.9,4.0,3.7,4.4,4.4,4.2,3.6,4.1,3.3,4.1,3.8,3.7,3.6,4.1,4.4,4.0,3.4,3.5,3.3


### 활동별 비율 표 (문항만 변경하면 원하는 활동 표 출력 가능)

In [26]:
# '값' 열의 값을 딕셔너리를 사용하여 일괄적으로 변경하는 함수 정의
def map_val(series, dic):
        lst = []
        for value in series:
                lst.append(dic[str(value)])
        return lst

In [27]:
# 응답자 특성별 표 정리
q5_map = {'1':'1.매우 참여하고 싶지않다', '2':'2.참여하고 싶지않다', '3':'3.보통이다', '4':'4.참여하고 싶다', '5':'5.매우 참여하고 싶다'}
q5 = ['1.매우 참여하고 싶지않다', '2.참여하고 싶지않다', '3.보통이다', '4.참여하고 싶다', '5.매우 참여하고 싶다', '부정(1+2)', '보통(3)', '긍정(4+5)']
resp_map_df = pd.DataFrame(columns = q5)

# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링 및 평균계산
        filtered_rows = df_expo_5[df_expo_5[sq_dic[sq]] == val].reset_index(drop=True)
        frequency_rate_df = filtered_rows['Q5_1'].value_counts().reset_index()
        frequency_rate_df.columns = ['값', '빈도']
        frequency_rate_df['값'] = map_val(frequency_rate_df['값'], q5_map)
        frequency_rate_df['비율'] = round((frequency_rate_df['빈도'] / frequency_rate_df['빈도'].sum())*100,1)
        frequency_rate_df = frequency_rate_df.set_index(keys='값')
        
        resp_map = {}
        for i in resp_map_df.columns:
            resp_map[i] = [0.0]
        for i in resp_map_df.columns[:5]:
            try:
                resp_map[i][0] = frequency_rate_df.loc[i, '비율']
            except:
                pass
        for i in resp_map_df.columns[5:]:
            try:
                f,s = i.split('+')
                resp_map[i][0] = resp_map[q5_map[f[-1]]][0] + resp_map[q5_map[s[0]]][0]
            except:
                f = i.split('(')[1][0]
                resp_map[i][0] = resp_map[q5_map[f]][0]
        else:
            resp_map = pd.DataFrame(resp_map)
            resp_map.index = [val]
            resp_map_df = pd.concat([resp_map_df,resp_map])
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df

Unnamed: 0,Unnamed: 1,1.매우 참여하고 싶지않다,2.참여하고 싶지않다,3.보통이다,4.참여하고 싶다,5.매우 참여하고 싶다,부정(1+2),보통(3),긍정(4+5)
성별,남성,2.0,2.0,18.0,42.0,36.0,4.0,18.0,78.0
성별,여성,1.8,7.3,18.2,29.1,43.6,9.1,18.2,72.7
연령,10대(15세이상),0.0,14.3,0.0,57.1,28.6,14.3,0.0,85.7
연령,20대,0.0,3.6,17.9,25.0,53.6,3.6,17.9,78.6
연령,30대,0.0,7.1,7.1,28.6,57.1,7.1,7.1,85.7
연령,40대,0.0,7.1,21.4,21.4,50.0,7.1,21.4,71.4
연령,50대,0.0,5.3,26.3,47.4,21.1,5.3,26.3,68.5
연령,60대이상,8.7,0.0,21.7,43.5,26.1,8.7,21.7,69.6
학력,초등학교 졸업(무학 포함),25.0,0.0,0.0,25.0,50.0,25.0,0.0,75.0
학력,중학교 재학,0.0,10.0,20.0,40.0,30.0,10.0,20.0,70.0


### 일반국민만 합산한 표 생성

In [28]:
# 응답자 특성별 표 정리
q5 = list(q5_map_dic.values())
resp_map_df = pd.DataFrame(columns = q5)
# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링 및 평균계산
        filtered_rows = df_common_5[df_common_5[sq_dic[sq]] == val].reset_index(drop=True)
        mean_list = [round(filtered_rows[i].mean(),2) for i in filtered_rows.columns[7:]]

        resp_map = {}
        for col, mean in zip(resp_map_df.columns, mean_list + [0]):
            if col == '사례수':
                resp_map[col] = filtered_rows.shape[0]
            else:
                resp_map[col] = [mean]
        else:
            resp_map = pd.DataFrame(resp_map)
            resp_map.index = [val]
            resp_map_df = pd.concat([resp_map_df,resp_map])
            resp_map_df.fillna(0.0, inplace=True)
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df

Unnamed: 0,Unnamed: 1,숲속 박물관·전시회 관람,숲속 공연·음악연주회 관람,숲속 문학행사 참여,숲속 예술·활동 참여,숲 기반 생활공예·취미활동 참여,숲가꾸기 체험,임산물 수확 체험,동식물 관찰 및 학습,산림레포츠 참여,계곡레포츠 참여,건강증진 활동 참여,숲 탐방,산림문화자산·자연명승지 탐방,자연경관 감상,숲속 생활 체험,산림주제 게임활동,산림주제 독서활동,산림분야 자기계발 및 학습,산림 관련 사회봉사활동
성별,남성,3.58,3.73,3.18,3.4,3.64,3.8,3.84,3.69,3.35,3.47,4.03,4.05,3.88,4.07,3.84,3.12,3.19,3.09,3.33
성별,여성,3.79,3.88,3.28,3.6,3.93,3.84,3.93,3.61,3.15,3.19,4.13,4.16,3.91,4.16,3.91,3.01,3.25,3.02,3.35
연령,10대(15세이상),3.87,3.95,3.61,3.76,3.79,4.03,3.74,3.74,3.47,3.45,3.79,3.89,3.42,4.03,3.82,3.39,3.63,3.0,3.68
연령,20대,3.7,3.67,3.24,3.5,3.76,3.76,3.69,3.64,3.34,3.54,3.85,3.86,3.64,3.96,3.74,3.21,3.34,3.14,3.35
연령,30대,3.65,3.77,3.27,3.43,3.7,3.67,3.62,3.65,3.56,3.65,3.83,3.99,3.71,3.99,3.73,3.22,3.24,3.09,3.29
연령,40대,3.66,3.82,3.23,3.59,3.88,3.92,3.98,3.75,3.35,3.44,4.13,4.11,3.88,4.07,3.98,3.15,3.26,3.16,3.41
연령,50대,3.66,3.78,3.14,3.4,3.74,3.76,3.95,3.6,3.09,3.08,4.24,4.28,4.11,4.27,4.0,2.95,3.12,3.02,3.25
연령,60대이상,3.71,3.92,3.22,3.5,3.8,3.92,4.1,3.59,2.95,3.05,4.29,4.24,4.11,4.24,3.85,2.81,3.11,2.9,3.34
학력,초등학교 졸업(무학 포함),3.5,4.0,3.0,3.17,3.67,4.17,4.33,3.0,3.17,3.17,3.83,3.5,3.5,4.17,3.67,3.0,2.83,2.33,3.17
학력,중학교 재학,4.0,3.4,3.8,3.8,4.0,3.4,4.2,3.2,3.4,3.2,4.4,4.2,3.0,4.0,3.6,4.0,3.4,2.6,2.8


### 활동별 비율 표 (문항만 변경하면 원하는 활동 표출력 가능)

In [29]:
# '값' 열의 값을 딕셔너리를 사용하여 일괄적으로 변경하는 함수 정의
def map_val(series, dic):
        lst = []
        for value in series:
                lst.append(dic[str(value)])
        return lst

In [30]:
# 응답자 특성별 표 정리
q5_map = {'1':'1.매우 참여하고 싶지않다', '2':'2.참여하고 싶지않다', '3':'3.보통이다', '4':'4.참여하고 싶다', '5':'5.매우 참여하고 싶다'}
q5 = ['1.매우 참여하고 싶지않다', '2.참여하고 싶지않다', '3.보통이다', '4.참여하고 싶다', '5.매우 참여하고 싶다', '부정(1+2)', '보통(3)', '긍정(4+5)']
resp_map_df = pd.DataFrame(columns = q5)

# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링 및 평균계산
        filtered_rows = df_common_5[df_common_5[sq_dic[sq]] == val].reset_index(drop=True)
        frequency_rate_df = filtered_rows['Q5_1'].value_counts().reset_index()
        frequency_rate_df.columns = ['값', '빈도']
        frequency_rate_df['값'] = frequency_rate_df['값'].astype(int)
        frequency_rate_df['값'] = map_val(frequency_rate_df['값'], q5_map)
        frequency_rate_df['비율'] = round((frequency_rate_df['빈도'] / frequency_rate_df['빈도'].sum())*100,1)
        frequency_rate_df = frequency_rate_df.set_index(keys='값')
        
        resp_map = {}
        for i in resp_map_df.columns:
            resp_map[i] = [0.0]
        for i in resp_map_df.columns[:5]:
            try:
                resp_map[i][0] = frequency_rate_df.loc[i, '비율']
            except:
                pass
        for i in resp_map_df.columns[5:]:
            try:
                f,s = i.split('+')
                resp_map[i][0] = resp_map[q5_map[f[-1]]][0] + resp_map[q5_map[s[0]]][0]
            except:
                f = i.split('(')[1][0]
                resp_map[i][0] = resp_map[q5_map[f]][0]
        else:
            resp_map = pd.DataFrame(resp_map)
            resp_map.index = [val]
            resp_map_df = pd.concat([resp_map_df,resp_map])
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df

Unnamed: 0,Unnamed: 1,1.매우 참여하고 싶지않다,2.참여하고 싶지않다,3.보통이다,4.참여하고 싶다,5.매우 참여하고 싶다,부정(1+2),보통(3),긍정(4+5)
성별,남성,4.0,7.2,30.7,42.9,15.2,11.2,30.7,58.1
성별,여성,2.8,4.6,26.4,43.3,22.9,7.4,26.4,66.2
연령,10대(15세이상),2.6,2.6,18.4,57.9,18.4,5.2,18.4,76.3
연령,20대,2.5,5.5,31.2,41.2,19.6,8.0,31.2,60.8
연령,30대,3.9,7.7,24.3,48.1,16.0,11.6,24.3,64.1
연령,40대,4.1,5.3,29.4,43.3,18.0,9.4,29.4,61.3
연령,50대,3.1,7.4,29.2,40.9,19.5,10.5,29.2,60.4
연령,60대이상,3.7,4.6,30.3,40.4,21.1,8.3,30.3,61.5
학력,초등학교 졸업(무학 포함),0.0,0.0,50.0,50.0,0.0,0.0,50.0,50.0
학력,중학교 재학,0.0,0.0,20.0,60.0,20.0,0.0,20.0,80.0


## Q6. 산림문화의 영향력에 대한 생각

In [36]:
# 응답자 특성과 4번 설문에 대한 항목만 필터링
df_expo_6 = df_expo[list(df_expo.columns[:7]) + list(df_expo.columns[45:49])]
df_common_6 = df_common[list(df_common.columns[:7]) + list(df_common.columns[7:11])]

q6_map_dic = {'Q6_1': '국민 삶의 질 향상에 기여',
            'Q6_2': '지역경제 활성화에 기여',
            'Q6_3': '우리 실생활에 도움',
            'Q6_4': '국민 모두가 쉽게 즐길 수 있음'}

In [37]:
# 가중평균 계산 및 리스트 형태로 저장
expo_6_dic = {'설문':[],
              '평균':[],
              '5_빈도':[],
              '4_빈도':[],
              '3_빈도':[],
              '2_빈도':[],
              '1_빈도':[],
              '5_비율':[],
              '4_비율':[],
              '3_비율':[],
              '2_비율':[],
              '1_비율':[],
            }

for question in df_expo_6.columns[7:]:
    score_counts = df_expo_6[question].value_counts()#.reset_index()
    weighted_sum = (score_counts.index * score_counts).sum()
    total_count = score_counts.sum()
    weighted_mean = round(weighted_sum / total_count, 2)
    expo_6_dic['설문'].append(question)
    expo_6_dic['평균'].append(weighted_mean)

    score_counts = score_counts.reset_index()
    score_counts.columns = ['점수', '빈도']
    score_counts['비율'] = round((score_counts['빈도'] / score_counts['빈도'].sum()) * 100, 1)
    
    # 존재하는 점수들, 1개도 안나온 값들이 있음
    existing_scores = [1, 2, 3, 4, 5]
    # 누락된 점수들 찾기
    missing_scores = [score for score in existing_scores if score not in score_counts['점수'].tolist()]
    # 누락된 점수들을 데이터프레임에 추가
    for missing_score in missing_scores:
        new_row = {'점수': missing_score, '빈도': 0, '비율': 0.0}
        score_counts = pd.concat([score_counts, pd.DataFrame([new_row])], ignore_index=True)
    for num, freq, rate in zip(range(5,0,-1),score_counts['빈도'].tolist(),score_counts['비율'].tolist()):
        expo_6_dic[str(num) + '_빈도'].append(freq)
        expo_6_dic[str(num) + '_비율'].append(rate)
expo_6_df = pd.DataFrame(expo_6_dic)
expo_6_df['설문'] = expo_6_df['설문'].replace(q6_map_dic)
expo_6_df

Unnamed: 0,설문,평균,5_빈도,4_빈도,3_빈도,2_빈도,1_빈도,5_비율,4_비율,3_비율,2_비율,1_비율
0,국민 삶의 질 향상에 기여,4.18,52,28,20,3,2,49.5,26.7,19.0,2.9,1.9
1,지역경제 활성화에 기여,4.05,42,35,21,5,2,40.0,33.3,20.0,4.8,1.9
2,우리 실생활에 도움,4.08,41,39,18,6,1,39.0,37.1,17.1,5.7,1.0
3,국민 모두가 쉽게 즐길 수 있음,4.26,55,27,19,3,1,52.4,25.7,18.1,2.9,1.0


In [38]:
# 가중평균 계산 및 리스트 형태로 저장
common_6_dic = {'설문':[],
              '평균':[],
              '5_빈도':[],
              '4_빈도':[],
              '3_빈도':[],
              '2_빈도':[],
              '1_빈도':[],
              '5_비율':[],
              '4_비율':[],
              '3_비율':[],
              '2_비율':[],
              '1_비율':[],
            }

for question in df_common_6.columns[7:]:
    score_counts = df_common_6[question].value_counts()#.reset_index()
    weighted_sum = (score_counts.index * score_counts).sum()
    total_count = score_counts.sum()
    weighted_mean = round(weighted_sum / total_count, 2)
    common_6_dic['설문'].append(question)
    common_6_dic['평균'].append(weighted_mean)

    score_counts = score_counts.reset_index()
    score_counts.columns = ['점수', '빈도']
    score_counts['비율'] = round((score_counts['빈도'] / score_counts['빈도'].sum()) * 100, 1)
    
    # 존재하는 점수들, 1개도 안나온 값들이 있음
    existing_scores = [1, 2, 3, 4, 5]
    # 누락된 점수들 찾기
    missing_scores = [score for score in existing_scores if score not in score_counts['점수'].tolist()]
    # 누락된 점수들을 데이터프레임에 추가
    for missing_score in missing_scores:
        new_row = {'점수': missing_score, '빈도': 0, '비율': 0.0}
        score_counts = score_counts.append(new_row, ignore_index=True)
    for num, freq, rate in zip(range(5,0,-1),score_counts['빈도'].tolist(),score_counts['비율'].tolist()):
        common_6_dic[str(num) + '_빈도'].append(freq)
        common_6_dic[str(num) + '_비율'].append(rate)
common_6_df = pd.DataFrame(common_6_dic)
common_6_df['설문'] = common_6_df['설문'].replace(q6_map_dic)
common_6_df

Unnamed: 0,설문,평균,5_빈도,4_빈도,3_빈도,2_빈도,1_빈도,5_비율,4_비율,3_비율,2_비율,1_비율
0,국민 삶의 질 향상에 기여,3.67,819,534,228,95,24,48.2,31.4,13.4,5.6,1.4
1,지역경제 활성화에 기여,3.59,910,576,112,81,21,53.5,33.9,6.6,4.8,1.2
2,우리 실생활에 도움,3.65,851,563,185,83,18,50.1,33.1,10.9,4.9,1.1
3,국민 모두가 쉽게 즐길 수 있음,3.45,736,678,150,111,25,43.3,39.9,8.8,6.5,1.5


In [39]:
import plotly.express as px
import plotly.graph_objects as go

# 그래프 생성
fig = go.Figure()

# 엑스포 그래프 추가
fig.add_trace(go.Scatter(x=expo_6_df['설문'], y=expo_6_df['평균'], mode='lines', name='산림엑스포', line=dict(color='blue')))
# 일반국민 그래프 추가
fig.add_trace(go.Scatter(x=common_6_df['설문'], y=common_6_df['평균'], mode='lines', name='일반국민', line=dict(color='red')))

# 각 지점에 숫자 표시하기
for i, row in expo_6_df.iterrows():
    fig.add_annotation(
        text=row['평균'],
        x=row['설문'],
        y=row['평균'],
        showarrow=True,
        arrowhead=7,
        font=dict(size=14)  # annotation 폰트
    )

# 두 번째 꺾은선 그래프의 annotation 추가
for i, row in common_6_df.iterrows():
    fig.add_annotation(
        text=row['평균'],
        x=row['설문'],
        y=row['평균'],
        showarrow=True,
        arrowhead=7,
        font=dict(size=14)  # annotation 폰트
    )

# 그래프 레이아웃 설정
fig.update_layout(
    xaxis_title='문항',
    yaxis_title='평균',
    margin=dict(l=100, r=20, t=50, b=50),  # 그래프 마진 조정
    yaxis_title_font=dict(
        size=15,  # Y 레이블 폰트 크기
    ),
    xaxis_title_font=dict(
        size=15,  # X 레이블 폰트 크기
    )
)

# 범례 추가
fig.update_layout(legend=dict(orientation="h", x=0.02, y=0.98), showlegend=True)

# 여백 (margin) 조정
fig.update_layout(margin=dict(l=100, r=100, b=70, t=70))

# 평균선 추가
average_line1 = expo_6_df['평균'].mean()  # 평균값 계산
average_line2 = common_6_df['평균'].mean()  # 평균값 계산
fig.add_shape(
    go.layout.Shape(
        type='line',
        x0=expo_6_df['설문'].tolist()[0],
        x1=expo_6_df['설문'].tolist()[-1],
        y0=average_line1,
        y1=average_line1,
        line=dict(color='green', width=2, dash='dash'),
    )
)
fig.add_shape(
    go.layout.Shape(
        type='line',
        x0=common_6_df['설문'].tolist()[0],
        x1=common_6_df['설문'].tolist()[-1],
        y0=average_line2,
        y1=average_line2,
        line=dict(color='green', width=2, dash='dash'),
    )
)

# 평균선에 평균을 나타내는 annotation 추가
fig.add_annotation(
    text=f'평균: {average_line1:.2f}',
    x=expo_6_df['설문'].min(),
    y=average_line1,
    showarrow=True,
    arrowhead=7,
    font=dict(size=10)
)
# 평균선에 평균을 나타내는 annotation 추가
fig.add_annotation(
    text=f'평균: {average_line2:.2f}',
    x=common_6_df['설문'].min(),
    y=average_line2,
    showarrow=True,
    arrowhead=7,
    font=dict(size=10)
)

# 그래프 그리기
fig.show()

### 총평균 + t검정 하기

In [57]:
expo_6_rate_df = expo_6_df[['설문','5_비율','4_비율', '3_비율', '2_비율', '1_비율']]
expo_6_rate_df_t = expo_6_rate_df.set_index(keys='설문').T.reset_index()
expo_6_rate_df_t.rename(columns = {"index": "설문"},inplace=True)
expo_6_rate_df_t["설문"] = ['매우 기여한다','기여하는 편이다','보통이다','별로 기여하지 못한다','전혀 기여하지 못한다']

common_6_rate_df = common_6_df[['설문','5_비율','4_비율', '3_비율', '2_비율', '1_비율']]
common_6_rate_df_t = common_6_rate_df.set_index(keys='설문').T.reset_index()
common_6_rate_df_t.rename(columns = {"index": "설문"},inplace=True)
common_6_rate_df_t["설문"] = ['매우 기여한다','기여하는 편이다','보통이다','별로 기여하지 못한다','전혀 기여하지 못한다']

In [58]:
expo_6_rate_df_t

설문,설문.1,국민 삶의 질 향상에 기여,지역경제 활성화에 기여,우리 실생활에 도움,국민 모두가 쉽게 즐길 수 있음
0,매우 기여한다,49.5,40.0,39.0,52.4
1,기여하는 편이다,26.7,33.3,37.1,25.7
2,보통이다,19.0,20.0,17.1,18.1
3,별로 기여하지 못한다,2.9,4.8,5.7,2.9
4,전혀 기여하지 못한다,1.9,1.9,1.0,1.0


In [60]:
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.graph_objects as go
import plotly.colors as pc

# 두 개의 파이 차트를 나란히 그리기 위한 subplot 생성
fig = make_subplots(rows=2, cols=2, subplot_titles=["<span style='font-size: 20px; font-weight:bold;'>국민 삶의 질 향상에 기여</span>",
                                                    "<span style='font-size: 20px; font-weight:bold;'>지역경제 활성화에 기여</span>",
                                                    "<span style='font-size: 20px; font-weight:bold;'>우리 실생활에 도움</span>",
                                                    "<span style='font-size: 20px; font-weight:bold;'>국민 모두가 쉽게 즐길 수 있음</span>"],
                                                    specs=[[{'type': 'pie'}, {'type': 'pie'}], [{'type': 'pie'}, {'type': 'pie'}]])

# 각 서브플롯에 대한 데이터 설정 및 파이 차트 추가
fig.add_trace(go.Pie(labels=expo_6_rate_df_t['설문'], values=expo_6_rate_df_t['국민 삶의 질 향상에 기여'], hole=0.4, marker=dict(colors=color_scale[::2])), row=1, col=1)
fig.add_trace(go.Pie(labels=expo_6_rate_df_t['설문'], values=expo_6_rate_df_t['지역경제 활성화에 기여'], hole=0.4, marker=dict(colors=color_scale[::2])), row=1, col=2)
fig.add_trace(go.Pie(labels=expo_6_rate_df_t['설문'], values=expo_6_rate_df_t['우리 실생활에 도움'], hole=0.4, marker=dict(colors=color_scale[::2])), row=2, col=1)
fig.add_trace(go.Pie(labels=expo_6_rate_df_t['설문'], values=expo_6_rate_df_t['국민 모두가 쉽게 즐길 수 있음'], hole=0.4, marker=dict(colors=color_scale[::2])), row=2, col=2)

# 서브플롯의 레이아웃 설정
fig.update_layout(height=1000, width=1500)

# 차트 내에 비율 숫자 직접 표시
pull_lst = [0.01] * 12  # 수정 필요
fig.update_traces(textinfo='percent+label', pull=pull_lst, insidetextorientation='horizontal')

# 가운데 공백에 글자 추가
#fig.add_annotation(text="가운데", x=0.25, y=0.25, showarrow=False, font=dict(size=24))

# 차트 출력
fig.show()

In [107]:
import plotly.colors as pc

# 컬러맵을 리스트로 불러오기
blues_color_map = pc.sequential.Blues
reds_color_map = pc.sequential.Reds

# 누적 막대그래프 시각화
fig = go.Figure()

# 막대 그래프 추가 (expo_6_rate_df 데이터 사용)
for i in range(1, 6):
    text_labels = [f'<span style="font-size: 15px !important;">{val:.1f}%</span>' for val in expo_6_rate_df[f'{i}_비율']]
    fig.add_trace(go.Bar(x=expo_6_rate_df['설문'], y=expo_6_rate_df[f'{i}_비율'], text=text_labels,
                         name=f'{i}점 (산림엑스포)', textposition='auto', marker=dict(color=blues_color_map[i-1])))

# 두 번째 막대 그래프 추가 (common_6_rate_df 데이터 사용) - 겹치게 표시
for i in range(1, 6):
    text_labels = [f'<span style="font-size: 15px">{val:.1f}%</span>' for val in common_6_rate_df[f'{i}_비율']]
    fig.add_trace(go.Bar(x=common_6_rate_df['설문'], y=common_6_rate_df[f'{i}_비율'], text=text_labels,
                         name=f'{i}점 (일반국민)', textposition='auto', marker=dict(color=reds_color_map[i-1])))

# 그래프 레이아웃 설정
fig.update_layout(title="산림문화의 영향력 비교", xaxis_title="<span style='font-size: 15px'>설문</span>", yaxis_title="<span style='font-size: 15px'>비율(%)</span>",
                  barmode='group', showlegend=True)

# 범례 텍스트 수정
fig.update_layout(legend=dict(traceorder="reversed"))

# 그래프 높이와 너비 조정
fig.update_layout(height=700, width=1400)

# 여백 (margin) 조정
fig.update_layout(margin=dict(l=100, r=100, b=70, t=70))

fig.show()

In [105]:
import plotly.colors as pc

# 컬러맵을 리스트로 불러오기
blues_color_map = pc.sequential.Blues
reds_color_map = pc.sequential.Reds

# 누적 막대그래프 시각화
fig = go.Figure()

# 막대 그래프 추가 (expo_6_rate_df 데이터 사용)
for i in range(1, 6):
    text_labels = [f'<span style="font-size: 14px !important;">{val:.1f}%</span>' for val in expo_6_rate_df[f'{i}_비율']]
    fig.add_trace(go.Bar(x=expo_6_rate_df['설문'], y=expo_6_rate_df[f'{i}_비율'], text=text_labels,
                         name=f'{i}점 (산림엑스포)', textposition='auto', marker=dict(color=blues_color_map[i-1])))

# 두 번째 막대 그래프 추가 (common_6_rate_df 데이터 사용) - 겹치게 표시
for i in range(1, 6):
    text_labels = [f'<span style="font-size: 14px !important;">{val:.1f}%</span>' for val in common_6_rate_df[f'{i}_비율']]
    fig.add_trace(go.Bar(x=common_6_rate_df['설문'], y=common_6_rate_df[f'{i}_비율'], text=text_labels,
                         name=f'{i}점 (일반국민)', textposition='auto', marker=dict(color=reds_color_map[i-1])))

# 그래프 레이아웃 설정
fig.update_layout(title="산림문화의 영향력 비교", xaxis_title="설문", yaxis_title="비율 (%)",
                  barmode='relative', showlegend=True)

# 범례 텍스트 수정
fig.update_layout(legend=dict(traceorder="reversed"))

# 그래프 높이와 너비 조정
fig.update_layout(height=700, width=1400)

# 여백 (margin) 조정
fig.update_layout(margin=dict(l=100, r=100, b=70, t=70))

fig.show()


### 산림엑스포만 합산한 표 생성

In [None]:
# 응답자 특성별 표 정리
q6 = list(q6_map_dic.values())
resp_map_df = pd.DataFrame(columns = q6)
# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링 및 평균계산
        filtered_rows = df_expo_6[df_expo_6[sq_dic[sq]] == val].reset_index(drop=True)
        mean_list = [round(filtered_rows[i].mean(),2) for i in filtered_rows.columns[7:]]

        resp_map = {}
        for col, mean in zip(resp_map_df.columns, mean_list + [0]):
            if col == '사례수':
                resp_map[col] = filtered_rows.shape[0]
            else:
                resp_map[col] = [mean]
        else:
            resp_map = pd.DataFrame(resp_map)
            resp_map.index = [val]
            resp_map_df = pd.concat([resp_map_df,resp_map])
            resp_map_df.fillna(0.0, inplace=True)
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df


The behavior of DataFrame concatenation with empty or all-NA entries is deprecated. In a future version, this will no longer exclude empty or all-NA columns when determining the result dtypes. To retain the old behavior, exclude the relevant entries before the concat operation.



Unnamed: 0,Unnamed: 1,국민 삶의 질 향상에 기여,지역경제 활성화에 기여,우리 실생활에 도움,국민 모두가 쉽게 즐길 수 있음
성별,남성,4.18,4.02,3.92,4.24
성별,여성,4.18,4.07,4.22,4.27
연령,10대(15세이상),3.71,3.57,4.14,4.86
연령,20대,4.43,4.36,4.21,4.32
연령,30대,4.36,4.0,3.79,4.21
연령,40대,3.93,3.79,3.71,4.14
연령,50대,4.37,3.89,4.32,4.42
연령,60대이상,3.91,4.13,4.09,3.96
학력,초등학교 졸업(무학 포함),3.0,3.0,3.75,3.75
학력,중학교 재학,3.8,3.9,4.0,4.6


### 가치별 비율 표 (문항만 변경하면 원하는 가치 표 출력 가능)

In [108]:
# '값' 열의 값을 딕셔너리를 사용하여 일괄적으로 변경하는 함수 정의
def map_val(series, dic):
        lst = []
        for value in series:
                lst.append(dic[str(value)])
        return lst

In [109]:
# 응답자 특성별 표 정리
q6_map = {'1':'1.매우 아니다', '2':'2.아니다', '3':'3.보통이다', '4':'4.그렇다', '5':'5.매우 그렇다'}
q6 = ['1.매우 아니다', '2.아니다', '3.보통이다', '4.그렇다', '5.매우 그렇다', '부정(1+2)', '보통(3)', '긍정(4+5)']
resp_map_df = pd.DataFrame(columns = q6)

# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링 및 평균계산
        filtered_rows = df_expo_6[df_expo_6[sq_dic[sq]] == val].reset_index(drop=True)
        frequency_rate_df = filtered_rows['Q6_1'].value_counts().reset_index()
        frequency_rate_df.columns = ['값', '빈도']
        frequency_rate_df['값'] = map_val(frequency_rate_df['값'], q6_map)
        frequency_rate_df['비율'] = round((frequency_rate_df['빈도'] / frequency_rate_df['빈도'].sum())*100,1)
        frequency_rate_df = frequency_rate_df.set_index(keys='값')
        
        resp_map = {}
        for i in resp_map_df.columns:
            resp_map[i] = [0.0]
        for i in resp_map_df.columns[:5]:
            try:
                resp_map[i][0] = frequency_rate_df.loc[i, '비율']
            except:
                pass
        for i in resp_map_df.columns[5:]:
            try:
                f,s = i.split('+')
                resp_map[i][0] = resp_map[q6_map[f[-1]]][0] + resp_map[q6_map[s[0]]][0]
            except:
                f = i.split('(')[1][0]
                resp_map[i][0] = resp_map[q6_map[f]][0]
        else:
            resp_map = pd.DataFrame(resp_map)
            resp_map.index = [val]
            resp_map_df = pd.concat([resp_map_df,resp_map])
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df

Unnamed: 0,Unnamed: 1,1.매우 아니다,2.아니다,3.보통이다,4.그렇다,5.매우 그렇다,부정(1+2),보통(3),긍정(4+5)
성별,남성,4.0,2.0,16.0,28.0,50.0,6.0,16.0,78.0
성별,여성,1.8,1.8,21.8,25.5,49.1,3.6,21.8,74.6
연령,10대(15세이상),0.0,0.0,42.9,42.9,14.3,0.0,42.9,57.2
연령,20대,0.0,3.6,14.3,17.9,64.3,3.6,14.3,82.2
연령,30대,0.0,0.0,14.3,35.7,50.0,0.0,14.3,85.7
연령,40대,7.1,0.0,21.4,35.7,35.7,7.1,21.4,71.4
연령,50대,0.0,0.0,15.8,31.6,52.6,0.0,15.8,84.2
연령,60대이상,8.7,4.3,21.7,17.4,47.8,13.0,21.7,65.2
학력,초등학교 졸업(무학 포함),0.0,25.0,50.0,25.0,0.0,25.0,50.0,25.0
학력,중학교 재학,0.0,0.0,40.0,40.0,20.0,0.0,40.0,60.0


### 일반국민만 합산한 표 생성

In [110]:
# 응답자 특성별 표 정리
q6 = list(q6_map_dic.values())
resp_map_df = pd.DataFrame(columns = q6)
# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링 및 평균계산
        filtered_rows = df_common_6[df_common_6[sq_dic[sq]] == val].reset_index(drop=True)
        mean_list = [round(filtered_rows[i].mean(),2) for i in filtered_rows.columns[7:]]

        resp_map = {}
        for col, mean in zip(resp_map_df.columns, mean_list + [0]):
            if col == '사례수':
                resp_map[col] = filtered_rows.shape[0]
            else:
                resp_map[col] = [mean]
        else:
            resp_map = pd.DataFrame(resp_map)
            resp_map.index = [val]
            resp_map_df = pd.concat([resp_map_df,resp_map])
            resp_map_df.fillna(0.0, inplace=True)
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df

Unnamed: 0,Unnamed: 1,국민 삶의 질 향상에 기여,지역경제 활성화에 기여,우리 실생활에 도움,국민 모두가 쉽게 즐길 수 있음
성별,남성,3.66,3.58,3.62,3.4
성별,여성,3.67,3.6,3.68,3.5
연령,10대(15세이상),3.61,3.61,3.79,3.7
연령,20대,3.52,3.43,3.5,3.45
연령,30대,3.53,3.49,3.5,3.38
연령,40대,3.62,3.6,3.64,3.44
연령,50대,3.77,3.7,3.77,3.43
연령,60대이상,3.87,3.72,3.77,3.48
학력,초등학교 졸업(무학 포함),4.17,3.5,3.83,3.83
학력,중학교 재학,3.86,4.0,4.0,4.0


### 영향력별 비율 표 (문항만 변경하면 원하는 영향력 표출력 가능)

In [111]:
# '값' 열의 값을 딕셔너리를 사용하여 일괄적으로 변경하는 함수 정의
def map_val(series, dic):
        lst = []
        for value in series:
                lst.append(dic[str(value)])
        return lst

In [112]:
# 응답자 특성별 표 정리
q6_map = {'1':'1.매우 아니다', '2':'2.아니다', '3':'3.보통이다', '4':'4.그렇다', '5':'5.매우 그렇다'}
q6 = ['1.매우 아니다', '2.아니다', '3.보통이다', '4.그렇다', '5.매우 그렇다', '부정(1+2)', '보통(3)', '긍정(4+5)']
resp_map_df = pd.DataFrame(columns = q6)

# 응답자 설문 리스트 정의
sq_lst = list(Resp_Character.keys())
# 응답자 매핑 딕셔너리 정의
sq_dic = {'성별': 'SQ1', '연령': 'SQ2_1', '학력': 'SQ3', '거주지역': 'SQ4', '직업': 'SQ5'}

# 멀티인덱스를 위한 리스트 생성
mult_idx = []

for sq in sq_lst:
    for val in list(Resp_Character[sq].values()):
        # 멀티인덱스 추가
        mult_idx.append(sq)
        # 'SQ1' 열의 값으로 필터링 및 평균계산
        filtered_rows = df_common_6[df_common_6[sq_dic[sq]] == val].reset_index(drop=True)
        frequency_rate_df = filtered_rows['Q6_1'].value_counts().reset_index()
        frequency_rate_df.columns = ['값', '빈도']
        frequency_rate_df['값'] = frequency_rate_df['값'].astype(int)
        frequency_rate_df['값'] = map_val(frequency_rate_df['값'], q6_map)
        frequency_rate_df['비율'] = round((frequency_rate_df['빈도'] / frequency_rate_df['빈도'].sum())*100,1)
        frequency_rate_df = frequency_rate_df.set_index(keys='값')
        
        resp_map = {}
        for i in resp_map_df.columns:
            resp_map[i] = [0.0]
        for i in resp_map_df.columns[:5]:
            try:
                resp_map[i][0] = frequency_rate_df.loc[i, '비율']
            except:
                pass
        for i in resp_map_df.columns[5:]:
            try:
                f,s = i.split('+')
                resp_map[i][0] = resp_map[q6_map[f[-1]]][0] + resp_map[q6_map[s[0]]][0]
            except:
                f = i.split('(')[1][0]
                resp_map[i][0] = resp_map[q6_map[f]][0]
        else:
            resp_map = pd.DataFrame(resp_map)
            resp_map.index = [val]
            resp_map_df = pd.concat([resp_map_df,resp_map])
# 멀티인덱스 생성
resp_map_df.set_index([mult_idx, resp_map_df.index], inplace=True)
resp_map_df

Unnamed: 0,Unnamed: 1,1.매우 아니다,2.아니다,3.보통이다,4.그렇다,5.매우 그렇다,부정(1+2),보통(3),긍정(4+5)
성별,남성,1.6,5.4,32.1,47.1,13.8,7.0,32.1,60.9
성별,여성,1.2,5.7,30.7,49.3,13.1,6.9,30.7,62.4
연령,10대(15세이상),1.8,5.3,35.1,45.6,12.3,7.1,35.1,57.9
연령,20대,3.8,7.5,34.0,42.8,11.9,11.3,34.0,54.7
연령,30대,1.4,7.4,39.8,39.8,11.6,8.8,39.8,51.4
연령,40대,1.4,4.9,34.1,49.0,10.6,6.3,34.1,59.6
연령,50대,0.5,4.6,27.6,51.6,15.7,5.1,27.6,67.3
연령,60대이상,0.0,4.0,22.4,56.5,17.1,4.0,22.4,73.6
학력,초등학교 졸업(무학 포함),0.0,0.0,0.0,83.3,16.7,0.0,0.0,100.0
학력,중학교 재학,0.0,0.0,28.6,57.1,14.3,0.0,28.6,71.4
