In [None]:
# import 
import statsmodels.formula.api as sm
import pandas as pd 
import numpy as np
import seaborn as sns
import statsmodels.api as sm
import matplotlib.pyplot as plt
from scipy.stats import pearsonr
from scipy import stats
import matplotlib as mpl

# 데이터 파악

## 출처

In [None]:
# WHR(세계행복보고서 2011~2024년 행복지수와 주요지표)
pd.read_excel("./data/행복지수_모음.xlsx")

## 목적과 이유

- 168개국의 나라의 데이터를 이용하여 대한민국의 행복지수와 주요지표의 순위를 알아보기 위함

- 2011 ~ 2018년까지는 행복지수만 있고, 그 외 데이터는 결측값이라 제거함

# 데이터 분할

- 세부적으로 대한민국의 행복지수와 지표를 분석하기 위해 
- OECD 38개국과 아시아 42개국별로 전처리를 함

# 데이터 시각화 (OECD)

- OECD 38개국와 한국의 행복지수를 시각화로 비교하기 위해 공통적으로 지수의 * 10 한 값을
- 가로 막대 그래프로 한국만 붉은색으로 시각화 하였고, 결과는 38개국 35등으로 나타남

# 데이터 시각화 (아시아)

- 아시아 국가별 19 ~ 24년 행복지수 평균에서 아시아 국가별 19 ~ 24년 1인당 GDP를 나누어
- 1인당 GDP 대비 행복지수 즉, 소득수준에 비해 얼마나 행복함을 느끼는지를 확인하기 위해 전처리함

- 대한민국은 아시아에서 행복지수 평균은 41개국 중 13위, 1인당 GDP는 5위이지만
- 1인당 GDP 대비 행복지수는 41개국 중 37등임

- 전처리 완료 후
- 전체 : 875 개의 데이터 사용(157개국)
OECD : 228개의 데이터 사용 (38개국)
아시아 : 237개의 데이터 (41개국)



- 이러한 통찰을 각 아시아 나라의 1인당 GDP 대비 행복지수의 * 10한 값을
- 가로막대그래프로 한국만 붉은색으로 시각화 하였고, 결과는 41개국 중 37등으로 나타남

# =============================================================================

# 데이터 분할

- 한국의 행복지수의 순위를 알았으니, 그 원인이 되는 지표를 알아보기 위해
- 한국의 19~24년간 행복지수와 지표데이터의 평균만 필터링하여 변수에 할당 (한국데이터라 칭함)

# 데이터 분석 및 시각화

# <b style="background:red">왜 OECD, 아시아, 전세계를 묶어서 분석했는지</b>

- 전처리 완료 후
- 전체 : 875 개의 데이터 사용(157개국)
- OECD : 228개의 데이터 사용 (38개국)
- 아시아 : 237개의 데이터 (41개국)

- 행복요소 6가지 수치 비교를 위해
  
- 한국데이터에서 세계데이터를 뺀 값
    - "선택의 자유"와 "관대함" 지표에서 세계 평균보다 낮게 나옴

- 한국데이터에서 아시아 데이터를 뺀 값
    - "선택의 자유"와 "관대함" 지표에서 아시아 평균보다 낮게 나옴
    
- 한국데이터에서 OECD 데이터를 뺀 값
    - "행복지수","사회적 지원", "기대수명","선택의 자유","관대함","부정부패인식" 지표에서 OECD 평균보다 낮게 나옴

## 결론

- 결론적으로 3개의 지표에서 공통적으로 선택의 자유와 관대함의 평균이 낮게 나온다는 사실을 파악

# 시각화

- 이를 시각화 하기 위해 가로막대 그래프로 각 대상별 행복지수와 6가지 주요지표를 시각화로 진행하여
- 한국의 평균이 부족한 부분을 음수그래프(왼쪽) 붉은색, 평균보다 높은 부분을 양수그래프(오른쪽) 푸른색으로
시각화 진행 
- 각 막대에 수치값도 표현

# 선택적 자유와 관대함이 낮게 나온 요인 분석

- 선택적 자유 (19~24년간 평균으로 비교)
    - 비교지표
        - 취미만족도
            - 상관계수 : [0.88243538], p-value : [0.01991971] 
                - 통계적으로 유의미함
        - 일자리만족도
            - 상관계수 : [0.94132618], p-value : [0.00506293]
                - 통계적으로 유의미
        - 임금5분위분포
            - 상관계수 : [0.04550771], p-value : [0.93178556]
                - 통계적으로 유의미하지 않음

- 관대함 
    - 비교지표
        - 21년 114개국 세계기부지수 - 21년 대한민국 행복지수(GWP)
            - 상관계수 : 0.7477632242121277, p-value : 1.7311894983256795e-19
                - 통계적으로 유의미함
        - 22년 119개국 세계기부지수 - 22년 대한민국(GWP)
            - 상관계수 : [0.6951128586365728], p-value : [9.868399835248921e-17]
                - 통계적으로 유의미
        - 사회단체율(19~24년)
            - 상관계수 : [0.03151627007265259], p-value : [0.9527412470570005]
                - 통계적으로 유의미하지 않음

# 결과

- 선택적 자유와 관계가 있는 요인은 취미만족도와 일자리만족도이고,
- 관대함과 관계가 있는 요인은 21,22개년 세계기부지수이다