In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 8.1 상관분석

## 데이터 불러오기

In [None]:
df2020=pd.read_csv('/content/2020.csv',index_col=0)
df2021=pd.read_csv('/content/2021.csv',index_col=0)

In [None]:
df2020.dtypes

In [None]:
df2020.head()

In [None]:
df2021.head()

## 데이터 가공하기

In [None]:
# 컬럼 삭제하기
df2020.drop(['upperwhisker','lowerwhisker','Dystopia'],axis=1,inplace=True)
df2021.drop(['upperwhisker','lowerwhisker','Dystopia'],axis=1,inplace=True)

In [None]:
df2020.head()
df2021.head()

In [None]:
# 컬럼이름 변경하기 : 모든 컬럼들의 빈공백을 점(.)으로 대체한다.
#df2020.columns=df2020.columns.str.replace(' ','.')
#df2021.columns=df2021.columns.str.replace(' ','.')
df2020.columns=['Country','Score','GDP.per.capita','Social.support','Life.expectancy','Freedom','Generosity']
df2021.columns=['Country','Score','GDP.per.capita','Social.support','Life.expectancy','Freedom','Generosity']

In [None]:
df2020.columns
df2021.columns

## 데이터 시각화

In [None]:
# 행복 지수에 영향을 주는 요인 파악

In [None]:
# 행복 점수와 기능의 상관 관계
# Correlating features with the happiness scores

### 1) 행복지수 VS. 경제적 요소(GDP), 법적 상태 요소(Freedom)

In [None]:
# 한 국가의 행복지수와 경제적(GDP), 법적 상태(Freedom) 간에 강한 관계가 있습니까?
# corr_perception
# GDP_per_capita
# Freedom
df1=df2020.copy() # 2020년
df1.drop(['Social.support','Life.expectancy','Generosity'],axis=1,inplace=True)
df1

In [None]:
# 상관계수 구하기
df1 = df1.drop('Country', axis=1)
corr=df1.corr()
corr
corr['Score'].sort_values(ascending=False)

In [None]:
# 히트맵 그리기
plt.figure(figsize=(10,6))
sns.heatmap(corr,annot=True,cmap='Blues')

In [None]:
# 새로운 데이터프레임 생성
df2=df2021.copy()  # 2021년
df2.drop(['Social.support','Life.expectancy','Generosity'],axis=1,inplace=True)
df2

In [None]:
# 히트맵 그리기
df2 = df2.drop('Country', axis=1)
corr=df2.corr()
corr
corr['Score'].sort_values(ascending=False)
plt.figure(figsize=(10,6))
sns.heatmap(df2.corr(),annot=True,cmap='PuBuGn')



*   ''' 분석결과
위에 표시된 2개의 히트맵은 2020년, 2021년 각각에 해당하는 3개 열, 점수, GDP, 자유 상관관 관계 매트릭스를 표시한다.
이제 3가지 요소가 점수에 미치는 영향에 대해 설명합니다.
'''
'''
1. GDP는 행복지수와 어떤 관련이 있습니까?
히트맵에서 GDP.per.capita와 Score 간의 상관 계수는 총 2년 동안 ~ 0.79로
GDP에 대한 시민의 만족도와 행복도 점수 사이에 강한 양의 관계가 있음을 나타냅니다.
GDP.per.capita는 한 국가의 경제 성장을 추적하는 지표입니다.
긍정적인 경제 성장률을 보이는 국가의 사람들은 더 높은 소득과 더 나은 생활 수준으로 이어지기 때문에 더 행복해지는 경향이 있습니다.
따라서 우리는 만족을 보장하기 위해 한 국가의 GDP가 최우선 순위 중 하나가 되어야 한다고 결론지었습니다.

2. 행복 점수와 자유의 관계?
자유와 점수 사이의 상관 계수는 2년 전체에서 ~ 0.61로 자유에 대한 인식과
국가의 행복 지수 사이에 중간 정도의 양의 관계를 나타냅니다. 자유에 대한 이러한 인식을 일반화하는 것은 연구에 따르면 세계의 다른 지역에 속한 사람들마다 다르기 때문에 어려운 작업입니다. 그럼에도 불구하고 여전히 국가의 행복지수에 중요한 기여를 합니다.
'''


### 2) 행복지수 VS. 국가의 사회적 상태(Social Support) 관계 분석

In [None]:
x1=df2020[['Generosity','Social.support','Score']].copy()
x2=df2021[['Generosity','Social.support','Score']].copy()

In [None]:
x1
x2

In [None]:
'''
한 국가의 사회적 상태에 대한 인식은 행복 지수에 어떤 영향을 미칩니까?
이 질문에 답하기 위해 각 데이터 세트에서 3개 열의 상관 히트맵을 플로팅합니다.
관대
가족
점수
'''

In [None]:
#for year 2020
a1=x1.corr()
plt.figure(figsize=(10,6))
sns.heatmap(a1,annot=True)

In [None]:
#for year 2021
a2=x2.corr()
plt.figure(figsize=(10,6))
sns.heatmap(a2,annot=True,cmap='GnBu')


관대함과 사회적 지지는 행복 지수와 어떤 관련이 있습니까?

1.   관대함과 사회적 지지 상관 계수는 -0.057, -0.11으로 관찰되어 매우 약한 음의 관계를 나타냅니다.
두 메트릭 간에 선형 변화가 많이 관찰되지 않습니다.
관대함은 시민들이 서로에게서 얻는 인식입니다. 관대함과 행복 지수 상관계수는 0.069, -0.018으로 관찰되어 매우 약한 음의 관계를 나타낸다.
2.  사회적 지지와 행복 지수의 상관값은 0.77, 0.76로 강한 양의 관계를 나타냅니다.  
사회적 지지는 사람들이 가족, 친구, 지인 등과 함께 얼마나 행복한지에 대한 인식입니다.
이들은 일상생활에서 거의 모든 사람들이 대하는 사람들이기 때문에
사회적 지지에 대한 인식이 행복지수를 결정하는 중요한 요소라고 볼 수 있다.



In [None]:
# 전체 상관계수
import numpy as np
corr = df2020.drop('Country', axis=1).corr()
corr['Score']
plt.figure(figsize=(11,8))
mask = np.zeros_like(corr, dtype = bool)
mask[np.triu_indices_from(mask)] = True
sns.heatmap(corr,mask = mask,vmin=-1, vmax=1,annot = True,
            cmap ='RdYlBu_r', linewidths=4 )

In [None]:
df2020.shape

In [None]:
# 전체 상관계수
import numpy as np
corr = df2021.drop('Country', axis=1).corr()
corr['Score']
plt.figure(figsize=(11,8))
mask = np.zeros_like(corr, dtype = bool)
mask[np.triu_indices_from(mask)] = True
sns.heatmap(corr,mask = mask,vmin=-1, vmax=1,annot = True,
            cmap ='PiYG', linewidths=4 )


*   행복지수에 가장 크게 영향을 주는 것: 경제적 요소, 사회적 지지, 기대수명(건강) 자유도
*   행복지수와 비교적 무관한 것: 기부
* 경제적 요소 VS.기대수명 : 강한 양의 상관 관계



#### 상위 50개 국가의 기대수명과 GDP와의 관계 시각화

In [None]:
top50=df2021.head(50)
top50

In [None]:
import seaborn as sns
sns.set_theme(style='dark')
plt.figure(figsize=(24,12))
ax=sns.scatterplot(data=top50,x='Country',y='Life.expectancy',size='GDP.per.capita',sizes=(400,1500)
                   ,hue='GDP.per.capita')
plt.xticks(rotation=90,fontsize=15,color='midnightblue')
plt.yticks(fontsize=15,color='midnightblue')
plt.xlabel('Country or region',size=15,color='midnightblue')
plt.ylabel('Healthy life expectancy',size=15,color='midnightblue')
plt.show()

#### 우리나라는 GDP, 사회적 지지도, 기대수명, 자유도 등에서 각각 몇 위인가?

In [None]:
economy = df2020.loc[:,['Country','GDP.per.capita']]
economy = economy.groupby(economy.Country)['GDP.per.capita'].mean().sort_values(ascending=False)
economy = economy.rank(method='min',ascending=False)['South Korea']

social = df2020.loc[:,['Country','Social.support']]
social = social.groupby(social.Country)['Social.support'].mean().sort_values(ascending=False)
social = social.rank(method='min',ascending=False)['South Korea']

health = df2020.loc[:,['Country','Life.expectancy']]
health = health.groupby(health.Country)['Life.expectancy'].mean().sort_values(ascending=False)
health = health.rank(method='min',ascending=False)['South Korea']

free = df2020.loc[:,['Country','Freedom']]
free= free.groupby(free.Country)['Freedom'].mean().sort_values(ascending=False)
free = free.rank(method='min',ascending=False)['South Korea']

print(f'153개국 중 대한민국의 \nGDP 순위:{economy.astype(int)}위\n사회적 지위 순위:{social.astype(int)}위\n기대수명 순위:{health.astype(int)}위\n자유도 순위:{free.astype(int)}위')





*   GDP 순위는 양호, 기대수명은 굉장히 높다. 다른나라보다 국가 복지 수준이 높은 덕에 높은 순위를 차지한 것 같다.
* 사회적 지위 순위도 하위 수준이었다.
* 자유도는 거의 최하위 수준이였다.
  - 자유도의 정의는 무엇일까. 정치적으로 문제가 있으면 자유롭게 시위도하고, 표현의 자유, 언론의 자유, 알권리 모두 상위라고 생각하는데 이렇게 최 하위 수준이 나온 이유는 무엇일까.행복도가 높은 유럽지역처럼 길거리에서 느껴지는 여유로움이 자유도의 큰 부분을 차지하는 것일까?


In [None]:
# 위에서 관찰된 상관관계를 확인하기 위한 산점도 그리기
#plt.figure(figsize=(8,5))
sns.pairplot(df2020)

# 8.2 연관분석

## 연관분석 이해

In [None]:
import warnings
warnings.filterwarnings('ignore', category=DeprecationWarning)


In [None]:
dataset=[['사과','치즈','생수'],
['생수','호두','치즈','고등어'],
['수박','사과','생수'],
['생수','호두','치즈','옥수수']]

In [None]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules
# mlxtend :  일상적인 데이터 사이언스 작업에 유용한 도구들로 구성된 파이썬 라이브러리

In [None]:
# 데이터셋 생성: 각 거래(transaction)마다 구입한 품목을 리스트로 저장
dataset = [['Milk', 'Cookie', 'Apple', 'Beans', 'Eggs', 'Yogurt'],
           ['Coke', 'Cookie', 'Apple', 'Beans', 'Eggs', 'Yogurt'],
           ['Milk', 'Apple', 'Kidney Beans', 'Eggs'],
           ['Milk', 'Orange', 'Corn', 'Beans', 'Yogurt'],
           ['Corn', 'Cookie', 'Cookie', 'Beans', 'Ice cream', 'Eggs']]

# TransactionEncoder 객체 생성
# 이 객체는 데이터셋을 1과 0으로 변환하는 데 사용됨
te = TransactionEncoder()

# TransactionEncoder의 fit() 메서드로 데이터셋을 학습시킨 후, transform()을 사용해 데이터를 이진화 (1: 해당 아이템이 구매됨, 0: 구매되지 않음)
te_ary = te.fit(dataset).transform(dataset)

# 이진화된 데이터를 Pandas DataFrame으로 변환
# DataFrame의 컬럼은 각각의 상품명으로 설정됨
df = pd.DataFrame(te_ary, columns=te.columns_)

# 변환된 DataFrame 출력
df


In [None]:
# apriori 알고리즘을 사용하여 빈발 항목집합(frequent itemsets) 도출
# min_support=0.5는 최소 지지도 설정으로, 50% 이상의 거래에서 발생한 항목 집합을 찾음
# use_colnames=True는 항목 이름(상품 이름)이 포함된 결과를 반환하도록 설정함
frequent_itemsets = apriori(df, min_support=0.5, use_colnames=True)

# 빈발 항목집합 출력 (지지도가 0.5 이상인 항목집합들)
frequent_itemsets

# 도출된 빈발 항목집합을 지지도를 기준으로 내림차순 정렬하여 출력
# support 열을 기준으로 정렬하며, ascending=False는 내림차순 정렬을 의미함
frequent_itemsets.sort_values('support', ascending=False)


In [None]:
# apriori 알고리즘으로 생성된 빈발 항목집합(frequent itemsets)에서 연관 규칙을 도출
# metric='lift'는 연관 규칙의 평가 기준을 lift(향상도)로 설정함
# min_threshold=0.8은 최소 향상도 임계값을 0.8로 설정하여, lift 값이 0.8 이상인 규칙만을 추출함
rules1 = association_rules(frequent_itemsets, metric='lift', min_threshold=0.8)

# 도출된 연관 규칙을 출력
rules1


In [None]:
# apriori 알고리즘으로 생성된 빈발 항목집합(frequent itemsets)에서 연관 규칙을 도출
# metric='lift'는 연관 규칙의 평가 기준을 lift(향상도)로 설정함
# min_threshold=1.2는 최소 향상도 임계값을 1.2로 설정하여, lift 값이 1.2 이상인 규칙만을 추출함
rules2 = association_rules(frequent_itemsets, metric='lift', min_threshold=1.2)

# 도출된 연관 규칙을 출력
rules2


In [None]:
# apriori 알고리즘을 사용하여 빈발 항목집합(frequent itemsets)을 도출
# min_support=0.6은 최소 지지도 설정으로, 60% 이상의 거래에서 발생한 항목 집합을 찾음
# use_colnames=True는 항목 이름(상품 이름)이 포함된 결과를 반환하도록 설정함
frequent_itemsets = apriori(df, min_support=0.6, use_colnames=True)

# 각 항목 집합(itemsets)의 항목 개수를 세기 위해 새로운 'length' 열을 추가
# 'itemsets' 열에 있는 각 항목집합에 대해, 항목의 개수를 세고 그 값을 'length' 열에 저장
frequent_itemsets['length'] = frequent_itemsets['itemsets'].apply(lambda x: len(x))

# 결과 출력: 항목집합과 그에 해당하는 지지도(support), 그리고 각 항목집합의 길이(length)가 포함된 DataFrame 출력
frequent_itemsets


In [None]:
# frequent_itemsets에서 'length' 값이 2이고, 'support' 값이 0.6 이상인 항목집합을 선택
# 조건 1: 항목집합의 길이('length')가 2인 경우
# 조건 2: 지지도('support')가 0.6 이상인 경우
# 두 조건을 모두 만족하는 항목집합을 선택하여 새로운 DataFrame frequent_itemsets1에 저장
frequent_itemsets1 = frequent_itemsets[(frequent_itemsets['length'] == 2) & (frequent_itemsets['support'] >= 0.6)]

# 선택된 조건을 만족하는 항목집합들을 출력
frequent_itemsets1




*   연관 분석에 대한 결과 해석은 어느 하나의 지표만 보고 판단하지 않음.
  - 지지도, 신뢰도, 향상도 이외에도 필요한 지표들을 종합해서 결론을 도출함
  - 특히, 지지도, 신뢰도, 향상도는 위와 같이 품목별 관계성을 직관적으로 보여주므로 품목간 관꼐 정도의 서열을 확인하는데 유용함.
  
