# 제2장 데이터 요약과 시각화 (4)
### __데이터 시각화__


---
### 사전 작업





* 실습에 사용할 데이터를 GitHub 저장소로부터 가져오기 위하여 다음과 같은 명령을 코랩 코드 셀에서 실행

In [None]:
!git clone https://github.com/BizStat/BizDataAnalysis.git

* 한글 폰트 설치와 matplotlib 환경 설정

In [None]:
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -f -v
!rm ~/.cache/matplotlib -rf

* 한글 그래프 환경 적용을 위해 세션 다시 시작
  - 위의 메뉴에서 [런타임] -> [세션 다시 시작] 을 선택하거나 [Control] + M 을 누르면 됨

* matplotlib에 사용할 한글 폰트 설정
  - 앞의 한글 폰트 목록으로부터 자신이 사용하고자 하는 폰트이름을 복사하여 지정

In [None]:
from matplotlib import rc
rc('font', family='NanumMyeongjo')
rc('axes', unicode_minus=False)

* 자주 사용하는 라이브러리 가져오기

In [None]:
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns

___

(1) 상자도표 그리기

* 서울시 대기오염 데이터에서 각 측정소의 미세먼지 분포를 상자도표를 이용해 살펴보기

In [None]:
seoul_air = pd.read_csv('/content/BizDataAnalysis/DATA/AIR_HOUR_2022.csv')

In [None]:
seoul_air.columns

In [None]:
seoul_air = seoul_air[seoul_air['측정기 상태'] == 0]

In [None]:
seoul_air[seoul_air['측정항목'] == 8].boxplot(column='평균값')

In [None]:
seoul_air[seoul_air['측정항목'] == 8].boxplot(column='평균값',vert=False)

In [None]:
seoul_air[seoul_air['측정항목'] == 8][['평균값']].boxplot()

In [None]:
seoul_air[seoul_air['측정항목'] == 8].boxplot(column='평균값',by='측정소 코드')

In [None]:
seoul_air[seoul_air['측정항목'] == 8].groupby('측정소 코드')[['평균값']].boxplot()

(2) 히스토그램 그리기

* 서울시 대기오염 데이터에서 미세먼지 측정값의 분포를 히스토그램 그리기

In [None]:
seoul_air[seoul_air['측정항목'] == 8].hist(column='평균값')

In [None]:
seoul_air[seoul_air['측정항목'] == 8].hist(column='평균값',by='측정소 코드')
plt.show()

In [None]:
plt.hist(seoul_air[seoul_air['측정항목'] == 8]['평균값'])

* 히스토그램 작성에 사용된 값 가져오기

In [None]:
hist, bins, _ = plt.hist(seoul_air[seoul_air['측정항목'] == 8]['평균값'])

In [None]:
for i in range(len(hist)):
    print(f"구간 {i+1}: {bins[i]} <= x < {bins[i+1]} - 빈도수: {hist[i]}")

(3) 산점도

* Advertiser.xlsx 파일 가져와 ad_df라는 이름의 데이터프레임 만들기

In [None]:
ad_df = pd.read_excel('/content/BizDataAnalysis/DATA/Advertiser.xlsx')

In [None]:
ad_df.plot('TV','Radio',kind='scatter')

In [None]:
plt.scatter(ad_df['TV'],ad_df['Radio'])

In [None]:
sns.scatterplot(x=ad_df['TV'],y=ad_df['Radio'])

In [None]:
sns.scatterplot(data=ad_df,x='TV',y='Radio')

* seaborn 라이브러리의 pairplot을 이용해 여러 변수들의 산점도 한 번에 표현

In [None]:
sns.pairplot(data = ad_df,vars = ["TV", "Radio", "Magazine",'Newspaper'])

In [None]:
sns.pairplot(data = ad_df,vars = ["TV", "Radio", "Magazine",'Newspaper'],corner=True)

(4) 막대 그래프와 파이 그래프

* 데이터 전처리

In [None]:
seoul_air = pd.read_csv('/content/BizDataAnalysis/DATA/AIR_HOUR_2022.csv')
측정소정보 = pd.read_csv('/content/BizDataAnalysis/DATA/서울시 대기오염 측정소 정보.csv',encoding='EUC-KR')
측정항목정보 = pd.read_csv('/content/BizDataAnalysis/DATA/서울시 대기오염 측정항목 정보.csv',encoding='EUC-KR')
seoul_air = pd.merge(seoul_air,측정소정보,how='left',on='측정소 코드')
seoul_air = pd.merge(seoul_air,측정항목정보,how='left',left_on='측정항목', right_on='측정항목 코드')
sa1 = seoul_air[(seoul_air['측정소 이름'] == '서대문구') & (seoul_air['측정기 상태'] == 0)]
sa1 = sa1[['측정일시','측정항목 명(줄임 명칭)','평균값','국가 기준초과 구분']]
sa1.head()

  * 측정항목별 국가 기준초과 횟수를 파이 그래프로 표현

In [None]:
tmp1 = sa1.groupby('국가 기준초과 구분')[['평균값']].count()
plt.pie(tmp1['평균값'], labels=tmp1.index, autopct='%.1f%%')

In [None]:
tmp2 = sa1.groupby('측정항목 명(줄임 명칭)')[['평균값']].mean()
plt.bar(tmp2.index,tmp2['평균값'])

In [None]:
plt.bar(tmp2.index,tmp2['평균값'])
plt.title("막대 그래프 그리기")
plt.xlabel('측정항목')
plt.ylabel('빈도')
plt.axhline(sa1['평균값'].mean(),color='grey',linestyle='--')
plt.show()