# Nbextension 설치

# 1. 전국 신규 민간 아파트 분양가격 동향

In [None]:
import pandas as pd

In [None]:
df_last = pd.read_csv('주택도시보증공사_전국 평균 분양가격(2019년 12월).csv', encoding = "CP949")
df_last.shape


#UnicodeDecodeError -> 한글깨짐 -->  encoding = "euc-kr" OR "cp949"

In [None]:
df_last.head()

In [None]:
df_last.tail()

## 2015년부터 최근까지의 데이터 로드
2013년 9월부터 2015년 8월까지 파일을 불러옴

In [None]:
df_first = pd.read_csv('전국 평균 분양가격(2013년 9월부터 2015년 8월까지).csv', encoding='cp949')
df_first.shape

In [None]:
df_first.head()

In [None]:
df_first.tail()

## 데이터 요약하기

In [None]:
df_last.info()

## 결측치 제거하기  --> isna(), isnull() 
결측치는 True로 표시되는데, True == 1이기 때문에 이 값을 더 더해주면 결측치의 수가 된다.

In [None]:
df_last.isnull()

In [None]:
df_last.isnull().sum()

In [None]:
df_last.isna()

In [None]:
df_last.isna().sum()

## 데이터 타입 변경
문자열 타입은 계산할 수 없기 때문에 수치 데이터로 변경해야 한다. \
결측치가 섞여 있을 때 변환이 제대로 되지 않는다. 그래서 pd.to_numeric 을 통해 데이터 타입 변경!

In [None]:
df_last['분양가격(㎡)']  #숫자 데이터인데 object로 되어있음 -> 연산불가

In [None]:
df_last['분양가격'] = pd.to_numeric(df_last['분양가격(㎡)'] , errors = 'coerce')
df_last['분양가격'].head(1)

## 평당분양가격 구하기
분양가격을 평당기준으로 보기 위해 3.3을 곱해서 '평당분양가격' 칼럼을 추가

In [None]:
df_last['평당분양가격'] = df_last['분양가격'] * 3.3
df_last

## 분양가격 요약하기

In [None]:
df_last.info()

In [None]:
# 변경 전 컬럼인 분양가격(㎡) 칼럼 요약 --> object 타입
# count가 다른 이유는 공백문자도 포함시켜서
# top -> 가장 빈번하게 등장하고 있는 문자
# freq -> 가장 빈번하게 등장하고 있는 문자의 횟수 ( top 횟수 )

df_last['분양가격(㎡)'].describe()

In [None]:
# 수치데이터로 변경된 분양가격 칼럼 요약 --> float타입

df_last['분양가격'].describe()

## 규모구분을 전용면적 컬럼으로 변경
str의 replace 기능을 사용

In [None]:
df_last['규모구분'].unique()

In [None]:
df_last.info()

In [None]:
df_last['전용면적'] = df_last['규모구분'].str.replace('전용면적', '')
df_last['전용면적'] = df_last['전용면적'].str.replace('초과','~')
df_last['전용면적'] = df_last['전용면적'].str.replace('이하','')
df_last['전용면적'] = df_last['전용면적'].str.replace(' ','').str.strip()  #앞 뒤 공백도 제거
df_last['전용면적']

In [None]:
# drop 사용시 axis에 유의하기!
# axis 0:행, 1:열

df_last = df_last.drop(['규모구분','분양가격(㎡)'], axis=1)

In [None]:
# 칼럼 제거로 메모리 용량이 줄어 들었음
df_last.info()

## groupby 데이터 집계하기
df.groupby(['인덱스로 사용할 칼럼명'])['계산할 칼럼명'].연산()

In [None]:
# 지역명으로 분양가격 평균 구하고 막대그래프로 시각화

df_last.groupby(['지역명'])['분양가격'].mean().plot.bar();

In [None]:
df_last.groupby(['지역명','전용면적'])['평당분양가격'].mean()

In [None]:
# unstack()  --> dataframe형태로 보여줌
df_last.groupby(['지역명','전용면적'])['평당분양가격'].mean().unstack().round()

In [None]:
# .T --> 행 열 치환
df_last.groupby(['지역명','전용면적'])['평당분양가격'].mean().unstack().round().T

## groupby와 pivot table 차이점
groupby은 Series 형태로 출력, 연산의결과가 빠르다! \
pivot table은 DataFrame형태로 출력, 명시적으로 그룹화하는 값드을 지정

In [None]:
pd.pivot_table(df_last, index=['지역명'], values=['평당분양가격'], aggfunc = 'mean')

In [None]:
# df_last.groupby(['전용면적'])['평당분양가격'].mean()
# aggfunc의 defalut  --> mean()
pd.pivot_table(df_last, index="전용면적", values='평당분양가격')

In [None]:
# 지역명, 전용면적으로 평당분양가격의 평균 구하기

df_last.groupby(['전용면적','지역명'])['평당분양가격'].mean().unstack().round()

In [None]:
df_last.pivot_table(index = ['전용면적', '지역명'], values = '평당분양가격')

In [None]:
# groupby와 결과창이 다르기 때문에
df_last.pivot_table(index = '전용면적', columns = '지역명', values = '평당분양가격').round()

### pivot과 pivot_ table의 차이점
aggfunc의 여부

# 최근 데이터 시각화하기

#### 데이터 시각화를 위한 폰트설정

In [None]:
df_last

- pandas로 시각화하기

In [None]:
# 지역명으로 분양가격 평균 구하고 선그래프로 시각화

df_last.groupby(['지역명'])['분양가격'].mean().plot();

In [None]:
# missing from current font --> 오류발생

import matplotlib.pyplot as plt

plt.rc('font', family = 'Malgun Gothic')

In [None]:
g = df_last.groupby(['지역명'])['분양가격'].mean().sort_values(ascending = False)
g.plot();

In [None]:
g.plot.bar(rot=0, figsize = (10,3), color = 'g');

In [None]:
df_last.groupby(['전용면적'])['평당분양가격'].mean().plot.bar(rot=30)

# box plot

- 가공하지 않은 자료를 그대로 이용하는 것이 아니라, 자료로부터 어덩낸 통계량인 5가지 요약 수치로 그림
- 5가지 요약 수치란? \
: 기술통계학에서 자료의 정보를 알려주는 5가지 수치를 의미

1. 최솟값
2. 제 1사분위수
3. 제 2사분위수 (=중앙값)
4. 제 3사분위수
5. 최댓값

+ 사분위수 범위 (IQR)  = Q3-Q1

In [None]:
df_last.pivot_table(index = '연도', values = '평당분양가격').plot.box();

In [None]:
# x축에 연도 표시

df_last.pivot_table(index = '월' , columns = '연도', values = '평당분양가격').plot.box();

In [None]:
p = df_last.pivot_table(index = '월' , columns = ['연도', '전용면적'], values = '평당분양가격')
p.plot.box(rot =30 , figsize=(15,3));

In [None]:
p = df_last.pivot_table(index = '연도' , columns = ['월'], values = '평당분양가격')
p.plot(rot =30 , figsize=(15,3));

In [None]:
p = df_last.pivot_table(index = '연도' , columns = ['지역명'], values = '평당분양가격')
p.plot(rot =30 , figsize=(15,3));

## Seaborn 시각화

In [None]:
import seaborn as sns

In [None]:
# barplot으로 지역별 평당분양가격
# 검정색 바 -> ci  신뢰구간
plt.figure(figsize=(10,3))
sns.barplot(data= df_last, x='지역명', y ='평당분양가격', ci="sd");