# 전국 신규 민간 아파트 분양가격 동향


## 다루는 내용
* 공공데이터를 활용해 데이터를 가져와서 전처리하기
* 수치형 데이터와 범주형 데이터를 바라보는 시각을 기르기
* 데이터의 형식에 따른 다양한 시각화 방법 이해하기


## 실습
* 공공데이터 다운로드 후 주피터 노트북으로 로드하기
* 판다스를 통해 데이터를 요약하고 분석하기
* 데이터 전처리
* 수치형 데이터와 범주형 데이터 다루기
* 막대그래프(bar plot), 선그래프(line plot), 산포도(scatter plot), 상관관계(lm plot), 히트맵, 상자수염그림, swarm plot, 도수분포표, 히스토그램(distplot) 실습하기


## 데이터 - 주택도시보증공사_전국 평균 분양가격(2021년 11월)
* 전국 공동주택의 연도별, 월별, 전용면적별 제곱미터당 평균분양가격 데이터를 제공
* 지역별 평균값은 단순 산술평균값이 아닌 가중평균값임

In [1]:
# 파이썬에서 쓸 수 있는 엑셀과도 유사한 판다스 라이브러리를 불러옵니다.
# pandas를 alias(별칭)pd로 부르겠다는 의미

import pandas as pd 

# 파일에 다 같이 넣고 불러온 이유는 같은 폴더에 넣은 것은 경로 지정없이 편하게 !

# csv 파일은 엑셀과 비슷한데 쉼표로 구분되어 있는 것
# 용량이 작고 데이터 분석할 때 쉽게 접할 수 있음

## 데이터 로드
### 파일 로드
공공데이터 포털에서 "주택도시보증공사_전국 평균 분양가격"파일을 다운로드 받아 불러옵니다.
다운로드 받은 파일을 주피터노트북 파일이 있는 폴더에 넣어주어 쉽게 불러오게 합니다.
이 때, 인코딩을 설정을 해주어야 한글이 깨지지 않습니다.
보통 엑셀로 저장된 한글의 인코딩은 cp949 혹은 euc-kr로 되어 있습니다.
df(dataframe)라는 변수에 최근 분양가 파일을 다운로드 받아 로드합니다.

데이터를 로드한 뒤 shape를 통해 행과 열의 갯수를 출력합니다.

In [2]:
# 파일로드시 OSError가 발생한다면, engine="python"을 추가
# 윈도우에서 파일탐색기의 경로를 복사해서 붙여넣기 했는데도 파일을 불러올 수 없다면 
# 아마도 경로에 있는 ₩ 역슬래시 표시를 못 읽어왔을 가능성이 있음.

# 인코딩 설정을 안하면 깨져서 나온다 !

df = pd.read_csv('주택도시보증공사_전국 신규 민간아파트 분양가격 동향_20211130.csv', encoding="euc-kr")
df.shape # 차원

(6290, 5)

In [4]:
# head 로 파일을 미리보기 합니다.

# csv 미리보기 할 수 있는 함수 

df.head()

# head()의 디폴트값 5

# 만약 10개를 원한다면 10이라고 써주기

df.head(10)

# shift + tap tap 눌러서 도움말 확인

Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터)
0,서울,모든면적,2015,10,5841
1,서울,전용면적 60제곱미터이하,2015,10,5652
2,서울,전용면적 60제곱미터초과 85제곱미터이하,2015,10,5882
3,서울,전용면적 85제곱미터초과 102제곱미터이하,2015,10,5721
4,서울,전용면적 102제곱미터초과,2015,10,5879
5,인천,모든면적,2015,10,3163
6,인천,전용면적 60제곱미터이하,2015,10,3488
7,인천,전용면적 60제곱미터초과 85제곱미터이하,2015,10,3119
8,인천,전용면적 85제곱미터초과 102제곱미터이하,2015,10,3545
9,인천,전용면적 102제곱미터초과,2015,10,3408


In [6]:
# tail 로도 미리보기를 합니다.

# 뒤에서부터도 미리보기 가능 !

df.tail()

# 참고로, NaN = 결측치 : 없는 데이터 -> 이런 데이터들을 어떻게 처리할지 판단하면서 전처리 !

Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터)
6285,제주,모든면적,2021,11,6860.0
6286,제주,전용면적 60제곱미터이하,2021,11,
6287,제주,전용면적 60제곱미터초과 85제곱미터이하,2021,11,6787.0
6288,제주,전용면적 85제곱미터초과 102제곱미터이하,2021,11,5924.0
6289,제주,전용면적 102제곱미터초과,2021,11,6815.0


### 데이터 요약하기

In [5]:
# info 로 요약합니다.

# 데이터 요약해서 보기

df.info()

# 데이터에 대한 정보를 준다
# Dtype = 데이터타입 : object(문자열) 타입임을 알았으니
# 계산을 해주기 위해서 int형으로 바꿔줘야 한다는 것을 알 수 있음 !!! 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6290 entries, 0 to 6289
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   지역명         6290 non-null   object
 1   규모구분        6290 non-null   object
 2   연도          6290 non-null   int64 
 3   월           6290 non-null   int64 
 4   분양가격(제곱미터)  5812 non-null   object
dtypes: int64(2), object(3)
memory usage: 245.8+ KB


### 결측치 보기

isnull 혹은 isna 를 통해 데이터가 비어있는지를 확인할 수 있습니다.

In [7]:
# 결측치는 True로 표시되는데, True == 1 이기 때문에 이 값을 다 더해주면 결측치의 수가 됩니다.
# isnull 을 통해 결측치를 봅니다.

# 결측치가 얼마나 있는지 T/F 로 나타내준다

df.isnull()

Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터)
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False
...,...,...,...,...,...
6285,False,False,False,False,False
6286,False,False,False,False,True
6287,False,False,False,False,False
6288,False,False,False,False,False


In [8]:
# isnull 을 통해 결측치의 개수를 구합니다.

df.isnull().sum() # 결측치가 몇개씩 나오는지 알 수 있다

지역명             0
규모구분            0
연도              0
월               0
분양가격(제곱미터)    478
dtype: int64

In [9]:
# isna 를 통해 결측치를 구합니다.

# isnull() 과 같은 함수

df.isna()


Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터)
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False
...,...,...,...,...,...
6285,False,False,False,False,False
6286,False,False,False,False,True
6287,False,False,False,False,False
6288,False,False,False,False,False


### 데이터 타입 변경
분양가격이 object(문자) 타입으로 되어 있습니다. 문자열 타입을 계산할 수 없기 때문에 수치 데이터로 변경해 줍니다. 결측치가 섞여 있을 때 변환이 제대로 되지 않습니다. 그래서 pd.to_numeric 을 통해 데이터의 타입을 변경합니다.

In [10]:
# pandas 안의 numpy를 불러와 nan의 타입을 확인해봅니다.

# 분양가격의 타입을 변경 -> 수치 데이터로
# 근데 결측치가 섞여 있으면 잘 변경이 안된다

# 그래서 일단 결측치의 타입을 알아본다

type(pd.np.nan) # nan 이 결축치

# float 이더라


  type(pd.np.nan) # nan 이 결축치


float

In [21]:
# 공백문자를 제거하고 데이터 타입을 변경합니다. 

# 공백문자 제거 -> 데이터 타입 변경

# df['분양가격(제곱미터)'].astype(int) # 근데 결측치가 있어 안된다 - 오류

# 따라서 새로운 colums '분양가격' 에 저장

df['분양가격'] = pd.to_numeric(df['분양가격(제곱미터)'], errors='coerce')

# numeric : 숫자형으로 바꿔주었다

# errors='coerce' : 숫자로 변경할 수 없는 데이터는 지우고 NaN으로 설정후 반환

df



Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터),분양가격
0,서울,모든면적,2015,10,5841,5841.0
1,서울,전용면적 60제곱미터이하,2015,10,5652,5652.0
2,서울,전용면적 60제곱미터초과 85제곱미터이하,2015,10,5882,5882.0
3,서울,전용면적 85제곱미터초과 102제곱미터이하,2015,10,5721,5721.0
4,서울,전용면적 102제곱미터초과,2015,10,5879,5879.0
...,...,...,...,...,...,...
6285,제주,모든면적,2021,11,6860,
6286,제주,전용면적 60제곱미터이하,2021,11,,
6287,제주,전용면적 60제곱미터초과 85제곱미터이하,2021,11,6787,
6288,제주,전용면적 85제곱미터초과 102제곱미터이하,2021,11,5924,


### 평당분양가격 구하기
분양가격을 평당기준으로 보기위해 3.3을 곱해서 "평당분양가격" 컬럼을 만들어 추가해 줍니다.

In [23]:
# 옆에 있는 수가 사실 문자열 -> 이를 분양가격이라는 숫자로 바꿔줌

df['분양가격'].mean() # 평균값
df['분양가격'].max()

# 파이썬 창은 맨 마지막만 출력해줌 - 여러개 써도 마지막 것만 출력

df['평당분양가격'] = df['분양가격']*3.3
df

# 새로운 colum이 2개나 추가

Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터),분양가격,평당분양가격
0,서울,모든면적,2015,10,5841,5841.0,19275.3
1,서울,전용면적 60제곱미터이하,2015,10,5652,5652.0,18651.6
2,서울,전용면적 60제곱미터초과 85제곱미터이하,2015,10,5882,5882.0,19410.6
3,서울,전용면적 85제곱미터초과 102제곱미터이하,2015,10,5721,5721.0,18879.3
4,서울,전용면적 102제곱미터초과,2015,10,5879,5879.0,19400.7
...,...,...,...,...,...,...,...
6285,제주,모든면적,2021,11,6860,,
6286,제주,전용면적 60제곱미터이하,2021,11,,,
6287,제주,전용면적 60제곱미터초과 85제곱미터이하,2021,11,6787,,
6288,제주,전용면적 85제곱미터초과 102제곱미터이하,2021,11,5924,,


### 분양가격 요약하기

In [24]:
# info를 통해 분양가격을 봅니다.

df.info()
# 추가된 Colums이 float으로 만들어졌음을 확인할 수 있음

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6290 entries, 0 to 6289
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   지역명         6290 non-null   object 
 1   규모구분        6290 non-null   object 
 2   연도          6290 non-null   int64  
 3   월           6290 non-null   int64  
 4   분양가격(제곱미터)  5812 non-null   object 
 5   분양가격        5548 non-null   float64
 6   평당분양가격      5548 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 344.1+ KB


In [12]:
# 수치데이터로 변경된 분양가격 컬럼을 요약합니다.

df['평당분양가격'].descibe() 

# info()와 같음
# 수치 데이터를 요약한 것을 알려줌 
# std : 표준 편차
# 50% : 중앙값

# max를 보고 이상치값이 있다는 것을 알 수 있음 -> 서울의 집값이 아닐까.. 추측


### 규모구분을 전용면적 컬럼으로 변경
규모구분 컬럼은 전용면적에 대한 내용이 있습니다. 전용면적이라는 문구가 공통적으로 들어가고 규모구분보다는 전용면적이 좀 더 직관적이기 때문에 전용면적이라는 컬럼을 새로 만들어주고 기존 규모구분의 값에서 전용면적, 초과, 이하 등의 문구를 빼고 간결하게 만들어 봅니다.

이 때 str 의 replace 기능을 사용해서 예를들면 "전용면적 60㎡초과 85㎡이하"라면 "60㎡~85㎡" 로 변경해 줍니다.

*참고: 
https://pandas.pydata.org/pandas-docs/stable/reference/series.html#string-handling

In [25]:
df

# 다시 데이터 확인

Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터),분양가격,평당분양가격
0,서울,모든면적,2015,10,5841,5841.0,19275.3
1,서울,전용면적 60제곱미터이하,2015,10,5652,5652.0,18651.6
2,서울,전용면적 60제곱미터초과 85제곱미터이하,2015,10,5882,5882.0,19410.6
3,서울,전용면적 85제곱미터초과 102제곱미터이하,2015,10,5721,5721.0,18879.3
4,서울,전용면적 102제곱미터초과,2015,10,5879,5879.0,19400.7
...,...,...,...,...,...,...,...
6285,제주,모든면적,2021,11,6860,,
6286,제주,전용면적 60제곱미터이하,2021,11,,,
6287,제주,전용면적 60제곱미터초과 85제곱미터이하,2021,11,6787,,
6288,제주,전용면적 85제곱미터초과 102제곱미터이하,2021,11,5924,,


In [32]:
# 규모구분의 unique 값 보기

df['규모구분'].unique()

# 규모구분에서 고르지 않은 것이 맘에 들지 않음 
# 일단 어떤 값이 있는지 확인

# 규모구분 오타 안 나도록 유의!

array(['모든면적', '전용면적 60제곱미터이하', '전용면적 60제곱미터초과 85제곱미터이하',
       '전용면적 85제곱미터초과 102제곱미터이하', '전용면적 102제곱미터초과'], dtype=object)

In [40]:
# 규모구분을 전용면적으로 변경하기

# df['규모구분'].replace('전용면적','') 적용 X
# 워딩이 전용면적으로 완전히 일치해야 바뀜 -> 여기는 모든면적이라 안됨

df['전용면적']=df['규모구분'].str.replace('전용면적','') 
# replace() 이므로 뭐로 대체하는지 꼭 써줄 것 ! 
# 전용면적으로 규모구분이라는 워딩을 찾아서 바꿔주어라

# str을 넣으면 전용면적을 찾아서 공백으로 바꿔주어라 라는 의미

df['전용면적']=df['전용면적'].str.replace('초과','~') 
df['전용면적']=df['전용면적'].str.replace('이하','') # 공백문자로 바꿔주기
df['전용면적']=df['전용면적'].str.replace(' ','').str.strip()
df['전용면적']



0                 모든면적
1               60제곱미터
2        60제곱미터~85제곱미터
3       85제곱미터~102제곱미터
4             102제곱미터~
             ...      
6285              모든면적
6286            60제곱미터
6287     60제곱미터~85제곱미터
6288    85제곱미터~102제곱미터
6289          102제곱미터~
Name: 전용면적, Length: 6290, dtype: object

In [41]:
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격(제곱미터),분양가격,평당분양가격,전용면적
0,서울,모든면적,2015,10,5841,5841.0,19275.3,모든면적
1,서울,전용면적 60제곱미터이하,2015,10,5652,5652.0,18651.6,60제곱미터
2,서울,전용면적 60제곱미터초과 85제곱미터이하,2015,10,5882,5882.0,19410.6,60제곱미터~85제곱미터
3,서울,전용면적 85제곱미터초과 102제곱미터이하,2015,10,5721,5721.0,18879.3,85제곱미터~102제곱미터
4,서울,전용면적 102제곱미터초과,2015,10,5879,5879.0,19400.7,102제곱미터~
...,...,...,...,...,...,...,...,...
6285,제주,모든면적,2021,11,6860,,,모든면적
6286,제주,전용면적 60제곱미터이하,2021,11,,,,60제곱미터
6287,제주,전용면적 60제곱미터초과 85제곱미터이하,2021,11,6787,,,60제곱미터~85제곱미터
6288,제주,전용면적 85제곱미터초과 102제곱미터이하,2021,11,5924,,,85제곱미터~102제곱미터


### 필요없는 컬럼 제거하기
drop을 통해 전처리 해준 컬럼을 제거합니다. pandas의 데이터프레임과 관련된 메소드에는 axis 옵션이 필요할 때가 있는데 행과 열중 어떤 기준으로 처리를 할 것인지를 의미합니다. 보통 기본적으로 0으로 되어 있고 행을 기준으로 처리함을 의미합니다. 메모리 사용량이 줄어들었는지 확인합니다.

In [42]:
# info로 정보 보기

# 이제 필요없는 열이 생겼으니 제거한다

# axis : 행을 삭제할 건지, 열을 삭제할 건지 기준

df.info()

# 데이터도 늘어났음을 볼 수 있음

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6290 entries, 0 to 6289
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   지역명         6290 non-null   object 
 1   규모구분        6290 non-null   object 
 2   연도          6290 non-null   int64  
 3   월           6290 non-null   int64  
 4   분양가격(제곱미터)  5812 non-null   object 
 5   분양가격        5548 non-null   float64
 6   평당분양가격      5548 non-null   float64
 7   전용면적        6290 non-null   object 
dtypes: float64(2), int64(2), object(4)
memory usage: 393.2+ KB


In [46]:
# drop 사용시 axis에 유의 합니다.
# axis 0:행, 1:열

# 드랍할 땐 행으로 삭제, 열로 삭제 정하기 

df=df.drop(['규모구분', '분양가격(제곱미터)'], axis=1) 

# 열로 처리할 것임을 표시해줘야 다 삭제되지 않음

KeyError: "['규모구분' '분양가격(제곱미터)'] not found in axis"

In [48]:
# 제거가 잘 되었는지 확인 합니다.

df.info()


df.head(1)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6290 entries, 0 to 6289
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   지역명     6290 non-null   object 
 1   연도      6290 non-null   int64  
 2   월       6290 non-null   int64  
 3   분양가격    5548 non-null   float64
 4   평당분양가격  5548 non-null   float64
 5   전용면적    6290 non-null   object 
dtypes: float64(2), int64(2), object(2)
memory usage: 295.0+ KB


Unnamed: 0,지역명,연도,월,분양가격,평당분양가격,전용면적
0,서울,2015,10,5841.0,19275.3,모든면적


In [18]:
# 컬럼 제거를 통해 메모리 사용량이 줄어들었는지 확인합니다.

# 데이터가 확확 줄 때 유용하게 사용가능 ! 

## groupby 로 데이터 집계하기
groupby 를 통해 데이터를 그룹화해서 연산을 해봅니다.

In [49]:
# 지역명으로 분양가격의 평균을 구하고 막대그래프(bar)로 시각화 합니다.
# df.groupby(["인덱스로 사용할 컬럼명"])["계산할 컬럼 값"].연산()

df.groupby(['지역명'])['평당분양가격'].mean() 
# 지역명으로 한번 묶어주고 평당분양가격을 구하겠다

# groupby -> series 형태로 나타남 (연산이 좀더 빠름)

지역명
강원     8562.691837
경기    13775.231831
경남     9754.237283
경북     8946.151351
광주    11052.022222
대구    12969.009538
대전    10516.325000
부산    12510.950704
서울    25185.422380
세종    10261.405000
울산    11156.424783
인천    12893.852137
전남     8155.968966
전북     7984.194872
제주    12698.411498
충남     8534.084821
충북     7882.213598
Name: 평당분양가격, dtype: float64

In [50]:
# 전용면적으로 분양가격의 평균을 구합니다.

df.groupby(['전용면적'])['평당분양가격'].mean()
# series 값으로 평균값 구한다 

전용면적
102제곱미터~          12228.519907
60제곱미터            11011.521770
60제곱미터~85제곱미터     10969.213877
85제곱미터~102제곱미터    11884.432017
모든면적              10990.281795
Name: 평당분양가격, dtype: float64

In [51]:
# 지역명, 전용면적으로 평당분양가격의 평균을 구합니다.

df.groupby(['지역명','전용면적'])['평당분양가격'].mean()
# 지역명으로 묶고 그 다음에 전용면적으로 묶은 것 확인 가능

지역명  전용면적          
강원   102제곱미터~          9641.763380
     60제곱미터            8273.239437
     60제곱미터~85제곱미터     8011.191549
     85제곱미터~102제곱미터    8903.400000
     모든면적              8041.449296
                          ...     
충북   102제곱미터~          8454.925352
     60제곱미터            7419.515493
     60제곱미터~85제곱미터     7547.657746
     85제곱미터~102제곱미터    8509.456522
     모든면적              7497.181690
Name: 평당분양가격, Length: 85, dtype: float64

In [52]:
# 연도, 지역명으로 평당분양가격의 평균을 구합니다.

df.groupby(['지역명','전용면적'])['평당분양가격'].mean().unstack() # 표형태로 보고 싶을 때

df.groupby(['지역명','전용면적'])['평당분양가격'].mean().unstack().round() # 소수점 불편하면 반올림해서 정리(첫번째까지)

전용면적,102제곱미터~,60제곱미터,60제곱미터~85제곱미터,85제곱미터~102제곱미터,모든면적
지역명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
강원,9642.0,8273.0,8011.0,8903.0,8041.0
경기,15200.0,13480.0,12994.0,14171.0,13031.0
경남,10376.0,9007.0,9063.0,11265.0,9100.0
경북,9695.0,8516.0,8550.0,9611.0,8568.0
광주,12348.0,10320.0,10706.0,11587.0,10787.0
대구,13977.0,12818.0,12770.0,12452.0,12762.0
대전,14875.0,9819.0,10162.0,9078.0,10214.0
부산,13340.0,11966.0,12387.0,12422.0,12439.0
서울,25180.0,24677.0,23926.0,28091.0,24053.0
세종,10460.0,10017.0,10230.0,10252.0,10274.0


## pivot table 로 데이터 집계하기
* groupby 로 했던 작업을 pivot_table로 똑같이 해봅니다.

-조금 더 직관적이다 그룹바이보다.
근데 그룹바이는 결과값이 시리즈 로 불러오기때문에 더 빠르다 .

In [23]:
# 지역명을 index 로 평당분양가격 을 values 로 구합니다.



In [24]:
# 전용면적을 index 로 평당분양가격 을 values 로 구합니다.



In [25]:
# 지역명, 전용면적으로 평당분양가격의 평균을 구합니다.



In [26]:
# 연도, 지역명으로 평당분양가격의 평균을 구합니다.


## 데이터 시각화 하기
### 데이터시각화를 위한 폰트설정
한글폰트 사용을 위해 matplotlib의 pyplot을 plt라는 별칭으로 불러옵니다.

### Pandas로 시각화 하기 - 선그래프와 막대그래프
pandas의 plot을 활용하면 다양한 그래프를 그릴 수 있습니다.
seaborn을 사용했을 때보다 pandas를 사용해서 시각화를 할 때의 장점은 미리 계산을 하고 그리기 때문에 속도가 좀 더 빠릅니다.

In [27]:
# 지역명으로 분양가격의 평균을 구하고 선그래프로 시각화 합니다.



In [28]:
# 지역명으로 분양가격의 평균을 구하고 막대그래프(bar)로 시각화 합니다.



전용면적별 분양가격의 평균값을 구하고 그래프로 그려봅니다.

In [29]:
# 전용면적으로 분양가격의 평균을 구하고 막대그래프(bar)로 시각화 합니다.



In [30]:
# 연도별 분양가격의 평균을 구하고 막대그래프(bar)로 시각화 합니다.



### box-and-whisker plot | diagram

* [상자 수염 그림 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%EC%83%81%EC%9E%90_%EC%88%98%EC%97%BC_%EA%B7%B8%EB%A6%BC)
* 가공하지 않은 자료 그대로를 이용하여 그린 것이 아니라, 자료로부터 얻어낸 통계량인 5가지 요약 수치로 그린다.
* 5가지 요약 수치란 기술통계학에서 자료의 정보를 알려주는 아래의 다섯 가지 수치를 의미한다.


1. 최솟값
1. 제 1사분위수
1. 제 2사분위수( ), 즉 중앙값
1. 제 3 사분위 수( )
1. 최댓값

In [31]:
# index를 월, columns 를 연도로 구하고 평당분양가격 으로 pivot_table 을 구하고 상자수염그림을 그립니다.




In [32]:
# columns 에 "연도", "전용면적"을 추가해서 pivot_table 을 만들고 시각화 합니다.



In [33]:
# index를 월, columns 를 지역명으로 구하고 평당분양가격 으로 pivot_table 을 구하고 선그래프를 그립니다.




### Seaborn 으로 시각화 해보기

In [34]:
# 라이브러리 로드하기



In [35]:
# barplot으로 지역별 평당분양가격을 그려봅니다.



In [36]:
# barplot으로 연도별 평당분양가격을 그려봅니다.



In [37]:
# catplot 으로 서브플롯 그리기



In [38]:
# lineplot으로 연도별 평당분양가격을 그려봅니다.
# hue 옵션을 통해 지역별로 다르게 표시해 봅니다.



In [39]:
# relplot 으로 서브플롯 그리기



### boxplot과 violinplot

In [40]:
# 연도별 평당분양가격을 boxplot으로 그려봅니다.



In [41]:
# hue옵션을 주어 전용면적별로 다르게 표시해 봅니다.



In [42]:
# 연도별 평당분양가격을 violinplot으로 그려봅니다.



### lmplot과 swarmplot 

In [43]:
# 레그플롯을 먼저 그려봅니다. 



In [44]:
# 연도별 평당분양가격을 lmplot으로 그려봅니다. 
# hue 옵션으로 전용면적을 표현해 봅니다.



In [45]:
# 연도별 평당분양가격을 swarmplot 으로 그려봅니다. 
# swarmplot은 범주형(카테고리) 데이터의 산점도를 표현하기에 적합합니다.



### 이상치 보기

In [46]:
# 평당분양가격의 최대값을 구해서 max_price 라는 변수에 담습니다.


In [47]:
# 서울의 평당분양가격이 특히 높은 데이터가 있습니다. 해당 데이터를 가져옵니다.



### 수치데이터 히스토그램 그리기

distplot은 결측치가 있으면 그래프를 그릴 때 오류가 납니다. 
따라서 결측치가 아닌 데이터만 따로 모아서 평당분양가격을 시각화하기 위한 데이터를 만듭니다.
데이터프레임의 .loc를 활용하여 결측치가 없는 데이터에서 평당분양가격만 가져옵니다.

In [48]:
# 결측치가 없는 데이터에서 평당분양가격만 가져옵니다. 그리고 price라는 변수에 담습니다.
# .loc[행]
# .loc[행, 열]



In [49]:
# distplot으로 평당분양가격을 표현해 봅니다.



In [50]:
# pairplot - 각 컬럼별 데이터에 대한 상관관계나 분류적 특성을 알아봅니다.

