## 공공 데이터 활용, 데이터 전처리 실습 문제
https://www.data.go.kr/ 에서 제공하는 공공데이터를 활용 

## 1. 데이터프레임 로드

In [1]:
# pnadas 라이브러리 임폴트
import pandas as pd

In [2]:
# csv 파일 데이터 프레임 만들기
file_path = "datas/house_price.csv"
df = pd.read_csv(file_path)

In [3]:
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,60㎡이하,2015,10,5652
2,서울,60㎡초과 85㎡이하,2015,10,5882
3,서울,85㎡초과 102㎡이하,2015,10,5721
4,서울,102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,60㎡이하,2020,2,4039
4502,제주,60㎡초과 85㎡이하,2020,2,3962
4503,제주,85㎡초과 102㎡이하,2020,2,0


## 2. column 재정의 (rename)

- 전체 column의 이름 변경 : df.columns 사용 
- 한 개의 column 이름 변경 : df.rename(columns={'원 컬럼명':'수정할 컬럼명'})

분양가격 column의 이름을 재정의

In [4]:
df = df.rename(columns={'분양가격(㎡)': '분양가격'})
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,60㎡이하,2015,10,5652
2,서울,60㎡초과 85㎡이하,2015,10,5882
3,서울,85㎡초과 102㎡이하,2015,10,5721
4,서울,102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,60㎡이하,2020,2,4039
4502,제주,60㎡초과 85㎡이하,2020,2,3962
4503,제주,85㎡초과 102㎡이하,2020,2,0


## 3. 데이터 살펴보기


### 3-1. 결측치 및  Data Type 확인하기

In [5]:
## 데이터 프레인 정보 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4505 entries, 0 to 4504
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지역명     4505 non-null   object
 1   규모구분    4505 non-null   object
 2   연도      4505 non-null   int64 
 3   월       4505 non-null   int64 
 4   분양가격    4505 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 176.1+ KB


### 3-2. 기술 통계값 확인

In [6]:
## 기술 통계값 확인
df.describe()

Unnamed: 0,연도,월,분양가격
count,4505.0,4505.0,4505.0
mean,2017.45283,6.566038,2974.267925
std,1.311432,3.595519,1539.44799
min,2015.0,1.0,0.0
25%,2016.0,3.0,2337.0
50%,2017.0,7.0,2768.0
75%,2019.0,10.0,3510.0
max,2020.0,12.0,13835.0


## 4. 분양가격 column을 int 타입으로 변환 (실전 전처리)

분양가격 컬럼을 object -> int 타입으로 변경하려고 합니다.  
아래 셀을 실행하면 error가 납니다. error가 나지 않도록 전처리를 해봅시다.

In [7]:
df['분양가격'].astype(int)

0       5841
1       5652
2       5882
3       5721
4       5879
        ... 
4500    3955
4501    4039
4502    3962
4503       0
4504    3601
Name: 분양가격, Length: 4505, dtype: int64

### strip()을 활용하여 공백이 있는 데이터 공백없애기

[tip] column의 문자열에 strip을 실행하고자 할 때는 str.strip()를 실행해줘야 함.

[예시] df['분양가격'].str.strip()

### 4-1 '분양가격' 컬럼에 '&nbsp;&nbsp;  ' 공백이 있는 데이터들이 있는지 확인해 보기

In [8]:
df[df['분양가격'].astype(str).str.strip() == '']

Unnamed: 0,지역명,규모구분,연도,월,분양가격


### 4-2 '분양가격' column에 공백 제거하고 확인하기

In [9]:
# 공백제거 하기
df['분양가격'] = df['분양가격'].astype(str).str.strip()

In [10]:
# 공백제거된 컬럼 확인하기
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,60㎡이하,2015,10,5652
2,서울,60㎡초과 85㎡이하,2015,10,5882
3,서울,85㎡초과 102㎡이하,2015,10,5721
4,서울,102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,60㎡이하,2020,2,4039
4502,제주,60㎡초과 85㎡이하,2020,2,3962
4503,제주,85㎡초과 102㎡이하,2020,2,0


### 4-3 '분양가격' 컬럼에 공백이 있는경우, 0으로 대입하고, int형으로 변경해보기

[tip] df.loc


In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4505 entries, 0 to 4504
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지역명     4505 non-null   object
 1   규모구분    4505 non-null   object
 2   연도      4505 non-null   int64 
 3   월       4505 non-null   int64 
 4   분양가격    4505 non-null   object
dtypes: int64(2), object(3)
memory usage: 176.1+ KB


In [12]:
# df['분양가격'] = df['분양가격'].astype(int)
# 2. 숫자로 변환 (숫자로 변환 불가능한 값은 NaN으로 처리)
df['분양가격'] = pd.to_numeric(df['분양가격'], errors='coerce')

# 3. NaN 값이 있는 행 제거 (또는 원하는 값으로 채워도 됨)
df['분양가격'] = df['분양가격'].fillna(0)

# 4. 이제 정수형으로 변환 가능!
df['분양가격'] = df['분양가격'].astype(int)


In [13]:
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,60㎡이하,2015,10,5652
2,서울,60㎡초과 85㎡이하,2015,10,5882
3,서울,85㎡초과 102㎡이하,2015,10,5721
4,서울,102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,60㎡이하,2020,2,4039
4502,제주,60㎡초과 85㎡이하,2020,2,3962
4503,제주,85㎡초과 102㎡이하,2020,2,0


In [14]:
# 분양가격 컬럼에 공백인 곳에 0으로 채우기
df['분양가격'] = df['분양가격'].fillna(0)
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,60㎡이하,2015,10,5652
2,서울,60㎡초과 85㎡이하,2015,10,5882
3,서울,85㎡초과 102㎡이하,2015,10,5721
4,서울,102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,60㎡이하,2020,2,4039
4502,제주,60㎡초과 85㎡이하,2020,2,3962
4503,제주,85㎡초과 102㎡이하,2020,2,0


In [15]:
# 분양가격을 int형으로 변경해보기
df['분양가격'] = df['분양가격'].astype(int)

이번에는 NaN 값이 말썽이네요...ㅠㅠ

### 4-4 NaN 값은 0으로 채우고, 다시 int로 형변환하기

In [16]:
# NaN 값 0으로 채우기
df['분양가격'] = df['분양가격'].fillna(0)
df


Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,60㎡이하,2015,10,5652
2,서울,60㎡초과 85㎡이하,2015,10,5882
3,서울,85㎡초과 102㎡이하,2015,10,5721
4,서울,102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,60㎡이하,2020,2,4039
4502,제주,60㎡초과 85㎡이하,2020,2,3962
4503,제주,85㎡초과 102㎡이하,2020,2,0


In [17]:
# int로 다시 형변환 해보기
df['분양가격'] = df['분양가격'].astype(int)

이번엔 ','가 들어간 데이터도 있습니다 ㅠㅠ

### 4-5 위에 나타난 에러에 표시된 데이터 행 확인하고, 제거하기

In [18]:
# 숫자형으로 변환할 수 없는 값만 골라 보기
mask_invalid = pd.to_numeric(df['분양가격'], errors='coerce').isna()

# 에러 유발 데이터 확인
df[mask_invalid]

Unnamed: 0,지역명,규모구분,연도,월,분양가격


2125 행에 ,가 들어간 것이 보이시죠?

#### 콤마를 제거 하기

In [19]:
df['분양가격'] = df['분양가격'].astype(str).str.replace(',', '', regex=False)

#### 인덱스 2125 행 데이터 확인하기

In [20]:
df.loc[2125]

지역명       서울
규모구분      전체
연도      2017
월         11
분양가격       0
Name: 2125, dtype: object

#### 다시 한번 분양가격 컬럼을 int형으로 형변환하기

In [21]:
# int로 다시 형변환 해보기
df['분양가격'] = df['분양가격'].astype(int)

다시 NaN 값이 확인됩니다. 그렇다면 fillna로 다시 처리를 해줘야 합니다.

#### NaN은 0으로 채우기

In [22]:
## fillna로 NaN 값 0으로 채우기


#### 다시 한번 분양가격 컬럼을 int형으로 형변환하기

In [23]:
# 분양가격 int로 바꾸기
df['분양가격'] = df['분양가격'].fillna(0)
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,60㎡이하,2015,10,5652
2,서울,60㎡초과 85㎡이하,2015,10,5882
3,서울,85㎡초과 102㎡이하,2015,10,5721
4,서울,102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,60㎡이하,2020,2,4039
4502,제주,60㎡초과 85㎡이하,2020,2,3962
4503,제주,85㎡초과 102㎡이하,2020,2,0


이번에는 '-' 가 말썽이네요 ㅠㅠㅠ

#### '분양가격' 컬럼에 '-'가 있는지 확인하기

In [24]:
df[df['분양가격'].astype(str).str.contains('-', na=False)]


Unnamed: 0,지역명,규모구분,연도,월,분양가격


In [25]:
(df['분양가격'].astype(str).str.contains('-', na=False)).sum()


np.int64(0)

#### '-' 제거하기

#### 다시한번 '분양가격' 컬럼 int 형으로 형변환 해보기

In [26]:
# int로 다시 형변환 해보기
df['분양가격'] = df['분양가격'].astype(int)

다시 NaN 값이 생겼습니다..

#### NaN 값은 0으로 채워 줍시다

In [27]:
df['분양가격'] = df['분양가격'].fillna(0)
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,60㎡이하,2015,10,5652
2,서울,60㎡초과 85㎡이하,2015,10,5882
3,서울,85㎡초과 102㎡이하,2015,10,5721
4,서울,102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,60㎡이하,2020,2,4039
4502,제주,60㎡초과 85㎡이하,2020,2,3962
4503,제주,85㎡초과 102㎡이하,2020,2,0


#### 다시한번 '분양가격' 컬럼 int 형으로 형변환 해보기

In [28]:
df['분양가격'] = df['분양가격'].astype(int)

빈 값이 다시 생겼습니다.

#### 위에 표시된 에러에서 확인된 분양가격 컬럼의 '' 값 확인하기

In [29]:
df[df['분양가격'].astype(str).str.contains('', na=False)]

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,60㎡이하,2015,10,5652
2,서울,60㎡초과 85㎡이하,2015,10,5882
3,서울,85㎡초과 102㎡이하,2015,10,5721
4,서울,102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,60㎡이하,2020,2,4039
4502,제주,60㎡초과 85㎡이하,2020,2,3962
4503,제주,85㎡초과 102㎡이하,2020,2,0


#### '분양가격' 컬럼의 빈 값은 0으로 채워주기

In [30]:
df['분양가격'] = df['분양가격'].fillna(0)
df

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,60㎡이하,2015,10,5652
2,서울,60㎡초과 85㎡이하,2015,10,5882
3,서울,85㎡초과 102㎡이하,2015,10,5721
4,서울,102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,60㎡이하,2020,2,4039
4502,제주,60㎡초과 85㎡이하,2020,2,3962
4503,제주,85㎡초과 102㎡이하,2020,2,0


#### 다시한번 '분양가격' 컬럼 int 형으로 형변환 해보기

In [31]:
df['분양가격'] = df['분양가격'].astype(int)

### 4-6 데이터 프레임에 null 값이 있는지 확인해보기

In [32]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4505 entries, 0 to 4504
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지역명     4505 non-null   object
 1   규모구분    4505 non-null   object
 2   연도      4505 non-null   int64 
 3   월       4505 non-null   int64 
 4   분양가격    4505 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 176.1+ KB


In [33]:
df


Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,60㎡이하,2015,10,5652
2,서울,60㎡초과 85㎡이하,2015,10,5882
3,서울,85㎡초과 102㎡이하,2015,10,5721
4,서울,102㎡초과,2015,10,5879
...,...,...,...,...,...
4500,제주,전체,2020,2,3955
4501,제주,60㎡이하,2020,2,4039
4502,제주,60㎡초과 85㎡이하,2020,2,3962
4503,제주,85㎡초과 102㎡이하,2020,2,0


### 4-7 '규모구분' column에 '전용면적'이 불필요하다고 생각되어 제거 함.

In [34]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,60㎡이하,2015,10,5652
2,서울,60㎡초과 85㎡이하,2015,10,5882
3,서울,85㎡초과 102㎡이하,2015,10,5721
4,서울,102㎡초과,2015,10,5879


#### '규모구분' 컬럼의 데이터에 "전용면적" 문자열 제거하기

In [35]:
df['규모구분'] = df['규모구분'].str.replace('전용면적', '', regex=False).str.strip()

In [36]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,60㎡이하,2015,10,5652
2,서울,60㎡초과 85㎡이하,2015,10,5882
3,서울,85㎡초과 102㎡이하,2015,10,5721
4,서울,102㎡초과,2015,10,5879


#### '규모구분' 컬럼의 값과 갯수(value count) 확인하기

In [37]:
df['규모구분'].value_counts()


규모구분
전체              901
60㎡이하           901
60㎡초과 85㎡이하     901
85㎡초과 102㎡이하    901
102㎡초과          901
Name: count, dtype: int64

### 데이터 전처리가 잘됐는지 확인해 보기

In [38]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4505 entries, 0 to 4504
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지역명     4505 non-null   object
 1   규모구분    4505 non-null   object
 2   연도      4505 non-null   int64 
 3   월       4505 non-null   int64 
 4   분양가격    4505 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 176.1+ KB


## 5. 전처리가 완료된 데이터 셋 저장하기
- datas/house_price_ok.csv 파일명으로 저장하기
- index는 저장하지 않기

In [39]:
file_path = "datas/house_price_ok.csv"

### file_path로 데이터 프레임 저장하기

In [40]:
df.to_csv(file_path, index=False, encoding='utf-8-sig')


## 6. file_path에 저장한 파일 불러서 데이터 프레임으로 만들기

In [41]:
df = pd.read_csv(file_path)

In [42]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,60㎡이하,2015,10,5652
2,서울,60㎡초과 85㎡이하,2015,10,5882
3,서울,85㎡초과 102㎡이하,2015,10,5721
4,서울,102㎡초과,2015,10,5879


## 7. 지역명을 그룹으로 평균 분양가격 확인하기

In [43]:
df.groupby('지역명')['분양가격'].mean()

지역명
강원    2295.113208
경기    4002.916981
경남    2709.675472
경북    2393.769811
광주    2407.618868
대구    3483.996226
대전    2436.475472
부산    3608.543396
서울    7098.675472
세종    2762.852830
울산    1779.245283
인천    3509.694340
전남    2225.256604
전북    2287.750943
제주    2932.550943
충남    2353.550943
충북    2274.867925
Name: 분양가격, dtype: float64

## 8. 분양가격이 100보다 작은 행은 제거해 보기

### '분양가격'이 100보다 작은 값 확인하기

In [44]:
df.loc[df['분양가격'] < 100, :]

Unnamed: 0,지역명,규모구분,연도,월,분양가격
28,광주,85㎡초과 102㎡이하,2015,10,0
29,광주,102㎡초과,2015,10,0
34,대전,102㎡초과,2015,10,0
81,제주,60㎡이하,2015,10,0
113,광주,85㎡초과 102㎡이하,2015,11,0
...,...,...,...,...,...
4461,세종,60㎡이하,2020,2,0
4488,전남,85㎡초과 102㎡이하,2020,2,0
4493,경북,85㎡초과 102㎡이하,2020,2,0
4499,경남,102㎡초과,2020,2,0


[tip] 특정 조건에 만족하는 행을 제거하고자 할 때는

1. index를 list로 가져온다
2. drop을 활용하여 행을 제거한다

In [45]:
# 분양가격 컬럼의 값이 100보다 작은 행 index 목록 추출하기

idx = df[df['분양가격'] < 100].index


In [46]:
# 변수에 저장한 index 확인하기
idx

Index([  28,   29,   34,   81,  113,  114,  119,  166,  198,  199,
       ...
       4418, 4448, 4453, 4458, 4459, 4461, 4488, 4493, 4499, 4503],
      dtype='int64', length=396)

### index를 행 기준으로 drop하기

In [47]:
df = df.drop(index=idx, axis=0)


In [48]:
df.count()

지역명     4109
규모구분    4109
연도      4109
월       4109
분양가격    4109
dtype: int64

df의 행의 갯수가 줄어든것이 보이시나요?
* df.count() 값이 4185개가 출력이됨

## 9. 다시 한 번 지역명을 group으로 묶어 확인하기

### 지역명을 group으로 묶어 분양가격의 평균 확인하기

In [49]:
df.groupby('지역명')['분양가격'].mean()

지역명
강원    2413.511905
경기    4079.896154
경남    2815.937255
경북    2547.586345
광주    3052.722488
대구    3663.726190
대전    3134.300971
부산    3677.938462
서울    7235.188462
세종    2988.391837
울산    3041.935484
인천    3633.082031
전남    2303.488281
전북    2349.821705
제주    3423.462555
충남    2504.783133
충북    2318.615385
Name: 분양가격, dtype: float64

### 지역명으로 group으로 묶어서 분양가격의 평균을 내림차수로 확인하기

In [50]:
df.groupby('지역명')['분양가격'].mean().sort_values(ascending=False)

지역명
서울    7235.188462
경기    4079.896154
부산    3677.938462
대구    3663.726190
인천    3633.082031
제주    3423.462555
대전    3134.300971
광주    3052.722488
울산    3041.935484
세종    2988.391837
경남    2815.937255
경북    2547.586345
충남    2504.783133
강원    2413.511905
전북    2349.821705
충북    2318.615385
전남    2303.488281
Name: 분양가격, dtype: float64

### 지역명을 group으로 묶어 분양가격의 갯수 확인하기

In [51]:
df.groupby('지역명')['분양가격'].count().sort_values(ascending=False)

지역명
경기    260
부산    260
서울    260
충북    260
전북    258
인천    256
전남    256
경남    255
강원    252
대구    252
충남    249
경북    249
세종    245
제주    227
광주    209
대전    206
울산    155
Name: 분양가격, dtype: int64

### 지역명을 group으로 묶어서 분양가격의 갯수를 내림차수로 확인하기

In [52]:
df.groupby('지역명')['분양가격'].count()

지역명
강원    252
경기    260
경남    255
경북    249
광주    209
대구    252
대전    206
부산    260
서울    260
세종    245
울산    155
인천    256
전남    256
전북    258
제주    227
충남    249
충북    260
Name: 분양가격, dtype: int64

### 지역 별로 가장 비싼 분양가 확인해보기

In [53]:
df.groupby('지역명')['분양가격'].max()

지역명
강원     3906
경기     5670
경남     4303
경북     3457
광주     4881
대구     5158
대전     4877
부산     4623
서울    13835
세종     3931
울산     3594
인천     5188
전남     3053
전북     3052
제주     5462
충남     3201
충북     2855
Name: 분양가격, dtype: int64

In [54]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,60㎡이하,2015,10,5652
2,서울,60㎡초과 85㎡이하,2015,10,5882
3,서울,85㎡초과 102㎡이하,2015,10,5721
4,서울,102㎡초과,2015,10,5879


## 10. 연도별로 분양가격 확인하기

In [55]:
df.groupby('연도')['분양가격'].mean()

연도
2015    2788.707819
2016    2934.250000
2017    3139.541713
2018    3326.951034
2019    3693.422149
2020    3853.960526
Name: 분양가격, dtype: float64

## 11. 피벗 테이블 활용해보기

* 행인덱스: 연도
* 열인덱스: 규모구분
* 값: 분양가격

In [56]:
# pd.pivot_table(df, index='연도', columns='규모구분', values='분양가격', aggfunc='count')
df_pt = pd.pivot_table(df, index='연도', columns='규모구분', values='분양가격')
df_pt

규모구분,102㎡초과,60㎡이하,60㎡초과 85㎡이하,85㎡초과 102㎡이하,전체
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2015,2980.977778,2712.583333,2694.490196,2884.395833,2694.862745
2016,3148.099476,2848.144279,2816.965686,3067.380435,2816.073529
2017,3434.692308,3104.888889,2977.272727,3194.06135,3000.385027
2018,3468.355932,3286.184783,3227.458128,3467.184211,3235.098522
2019,4039.854839,3486.910112,3538.545918,3933.538462,3515.97449
2020,4187.566667,3615.96875,3594.852941,4532.090909,3603.911765


### 데이터 프레임의 데이터를 소숫점 2자리까지만 출력하기

In [57]:
df_pt.round(2)

규모구분,102㎡초과,60㎡이하,60㎡초과 85㎡이하,85㎡초과 102㎡이하,전체
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2015,2980.98,2712.58,2694.49,2884.4,2694.86
2016,3148.1,2848.14,2816.97,3067.38,2816.07
2017,3434.69,3104.89,2977.27,3194.06,3000.39
2018,3468.36,3286.18,3227.46,3467.18,3235.1
2019,4039.85,3486.91,3538.55,3933.54,3515.97
2020,4187.57,3615.97,3594.85,4532.09,3603.91


## 12. 년도에 따른 평형대의 변화 추이를 보기위해 시각화 하기

### 차트 표현 문제 해결하기
- 한글표시 : Malgun Gothic
- 차트의 크기 (10, 6)
- 폰트 크기 : 12

## 13. 연도별, 규모별 가격을 알아볼까요? (multi-index)
- 평균의 출력 형태는 소숫점 2자리까지

In [58]:
df


Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,60㎡이하,2015,10,5652
2,서울,60㎡초과 85㎡이하,2015,10,5882
3,서울,85㎡초과 102㎡이하,2015,10,5721
4,서울,102㎡초과,2015,10,5879
...,...,...,...,...,...
4498,경남,85㎡초과 102㎡이하,2020,2,3247
4500,제주,전체,2020,2,3955
4501,제주,60㎡이하,2020,2,4039
4502,제주,60㎡초과 85㎡이하,2020,2,3962


In [59]:
df2 = df.groupby(['연도', '규모구분'])["분양가격"].mean()
df2.round(2)

연도    규모구분        
2015  102㎡초과          2980.98
      60㎡이하           2712.58
      60㎡초과 85㎡이하     2694.49
      85㎡초과 102㎡이하    2884.40
      전체              2694.86
2016  102㎡초과          3148.10
      60㎡이하           2848.14
      60㎡초과 85㎡이하     2816.97
      85㎡초과 102㎡이하    3067.38
      전체              2816.07
2017  102㎡초과          3434.69
      60㎡이하           3104.89
      60㎡초과 85㎡이하     2977.27
      85㎡초과 102㎡이하    3194.06
      전체              3000.39
2018  102㎡초과          3468.36
      60㎡이하           3286.18
      60㎡초과 85㎡이하     3227.46
      85㎡초과 102㎡이하    3467.18
      전체              3235.10
2019  102㎡초과          4039.85
      60㎡이하           3486.91
      60㎡초과 85㎡이하     3538.55
      85㎡초과 102㎡이하    3933.54
      전체              3515.97
2020  102㎡초과          4187.57
      60㎡이하           3615.97
      60㎡초과 85㎡이하     3594.85
      85㎡초과 102㎡이하    4532.09
      전체              3603.91
Name: 분양가격, dtype: float64

## 14. 위의 결과를 보기좋게 하기위해 데이터프레임으로 표현하기
- 분양가격은 소숫점 2자리까지 표시하기

In [60]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,60㎡이하,2015,10,5652
2,서울,60㎡초과 85㎡이하,2015,10,5882
3,서울,85㎡초과 102㎡이하,2015,10,5721
4,서울,102㎡초과,2015,10,5879


In [64]:
# aggfunc에는 추가 계산 옵션 ('sum', 'mean') - 기본값은 평균
# 행인덱스 : '그룹', 열인덱스 : '혈액형', 표시 값 : '인기지수', 집계함수 : mean
# pd.pivot_table(df, index='그룹', columns='혈액형', values='인기지수', aggfunc='count')
# pd.pivot_table(df, index=['소속사', '그룹'], columns='혈액형', values='인기지수', aggfunc='count')
result = pd.pivot_table(df, index=['연도', '규모구분'], values='분양가격', aggfunc='mean')
result.round(2)


Unnamed: 0_level_0,Unnamed: 1_level_0,분양가격
연도,규모구분,Unnamed: 2_level_1
2015,102㎡초과,2980.98
2015,60㎡이하,2712.58
2015,60㎡초과 85㎡이하,2694.49
2015,85㎡초과 102㎡이하,2884.4
2015,전체,2694.86
2016,102㎡초과,3148.1
2016,60㎡이하,2848.14
2016,60㎡초과 85㎡이하,2816.97
2016,85㎡초과 102㎡이하,3067.38
2016,전체,2816.07
