In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('https://bit.ly/ds-house-price')

In [None]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가격(㎡)
0,서울,전체,2015,10,5841
1,서울,전용면적 60㎡이하,2015,10,5652
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721
4,서울,전용면적 102㎡초과,2015,10,5879


# 1. column 이름 재정의
* 분양가격(㎡) -> 분양가격

In [None]:
df = df.rename(columns={
    "분양가격(㎡)": "분양가격"
})
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,전용면적 60㎡이하,2015,10,5652
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721
4,서울,전용면적 102㎡초과,2015,10,5879


# 2. 데이터 전체적으로 살펴보기 ( Overview )

## 2-1. 빈값 및 Data Type 확인하기

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4505 entries, 0 to 4504
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지역명     4505 non-null   object
 1   규모구분    4505 non-null   object
 2   연도      4505 non-null   int64 
 3   월       4505 non-null   int64 
 4   분양가격    4210 non-null   object
dtypes: int64(2), object(3)
memory usage: 176.1+ KB


## 2-2. 통계값 확인

In [None]:
df.describe()

Unnamed: 0,연도,월
count,4505.0,4505.0
mean,2017.45283,6.566038
std,1.311432,3.595519
min,2015.0,1.0
25%,2016.0,3.0
50%,2017.0,7.0
75%,2019.0,10.0
max,2020.0,12.0


통계값 확인에 의미가 없는 연도와 월에 대한 통계값만 나오는 것을 알 수 있다.

# 3. 분양가격 컬럼을 정수(int) 타입으로 변경
* 실무에서 이러한 형태의 데이터를 많이 만나시게 될 거에요

In [None]:
df['분양가격'].astype(int)

ValueError: ignored

## strip()을 활용하여 공백이 있는 데이터 공백 없애기

In [None]:
df.loc[df['분양가격'] == '  ']

Unnamed: 0,지역명,규모구분,연도,월,분양가격


문자열 column에 문자열 함수를 적용하고자 할 때는 `str`을 붙여줘야 한다.

```python
# strip()을 분양가격 컬럼에 적용하고 싶으면
df['분양가격'].str.strip()

df['분양가격'] -> 시리즈
df['분양가격'].str -> 시리즈에 들어있는 문자열 데이터
```

In [None]:
df['분양가격'] = df['분양가격'].str.strip() # 모든 문자열에 대해서 strip() 수행
df.loc[df['분양가격'] == '']

Unnamed: 0,지역명,규모구분,연도,월,분양가격


In [None]:
df.loc[df['분양가격'] == '', '분양가격'] = 0

In [None]:
df['분양가격'].astype(int)

ValueError: ignored

## NaN값은 fillna로 채워주면 됩니다.

In [None]:
df['분양가격'] = df['분양가격'].fillna(0)

In [None]:
df['분양가격'].astype(int)

0       5841
1       5652
2       5882
3       5721
4       5879
        ... 
4500    3955
4501    4039
4502    3962
4503       0
4504    3601
Name: 분양가격, Length: 4505, dtype: int64

콤마를 제거하는 것도 문자열 편집
```python
# replace() 함수를 사용하여 문자열 제거
replace(",", "")
```

In [None]:
df['분양가격'] = df['분양가격'].str.replace(",", "")

In [None]:
df['분양가격'].astype(int)

ValueError: ignored

다시 NaN값이 생겼습니다 ㅠㅠ

In [None]:
df['분양가격'] = df['분양가격'].fillna(0)

In [None]:
df['분양가격'].astype(int)

0       5841
1       5652
2       5882
3       5721
4       5879
        ... 
4500    3955
4501    4039
4502    3962
4503       0
4504    3601
Name: 분양가격, Length: 4505, dtype: int64

## - 제거하기

In [None]:
df['분양가격'] = df['분양가격'].str.replace('-', '')

In [None]:
df['분양가격'].astype(int)

ValueError: ignored

In [None]:
df['분양가격'] = df['분양가격'].fillna(0)

In [None]:
df['분양가격'].astype(int)

0       5841
1       5652
2       5882
3       5721
4       5879
        ... 
4500    3955
4501    4039
4502    3962
4503       0
4504    3601
Name: 분양가격, Length: 4505, dtype: int64

빈값 다시 보기

In [None]:
df.loc[df['분양가격'] == '']

Unnamed: 0,지역명,규모구분,연도,월,분양가격


In [None]:
df.loc[df['분양가격'] == '', '분양가격'] = 0

In [None]:
df['분양가격'] = df['분양가격'].astype(int)

데이터 프레임 정보 확인

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4505 entries, 0 to 4504
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지역명     4505 non-null   object
 1   규모구분    4505 non-null   object
 2   연도      4505 non-null   int64 
 3   월       4505 non-null   int64 
 4   분양가격    4505 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 176.1+ KB


# 4. 규모구분 '전용면적' 삭제

In [None]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가격
0,서울,전체,2015,10,5841
1,서울,전용면적 60㎡이하,2015,10,5652
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721
4,서울,전용면적 102㎡초과,2015,10,5879


In [None]:
df['규모구분'] = df['규모구분'].str.replace("전용면적", "")
df['규모구분'].value_counts()

전체               901
 60㎡초과 85㎡이하     901
 102㎡초과          901
 85㎡초과 102㎡이하    901
 60㎡이하           901
Name: 규모구분, dtype: int64

# 5. 지역명 별로 평균 분양 가격 확인하기
* ~별로 ~를 확인하고 싶다 : `groupby`

In [None]:
df.groupby("지역명")["분양가격"].mean()

지역명
강원    2339.807547
경기    4072.667925
경남    2761.275472
경북    2432.128302
광주    2450.728302
대구    3538.920755
대전    2479.135849
부산    3679.920755
서울    7225.762264
세종    2815.098113
울산    1826.101887
인천    3578.433962
전남    2270.177358
전북    2322.060377
제주    2979.407547
충남    2388.324528
충북    2316.871698
Name: 분양가격, dtype: float64

## 5-1. 분양가격이 100보다 작은 행은 제거 하고 보기

In [None]:
df.loc[df['분양가격'] < 100]

Unnamed: 0,지역명,규모구분,연도,월,분양가격
28,광주,85㎡초과 102㎡이하,2015,10,0
29,광주,102㎡초과,2015,10,0
34,대전,102㎡초과,2015,10,0
81,제주,60㎡이하,2015,10,0
113,광주,85㎡초과 102㎡이하,2015,11,0
...,...,...,...,...,...
4461,세종,60㎡이하,2020,2,0
4488,전남,85㎡초과 102㎡이하,2020,2,0
4493,경북,85㎡초과 102㎡이하,2020,2,0
4499,경남,102㎡초과,2020,2,0


특정 조건에 만족하는 행을 제거하고자 할 때
1. index를 list로 가져온다.
2. drop을 활용하여 행을 제거 한다.

In [None]:
idx = df.loc[df['분양가격'] < 100].index

In [None]:
idx

Int64Index([  28,   29,   34,   81,  113,  114,  119,  166,  198,  199,
            ...
            4418, 4448, 4453, 4458, 4459, 4461, 4488, 4493, 4499, 4503],
           dtype='int64', length=320)

In [None]:
df = df.drop(idx, axis=0)
df.count()

지역명     4185
규모구분    4185
연도      4185
월       4185
분양가격    4185
dtype: int64

In [None]:
df.groupby("지역명")["분양가격"].mean()

지역명
강원    2412.642023
경기    4072.667925
경남    2814.376923
경북    2547.486166
광주    3049.028169
대구    3663.335938
대전    3128.433333
부산    3679.920755
서울    7225.762264
세종    2984.004000
울산    3043.503145
인천    3633.275862
전남    2304.969349
전북    2348.648855
제주    3432.795652
충남    2501.604743
충북    2316.871698
Name: 분양가격, dtype: float64

지역 별 최고로 비싼 분양가와 제일 싼 분양가의 차

In [None]:
df.groupby("지역명")['분양가격'].max() - df.groupby("지역명")['분양가격'].min()

지역명
강원    1894
경기    2591
경남    2103
경북    1351
광주    2630
대구    2655
대전    2452
부산    1693
서울    8774
세종    1359
울산    1172
인천    2298
전남    1147
전북    1152
제주    3237
충남    1102
충북     987
Name: 분양가격, dtype: int64

# 6. 연도별로 분양 가격 확인하기

In [None]:
df.groupby("연도")["분양가격"].mean()

연도
2015    2788.707819
2016    2934.250000
2017    3143.311795
2018    3326.951034
2019    3693.422149
2020    3853.960526
Name: 분양가격, dtype: float64

# 7. 피벗 테이블을 활용해서 확인하기
* 행인덱스 : 연도
* 열인덱스 : 규모구분
* 집계할 값 : 분양가격

In [None]:
pd.pivot_table(df,
               index="연도",
               columns="규모구분",
               values="분양가격")

규모구분,102㎡초과,60㎡이하,60㎡초과 85㎡이하,85㎡초과 102㎡이하,전체
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2015,2980.977778,2712.583333,2694.490196,2884.395833,2694.862745
2016,3148.099476,2848.144279,2816.965686,3067.380435,2816.073529
2017,3427.649746,3112.538071,2981.95098,3204.075145,3008.279412
2018,3468.355932,3286.184783,3227.458128,3467.184211,3235.098522
2019,4039.854839,3486.910112,3538.545918,3933.538462,3515.97449
2020,4187.566667,3615.96875,3594.852941,4532.090909,3603.911765


# 8. 연도별, 규모별 가격을 생각해 보자

In [None]:
df.groupby(["연도", "규모구분"])["분양가격"].mean()

연도    규모구분         
2015   102㎡초과          2980.977778
       60㎡이하           2712.583333
       60㎡초과 85㎡이하     2694.490196
       85㎡초과 102㎡이하    2884.395833
      전체               2694.862745
2016   102㎡초과          3148.099476
       60㎡이하           2848.144279
       60㎡초과 85㎡이하     2816.965686
       85㎡초과 102㎡이하    3067.380435
      전체               2816.073529
2017   102㎡초과          3427.649746
       60㎡이하           3112.538071
       60㎡초과 85㎡이하     2981.950980
       85㎡초과 102㎡이하    3204.075145
      전체               3008.279412
2018   102㎡초과          3468.355932
       60㎡이하           3286.184783
       60㎡초과 85㎡이하     3227.458128
       85㎡초과 102㎡이하    3467.184211
      전체               3235.098522
2019   102㎡초과          4039.854839
       60㎡이하           3486.910112
       60㎡초과 85㎡이하     3538.545918
       85㎡초과 102㎡이하    3933.538462
      전체               3515.974490
2020   102㎡초과          4187.566667
       60㎡이하           3615.968750
       60㎡초과 85㎡이하     3594.852941


DataFrame으로 감싸게 되면 예쁘게 보입니다

In [None]:
pd.DataFrame(df.groupby(["연도", "규모구분"])["분양가격"].mean())

Unnamed: 0_level_0,Unnamed: 1_level_0,분양가격
연도,규모구분,Unnamed: 2_level_1
2015,102㎡초과,2980.977778
2015,60㎡이하,2712.583333
2015,60㎡초과 85㎡이하,2694.490196
2015,85㎡초과 102㎡이하,2884.395833
2015,전체,2694.862745
2016,102㎡초과,3148.099476
2016,60㎡이하,2848.144279
2016,60㎡초과 85㎡이하,2816.965686
2016,85㎡초과 102㎡이하,3067.380435
2016,전체,2816.073529
