# 아파트 실거래가 자료를 활용한 자료의 중심과 산포도 이해
- 서울 아파트 실거래가 자료 (계약년월 2021년 2월) 
- [출처] 국토교통부 실거래가 공개시스템   

In [1]:
import pandas as pd
apt = pd.read_excel('data/아파트_실거래가_서울.xlsx') 
apt.shape # data frame의 행열의 수 

(3827, 15)

In [2]:
apt.columns

Index(['시군구', '번지', '본번', '부번', '단지명', '전용면적(㎡)', '계약년월', '계약일', '거래금액(만원)',
       '층', '건축년도', '도로명', '시', '구', '동'],
      dtype='object')

In [3]:
# 변수명 변경 
apt.rename(columns = {'전용면적(㎡)' : '면적', '거래금액(만원)' : '가격'}, inplace = True)
apt.columns

Index(['시군구', '번지', '본번', '부번', '단지명', '면적', '계약년월', '계약일', '가격', '층', '건축년도',
       '도로명', '시', '구', '동'],
      dtype='object')

In [4]:
apt.head()

Unnamed: 0,시군구,번지,본번,부번,단지명,면적,계약년월,계약일,가격,층,건축년도,도로명,시,구,동
0,서울특별시 강남구 개포동,652,652,0,개포우성3차,104.43,202102,9,145000,6,1984,개포로 307,서울특별시,강남구,개포동
1,서울특별시 강남구 개포동,185,185,0,개포주공 6단지,53.06,202102,1,200000,12,1983,개포로 516,서울특별시,강남구,개포동
2,서울특별시 강남구 개포동,185,185,0,개포주공 6단지,73.02,202102,28,243000,7,1983,개포로 516,서울특별시,강남구,개포동
3,서울특별시 강남구 개포동,649,649,0,경남2차,182.2,202102,5,327000,11,1984,언주로 110,서울특별시,강남구,개포동
4,서울특별시 강남구 개포동,649,649,0,경남2차,186.16,202102,6,332000,14,1984,언주로 110,서울특별시,강남구,개포동


## 자료의 중심 (center) 

In [5]:
# 평균
apt.가격.mean()

99265.7909589757

In [6]:
# 중위수
apt.가격.median()

80000.0

In [7]:
apt['가격'].median() # 위와 동일 

80000.0

In [8]:
apt[['가격', '면적']].mean()

가격    99265.790959
면적       74.207185
dtype: float64

In [9]:
apt[['가격', '면적']].median()

가격    80000.00
면적       72.81
dtype: float64

- '단가' (단위면적 당 가격 = 가격/면적)라는 새로운 변수 추가하고 이 변수를 분석    

In [10]:
apt['단가'] = apt.가격 / apt.면적

In [12]:
apt.단가

0       1388.489898
1       3769.317753
2       3327.855382
3       1794.731065
4       1783.412119
           ...     
3822    1230.891404
3823    1104.417671
3824    1087.684070
3825     949.660835
3826     528.962886
Name: 단가, Length: 3827, dtype: float64

In [11]:
# 기초통계량 
tb = apt.단가.describe()
tb

count    3827.000000
mean     1307.578840
std       616.102432
min       188.723756
25%       890.277403
50%      1161.546691
75%      1544.220207
max      4407.514451
Name: 단가, dtype: float64

In [13]:
from scipy import stats
stats.trim_mean(apt.단가, 0.2)

1186.5224041881847

## 자료의 산포도 (spread)

In [14]:
# 표준편차 
apt.단가.std()

616.1024315877289

In [15]:
tb['std'] # describe의 결과물을 활용하는 방법 

616.1024315877289

In [16]:
# 범위
tb['max'] - tb['min']

4218.790695264315

In [17]:
# 사분위수 범위 
Q1 = tb['25%']
Q3 = tb['75%']
IQR = Q3 - Q1
print('IQR = ', IQR)

IQR =  653.9428037771982


In [18]:
lower = Q1 - 1.5 * IQR
upper = Q3 + 1.5 * IQR
print("lower : ", lower, "upper : ", upper)
tf = apt.단가.between(lower,upper) 
outliers = apt.loc[~tf, :] 
outliers

lower :  -90.6368025546783 upper :  2525.1344125541145


Unnamed: 0,시군구,번지,본번,부번,단지명,면적,계약년월,계약일,가격,층,건축년도,도로명,시,구,동,단가
1,서울특별시 강남구 개포동,185,185,0,개포주공 6단지,53.060,202102,1,200000,12,1983,개포로 516,서울특별시,강남구,개포동,3769.317753
2,서울특별시 강남구 개포동,185,185,0,개포주공 6단지,73.020,202102,28,243000,7,1983,개포로 516,서울특별시,강남구,개포동,3327.855382
5,서울특별시 강남구 개포동,1280,1280,0,래미안블레스티지,49.909,202102,6,173000,10,2019,선릉로 8,서울특별시,강남구,개포동,3466.308682
6,서울특별시 강남구 개포동,1280,1280,0,래미안블레스티지,84.943,202102,15,251000,1,2019,선릉로 8,서울특별시,강남구,개포동,2954.922713
7,서울특별시 강남구 개포동,1280,1280,0,래미안블레스티지,59.967,202102,16,210000,9,2019,선릉로 8,서울특별시,강남구,개포동,3501.926059
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3396,서울특별시 용산구 한남동,810,810,0,한남더힐,235.312,202102,8,630000,7,2011,독서당로 111,서울특별시,용산구,한남동,2677.296525
3397,서울특별시 용산구 한남동,810,810,0,한남더힐,243.201,202102,17,800000,1,2011,독서당로 111,서울특별시,용산구,한남동,3289.460158
3398,서울특별시 용산구 한남동,810,810,0,한남더힐,208.478,202102,22,530000,6,2011,독서당로 111,서울특별시,용산구,한남동,2542.234672
3399,서울특별시 용산구 한남동,810,810,0,한남더힐,240.230,202102,23,690000,2,2011,독서당로 111,서울특별시,용산구,한남동,2872.247430


In [21]:
print("lower : ", lower, "upper : ", upper)
tf = apt.단가.between(lower,upper)
tf
outliers = apt.loc[~tf, :] 
outliers

lower :  -90.6368025546783 upper :  2525.1344125541145


Unnamed: 0,시군구,번지,본번,부번,단지명,면적,계약년월,계약일,가격,층,건축년도,도로명,시,구,동,단가
1,서울특별시 강남구 개포동,185,185,0,개포주공 6단지,53.060,202102,1,200000,12,1983,개포로 516,서울특별시,강남구,개포동,3769.317753
2,서울특별시 강남구 개포동,185,185,0,개포주공 6단지,73.020,202102,28,243000,7,1983,개포로 516,서울특별시,강남구,개포동,3327.855382
5,서울특별시 강남구 개포동,1280,1280,0,래미안블레스티지,49.909,202102,6,173000,10,2019,선릉로 8,서울특별시,강남구,개포동,3466.308682
6,서울특별시 강남구 개포동,1280,1280,0,래미안블레스티지,84.943,202102,15,251000,1,2019,선릉로 8,서울특별시,강남구,개포동,2954.922713
7,서울특별시 강남구 개포동,1280,1280,0,래미안블레스티지,59.967,202102,16,210000,9,2019,선릉로 8,서울특별시,강남구,개포동,3501.926059
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3396,서울특별시 용산구 한남동,810,810,0,한남더힐,235.312,202102,8,630000,7,2011,독서당로 111,서울특별시,용산구,한남동,2677.296525
3397,서울특별시 용산구 한남동,810,810,0,한남더힐,243.201,202102,17,800000,1,2011,독서당로 111,서울특별시,용산구,한남동,3289.460158
3398,서울특별시 용산구 한남동,810,810,0,한남더힐,208.478,202102,22,530000,6,2011,독서당로 111,서울특별시,용산구,한남동,2542.234672
3399,서울특별시 용산구 한남동,810,810,0,한남더힐,240.230,202102,23,690000,2,2011,독서당로 111,서울특별시,용산구,한남동,2872.247430


In [24]:
apt[~tf]

Unnamed: 0,시군구,번지,본번,부번,단지명,면적,계약년월,계약일,가격,층,건축년도,도로명,시,구,동,단가
1,서울특별시 강남구 개포동,185,185,0,개포주공 6단지,53.060,202102,1,200000,12,1983,개포로 516,서울특별시,강남구,개포동,3769.317753
2,서울특별시 강남구 개포동,185,185,0,개포주공 6단지,73.020,202102,28,243000,7,1983,개포로 516,서울특별시,강남구,개포동,3327.855382
5,서울특별시 강남구 개포동,1280,1280,0,래미안블레스티지,49.909,202102,6,173000,10,2019,선릉로 8,서울특별시,강남구,개포동,3466.308682
6,서울특별시 강남구 개포동,1280,1280,0,래미안블레스티지,84.943,202102,15,251000,1,2019,선릉로 8,서울특별시,강남구,개포동,2954.922713
7,서울특별시 강남구 개포동,1280,1280,0,래미안블레스티지,59.967,202102,16,210000,9,2019,선릉로 8,서울특별시,강남구,개포동,3501.926059
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3396,서울특별시 용산구 한남동,810,810,0,한남더힐,235.312,202102,8,630000,7,2011,독서당로 111,서울특별시,용산구,한남동,2677.296525
3397,서울특별시 용산구 한남동,810,810,0,한남더힐,243.201,202102,17,800000,1,2011,독서당로 111,서울특별시,용산구,한남동,3289.460158
3398,서울특별시 용산구 한남동,810,810,0,한남더힐,208.478,202102,22,530000,6,2011,독서당로 111,서울특별시,용산구,한남동,2542.234672
3399,서울특별시 용산구 한남동,810,810,0,한남더힐,240.230,202102,23,690000,2,2011,독서당로 111,서울특별시,용산구,한남동,2872.247430


## 구별로 단가의 중심, 산포도를 계산하고 비교 

In [25]:
apt.groupby('구').단가.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
구,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
강남구,241.0,2173.230724,832.339197,800.0,1376.576577,2203.231406,2832.259435,4001.60064
강동구,160.0,1389.531945,489.622989,382.531081,1027.825571,1367.513417,1749.955858,2492.263946
강북구,117.0,876.863888,230.754273,374.031526,720.930233,852.514919,1005.530417,1551.372497
강서구,259.0,1062.871278,324.74138,305.224304,853.240983,1039.986559,1297.791529,1960.571833
관악구,135.0,1064.097503,281.462998,442.804428,858.434159,1081.654295,1248.715159,2003.338898
광진구,63.0,1481.113224,413.804323,524.521374,1237.494716,1554.924914,1755.097102,2295.738168
구로구,208.0,905.119514,288.846488,280.977803,698.254295,882.768472,1092.11577,1883.333333
금천구,75.0,892.624532,321.657718,338.940497,655.403494,831.24687,1020.813352,1667.606085
노원구,380.0,1037.169797,237.222564,387.596899,891.793728,1025.695718,1154.378283,2345.21576
도봉구,191.0,830.758263,254.971691,242.19591,668.864801,791.573174,1002.021107,1452.2219


In [28]:
apt.groupby('구').단가.median()

구
강남구     2203.231406
강동구     1367.513417
강북구      852.514919
강서구     1039.986559
관악구     1081.654295
광진구     1554.924914
구로구      882.768472
금천구      831.246870
노원구     1025.695718
도봉구      791.573174
동대문구    1169.513622
동작구     1385.497609
마포구     1428.647276
서대문구    1152.460984
서초구     1968.793492
성동구     1570.793531
성북구     1059.220824
송파구     1722.654885
양천구     1377.540951
영등포구    1324.726302
용산구     1707.544241
은평구      935.354014
종로구     1216.922149
중구      1316.489780
중랑구      902.599275
Name: 단가, dtype: float64

In [29]:
apt.groupby('구').단가.median().sort_values() 

구
도봉구      791.573174
금천구      831.246870
강북구      852.514919
구로구      882.768472
중랑구      902.599275
은평구      935.354014
노원구     1025.695718
강서구     1039.986559
성북구     1059.220824
관악구     1081.654295
서대문구    1152.460984
동대문구    1169.513622
종로구     1216.922149
중구      1316.489780
영등포구    1324.726302
강동구     1367.513417
양천구     1377.540951
동작구     1385.497609
마포구     1428.647276
광진구     1554.924914
성동구     1570.793531
용산구     1707.544241
송파구     1722.654885
서초구     1968.793492
강남구     2203.231406
Name: 단가, dtype: float64

In [30]:
apt.groupby('구').단가.median().sort_values(ascending = False) 

구
강남구     2203.231406
서초구     1968.793492
송파구     1722.654885
용산구     1707.544241
성동구     1570.793531
광진구     1554.924914
마포구     1428.647276
동작구     1385.497609
양천구     1377.540951
강동구     1367.513417
영등포구    1324.726302
중구      1316.489780
종로구     1216.922149
동대문구    1169.513622
서대문구    1152.460984
관악구     1081.654295
성북구     1059.220824
강서구     1039.986559
노원구     1025.695718
은평구      935.354014
중랑구      902.599275
구로구      882.768472
강북구      852.514919
금천구      831.246870
도봉구      791.573174
Name: 단가, dtype: float64

In [31]:
apt.groupby('구').단가.std().sort_values() 

구
중랑구     170.106868
강북구     230.754273
노원구     237.222564
도봉구     254.971691
중구      258.384443
성북구     274.339902
관악구     281.462998
구로구     288.846488
은평구     317.863355
금천구     321.657718
강서구     324.741380
서대문구    371.800954
동대문구    396.035119
동작구     396.671877
영등포구    412.568658
광진구     413.804323
마포구     422.325275
강동구     489.622989
종로구     535.424873
용산구     553.645647
성동구     557.516348
양천구     654.157500
송파구     706.034321
강남구     832.339197
서초구     854.093535
Name: 단가, dtype: float64

In [32]:
# 용산구 자료만 추출 
s = apt[apt.구 == '용산구']
s_tb = s.단가.describe()

Q1 = s_tb['25%']
Q3 = s_tb['75%']
IQR = Q3 - Q1

lower = Q1 - 1.5 * IQR
upper = Q3 + 1.5 * IQR

tf = s.단가.between(lower,upper) 
outliers = s.loc[~tf, :] 
outliers

Unnamed: 0,시군구,번지,본번,부번,단지명,면적,계약년월,계약일,가격,층,건축년도,도로명,시,구,동,단가
3397,서울특별시 용산구 한남동,810,810,0,한남더힐,243.201,202102,17,800000,1,2011,독서당로 111,서울특별시,용산구,한남동,3289.460158
