# 아파트 실거래가 자료를 활용한 자료의 중심과 산포도 이해
- 서울 아파트 실거래가 자료 (계약년월 2021년 2월) 
- [출처] 국토교통부 실거래가 공개시스템   

In [1]:
import pandas as pd
apt = pd.read_excel('data/아파트_실거래가_서울.xlsx') 
apt.shape # data frame의 행열의 수 

(3827, 15)

In [2]:
apt.columns

Index(['시군구', '번지', '본번', '부번', '단지명', '전용면적(㎡)', '계약년월', '계약일', '거래금액(만원)',
       '층', '건축년도', '도로명', '시', '구', '동'],
      dtype='object')

In [3]:
# 변수명 변경 
apt.rename(columns = {'전용면적(㎡)' : '면적', '거래금액(만원)' : '가격'}, inplace = True)
apt.columns

Index(['시군구', '번지', '본번', '부번', '단지명', '면적', '계약년월', '계약일', '가격', '층', '건축년도',
       '도로명', '시', '구', '동'],
      dtype='object')

In [4]:
apt.head()

Unnamed: 0,시군구,번지,본번,부번,단지명,면적,계약년월,계약일,가격,층,건축년도,도로명,시,구,동
0,서울특별시 강남구 개포동,652,652,0,개포우성3차,104.43,202102,9,145000,6,1984,개포로 307,서울특별시,강남구,개포동
1,서울특별시 강남구 개포동,185,185,0,개포주공 6단지,53.06,202102,1,200000,12,1983,개포로 516,서울특별시,강남구,개포동
2,서울특별시 강남구 개포동,185,185,0,개포주공 6단지,73.02,202102,28,243000,7,1983,개포로 516,서울특별시,강남구,개포동
3,서울특별시 강남구 개포동,649,649,0,경남2차,182.2,202102,5,327000,11,1984,언주로 110,서울특별시,강남구,개포동
4,서울특별시 강남구 개포동,649,649,0,경남2차,186.16,202102,6,332000,14,1984,언주로 110,서울특별시,강남구,개포동


## 자료의 중심 (center) 

In [5]:
# 평균
apt.가격.mean()

99265.7909589757

In [6]:
# 중위수
apt.가격.median()

80000.0

In [7]:
apt['가격'].median() # 위와 동일 

80000.0

In [8]:
apt[['가격', '면적']].mean()

가격    99265.790959
면적       74.207185
dtype: float64

In [None]:
apt[['가격', '면적']].median()

- '단가' (단위면적 당 가격 = 가격/면적)라는 새로운 변수 추가하고 이 변수를 분석    

In [None]:
apt['단가'] = apt.가격 / apt.면적

In [None]:
# 기초통계량 
tb = apt.단가.describe()
tb

In [None]:
from scipy import stats
stats.trim_mean(apt.단가, 0.2)

## 자료의 산포도 (spread)

In [None]:
# 표준편차 
apt.단가.std()

In [None]:
tb['std'] # describe의 결과물을 활용하는 방법 

In [None]:
# 범위
tb['max'] - tb['min']

In [None]:
# 사분위수 범위 
Q1 = tb['25%']
Q3 = tb['75%']
IQR = Q3 - Q1
print('IQR = ', IQR)

In [None]:
lower = Q1 - 1.5 * IQR
upper = Q3 + 1.5 * IQR
print("lower : ", lower, "upper : ", upper)
tf = apt.단가.between(lower,upper) 
outliers = apt.loc[~tf, :] 
outliers

## 구별로 단가의 중심, 산포도를 계산하고 비교 

In [None]:
apt.groupby('구').단가.describe()

In [None]:
apt.groupby('구').단가.median()

In [None]:
apt.groupby('구').단가.median().sort_values() 

In [None]:
apt.groupby('구').단가.median().sort_values(ascending = False) 

In [None]:
apt.groupby('구').단가.std().sort_values() 

In [None]:
# 용산구 자료만 추출 
s = apt[apt.구 == '용산구']
s_tb = s.단가.describe()

Q1 = s_tb['25%']
Q3 = s_tb['75%']
IQR = Q3 - Q1

lower = Q1 - 1.5 * IQR
upper = Q3 + 1.5 * IQR

tf = s.단가.between(lower,upper) 
outliers = s.loc[~tf, :] 
outliers