# 서울 아파트 가격 데이터 분석

In [1]:
import pandas as pd

df = pd.read_csv("./data/seoul_apart_2022.csv")
df.head()

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,해제사유발생일,거래유형,중개사소재지
0,서울특별시 강남구 개포동,658-1,658.0,1.0,개포6차우성아파트1동~8동,79.97,202204,12,220000,4,1987.0,언주로 3,,중개거래,서울 강남구
1,서울특별시 강남구 개포동,658-1,658.0,1.0,개포6차우성아파트1동~8동,79.97,202204,21,220000,2,1987.0,언주로 3,,중개거래,서울 강남구
2,서울특별시 강남구 개포동,658-1,658.0,1.0,개포6차우성아파트1동~8동,79.97,202205,27,216000,2,1987.0,언주로 3,,중개거래,서울 강남구
3,서울특별시 강남구 개포동,1282,1282.0,0.0,개포래미안포레스트,102.32,202204,1,369000,13,2020.0,개포로 264,,중개거래,"서울 강남구, 서울 양천구"
4,서울특별시 강남구 개포동,1282,1282.0,0.0,개포래미안포레스트,136.06,202205,2,420000,17,2020.0,개포로 264,,중개거래,서울 강남구


In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12684 entries, 0 to 12683
Data columns (total 15 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   시군구       12684 non-null  object 
 1   번지        12681 non-null  object 
 2   본번        12682 non-null  float64
 3   부번        12682 non-null  float64
 4   단지명       12684 non-null  object 
 5   전용면적(㎡)   12684 non-null  float64
 6   계약년월      12684 non-null  int64  
 7   계약일       12684 non-null  int64  
 8   거래금액(만원)  12651 non-null  object 
 9   층         12684 non-null  int64  
 10  건축년도      12682 non-null  float64
 11  도로명       12684 non-null  object 
 12  해제사유발생일   715 non-null    float64
 13  거래유형      12684 non-null  object 
 14  중개사소재지    12684 non-null  object 
dtypes: float64(5), int64(3), object(7)
memory usage: 1.5+ MB


In [3]:
# "해제사유발생일", "중개사소재지", "번지", "본번", "부번", "도로명", "거래유형" 컬럼 삭제하기. 삭제가 원본 df에 적용되어야 함
df = df.drop(['해제사유발생일','중개사소재지','번지','본번','부번','도로명','거래유형'],axis=1)

In [4]:
df = df.rename(columns = {'전용면적(㎡)' : '전용면적'})

In [5]:
# "시군구" 컬럼의 주소를 활용하기 쉽게 "구" 컬럼과 "동" 컬럼으로 분리
df['구'] = df["시군구"].apply(lambda e : e.split()[1])
df['동'] = df["시군구"].apply(lambda e : e.split()[2])
df.head()

Unnamed: 0,시군구,단지명,전용면적,계약년월,계약일,거래금액(만원),층,건축년도,구,동
0,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,202204,12,220000,4,1987.0,강남구,개포동
1,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,202204,21,220000,2,1987.0,강남구,개포동
2,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,202205,27,216000,2,1987.0,강남구,개포동
3,서울특별시 강남구 개포동,개포래미안포레스트,102.32,202204,1,369000,13,2020.0,강남구,개포동
4,서울특별시 강남구 개포동,개포래미안포레스트,136.06,202205,2,420000,17,2020.0,강남구,개포동


In [6]:
# 전용면적이 60 이하면 소형, 60보다 크고 85이하면 중형, 85보다 크고 102 이해면 중대형, 102보다 크면 대형으로 분류하여 "유형" 컬럼을 생성
def category(e):
    if e <= 60:
        return '소형'
    elif e <= 85:
        return '중형'
    elif e <= 102:
        return '중대형'
    else:
        return '대형'

df['유형'] = df['전용면적'].apply(category)
df.head()


Unnamed: 0,시군구,단지명,전용면적,계약년월,계약일,거래금액(만원),층,건축년도,구,동,유형
0,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,202204,12,220000,4,1987.0,강남구,개포동,중형
1,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,202204,21,220000,2,1987.0,강남구,개포동,중형
2,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,202205,27,216000,2,1987.0,강남구,개포동,중형
3,서울특별시 강남구 개포동,개포래미안포레스트,102.32,202204,1,369000,13,2020.0,강남구,개포동,대형
4,서울특별시 강남구 개포동,개포래미안포레스트,136.06,202205,2,420000,17,2020.0,강남구,개포동,대형


In [7]:
# "계약년월" 컬럼과 "계약일" 컬럼을 합치고, 날짜타입으로 변경 (주의사항 : 계약년월 컬럼과 계약일 컬럼의 데이터 타입이 int 인 상태)
df['계약일'] = df['계약년월'].astype('str') + df['계약일'].astype('str')

In [8]:
df['계약일'] = pd.to_datetime(df['계약일'], format="%Y%m%d")
df['계약일'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 12684 entries, 0 to 12683
Series name: 계약일
Non-Null Count  Dtype         
--------------  -----         
12684 non-null  datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 99.2 KB


In [9]:
# 계약일 데이터를 활용하여 "계약월" 과 "계약요일" 컬럼 생성
df['계약월'] = df['계약일'].dt.month
df['계약요일'] = df['계약일'].dt.dayofweek
df['계약요일'] = df['계약요일'].map({0:'월', 1:'화', 2:'수', 3:'목', 4:'금', 5:'토', 6:'일'})
df.head()

Unnamed: 0,시군구,단지명,전용면적,계약년월,계약일,거래금액(만원),층,건축년도,구,동,유형,계약월,계약요일
0,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,202204,2022-04-12,220000,4,1987.0,강남구,개포동,중형,4,화
1,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,202204,2022-04-21,220000,2,1987.0,강남구,개포동,중형,4,목
2,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,79.97,202205,2022-05-27,216000,2,1987.0,강남구,개포동,중형,5,금
3,서울특별시 강남구 개포동,개포래미안포레스트,102.32,202204,2022-04-01,369000,13,2020.0,강남구,개포동,대형,4,금
4,서울특별시 강남구 개포동,개포래미안포레스트,136.06,202205,2022-05-02,420000,17,2020.0,강남구,개포동,대형,5,월


In [10]:
# 결측치 체크
df.isnull().sum()

시군구          0
단지명          0
전용면적         0
계약년월         0
계약일          0
거래금액(만원)    33
층            0
건축년도         2
구            0
동            0
유형           0
계약월          0
계약요일         0
dtype: int64

In [11]:
# dropna를 활용하여 "거래금액(만원)" 컬럼에 결측치가 존재하는 아파트 거래 데이터를 삭제
# 인덱스도 초기화

df = df.dropna(subset='거래금액(만원)', ignore_index=True)
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12651 entries, 0 to 12650
Data columns (total 13 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   시군구       12651 non-null  object        
 1   단지명       12651 non-null  object        
 2   전용면적      12651 non-null  float64       
 3   계약년월      12651 non-null  int64         
 4   계약일       12651 non-null  datetime64[ns]
 5   거래금액(만원)  12651 non-null  object        
 6   층         12651 non-null  int64         
 7   건축년도      12649 non-null  float64       
 8   구         12651 non-null  object        
 9   동         12651 non-null  object        
 10  유형        12651 non-null  object        
 11  계약월       12651 non-null  int32         
 12  계약요일      12651 non-null  object        
dtypes: datetime64[ns](1), float64(2), int32(1), int64(2), object(7)
memory usage: 1.2+ MB


In [12]:
# 거래금액(만원) 컬럼의 콤마(,)를 삭제하고 숫자 형태 데이터로 바꾸기

df['거래금액(만원)'] = df['거래금액(만원)'].str.replace(',','')
df['거래금액(만원)'] = pd.to_numeric(df['거래금액(만원)'])
df['거래금액(만원)'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 12651 entries, 0 to 12650
Series name: 거래금액(만원)
Non-Null Count  Dtype
--------------  -----
12651 non-null  int64
dtypes: int64(1)
memory usage: 99.0 KB


In [13]:
# 거래금액을 기준으로 내림차순 정렬
df.sort_values('거래금액(만원)',ascending=False)

Unnamed: 0,시군구,단지명,전용면적,계약년월,계약일,거래금액(만원),층,건축년도,구,동,유형,계약월,계약요일
762,서울특별시 강남구 청담동,PH129,273.9600,202204,2022-04-28,1450000,16,2020.0,강남구,청담동,대형,4,목
11098,서울특별시 용산구 한남동,파르크한남,268.6700,202204,2022-04-30,1350000,5,2020.0,용산구,한남동,대형,4,토
8308,서울특별시 성동구 성수동1가,아크로서울포레스트,264.5460,202209,2022-09-30,1300000,47,2020.0,성동구,성수동1가,대형,9,금
11103,서울특별시 용산구 한남동,한남더힐,240.3050,202205,2022-05-30,1100000,3,2011.0,용산구,한남동,대형,5,월
11085,서울특별시 용산구 한남동,나인원한남,206.8953,202211,2022-11-07,945000,8,2019.0,용산구,한남동,대형,11,월
...,...,...,...,...,...,...,...,...,...,...,...,...,...
10439,서울특별시 영등포구 대림동,쌍용플래티넘S,17.4800,202209,2022-09-29,6700,7,2013.0,영등포구,대림동,소형,9,목
10420,서울특별시 영등포구 대림동,쌍용플래티넘S,17.4800,202209,2022-09-28,6700,7,2013.0,영등포구,대림동,소형,9,수
10440,서울특별시 영등포구 대림동,쌍용플래티넘S,17.4800,202209,2022-09-29,6700,7,2013.0,영등포구,대림동,소형,9,목
10442,서울특별시 영등포구 대림동,쌍용플래티넘S,17.4800,202209,2022-09-29,6700,7,2013.0,영등포구,대림동,소형,9,목


In [14]:
print("거래금액 평균값(만원):", df['거래금액(만원)'].mean())
print("거래금액 중앙값(만원):", df['거래금액(만원)'].median())

거래금액 평균값(만원): 97562.1373013991
거래금액 중앙값(만원): 75000.0


In [15]:
# 전용면적 단위는 제곱미터로 되어있다. 우리에게 익숙한 평 단위로 변경해보자(1평은 대략 3.3 제곱미터)
# round(,2)는 소수점 두번째 자리에서 반올림
df['전용면적'] = round(df['전용면적']/3.3, 2)
df = df.rename(columns={'전용면적':'전용면적(평)'})

In [16]:
df.head()

Unnamed: 0,시군구,단지명,전용면적(평),계약년월,계약일,거래금액(만원),층,건축년도,구,동,유형,계약월,계약요일
0,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,24.23,202204,2022-04-12,220000,4,1987.0,강남구,개포동,중형,4,화
1,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,24.23,202204,2022-04-21,220000,2,1987.0,강남구,개포동,중형,4,목
2,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,24.23,202205,2022-05-27,216000,2,1987.0,강남구,개포동,중형,5,금
3,서울특별시 강남구 개포동,개포래미안포레스트,31.01,202204,2022-04-01,369000,13,2020.0,강남구,개포동,대형,4,금
4,서울특별시 강남구 개포동,개포래미안포레스트,41.23,202205,2022-05-02,420000,17,2020.0,강남구,개포동,대형,5,월


In [None]:
# 평당금액 컬럼 생성
# 평당금액은 거래금액(만원)값을 전용면적(평) 값으로 나눈 값이다.

# 소수점 둘째자리 반올림(round 활용)
df['평당금액'] = round(df['거래금액(만원)']/df['전용면적(평)'],2)
df.head()

Unnamed: 0,시군구,단지명,전용면적(평),계약년월,계약일,거래금액(만원),층,건축년도,구,동,유형,계약월,계약요일,평당금액
0,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,24.23,202204,2022-04-12,220000,4,1987.0,강남구,개포동,중형,4,화,9079.65
1,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,24.23,202204,2022-04-21,220000,2,1987.0,강남구,개포동,중형,4,목,9079.65
2,서울특별시 강남구 개포동,개포6차우성아파트1동~8동,24.23,202205,2022-05-27,216000,2,1987.0,강남구,개포동,중형,5,금,8914.57
3,서울특별시 강남구 개포동,개포래미안포레스트,31.01,202204,2022-04-01,369000,13,2020.0,강남구,개포동,대형,4,금,11899.39
4,서울특별시 강남구 개포동,개포래미안포레스트,41.23,202205,2022-05-02,420000,17,2020.0,강남구,개포동,대형,5,월,10186.76
