In [None]:
import os
import numpy as np
import pandas as pd

In [None]:
os.getcwd()

In [None]:
os.chdir('../../data')

In [None]:
sorted(os.listdir())

In [None]:
apt = pd.read_csv('APT_Data_Prep.csv', parse_dates=['계약일자'], low_memory=False)

In [None]:
apt.head()

In [None]:
apt.info()

In [None]:
apt['시군구'].nunique()
# 25

In [None]:
# 원본 데이터의 순서대로 고유값을 나열
apt['시군구'].unique()
# array(['강남구', '강동구', '강북구', '강서구', '관악구', '광진구', '구로구', '금천구', '노원구',
#        '도봉구', '동대문구', '동작구', '마포구', '서대문구', '서초구', '성동구', '성북구', '송파구',
#        '양천구', '영등포구', '용산구', '은평구', '종로구', '중구', '중랑구'], dtype=object)

In [None]:
apt['시군구'].value_counts().sort_index()
# 시군구
# 강남구     12291
# 강동구     11958
# 강북구      4875
# 강서구     13610
# 관악구      6911
# 광진구      4176
# 구로구     10966
# 금천구      3976
# 노원구     19204
# 도봉구      8323
# 동대문구     9181
# 동작구      8325
# 마포구      8888
# 서대문구     7958
# 서초구      9963
# 성동구      9228
# 성북구     11995
# 송파구     14186
# 양천구      9032
# 영등포구    10486
# 용산구      4023
# 은평구      9064
# 종로구      2058
# 중구       3119
# 중랑구      7094
# Name: count, dtype: int64

In [None]:
cols = ['시군구', '계약년도']
apt[cols].value_counts()
# 시군구  계약년도
# 노원구  2020    8386
# 강서구  2020    5703
# 구로구  2020    4532
# 송파구  2020    4532
# 성북구  2020    4316
#              ... 
# 금천구  2022     270
# 강북구  2022     267
# 용산구  2022     242
# 중구   2022     193
# 종로구  2022     166
# Name: count, Length: 125, dtype: int64

In [None]:
apt[cols].value_counts(normalize=True) * 100
# 시군구  계약년도
# 노원구  2020    3.796460
# 강서구  2020    2.581828
# 구로구  2020    2.051700
# 송파구  2020    2.051700
# 성북구  2020    1.953914
#                ...   
# 금천구  2022    0.122233
# 강북구  2022    0.120875
# 용산구  2022    0.109557
# 중구   2022    0.087374
# 종로구  2022    0.075151
# Name: proportion, Length: 125, dtype: float64

In [None]:
apt[cols].value_counts().sort_index()
# 시군구  계약년도
# 강남구  2020    3555
#      2021    2175
#      2022     861
#      2023    2264
#      2024    3436
#              ... 
# 중랑구  2020    2709
#      2021    1589
#      2022     413
#      2023     868
#      2024    1515
# Name: count, Length: 125, dtype: int64

In [None]:
apt[cols].value_counts().sort_index().reset_index()
# 시군구	계약년도	count
# 0	강남구	2020	3555
# 1	강남구	2021	2175
# 2	강남구	2022	861
# 3	강남구	2023	2264
# 4	강남구	2024	3436
# ...	...	...	...
# 120	중랑구	2020	2709
# 121	중랑구	2021	1589
# 122	중랑구	2022	413
# 123	중랑구	2023	868
# 124	중랑구	2024	1515
# 125 rows × 3 columns

### 교차 테이블 생성

In [None]:
pd.crosstab(
    index=apt['시군구'],
    columns=apt['계약년도'],
    normalize='index',
    margins=True
).tail()
# 계약년도	2020	2021	2022	2023	2024
# 시군구					
# 은평구	0.371690	0.183914	0.070609	0.151920	0.221867
# 종로구	0.344509	0.215258	0.080661	0.149174	0.210398
# 중구	0.319333	0.187881	0.061879	0.172812	0.258096
# 중랑구	0.381872	0.223992	0.058218	0.122357	0.213561
# All	0.361144	0.187138	0.052560	0.153022	0.246136

### 기술통계량 확인

In [None]:
apt.describe().round(2)

In [None]:
apt.describe(include=[int, float]).round(2)
#       거래금액	    입주년도	계약년도	    계약월	    계약일	    전용면적	    층	        경과년수	    세대수	    주차대수
# count	220890.00	220890.00	220890.00	220890.00	220890.00	220890.00	220890.00	220890.00	220890.00	220890.00
# mean	10.11	    2002.32	    2021.74	    6.22	    15.82	    75.47	    9.53	    19.41	    1065.67	    1175.28
# std	7.46	    10.40	    1.64	    3.13	    8.67	    30.57	    6.37	    10.34	    1253.13	    1614.55
# min	0.62	    1961.00	    2020.00	    1.00	    1.00	    10.78	    -3.00	    -2.00	    1.00	    0.00
# 25%	5.70	    1996.00	    2020.00	    4.00	    8.00	    59.64	    5.00	    12.00	    259.00	    241.00
# 50%	8.30	    2002.00	    2021.00	    6.00	    16.00	    79.20	    9.00	    20.00	    668.00	    654.00
# 75%	12.40	    2010.00	    2023.00	    8.00	    23.00	    84.96	    13.00	    26.00	    1372.00	    1401.00
# max	220.00	    2024.00	    2024.00	    12.00	    31.00	    317.36	    68.00	    60.00	    9510.00	    12602.00

In [None]:
apt.describe(include=object)
# 단지명	시도명	시군구	법정동	지번	재건축
# count	220890	220890	220890	220890	220890	220890
# unique	6191	1	25	332	5131	2
# top	현대	서울특별시	노원구	상계동	1013	부족
# freq	1928	220890	19204	7130	1111	183056

In [None]:
apt.describe(include=['datetime', 'timedelta'])

### 이상치 처리

In [None]:
ages = pd.Series([-1, 0, 2, 3, 15])
ages.replace(15, 5)
# 0   -1
# 1    0
# 2    2
# 3    3
# 4    5
# dtype: int64

ages.replace([-1, 0], 1)
# 0     1
# 1     1
# 2     2
# 3     3
# 4    15
# dtype: int64

In [None]:
ages.clip(1, 5)
# 0    1
# 1    1
# 2    2
# 3    3
# 4    5
# dtype: int64