In [None]:
import os
import pandas as pd
import numpy as np

In [None]:
os.getcwd()

In [None]:
os.chdir('../../data')

In [None]:
sorted(os.listdir())

In [None]:
apt = pd.read_pickle('APT_Price.pkl')

In [None]:
apt.info()

In [None]:
apt = apt.astype(dtype={
    '계약년도': int,
    '계약월': int,
    '계약일': int
})
apt.dtypes

In [None]:
cols = ['계약년도', '계약월', '계약일']
apt[cols] = apt[cols].astype(str)

apt.dtypes

In [None]:
apt['계약일자'] = apt['계약년도'] + '-' + apt['계약월'] + '-' + apt['계약일']
apt.head()

In [None]:
apt['계약일자'] = apt['계약일자'].astype('datetime64[ns]')
apt.dtypes

In [None]:
apt.head()

In [None]:
apt['계약일자'].dt.day_of_week.head()
# 0    4
# 1    0
# 2    1
# 3    5
# 4    6
# Name: 계약일자, dtype: int32

In [None]:
apt['계약일자'].dt.day_name().head()
# 0      Friday
# 1      Monday
# 2     Tuesday
# 3    Saturday
# 4      Sunday
# Name: 계약일자, dtype: object

In [None]:
apt['계약일자'].dt.day_name(locale='ko_kr').head()
# 0    금요일
# 1    월요일
# 2    화요일
# 3    토요일
# 4    일요일
# Name: 계약일자, dtype: object

### value_counts

In [None]:
apt['계약일자'].dt.day_name(locale='ko_kr').value_counts()
# 계약일자
# 토요일    57664
# 월요일    33447
# 금요일    33338
# 화요일    32698
# 수요일    32663
# 목요일    31074
# 일요일    11020
# Name: count, dtype: int64

In [None]:
apt['계약일자'].dt.day_name(locale='ko_kr').value_counts(normalize=True) * 100
# 계약일자
# 토요일    24.865462
# 월요일    14.422778
# 금요일    14.375776
# 화요일    14.099800
# 수요일    14.084707
# 목요일    13.399510
# 일요일     4.751966
# Name: proportion, dtype: float64

### 요일순서로 정렬

In [None]:
dt1 = apt['계약일자'].dt.day_of_week.astype(str)
dt2 = apt['계약일자'].dt.day_name(locale='ko_kr')
(dt1 + '-' + dt2).value_counts().sort_index()
# 계약일자
# 0-월요일    33447
# 1-화요일    32698
# 2-수요일    32663
# 3-목요일    31074
# 4-금요일    33338
# 5-토요일    57664
# 6-일요일    11020
# Name: count, dtype: int64

### strftime

In [None]:
apt['계약일자'].dt.strftime('%Y년 %m월 %d일 %a').head()
# 0    2020년 01월 31일 금
# 1    2020년 01월 06일 월
# 2    2020년 01월 14일 화
# 3    2020년 01월 04일 토
# 4    2020년 01월 12일 일
# Name: 계약일자, dtype: object

In [None]:
apt['계약일자'].dt.strftime('%a %b %d, %Y')

### locale

In [None]:
import locale

In [None]:
locale.getlocale(category=locale.LC_TIME)

In [None]:
locale.setlocale(category=locale.LC_TIME, locale='ko_KR')

In [None]:
apt['계약일자'].dt.strftime('%Y년 %m월 %d일 %A').head()
# 0    2020년 01월 31일 금요일
# 1    2020년 01월 06일 월요일
# 2    2020년 01월 14일 화요일
# 3    2020년 01월 04일 토요일
# 4    2020년 01월 12일 일요일
# Name: 계약일자, dtype: object

### 날짜시간형의 간격 계산

In [None]:
apt['처리일수'] = apt['등기일자'] - apt['계약일자']
apt['처리일수'].tail()
# 231899   22 days
# 231900   35 days
# 231901    2 days
# 231902       NaT
# 231903       NaT
# Name: 처리일수, dtype: timedelta64[ns]

In [None]:
apt['처리일수'].dt.days.tail()
# 231899    22.0
# 231900    35.0
# 231901     2.0
# 231902     NaN
# 231903     NaN
# Name: 처리일수, dtype: float64

In [None]:
apt['처리일수'].dt.days.mean()
# np.float64(78.1928333438109)

### 날짜시간 기본형이 아닌 문자열 처리
- 날짜시간형(datetime64[ns]) 시리즈의 각 원소는 Timestamp이다
- Timestamp 자료형에 timestamp 메서드를 실행하면 세계협정(UTC)값을 얻음
- Timestamp 자료형에 normalize 메서드를 실행하면 시:분:초를 초기화함

In [None]:
# 날짜시간형(datetime64[ns]) 시리즈의 각 원소는 Timestamp이다
# Timestamp 자료형에 timestamp 메서드를 실행하면 세계협정(UTC)값을 얻음
apt['계약일자'].iloc[0].timestamp()
# 1580428800.0

In [None]:
birth = pd.to_datetime(arg='1999년 8월 17일', format='%Y년 %m월 %d일')
birth
# Timestamp('1999-08-17 00:00:00')

In [None]:
# Timestamp 자료형에 normalize 메서드를 실행하면 시:분:초를 초기화함
today = pd.Timestamp.today().normalize()
today
# Timestamp('2026-01-09 00:00:00')

In [None]:
(today - birth).days

In [None]:
apt.head()

In [None]:
apt.groupby(by='시군구')['거래금액'].count().sort_values(ascending=False)

In [None]:
apt['시군구'].value_counts(normalize=True).sort_index()

### 시계열 데이터 다루기
- freq 매개변수에 간격을 문자열로 지정('D', 'ME', 'MS')

In [None]:
pd.date_range(start='2026-01-01', periods=10, freq='MS')
# DatetimeIndex(['2026-01-01', '2026-02-01', '2026-03-01', '2026-04-01',
#                '2026-05-01', '2026-06-01', '2026-07-01', '2026-08-01',
#                '2026-09-01', '2026-10-01'],
#               dtype='datetime64[ns]', freq='MS')

In [None]:
dates = pd.date_range(start='2026-01-01', periods=10, freq='D')
dates
# DatetimeIndex(['2026-01-01', '2026-01-02', '2026-01-03', '2026-01-04',
#                '2026-01-05', '2026-01-06', '2026-01-07', '2026-01-08',
#                '2026-01-09', '2026-01-10'],
#               dtype='datetime64[ns]', freq='D')

In [None]:
np.random.seed(1)
values = np.random.randint(50, 100, 10)
values

In [None]:
sr = pd.Series(data=values, index=dates, name='price')
sr
# 2026-01-01    87
# 2026-01-02    93
# 2026-01-03    62
# 2026-01-04    58
# 2026-01-05    59
# 2026-01-06    61
# 2026-01-07    55
# 2026-01-08    65
# 2026-01-09    50
# 2026-01-10    66
# Freq: D, Name: price, dtype: int64

In [None]:
sr.shift()
# 2026-01-01     NaN
# 2026-01-02    87.0
# 2026-01-03    93.0
# 2026-01-04    62.0
# 2026-01-05    58.0
# 2026-01-06    59.0
# 2026-01-07    61.0
# 2026-01-08    55.0
# 2026-01-09    65.0
# 2026-01-10    50.0
# Freq: D, Name: price, dtype: float64

In [None]:
sr.shift(-1)
# 2026-01-01    93.0
# 2026-01-02    62.0
# 2026-01-03    58.0
# 2026-01-04    59.0
# 2026-01-05    61.0
# 2026-01-06    55.0
# 2026-01-07    65.0
# 2026-01-08    50.0
# 2026-01-09    66.0
# 2026-01-10     NaN
# Freq: D, Name: price, dtype: float64

In [None]:
sr.diff()
# 2026-01-01     NaN
# 2026-01-02     6.0
# 2026-01-03   -31.0
# 2026-01-04    -4.0
# 2026-01-05     1.0
# 2026-01-06     2.0
# 2026-01-07    -6.0
# 2026-01-08    10.0
# 2026-01-09   -15.0
# 2026-01-10    16.0
# Freq: D, Name: price, dtype: float64

In [None]:
sr.pct_change() * 100
# 2026-01-01          NaN
# 2026-01-02     6.896552
# 2026-01-03   -33.333333
# 2026-01-04    -6.451613
# 2026-01-05     1.724138
# 2026-01-06     3.389831
# 2026-01-07    -9.836066
# 2026-01-08    18.181818
# 2026-01-09   -23.076923
# 2026-01-10    32.000000
# Freq: D, Name: price, dtype: float64

In [None]:
sr.rolling(window=5, min_periods=1).mean()

### 문자열을 수치형으로 강제 변환

In [None]:
ages = pd.Series([24,31,29, 43, 'NULL'])
ages

In [None]:
pd.to_numeric(arg=ages, errors='coerce')
# 0    24.0
# 1    31.0
# 2    29.0
# 3    43.0
# 4     NaN
# dtype: float64

In [None]:
ages[ages == 'NULL'] = np.nan

In [None]:
ages.astype(float)

### 문자열을 범주형으로 변환

In [None]:
gbn = ['구축', '준신축', '신축']
gbn

In [None]:

ctgry = pd.Series(data=gbn)
ctgry
# 0     구축
# 1    준신축
# 2     신축
# dtype: object

In [None]:
# 명목형
# ['구축', '준신축', '신축']
ctgry = pd.Series(data=gbn).astype('category')
ctgry
# 0     구축
# 1    준신축
# 2     신축
# dtype: category
# Categories (3, object): ['구축', '신축', '준신축']

In [None]:
ctgry.cat.codes
# 0    0
# 1    2
# 2    1
# dtype: int8

In [None]:
# 서열형
ctgry.cat.set_categories(new_categories=['구축', '준신축', '신축'], ordered=True)
# 0     구축
# 1    준신축
# 2     신축
# dtype: category
# Categories (3, object): ['구축' < '준신축' < '신축']

In [None]:
blood = ['A', 'O', 'B', 'AB', 'A', 'O', 'AB']
bld_cat = pd.Series(blood).astype('category')
bld_cat

In [None]:
bld_cat.cat.set_categories(new_categories=['O', 'A', 'AB', 'B'], ordered=True)

### apply 메서드

In [None]:
apt['단지명'].head()
# 0     삼익대청아파트
# 1        개포자이
# 2     개포주공6단지
# 3    디에이치아너힐즈
# 4     개포주공7단지
# Name: 단지명, dtype: object

In [None]:
apt['단지명'].apply(func=len).head()
# 0    7
# 1    4
# 2    7
# 3    8
# 4    7
# Name: 단지명, dtype: int64

In [None]:
cols = ['시도명', '시군구', '법정동', '지번']
apt[cols].shape
# (231904, 4)

In [None]:
# 시리즈별 적용
apt[cols].apply(func=len)
# 시도명    231904
# 시군구    231904
# 법정동    231904
# 지번     231904
# dtype: int64

In [None]:
# 시리즈별 적용
apt[cols].apply(func=len, axis=1).tail()
# 231899    4
# 231900    4
# 231901    4
# 231902    4
# 231903    4
# dtype: int64

In [None]:
# 셀값별로 적용
apt[cols].map(func=len).tail()
# 시도명	시군구	법정동	지번
# 231899	5	3	3	3
# 231900	5	3	3	3
# 231901	5	3	3	3
# 231902	5	3	3	3
# 231903	5	3	3	5

In [None]:
import seaborn as sns

In [None]:
iris = sns.load_dataset(name='iris')

In [None]:
iris.head()

In [None]:
iris.info()

In [None]:
iris = iris.select_dtypes(include=float)
iris.head()

In [None]:
# 상관계수 함수
from scipy.stats import pearsonr

In [None]:
# 상관계수(statistic)
# 유희확률(pvalue) : 귀무가설을 지지하는 정도(유의수준 0.05 기준으로 판단)
# 귀무가설 : 두 변수의 상관관계는 0이다
# e-37 : 10의 -37제곱 = 0이라고 봄
pearsonr(x=iris['sepal_length'], y=iris['petal_width'])
# PearsonRResult(statistic=np.float64(0.8179411262715756), pvalue=np.float64(2.3254980797931665e-37))

In [None]:
pearsonr(x=iris['sepal_length'], y=iris['petal_width']).pvalue

In [None]:
corr = lambda x: pearsonr(x=x, y=iris['petal_width']).pvalue

In [None]:
corr(x=iris['sepal_length'])

In [None]:
iris.apply(func=corr, axis=0)

In [None]:
corr = lambda x: pearsonr(x=x, y=iris['petal_width']).pvalue
iris.apply(func=corr, axis=0).lt(0.05)
# sepal_length    True
# sepal_width     True
# petal_length    True
# petal_width     True
# dtype: bool

In [None]:
coef = lambda x: pearsonr(x=x, y=iris['petal_width']).statistic
iris.apply(func=coef, axis=0)
# sepal_length    0.817941
# sepal_width    -0.366126
# petal_length    0.962865
# petal_width     1.000000
# dtype: float64

### 문자열 시리즈 결합

In [None]:
join_str = lambda x: ' '.join(x)

In [None]:
apt[cols].apply(func=join_str, axis=1).head()
# 0      서울특별시 강남구 개포동 12
# 1    서울특별시 강남구 개포동 12-2
# 2     서울특별시 강남구 개포동 185
# 3    서울특별시 강남구 개포동 1281
# 4     서울특별시 강남구 개포동 185
# dtype: object

In [None]:
apt['주소'] = apt[cols].apply(func=join_str, axis=1)
apt.head()

In [None]:
apt.head()

In [None]:
apt.info()

In [None]:
# 계약일자 만들기
join_str_2 = lambda x: '-'.join(x)

cols_2 = ['계약년도', '계약월', '계약일']
apt[cols_2].apply(func=join_str_2, axis=1).astype('datetime64[ns]')

### 열별 결측값 개수 확인

In [None]:
apt.isna().head()
# 거래금액	단지명	시도명	시군구	법정동	지번	입주년도	계약년도	계약월	계약일	등기일자	전용면적	층	평당금액	경과년수	재건축	계약일자	처리일수	주소
# 0	False	False	False	False	False	False	False	False	False	False	True	False	False	False	False	False	False	True	False
# 1	False	False	False	False	False	False	False	False	False	False	True	False	False	False	False	False	False	True	False
# 2	False	False	False	False	False	False	False	False	False	False	True	False	False	False	False	False	False	True	False
# 3	False	False	False	False	False	False	False	False	False	False	True	False	False	False	False	False	False	True	False
# 4	False	False	False	False	False	False	False	False	False	False	True	False	False	False	False	False	False	True	False


In [None]:
apt.isna().sum()
# 거래금액         0
# 단지명          0
# 시도명          0
# 시군구          0
# 법정동          0
# 지번           0
# 입주년도         0
# 계약년도         0
# 계약월          0
# 계약일          0
# 등기일자    152369
# 전용면적         0
# 층            0
# 평당금액         0
# 경과년수         0
# 재건축          0
# 계약일자         0
# 처리일수    152369
# 주소           0
# dtype: int64

In [None]:
apt.isna().mean() * 100
# 거래금액     0.000000
# 단지명      0.000000
# 시도명      0.000000
# 시군구      0.000000
# 법정동      0.000000
# 지번       0.000000
# 입주년도     0.000000
# 계약년도     0.000000
# 계약월      0.000000
# 계약일      0.000000
# 등기일자    65.703481
# 전용면적     0.000000
# 층        0.000000
# 평당금액     0.000000
# 경과년수     0.000000
# 재건축      0.000000
# 계약일자     0.000000
# 처리일수    65.703481
# 주소       0.000000
# dtype: float64

### 결측값 단순 대체

In [None]:
apt['등기일자'].fillna('1900-01-01').head()

In [None]:
days_mean = apt['처리일수'].dt.days.mean()

In [None]:
(apt['계약일자'] + pd.Timedelta(days_mean, unit='D')).head()

In [None]:
days_mean = apt['처리일수'].dt.days.mean()
apt['등기일자'].fillna(apt['계약일자'] + pd.Timedelta(days_mean, unit='D')).head()
# 0   2020-04-18 04:37:40.800905261
# 1   2020-03-24 04:37:40.800905261
# 2   2020-04-01 04:37:40.800905261
# 3   2020-03-22 04:37:40.800905261
# 4   2020-03-30 04:37:40.800905261
# Name: 등기일자, dtype: datetime64[ns]

### 결측값 처리 : 행 또는 열 삭제

In [None]:
apt.dropna()

In [None]:
apt = apt.dropna(axis=1)
apt.shape

### 결측값을 이전 셀 값으로 채우기

In [None]:
sorted(os.listdir())

In [None]:
na = pd.read_excel('NA_Sample.xlsx')
na
# 구분	항목	값
# 0	A	a	1.2
# 1	NaN	b	NaN
# 2	NaN	c	3.5
# 3	NaN	d	4.2
# 4	B	a	1.7
# 5	NaN	b	2.6
# 6	NaN	c	NaN
# 7	NaN	d	3.6

In [None]:
na['구분'] = na['구분'].ffill()
na
# 구분	항목	값
# 0	A	a	1.2
# 1	A	b	NaN
# 2	A	c	3.5
# 3	A	d	4.2
# 4	B	a	1.7
# 5	B	b	2.6
# 6	B	c	NaN
# 7	B	d	3.6

In [None]:
na['값'].interpolate()

In [None]:
na.groupby(by='구분')['값'].transform(func='mean')
# 0    2.966667
# 1    2.966667
# 2    2.966667
# 3    2.966667
# 4    2.633333
# 5    2.633333
# 6    2.633333
# 7    2.633333
# Name: 값, dtype: float64

In [None]:
na['값'].fillna(na.groupby(by='구분')['값'].transform(func='mean'))
# 0    1.200000
# 1    2.966667
# 2    3.500000
# 3    4.200000
# 4    1.700000
# 5    2.600000
# 6    2.633333
# 7    3.600000
# Name: 값, dtype: float64

### 데이터프레임 결합

In [None]:
df1 = apt.loc[:, '거래금액':'지번'].head()
df2 = apt.loc[:, '거래금액':'지번'].tail()

In [None]:
df1.columns.equals(df2.columns)
# True

In [None]:
pd.concat([df1, df2], ignore_index=True)
# 거래금액	단지명	시도명	시군구	법정동	지번
# 0	10.05	삼익대청아파트	서울특별시	강남구	개포동	12
# 1	20.30	개포자이	서울특별시	강남구	개포동	12-2
# 2	18.00	개포주공6단지	서울특별시	강남구	개포동	185
# 3	28.50	디에이치아너힐즈	서울특별시	강남구	개포동	1281
# 4	17.10	개포주공7단지	서울특별시	강남구	개포동	185
# 5	7.40	한신아파트상가동유치원동(102~102)	서울특별시	중랑구	중화동	450
# 6	5.05	삼익아파트.상가동	서울특별시	중랑구	중화동	438
# 7	6.00	한신아파트상가동유치원동(103~109)	서울특별시	중랑구	중화동	450
# 8	6.70	한신아파트상가동유치원동(102~102)	서울특별시	중랑구	중화동	450
# 9	1.10	범양프레체	서울특별시	중랑구	중화동	208-4

In [None]:
df2 = df2.rename(columns={'단지명': '아파트단지명'})

In [None]:
pd.concat([df1, df2], ignore_index=True)
# 거래금액	단지명	시도명	시군구	법정동	지번	아파트단지명
# 0	10.05	삼익대청아파트	서울특별시	강남구	개포동	12	NaN
# 1	20.30	개포자이	서울특별시	강남구	개포동	12-2	NaN
# 2	18.00	개포주공6단지	서울특별시	강남구	개포동	185	NaN
# 3	28.50	디에이치아너힐즈	서울특별시	강남구	개포동	1281	NaN
# 4	17.10	개포주공7단지	서울특별시	강남구	개포동	185	NaN
# 5	7.40	NaN	서울특별시	중랑구	중화동	450	한신아파트상가동유치원동(102~102)
# 6	5.05	NaN	서울특별시	중랑구	중화동	438	삼익아파트.상가동
# 7	6.00	NaN	서울특별시	중랑구	중화동	450	한신아파트상가동유치원동(103~109)
# 8	6.70	NaN	서울특별시	중랑구	중화동	450	한신아파트상가동유치원동(102~102)
# 9	1.10	NaN	서울특별시	중랑구	중화동	208-4	범양프레체

In [None]:
pd.concat([df1, df2], axis=1)
# 거래금액	단지명	시도명	시군구	법정동	지번	거래금액	아파트단지명	시도명	시군구	법정동	지번
# 0	10.05	삼익대청아파트	서울특별시	강남구	개포동	12	NaN	NaN	NaN	NaN	NaN	NaN
# 1	20.30	개포자이	서울특별시	강남구	개포동	12-2	NaN	NaN	NaN	NaN	NaN	NaN
# 2	18.00	개포주공6단지	서울특별시	강남구	개포동	185	NaN	NaN	NaN	NaN	NaN	NaN
# 3	28.50	디에이치아너힐즈	서울특별시	강남구	개포동	1281	NaN	NaN	NaN	NaN	NaN	NaN
# 4	17.10	개포주공7단지	서울특별시	강남구	개포동	185	NaN	NaN	NaN	NaN	NaN	NaN
# 220885	NaN	NaN	NaN	NaN	NaN	NaN	7.40	한신아파트상가동유치원동(102~102)	서울특별시	중랑구	중화동	450
# 220886	NaN	NaN	NaN	NaN	NaN	NaN	5.05	삼익아파트.상가동	서울특별시	중랑구	중화동	438
# 220887	NaN	NaN	NaN	NaN	NaN	NaN	6.00	한신아파트상가동유치원동(103~109)	서울특별시	중랑구	중화동	450
# 220888	NaN	NaN	NaN	NaN	NaN	NaN	6.70	한신아파트상가동유치원동(102~102)	서울특별시	중랑구	중화동	450
# 220889	NaN	NaN	NaN	NaN	NaN	NaN	1.10	범양프레체	서울특별시	중랑구	중화동	208-4

In [None]:
df2 = df2.reset_index(drop=True)

In [None]:
pd.concat([df1, df2], axis=1)
# 거래금액	단지명	시도명	시군구	법정동	지번	거래금액	아파트단지명	시도명	시군구	법정동	지번
# 0	10.05	삼익대청아파트	서울특별시	강남구	개포동	12	7.40	한신아파트상가동유치원동(102~102)	서울특별시	중랑구	중화동	450
# 1	20.30	개포자이	서울특별시	강남구	개포동	12-2	5.05	삼익아파트.상가동	서울특별시	중랑구	중화동	438
# 2	18.00	개포주공6단지	서울특별시	강남구	개포동	185	6.00	한신아파트상가동유치원동(103~109)	서울특별시	중랑구	중화동	450
# 3	28.50	디에이치아너힐즈	서울특별시	강남구	개포동	1281	6.70	한신아파트상가동유치원동(102~102)	서울특별시	중랑구	중화동	450
# 4	17.10	개포주공7단지	서울특별시	강남구	개포동	185	1.10	범양프레체	서울특별시	중랑구	중화동	208-4

### 데이터프레임 병합

In [None]:
sorted(os.listdir())

In [None]:
dtl = pd.read_excel('APT_Detail_Seoul_2024.xlsx')

In [None]:
dtl.head()

In [None]:
dtl.info()

In [None]:
dtl = dtl.rename(columns={
    '아파트명': '단지명',
    '지번주소': '주소'
})

## 외래키 확인 및 전처리

In [None]:
len(set(apt['단지명']))

In [None]:
# 교집합
len(set(apt['단지명']) & set(dtl['단지명']))

In [None]:
len(set(apt['주소']))

In [None]:
len(set(apt['주소']) & set(dtl['주소']))

In [None]:
apt['주소'].head()

In [None]:
dtl['주소'].head()

In [None]:
dtl['주소'] = dtl['주소'].str.replace(pat='서울시', repl='서울특별시')

In [None]:
len(set(apt['주소']) & set(dtl['주소']))
# 7147 # 현업에서 나머지는 수작업으로

### 데이터프레임에서 중복 행 삭제
- sr.duplicated() : 중복 여부를 True False로 반환
    - keep 매개변수에 'first'(기본값)을 지정하면 중복 건에 대해 처음 나오는 원소는 False 나머지는 True
        - 'last'를 지정하면 반대    
        - False를 지정하면 모든 중복 건에 대해 True 지정
    - subset 매개변수에 열이름 리스트를 지정하면 해당 컬럼을 기준으로 중복 여부 확인

In [None]:
apt['주소'].duplicated(keep=False).sum()
apt.duplicated(subset='주소', keep=False).sum()
# np.int64(220141)

- drop_duplicates
    - keep='first' : 중복이 아닌 값은 남기고, 중복이면 처음 나온 값만 남김
    - keep='last' : 중복이 아닌 값은 남기고, 중복이면 마지막에 나온 값만 남김
    - keep=False : 중복이 아닌 값은 남기고, 중복이면 모두 제거

In [None]:
apt.drop_duplicates(subset='주소', keep='first')

In [None]:
# 두 데이터프레임의 외래키에 중복 건이 있으면 병합 결과 행 개수가 늘어남
apt.shape # (231904, 17)
pd.merge(left=apt, right=dtl, how='left', on='주소').shape # (235991, 28)

In [149]:
dtl['주소'].duplicated(keep=False).sum()

np.int64(0)

In [None]:
# 중복인 행 모두 삭제
dups = dtl['주소'].duplicated(keep=False)
dtl.loc[dups, :]

Unnamed: 0,아파트ID,단지명,주소,위도,경도,동수,세대수,임대수,용적률,건폐율,주차대수,건설사


In [None]:
# 중복 첫 행은 남기고 삭제
dtl = dtl.drop_duplicates(subset='주소')

In [None]:
apt_cond = apt['주소'].eq('서울특별시 강남구 개포동 185')
apt_mini = apt.loc[apt_cond, ['주소', '단지명', '거래금액']].head()

dtl_cond = dtl['주소'].eq('서울특별시 강남구 개포동 185')
dtl_mini = dtl.loc[dtl_cond, ['주소', '위도', '경도']].head()

In [None]:
# 판다스 데이터프레임 또는 시리즈를 하나의 셀에서 함께 렌더링 하려면 print() 보다 display()를 사용
display(apt_mini)
display(dtl_mini)

In [None]:
pd.merge(left=apt_mini, right=dtl_mini, how='left', on='주소')

In [None]:
dtl_mini = dtl_mini.drop_duplicates(subset='주소')
dtl_mini

In [None]:
pd.merge(left=apt_mini, right=dtl_mini, how='left', on='주소')

### 데이터프레임 병합

In [None]:
set(apt.columns) & set(dtl.columns)

In [None]:
cols = ['주소', '세대수', '주차대수']
apt = pd.merge(left=apt, right=dtl[cols], how='inner', on='주소')
apt.shape

### 데이터 형태 변환

In [None]:
id_vars, value_vars = ['단지명'], ['세대수', '주차대수']
print(id_vars, value_vars)

In [None]:
widen = dtl.loc[:, id_vars + value_vars].sample(3, random_state=1)
widen = widen.reset_index(drop=True)
widen

### Long Type 으로 변환

In [None]:
elong = widen.melt(
    id_vars=id_vars,
    value_vars=value_vars,
    ignore_index=False
)

In [None]:
elong.sort_index()
# 단지명	variable	value
# 0	목동휘버스	세대수	24
# 0	목동휘버스	주차대수	28
# 1	북가좌삼호	세대수	616
# 1	북가좌삼호	주차대수	749
# 2	하이츠	세대수	24
# 2	하이츠	주차대수	50

### Wide Type 으로 변환

In [None]:
widen = elong.pivot(
    index=id_vars,
    columns='variable',
    values='value'
)

In [None]:
widen
# variable	세대수	주차대수
# 단지명		
# 목동휘버스	24	28
# 북가좌삼호	616	749
# 하이츠	24	50

In [None]:
widen.index
# Index(['목동휘버스', '북가좌삼호', '하이츠'], dtype='object', name='단지명')
widen.columns
# Index(['세대수', '주차대수'], dtype='object', name='variable')

In [None]:
# 데이터프레임의 행이름을 초기화할 때 index.name이 없으면
# 기존 인덱스를 첫 번째 열로 추가하면서 열이름은 'index'가 됨
widen = widen.reset_index()
# variable	단지명	세대수	주차대수
# 0	목동휘버스	24	28
# 1	북가좌삼호	616	749
# 2	하이츠	24	50

In [None]:
# columns.name이 불편하면 빈 문자열로 바꾸거나 None으로 삭제 가능
widen.columns.name # 'variable'

widen.columns.name = ''
widen.columns # Index(['단지명', '세대수', '주차대수'], dtype='object', name='')

widen.columns.name = None
widen.columns # Index(['단지명', '세대수', '주차대수'], dtype='object')