# Data Prep (정형 데이터 전처리)
- 데이터 분석
  - 주제 → 데이터 → 전처리 → 모형 → 리포팅 → 활용

### 주제
 - Step 1) 목표변수 : 수율 (측정가능)
 - Step 2) 가설 수립 가능 
 - Step 3) 도메인 지식 기반

In [1]:
import os
import numpy as np
import pandas as pd

from datetime import datetime

In [2]:
os.getcwd()

'c:\\git\\DataAnalysisProcess'

In [3]:
os.chdir('./data')

In [4]:
os.getcwd()

'c:\\git\\DataAnalysisProcess\\data'

In [5]:
df = pd.read_excel(io = 'APT_Price_2023.xlsx')

In [6]:
df.head()

Unnamed: 0,거래금액,거래유형,건축년도,년,등기일자,법정동,아파트,월,일,전용면적,중개사소재지,지번,지역코드,층,해제사유발생일,해제여부
0,24000,직거래,1999,2023,23.03.06,역삼동,현대휴먼터치빌,1,6,25.92,,606-18,11680,10,,
1,23000,중개거래,2003,2023,23.01.13,역삼동,진넥스빌2,1,12,23.85,서울 강남구,706-24,11680,10,,
2,280000,중개거래,2006,2023,23.08.11,역삼동,개나리래미안,1,12,144.55,서울 강남구,754,11680,17,,
3,14000,중개거래,2012,2023,23.01.20,역삼동,요진와이시티미니,1,14,12.94,서울 강남구,727-9,11680,4,,
4,210000,중개거래,2006,2023,23.04.19,역삼동,개나리래미안,1,19,84.93,서울 강남구,754,11680,9,,


### Dtype
#### object 
 - 시리즈 원소에 문자열 포함
 - object는 str 이 아닌 str을 포함한다
#### int64
 - 정수
#### float64
 - 실수

※ 열별 자료형을 판단하는 것은 도메인 지식 필요

In [7]:
# 행 개수, 열 개수, 행이름, 열이름, 열별 결측값 아닌 개수 및 자료형 출력
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2260 entries, 0 to 2259
Data columns (total 16 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   거래금액     2260 non-null   object 
 1   거래유형     2260 non-null   object 
 2   건축년도     2260 non-null   int64  
 3   년        2260 non-null   int64  
 4   등기일자     1798 non-null   object 
 5   법정동      2260 non-null   object 
 6   아파트      2260 non-null   object 
 7   월        2260 non-null   int64  
 8   일        2260 non-null   int64  
 9   전용면적     2260 non-null   float64
 10  중개사소재지   2183 non-null   object 
 11  지번       2260 non-null   object 
 12  지역코드     2260 non-null   int64  
 13  층        2260 non-null   int64  
 14  해제사유발생일  104 non-null    object 
 15  해제여부     104 non-null    object 
dtypes: float64(1), int64(6), object(9)
memory usage: 282.6+ KB


In [8]:
# 행 및 열 개수 확인하기
df.shape

(2260, 16)

In [9]:
df.shape[0]

2260

In [10]:
# 열별 자료형을 series 로 보여주기
df.dtypes

거래금액        object
거래유형        object
건축년도         int64
년            int64
등기일자        object
법정동         object
아파트         object
월            int64
일            int64
전용면적       float64
중개사소재지      object
지번          object
지역코드         int64
층            int64
해제사유발생일     object
해제여부        object
dtype: object

### 결측값 처리 방법
#### 원본 데이터
#### 단순 대체(Simple Imputation)
 - 결측값을 대표값(ex. 연속형이면 평균 또는 중위수, 범주형이면 최빈값 등)으로 대체
#### 결측값이 있는 행 삭제
 - 특정 열에서 결측값이 일부(예를 들어, 5% 미만) 있다면 결측값이 있는 행을 삭제하는 방법
#### 다중대체(Multiple Imputation)
 - 원본 데이터셋의 분포에 기반한 여러 데이터셋을 무작위로 생성하고 다중회귀로 추정
 - 평균의 기댓값 == 모평균
##### 다중회귀
 - Y : 몸무게
 - X1 : 키
 - X2 : 성
 - X3 : 나이
```
Y = X1 + X2 + X3
```

#### 참고자료
 - https://bit.ly/imputations

### 열별 결측값 확인하기

In [11]:
# 열별 결측값 개수
df.isna().sum()

거래금액          0
거래유형          0
건축년도          0
년             0
등기일자        462
법정동           0
아파트           0
월             0
일             0
전용면적          0
중개사소재지       77
지번            0
지역코드          0
층             0
해제사유발생일    2156
해제여부       2156
dtype: int64

In [12]:
# 열별 결측값 평균
df.isna().mean() * 100

거래금액        0.000000
거래유형        0.000000
건축년도        0.000000
년           0.000000
등기일자       20.442478
법정동         0.000000
아파트         0.000000
월           0.000000
일           0.000000
전용면적        0.000000
중개사소재지      3.407080
지번          0.000000
지역코드        0.000000
층           0.000000
해제사유발생일    95.398230
해제여부       95.398230
dtype: float64

In [13]:
# 결측값을 NULL 로 대입 - 권장하는 것 아님
df.fillna('NULL')

Unnamed: 0,거래금액,거래유형,건축년도,년,등기일자,법정동,아파트,월,일,전용면적,중개사소재지,지번,지역코드,층,해제사유발생일,해제여부
0,24000,직거래,1999,2023,23.03.06,역삼동,현대휴먼터치빌,1,6,25.9200,,606-18,11680,10,,
1,23000,중개거래,2003,2023,23.01.13,역삼동,진넥스빌2,1,12,23.8500,서울 강남구,706-24,11680,10,,
2,280000,중개거래,2006,2023,23.08.11,역삼동,개나리래미안,1,12,144.5500,서울 강남구,754,11680,17,,
3,14000,중개거래,2012,2023,23.01.20,역삼동,요진와이시티미니,1,14,12.9400,서울 강남구,727-9,11680,4,,
4,210000,중개거래,2006,2023,23.04.19,역삼동,개나리래미안,1,19,84.9300,서울 강남구,754,11680,9,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2255,433000,중개거래,2002,2023,,도곡동,타워팰리스1,12,2,164.9700,서울 강남구,467,11680,18,,
2256,192000,중개거래,1978,2023,,도곡동,도곡쌍용예가,12,5,107.5300,서울 강남구,933,11680,8,,
2257,215000,중개거래,2006,2023,,도곡동,도곡렉슬,12,6,59.9818,서울 강남구,527,11680,19,,
2258,41800,중개거래,1999,2023,23.12.28,도곡동,현대비젼21,12,13,32.6500,서울 강남구,467-19,11680,23,,


In [14]:
# 결측값이 있는 행을 삭제한 결과 df.dropna(axis=0)
df.dropna()

Unnamed: 0,거래금액,거래유형,건축년도,년,등기일자,법정동,아파트,월,일,전용면적,중개사소재지,지번,지역코드,층,해제사유발생일,해제여부


In [15]:
# 결측값이 있는 열을 삭제한 결과
df.dropna(axis=1)

Unnamed: 0,거래금액,거래유형,건축년도,년,법정동,아파트,월,일,전용면적,지번,지역코드,층
0,24000,직거래,1999,2023,역삼동,현대휴먼터치빌,1,6,25.9200,606-18,11680,10
1,23000,중개거래,2003,2023,역삼동,진넥스빌2,1,12,23.8500,706-24,11680,10
2,280000,중개거래,2006,2023,역삼동,개나리래미안,1,12,144.5500,754,11680,17
3,14000,중개거래,2012,2023,역삼동,요진와이시티미니,1,14,12.9400,727-9,11680,4
4,210000,중개거래,2006,2023,역삼동,개나리래미안,1,19,84.9300,754,11680,9
...,...,...,...,...,...,...,...,...,...,...,...,...
2255,433000,중개거래,2002,2023,도곡동,타워팰리스1,12,2,164.9700,467,11680,18
2256,192000,중개거래,1978,2023,도곡동,도곡쌍용예가,12,5,107.5300,933,11680,8
2257,215000,중개거래,2006,2023,도곡동,도곡렉슬,12,6,59.9818,527,11680,19
2258,41800,중개거래,1999,2023,도곡동,현대비젼21,12,13,32.6500,467-19,11680,23


In [16]:
df = df.dropna(axis = 1)

In [17]:
df.shape

(2260, 12)

### 빈 문자열에 특정 값 할당

In [18]:
# 빈 문자열을 갖는 시리즈를 생성 - index = range(1, 6)
sr = pd.Series(data = ['A', 'B', '', np.nan, 'E'], index = [1,2,3,4,5])
sr

1      A
2      B
3       
4    NaN
5      E
dtype: object

In [19]:
# sr에서 결측값인 원소를 특정 값으로 대체
sr.fillna(value = 'NULL')

1       A
2       B
3        
4    NULL
5       E
dtype: object

In [20]:
sr.isna()

1    False
2    False
3    False
4     True
5    False
dtype: bool

In [21]:
sr.loc[sr.isna()] = 'NULL'

In [22]:
sr

1       A
2       B
3        
4    NULL
5       E
dtype: object

In [23]:
# sr에서 빈 문자열인 원소에 특정 값을 할당
sr.loc[sr == ''] = 'NULL'

In [24]:
sr

1       A
2       B
3    NULL
4    NULL
5       E
dtype: object

In [25]:
# 빈 문자열을 갖는 시리즈를 생성 with 인덱스 중복
sr2 = pd.Series(data = ['A', 'B', '', np.nan, 'E'], index = ['가'] * 5)
sr2

가      A
가      B
가       
가    NaN
가      E
dtype: object

### iloc(Integer Location) 인덱서는 정수 인덱스로 원소를 선택

In [26]:
sr.iloc[0]

'A'

In [27]:
sr.iloc[0:2]

1    A
2    B
dtype: object

In [28]:
sr.iloc[[0,2]]

1       A
3    NULL
dtype: object

### loc(Location) 인덱서는 행이름으로 원소를 선택

In [29]:
sr.loc[1]

'A'

In [30]:
sr.loc[1:2]

1    A
2    B
dtype: object

In [31]:
sr.loc[[1,3]]

1       A
3    NULL
dtype: object

### 열이름으로 열 선택
- 대괄호 안에 문자열 스칼라를 지정하면 시리즈로 반환
- 대괄호 안에 리스트를 지정하면 데이터 프레임으로 반환
- 대괄호 안에 슬라이스를 지정하면 데이터 프레임으로 반환

In [32]:
df.head()

Unnamed: 0,거래금액,거래유형,건축년도,년,법정동,아파트,월,일,전용면적,지번,지역코드,층
0,24000,직거래,1999,2023,역삼동,현대휴먼터치빌,1,6,25.92,606-18,11680,10
1,23000,중개거래,2003,2023,역삼동,진넥스빌2,1,12,23.85,706-24,11680,10
2,280000,중개거래,2006,2023,역삼동,개나리래미안,1,12,144.55,754,11680,17
3,14000,중개거래,2012,2023,역삼동,요진와이시티미니,1,14,12.94,727-9,11680,4
4,210000,중개거래,2006,2023,역삼동,개나리래미안,1,19,84.93,754,11680,9


In [33]:
# '지역코드' 열만 선택 - 시리즈
df['지역코드']

0       11680
1       11680
2       11680
3       11680
4       11680
        ...  
2255    11680
2256    11680
2257    11680
2258    11680
2259    11680
Name: 지역코드, Length: 2260, dtype: int64

In [34]:
# '지역코드' 열만 선택 - 데이터프레임
df[['지역코드']]

Unnamed: 0,지역코드
0,11680
1,11680
2,11680
3,11680
4,11680
...,...
2255,11680
2256,11680
2257,11680
2258,11680


In [35]:
df.loc[:, '지역코드']

0       11680
1       11680
2       11680
3       11680
4       11680
        ...  
2255    11680
2256    11680
2257    11680
2258    11680
2259    11680
Name: 지역코드, Length: 2260, dtype: int64

In [36]:
# 여러 개 열 선택
df[['거래금액','거래유형','건축년도']]

Unnamed: 0,거래금액,거래유형,건축년도
0,24000,직거래,1999
1,23000,중개거래,2003
2,280000,중개거래,2006
3,14000,중개거래,2012
4,210000,중개거래,2006
...,...,...,...
2255,433000,중개거래,2002
2256,192000,중개거래,1978
2257,215000,중개거래,2006
2258,41800,중개거래,1999


In [37]:
df.loc[:, ['거래금액','거래유형','건축년도']]

Unnamed: 0,거래금액,거래유형,건축년도
0,24000,직거래,1999
1,23000,중개거래,2003
2,280000,중개거래,2006
3,14000,중개거래,2012
4,210000,중개거래,2006
...,...,...,...
2255,433000,중개거래,2002
2256,192000,중개거래,1978
2257,215000,중개거래,2006
2258,41800,중개거래,1999


In [38]:
# Slice
df.loc[:, '거래금액':'건축년도']

Unnamed: 0,거래금액,거래유형,건축년도
0,24000,직거래,1999
1,23000,중개거래,2003
2,280000,중개거래,2006
3,14000,중개거래,2012
4,210000,중개거래,2006
...,...,...,...
2255,433000,중개거래,2002
2256,192000,중개거래,1978
2257,215000,중개거래,2006
2258,41800,중개거래,1999


In [39]:
df.dtypes == 'int64'

거래금액    False
거래유형    False
건축년도     True
년        True
법정동     False
아파트     False
월        True
일        True
전용면적    False
지번      False
지역코드     True
층        True
dtype: bool

In [40]:
df.loc[:, df.dtypes == 'int64']

Unnamed: 0,건축년도,년,월,일,지역코드,층
0,1999,2023,1,6,11680,10
1,2003,2023,1,12,11680,10
2,2006,2023,1,12,11680,17
3,2012,2023,1,14,11680,4
4,2006,2023,1,19,11680,9
...,...,...,...,...,...,...
2255,2002,2023,12,2,11680,18
2256,1978,2023,12,5,11680,8
2257,2006,2023,12,6,11680,19
2258,1999,2023,12,13,11680,23


In [41]:
# 정수 또는 실수 열만 Filtering
df.loc[:, (df.dtypes == 'int64') | (df.dtypes == 'float64')]

Unnamed: 0,건축년도,년,월,일,전용면적,지역코드,층
0,1999,2023,1,6,25.9200,11680,10
1,2003,2023,1,12,23.8500,11680,10
2,2006,2023,1,12,144.5500,11680,17
3,2012,2023,1,14,12.9400,11680,4
4,2006,2023,1,19,84.9300,11680,9
...,...,...,...,...,...,...,...
2255,2002,2023,12,2,164.9700,11680,18
2256,1978,2023,12,5,107.5300,11680,8
2257,2006,2023,12,6,59.9818,11680,19
2258,1999,2023,12,13,32.6500,11680,23


In [42]:
df.select_dtypes(include= [int, float])

Unnamed: 0,건축년도,년,월,일,전용면적,지역코드,층
0,1999,2023,1,6,25.9200,11680,10
1,2003,2023,1,12,23.8500,11680,10
2,2006,2023,1,12,144.5500,11680,17
3,2012,2023,1,14,12.9400,11680,4
4,2006,2023,1,19,84.9300,11680,9
...,...,...,...,...,...,...,...
2255,2002,2023,12,2,164.9700,11680,18
2256,1978,2023,12,5,107.5300,11680,8
2257,2006,2023,12,6,59.9818,11680,19
2258,1999,2023,12,13,32.6500,11680,23


### 열 이름으로 열 삭제

In [43]:
df.drop(columns='지역코드')

Unnamed: 0,거래금액,거래유형,건축년도,년,법정동,아파트,월,일,전용면적,지번,층
0,24000,직거래,1999,2023,역삼동,현대휴먼터치빌,1,6,25.9200,606-18,10
1,23000,중개거래,2003,2023,역삼동,진넥스빌2,1,12,23.8500,706-24,10
2,280000,중개거래,2006,2023,역삼동,개나리래미안,1,12,144.5500,754,17
3,14000,중개거래,2012,2023,역삼동,요진와이시티미니,1,14,12.9400,727-9,4
4,210000,중개거래,2006,2023,역삼동,개나리래미안,1,19,84.9300,754,9
...,...,...,...,...,...,...,...,...,...,...,...
2255,433000,중개거래,2002,2023,도곡동,타워팰리스1,12,2,164.9700,467,18
2256,192000,중개거래,1978,2023,도곡동,도곡쌍용예가,12,5,107.5300,933,8
2257,215000,중개거래,2006,2023,도곡동,도곡렉슬,12,6,59.9818,527,19
2258,41800,중개거래,1999,2023,도곡동,현대비젼21,12,13,32.6500,467-19,23


In [44]:
df.head()

Unnamed: 0,거래금액,거래유형,건축년도,년,법정동,아파트,월,일,전용면적,지번,지역코드,층
0,24000,직거래,1999,2023,역삼동,현대휴먼터치빌,1,6,25.92,606-18,11680,10
1,23000,중개거래,2003,2023,역삼동,진넥스빌2,1,12,23.85,706-24,11680,10
2,280000,중개거래,2006,2023,역삼동,개나리래미안,1,12,144.55,754,11680,17
3,14000,중개거래,2012,2023,역삼동,요진와이시티미니,1,14,12.94,727-9,11680,4
4,210000,중개거래,2006,2023,역삼동,개나리래미안,1,19,84.93,754,11680,9


In [45]:
df = df.drop(columns=['지역코드', '거래유형'])

In [46]:
df.head()

Unnamed: 0,거래금액,건축년도,년,법정동,아파트,월,일,전용면적,지번,층
0,24000,1999,2023,역삼동,현대휴먼터치빌,1,6,25.92,606-18,10
1,23000,2003,2023,역삼동,진넥스빌2,1,12,23.85,706-24,10
2,280000,2006,2023,역삼동,개나리래미안,1,12,144.55,754,17
3,14000,2012,2023,역삼동,요진와이시티미니,1,14,12.94,727-9,4
4,210000,2006,2023,역삼동,개나리래미안,1,19,84.93,754,9


### 열 이름 변경

In [47]:
df.rename(columns={'년': '거래년도', '월': '거래월', '일':'거래일'})

Unnamed: 0,거래금액,건축년도,거래년도,법정동,아파트,거래월,거래일,전용면적,지번,층
0,24000,1999,2023,역삼동,현대휴먼터치빌,1,6,25.9200,606-18,10
1,23000,2003,2023,역삼동,진넥스빌2,1,12,23.8500,706-24,10
2,280000,2006,2023,역삼동,개나리래미안,1,12,144.5500,754,17
3,14000,2012,2023,역삼동,요진와이시티미니,1,14,12.9400,727-9,4
4,210000,2006,2023,역삼동,개나리래미안,1,19,84.9300,754,9
...,...,...,...,...,...,...,...,...,...,...
2255,433000,2002,2023,도곡동,타워팰리스1,12,2,164.9700,467,18
2256,192000,1978,2023,도곡동,도곡쌍용예가,12,5,107.5300,933,8
2257,215000,2006,2023,도곡동,도곡렉슬,12,6,59.9818,527,19
2258,41800,1999,2023,도곡동,현대비젼21,12,13,32.6500,467-19,23


In [48]:
df.columns

Index(['거래금액', '건축년도', '년', '법정동', '아파트', '월', '일', '전용면적', '지번', '층'], dtype='object')

In [49]:
# [주의] 데이터프레임의 열 개수와 같은 길이의 리스트를 지정해야합니다.
df.columns = ['거래금액', '건축년도', '거래년도', '법정동', '아파트', '거래월', '거래일', '전용면적', '지번', '층']

In [50]:
df.head()

Unnamed: 0,거래금액,건축년도,거래년도,법정동,아파트,거래월,거래일,전용면적,지번,층
0,24000,1999,2023,역삼동,현대휴먼터치빌,1,6,25.92,606-18,10
1,23000,2003,2023,역삼동,진넥스빌2,1,12,23.85,706-24,10
2,280000,2006,2023,역삼동,개나리래미안,1,12,144.55,754,17
3,14000,2012,2023,역삼동,요진와이시티미니,1,14,12.94,727-9,4
4,210000,2006,2023,역삼동,개나리래미안,1,19,84.93,754,9


### 데이터프레임의 열별 자료형 변환 방법 3 가지

In [51]:
# Create a DataFrame with integer data
data = {
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8],
    'C': [9, 10, 11, 12],
    'D': [13, 14, 15, 16],
    'E': [18, 18, 19, 20]
}

# Convert the data to strings
data_str = {key: list(map(str, value)) for key, value in data.items()}

# Create the DataFrame
df2 = pd.DataFrame(data_str)

print(df2)
df2.info()

   A  B   C   D   E
0  1  5   9  13  18
1  2  6  10  14  18
2  3  7  11  15  19
3  4  8  12  16  20
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   A       4 non-null      object
 1   B       4 non-null      object
 2   C       4 non-null      object
 3   D       4 non-null      object
 4   E       4 non-null      object
dtypes: object(5)
memory usage: 292.0+ bytes


#### 1. 데이터프레임에서 열별로 자료형을 변환할 때

In [52]:
df2['A'] = df2['A'].astype(dtype=int)

df2.dtypes

A     int32
B    object
C    object
D    object
E    object
dtype: object

#### 2. 데이터프레임에서 일부 열을 다른 자료형으로 변환할 때

In [53]:
df2 = df2.astype(dtype = {'B' : int, 'C' : int})

df2.dtypes

A     int32
B     int32
C     int32
D    object
E    object
dtype: object

#### 3. 데이터프레임에서 전체 열을 같은 자료형으로 변환할 때

In [54]:
cols = ['D', 'E']

df2[cols] = df2[cols].astype(dtype = int)

df2.dtypes

A    int32
B    int32
C    int32
D    int32
E    int32
dtype: object

### 거래금액의 원소 자료형을 정수형으로 반환

In [55]:
# 거래금액 열의 ',' 문자 삭제
df['거래금액'] = df['거래금액'].str.replace(pat = ',', repl ='').astype(dtype = int)

In [56]:
df['거래금액'].dtypes

dtype('int32')

In [57]:
df.dtypes

거래금액      int32
건축년도      int64
거래년도      int64
법정동      object
아파트      object
거래월       int64
거래일       int64
전용면적    float64
지번       object
층         int64
dtype: object

In [58]:
cols = ['거래년도', '거래월', '거래일']

df[cols] = df[cols].astype(dtype = str)

df.dtypes

거래금액      int32
건축년도      int64
거래년도     object
법정동      object
아파트      object
거래월      object
거래일      object
전용면적    float64
지번       object
층         int64
dtype: object

In [59]:
df['거래일자'] = df['거래년도'] + '-' + df['거래월'] + '-' + df['거래일']

In [60]:
df.head()

Unnamed: 0,거래금액,건축년도,거래년도,법정동,아파트,거래월,거래일,전용면적,지번,층,거래일자
0,24000,1999,2023,역삼동,현대휴먼터치빌,1,6,25.92,606-18,10,2023-1-6
1,23000,2003,2023,역삼동,진넥스빌2,1,12,23.85,706-24,10,2023-1-12
2,280000,2006,2023,역삼동,개나리래미안,1,12,144.55,754,17,2023-1-12
3,14000,2012,2023,역삼동,요진와이시티미니,1,14,12.94,727-9,4,2023-1-14
4,210000,2006,2023,역삼동,개나리래미안,1,19,84.93,754,9,2023-1-19


In [61]:
df = df.astype({'거래일자' : 'datetime64[ns]'})

df.head()

Unnamed: 0,거래금액,건축년도,거래년도,법정동,아파트,거래월,거래일,전용면적,지번,층,거래일자
0,24000,1999,2023,역삼동,현대휴먼터치빌,1,6,25.92,606-18,10,2023-01-06
1,23000,2003,2023,역삼동,진넥스빌2,1,12,23.85,706-24,10,2023-01-12
2,280000,2006,2023,역삼동,개나리래미안,1,12,144.55,754,17,2023-01-12
3,14000,2012,2023,역삼동,요진와이시티미니,1,14,12.94,727-9,4,2023-01-14
4,210000,2006,2023,역삼동,개나리래미안,1,19,84.93,754,9,2023-01-19


In [62]:
df.dtypes

거래금액             int32
건축년도             int64
거래년도            object
법정동             object
아파트             object
거래월             object
거래일             object
전용면적           float64
지번              object
층                int64
거래일자    datetime64[ns]
dtype: object

In [63]:
# 날짜 시간 기본형이 아닌 문자열 처리
date = '1983년 12월 31일'

# 날짜시간 기본형이 아닌 문자열 시리즈를 날짜 시간형으로 변환 불가
#pd.Series(data = [date]).astype(dtype = 'datetime[ns]')

# 날짜 시간 기본형이 아닌 문자열을 날짜시간형으로 변환
birth = pd.to_datetime(arg = date, format = '%Y년 %m월 %d일')

birth

Timestamp('1983-12-31 00:00:00')

In [64]:
birth.timestamp()

441676800.0

In [65]:
today = pd.Timestamp.today()
today

Timestamp('2024-08-07 16:08:25.952500')

In [66]:
today.timestamp()

1723046905.9525

In [67]:
dtGap = today - birth
dtGap.days

14830

In [68]:
dates = ['2020년 1월 1일', '12년 12월 31일', '25년 12월 31일']

In [69]:
# 현재 연도의 끝 두 자리 가져오기
current_year = datetime.now().year
current_year_last_two_digits = current_year % 100

In [70]:
# 문자열을 datetime 객체로 변환하는 함수 정의
def convert_date(date_str):
    # 년, 월, 일 분리
    if '년' in date_str and '월' in date_str and '일' in date_str:
        date_parts = date_str.split()
        year = date_parts[0].replace('년', '')
        month = date_parts[1].replace('월', '')
        day = date_parts[2].replace('일', '')

        # 2자리 년도를 4자리로 변환
        if len(year) == 2:
            if int(year) > current_year_last_two_digits:
                year = '19' + year
            else:
                year = '20' + year

        # datetime 형식으로 변환
        return pd.to_datetime(f'{year}-{month}-{day}', format='%Y-%m-%d')
    else:
        return pd.NaT  # 형식이 맞지 않는 경우 NaT 반환

In [71]:
# 날짜 문자열 리스트를 DataFrame으로 변환
df3 = pd.DataFrame({'original_dates': dates})

# datetime 형식으로 변환된 새로운 열 추가
df3['converted_dates'] = df3['original_dates'].apply(convert_date)

In [72]:
# 결과 출력
print(df3)

  original_dates converted_dates
0    2020년 1월 1일      2020-01-01
1    12년 12월 31일      2012-12-31
2    25년 12월 31일      1925-12-31


In [73]:
df['거래일자'].dt.day_name(locale='ko_KR')

0       금요일
1       목요일
2       목요일
3       토요일
4       목요일
       ... 
2255    토요일
2256    화요일
2257    수요일
2258    수요일
2259    금요일
Name: 거래일자, Length: 2260, dtype: object

In [74]:
df['거래일자'].dt.day_name(locale='ko_KR').value_counts()

거래일자
토요일    516
목요일    349
수요일    336
금요일    333
화요일    329
월요일    311
일요일     86
Name: count, dtype: int64

In [75]:
df['거래일자'].dt.day_name(locale='ko_KR').value_counts(normalize=True) * 100

거래일자
토요일    22.831858
목요일    15.442478
수요일    14.867257
금요일    14.734513
화요일    14.557522
월요일    13.761062
일요일     3.805310
Name: proportion, dtype: float64

In [76]:
df['거래일자'].dt.month.astype(str).value_counts()

거래일자
8     280
6     274
5     270
7     247
4     201
9     201
2     195
3     190
10    140
11    110
1     106
12     46
Name: count, dtype: int64

### 조건에 맞는 행 Filter
#### 산술 연산자
- `+`
- `-`
- `*`
- `/`
- `**` 제곱
- `%` 나머지
- `//` 몫
#### 비교 연산자
- `>=`
- `>`
- `<=`
- `<`
- `==`
- `!=`
#### 논리 연산자
- `and`
- `or`
- `not`
#### 비트 연산자
- `&`
- `|`
- `~` (tilde)
#### 연산자 우선순위
 - POMDAS 비트 비교 논리
   - P : 괄호
   - O : 제곱
   - M : 곱
   - D : 나머지
   - A : 더하기
   - S : 

In [77]:
# '대치동' 으로 한정
cond = (df['법정동'] == '대치동')
df.loc[cond, '거래월'].value_counts(normalize = True) * 100

거래월
6     15.094340
5     12.668464
8     11.859838
7     10.512129
4      9.164420
2      8.355795
3      7.816712
10     7.547170
9      5.929919
11     5.121294
1      3.773585
12     2.156334
Name: proportion, dtype: float64

In [78]:
# 거래 금액이 50억인 이상 행 Filter
cond = (df['거래금액'] >= 500000)
df.loc[cond, :]

Unnamed: 0,거래금액,건축년도,거래년도,법정동,아파트,거래월,거래일,전용면적,지번,층,거래일자
226,580000,1978,2023,압구정동,"현대6차(78~81,83,84,86,87동)",2,14,157.360,456,4,2023-02-14
362,821000,2006,2023,청담동,상지리츠빌카일룸2차,3,18,244.320,128-18,5,2023-03-18
403,600000,2004,2023,신사동,압구정하이츠파크,3,17,213.050,632,20,2023-03-17
411,580000,1982,2023,압구정동,신현대12차,3,3,182.950,434,13,2023-03-03
412,580000,1982,2023,압구정동,신현대12차,3,3,182.950,434,13,2023-03-03
...,...,...,...,...,...,...,...,...,...,...,...
2128,500000,2017,2023,청담동,더갤러리파크,11,1,180.580,54-5,6,2023-11-01
2140,599000,2004,2023,삼성동,아이파크,11,23,145.046,87,38,2023-11-23
2169,500000,1979,2023,압구정동,"현대7차(73~77,82,85동)",11,29,144.200,456,3,2023-11-29
2222,530000,2017,2023,청담동,더갤러리파크,12,1,163.910,54-5,5,2023-12-01


In [79]:
# 거래 금액이 50억인 이상 행 Filter
cond = (df['거래금액'] < 500000) & (df['층'] >= 25)
df.loc[cond, :]

Unnamed: 0,거래금액,건축년도,거래년도,법정동,아파트,거래월,거래일,전용면적,지번,층,거래일자
140,250000,2019,2023,개포동,래미안블레스티지,2,4,84.940,1280,27,2023-02-04
160,315000,2019,2023,개포동,래미안블레스티지,2,16,99.991,1280,27,2023-02-16
180,330000,2011,2023,청담동,청담자이,2,15,89.115,134-38,32,2023-02-15
246,253000,2021,2023,일원동,디에이치자이개포,2,10,84.730,743,28,2023-02-10
252,253000,2021,2023,일원동,디에이치자이개포,2,18,84.730,743,28,2023-02-18
...,...,...,...,...,...,...,...,...,...,...,...
2184,190000,2021,2023,일원동,디에이치자이개포,11,18,84.940,743,33,2023-11-18
2205,375000,2002,2023,도곡동,타워팰리스1,11,11,137.240,467,42,2023-11-11
2206,495000,2002,2023,도곡동,타워팰리스1,11,13,164.970,467,31,2023-11-13
2210,315000,2003,2023,도곡동,타워팰리스2,11,24,115.630,467-17,25,2023-11-24


In [80]:
df.dtypes

거래금액             int32
건축년도             int64
거래년도            object
법정동             object
아파트             object
거래월             object
거래일             object
전용면적           float64
지번              object
층                int64
거래일자    datetime64[ns]
dtype: object

In [81]:
df['거래년도'] = df['거래년도'].astype(dtype = int)
df.dtypes

거래금액             int32
건축년도             int64
거래년도             int32
법정동             object
아파트             object
거래월             object
거래일             object
전용면적           float64
지번              object
층                int64
거래일자    datetime64[ns]
dtype: object

In [82]:
# 2020년 ~ 2023년 서울에서 팔린 가장 비싼 아파트
cond = (df['거래년도'] <= 2023) & (df['거래년도'] >= 2020)
filtered_df = df.loc[cond, :]
filtered_df

Unnamed: 0,거래금액,건축년도,거래년도,법정동,아파트,거래월,거래일,전용면적,지번,층,거래일자
0,24000,1999,2023,역삼동,현대휴먼터치빌,1,6,25.9200,606-18,10,2023-01-06
1,23000,2003,2023,역삼동,진넥스빌2,1,12,23.8500,706-24,10,2023-01-12
2,280000,2006,2023,역삼동,개나리래미안,1,12,144.5500,754,17,2023-01-12
3,14000,2012,2023,역삼동,요진와이시티미니,1,14,12.9400,727-9,4,2023-01-14
4,210000,2006,2023,역삼동,개나리래미안,1,19,84.9300,754,9,2023-01-19
...,...,...,...,...,...,...,...,...,...,...,...
2255,433000,2002,2023,도곡동,타워팰리스1,12,2,164.9700,467,18,2023-12-02
2256,192000,1978,2023,도곡동,도곡쌍용예가,12,5,107.5300,933,8,2023-12-05
2257,215000,2006,2023,도곡동,도곡렉슬,12,6,59.9818,527,19,2023-12-06
2258,41800,1999,2023,도곡동,현대비젼21,12,13,32.6500,467-19,23,2023-12-13


In [83]:
filtered_df['법정동'].value_counts()

법정동
개포동     382
대치동     371
도곡동     312
역삼동     256
일원동     235
수서동     182
삼성동     126
압구정동    121
청담동      89
논현동      65
자곡동      56
세곡동      44
신사동      18
율현동       3
Name: count, dtype: int64

In [84]:
# 가장 비싼 아파트
most_expensive = filtered_df.loc[filtered_df['거래금액'].idxmax()]

# Display the result
print("서울에서 2020년 ~ 2023년에 팔린 가장 비싼 아파트는 다음과 같습니다:")
print(f"지역: {most_expensive['법정동']}")
print(f"아파트: {most_expensive['아파트']}")
print(f"가격: {most_expensive['거래금액']:,} 만원")

서울에서 2020년 ~ 2023년에 팔린 가장 비싼 아파트는 다음과 같습니다:
지역: 도곡동
아파트: 타워팰리스1
가격: 990,000 만원


In [85]:
df[df['법정동'] == '청담동'].shape[0]

89

### isin()
> 시리즈 원소가 리스트에 있으면 True, 없으면 False를 반환

In [86]:
df[(df['법정동'] == '청담동') | (df['법정동'] == '삼성동')].shape[0]

215

In [87]:
df[df['법정동'].isin(values = ['청담동', '삼성동'])].shape[0]

215

In [88]:
df[(df['법정동'] == '청담동') | (df['법정동'] == '삼성동') | (df['법정동'] == '압구정동')].shape[0]

336

In [89]:
df[df['법정동'].isin(values = ['청담동', '삼성동', '압구정동'])].shape[0]

336

### 파생변수 생성
#### 평당 금액
 - 거래금액을 전용면적으로 나누고 3.3을 곱한 평당 금액

In [90]:
df['평당금액'] = df['거래금액'] / df['전용면적'] * 3.3
df.head()

Unnamed: 0,거래금액,건축년도,거래년도,법정동,아파트,거래월,거래일,전용면적,지번,층,거래일자,평당금액
0,24000,1999,2023,역삼동,현대휴먼터치빌,1,6,25.92,606-18,10,2023-01-06,3055.555556
1,23000,2003,2023,역삼동,진넥스빌2,1,12,23.85,706-24,10,2023-01-12,3182.389937
2,280000,2006,2023,역삼동,개나리래미안,1,12,144.55,754,17,2023-01-12,6392.251816
3,14000,2012,2023,역삼동,요진와이시티미니,1,14,12.94,727-9,4,2023-01-14,3570.324575
4,210000,2006,2023,역삼동,개나리래미안,1,19,84.93,754,9,2023-01-19,8159.660897


In [91]:
df['거래금액'] = df['거래금액'] / 10000
df.head()

Unnamed: 0,거래금액,건축년도,거래년도,법정동,아파트,거래월,거래일,전용면적,지번,층,거래일자,평당금액
0,2.4,1999,2023,역삼동,현대휴먼터치빌,1,6,25.92,606-18,10,2023-01-06,3055.555556
1,2.3,2003,2023,역삼동,진넥스빌2,1,12,23.85,706-24,10,2023-01-12,3182.389937
2,28.0,2006,2023,역삼동,개나리래미안,1,12,144.55,754,17,2023-01-12,6392.251816
3,1.4,2012,2023,역삼동,요진와이시티미니,1,14,12.94,727-9,4,2023-01-14,3570.324575
4,21.0,2006,2023,역삼동,개나리래미안,1,19,84.93,754,9,2023-01-19,8159.660897


In [92]:
df['경과년수'] = df['거래년도'].astype(int) - df['건축년도']
df.head()

Unnamed: 0,거래금액,건축년도,거래년도,법정동,아파트,거래월,거래일,전용면적,지번,층,거래일자,평당금액,경과년수
0,2.4,1999,2023,역삼동,현대휴먼터치빌,1,6,25.92,606-18,10,2023-01-06,3055.555556,24
1,2.3,2003,2023,역삼동,진넥스빌2,1,12,23.85,706-24,10,2023-01-12,3182.389937,20
2,28.0,2006,2023,역삼동,개나리래미안,1,12,144.55,754,17,2023-01-12,6392.251816,17
3,1.4,2012,2023,역삼동,요진와이시티미니,1,14,12.94,727-9,4,2023-01-14,3570.324575,11
4,21.0,2006,2023,역삼동,개나리래미안,1,19,84.93,754,9,2023-01-19,8159.660897,17


### 구간화(binning)
> 연속형 변수를 기준에 따라 2개 이상의 구간으로 나누어 범주형 변수로 변환

#### 평당금액을 '5천 이상', '5천 미만' 범주로 나눈 금액 구간을 생성

In [93]:
cond = (df['평당금액'] >= 5000)

df['금액구간'] = np.where(cond, '5천 이상', '5천 미만')

df.head()

Unnamed: 0,거래금액,건축년도,거래년도,법정동,아파트,거래월,거래일,전용면적,지번,층,거래일자,평당금액,경과년수,금액구간
0,2.4,1999,2023,역삼동,현대휴먼터치빌,1,6,25.92,606-18,10,2023-01-06,3055.555556,24,5천 미만
1,2.3,2003,2023,역삼동,진넥스빌2,1,12,23.85,706-24,10,2023-01-12,3182.389937,20,5천 미만
2,28.0,2006,2023,역삼동,개나리래미안,1,12,144.55,754,17,2023-01-12,6392.251816,17,5천 이상
3,1.4,2012,2023,역삼동,요진와이시티미니,1,14,12.94,727-9,4,2023-01-14,3570.324575,11,5천 미만
4,21.0,2006,2023,역삼동,개나리래미안,1,19,84.93,754,9,2023-01-19,8159.660897,17,5천 이상


In [94]:
# Function to apply background color based on condition
def highlight_cells(value):
    color = 'background-color: red' if value == '5천 이상' else ''
    return color

# Apply the function to the 금액구간 column
styled_df = df.style.applymap(highlight_cells, subset=['금액구간'])

# Display the styled DataFrame
styled_df

  styled_df = df.style.applymap(highlight_cells, subset=['금액구간'])


Unnamed: 0,거래금액,건축년도,거래년도,법정동,아파트,거래월,거래일,전용면적,지번,층,거래일자,평당금액,경과년수,금액구간
0,2.4,1999,2023,역삼동,현대휴먼터치빌,1,6,25.92,606-18,10,2023-01-06 00:00:00,3055.555556,24,5천 미만
1,2.3,2003,2023,역삼동,진넥스빌2,1,12,23.85,706-24,10,2023-01-12 00:00:00,3182.389937,20,5천 미만
2,28.0,2006,2023,역삼동,개나리래미안,1,12,144.55,754,17,2023-01-12 00:00:00,6392.251816,17,5천 이상
3,1.4,2012,2023,역삼동,요진와이시티미니,1,14,12.94,727-9,4,2023-01-14 00:00:00,3570.324575,11,5천 미만
4,21.0,2006,2023,역삼동,개나리래미안,1,19,84.93,754,9,2023-01-19 00:00:00,8159.660897,17,5천 이상
5,16.7,2005,2023,역삼동,역삼래미안,1,20,59.4,757,15,2023-01-20 00:00:00,9277.777778,18,5천 이상
6,15.0,2010,2023,역삼동,래미안그레이튼(진달래2차),1,27,59.91,762-3,19,2023-01-27 00:00:00,8262.39359,13,5천 이상
7,1.89,2012,2023,역삼동,요진와이시티미니,1,27,12.1,727-9,7,2023-01-27 00:00:00,5154.545455,11,5천 이상
8,29.0,1984,2023,개포동,경남1,1,2,166.48,649,8,2023-01-02 00:00:00,5748.438251,39,5천 이상
9,8.17,1992,2023,개포동,성원대치2단지아파트,1,2,33.18,12,2,2023-01-02 00:00:00,8125.678119,31,5천 이상


### 데이터 정렬

In [95]:
df.sort_values(by = '층', ascending=False)

Unnamed: 0,거래금액,건축년도,거래년도,법정동,아파트,거래월,거래일,전용면적,지번,층,거래일자,평당금액,경과년수,금액구간
1746,67.0,2004,2023,도곡동,타워팰리스3,8,18,244.224,467-29,62,2023-08-18,9053.164308,19,5천 이상
2092,49.7,2002,2023,도곡동,타워팰리스1,10,9,164.970,467,58,2023-10-09,9941.807601,21,5천 이상
1759,39.0,2004,2023,도곡동,타워팰리스3,8,30,141.706,467-29,58,2023-08-30,9082.184241,19,5천 이상
1482,99.0,2002,2023,도곡동,타워팰리스1,7,31,301.470,467,55,2023-07-31,10836.899194,21,5천 이상
294,35.5,2004,2023,도곡동,타워팰리스3,2,21,141.648,467-29,53,2023-02-21,8270.501525,19,5천 이상
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
740,18.0,1983,2023,개포동,개포주공6단지,5,13,53.060,185,1,2023-05-13,11194.873728,40,5천 이상
2100,18.4,1995,2023,도곡동,럭키(963),10,26,84.970,963,1,2023-10-26,7146.051548,28,5천 이상
1589,39.0,1984,2023,대치동,개포우성2,8,2,127.780,500,1,2023-08-02,10071.998748,39,5천 이상
769,41.0,2001,2023,청담동,대우리츠카운티,5,17,211.720,117-22,1,2023-05-17,6390.515776,22,5천 이상


In [96]:
df.sort_values(by = '층')

Unnamed: 0,거래금액,건축년도,거래년도,법정동,아파트,거래월,거래일,전용면적,지번,층,거래일자,평당금액,경과년수,금액구간
1640,62.50,1983,2023,압구정동,신현대11차,8,3,183.410,433,1,2023-08-03,11245.297421,40,5천 이상
917,8.70,1992,2023,수서동,신동아,5,26,33.180,736,1,2023-05-26,8652.802893,31,5천 이상
769,41.00,2001,2023,청담동,대우리츠카운티,5,17,211.720,117-22,1,2023-05-17,6390.515776,22,5천 이상
239,11.10,1994,2023,일원동,푸른마을아파트101동~111동,2,4,59.760,719,1,2023-02-04,6129.518072,29,5천 이상
1096,22.75,1999,2023,대치동,대치현대,6,20,101.600,974,1,2023-06-20,7389.271654,24,5천 이상
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
294,35.50,2004,2023,도곡동,타워팰리스3,2,21,141.648,467-29,53,2023-02-21,8270.501525,19,5천 이상
1482,99.00,2002,2023,도곡동,타워팰리스1,7,31,301.470,467,55,2023-07-31,10836.899194,21,5천 이상
1759,39.00,2004,2023,도곡동,타워팰리스3,8,30,141.706,467-29,58,2023-08-30,9082.184241,19,5천 이상
2092,49.70,2002,2023,도곡동,타워팰리스1,10,9,164.970,467,58,2023-10-09,9941.807601,21,5천 이상


In [97]:
df.sort_values(by = ['층', '거래금액'], ascending=False)

Unnamed: 0,거래금액,건축년도,거래년도,법정동,아파트,거래월,거래일,전용면적,지번,층,거래일자,평당금액,경과년수,금액구간
1746,67.00,2004,2023,도곡동,타워팰리스3,8,18,244.224,467-29,62,2023-08-18,9053.164308,19,5천 이상
2092,49.70,2002,2023,도곡동,타워팰리스1,10,9,164.970,467,58,2023-10-09,9941.807601,21,5천 이상
1759,39.00,2004,2023,도곡동,타워팰리스3,8,30,141.706,467-29,58,2023-08-30,9082.184241,19,5천 이상
1482,99.00,2002,2023,도곡동,타워팰리스1,7,31,301.470,467,55,2023-07-31,10836.899194,21,5천 이상
1760,71.80,2003,2023,도곡동,타워팰리스2,8,30,243.140,467-17,53,2023-08-30,9745.002879,20,5천 이상
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1447,7.90,1993,2023,수서동,까치마을,7,29,34.440,746,1,2023-07-29,7569.686411,30,5천 이상
839,7.30,2005,2023,논현동,학동,5,16,74.600,217-34,1,2023-05-16,3229.222520,18,5천 미만
1911,7.21,1993,2023,수서동,까치마을,9,7,39.600,746,1,2023-09-07,6008.333333,30,5천 이상
2230,4.60,2003,2023,삼성동,SM드림빌,12,18,52.790,29-11,1,2023-12-18,2875.544611,20,5천 미만


In [98]:
df.sort_values(by = ['층', '거래금액'], ascending=[False, True])

Unnamed: 0,거래금액,건축년도,거래년도,법정동,아파트,거래월,거래일,전용면적,지번,층,거래일자,평당금액,경과년수,금액구간
1746,67.0,2004,2023,도곡동,타워팰리스3,8,18,244.224,467-29,62,2023-08-18,9053.164308,19,5천 이상
1759,39.0,2004,2023,도곡동,타워팰리스3,8,30,141.706,467-29,58,2023-08-30,9082.184241,19,5천 이상
2092,49.7,2002,2023,도곡동,타워팰리스1,10,9,164.970,467,58,2023-10-09,9941.807601,21,5천 이상
1482,99.0,2002,2023,도곡동,타워팰리스1,7,31,301.470,467,55,2023-07-31,10836.899194,21,5천 이상
294,35.5,2004,2023,도곡동,타워팰리스3,2,21,141.648,467-29,53,2023-02-21,8270.501525,19,5천 이상
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
414,41.5,1980,2023,압구정동,현대8차(성수현대:91~95동),3,4,163.670,481,1,2023-03-04,8367.446692,43,5천 이상
575,48.0,2008,2023,삼성동,아델하우스,4,18,211.600,64-5,1,2023-04-18,7485.822306,15,5천 이상
841,48.0,2004,2023,논현동,동양파라곤,5,25,180.070,245,1,2023-05-25,8796.579108,19,5천 이상
1883,53.7,1980,2023,압구정동,현대8차(성수현대:91~95동),9,27,163.670,481,1,2023-09-27,10827.274394,43,5천 이상


### 집계함수로 데이터 요약

In [99]:
df['거래금액'].count()

2260

In [100]:
# 합
df['거래금액'].sum()

48964.308899999996

In [101]:
# 평균
df['거래금액'].mean()

21.665623407079643

In [102]:
# 표준편차
df['거래금액'].std()

12.117358854020912

In [103]:
# 최소
df['거래금액'].min()

1.4

In [104]:
# 최대
df['거래금액'].max()

99.0

### 범주별 집계 함수로 데이터 요약

In [105]:
# 법정동별 거래금액의 건수
df.groupby(by = '법정동')['거래금액'].count().sort_values(ascending=False)

법정동
개포동     382
대치동     371
도곡동     312
역삼동     256
일원동     235
수서동     182
삼성동     126
압구정동    121
청담동      89
논현동      65
자곡동      56
세곡동      44
신사동      18
율현동       3
Name: 거래금액, dtype: int64

In [106]:
# 법정동별 거래금액의 합계
df.groupby(by = '법정동')['거래금액'].sum().sort_values(ascending=False)

법정동
대치동     9824.0900
도곡동     7830.0100
개포동     7154.5900
압구정동    5355.1500
일원동     4433.3400
역삼동     4207.7320
삼성동     2916.0900
청담동     2324.9555
수서동     2244.1950
논현동      881.2614
자곡동      778.3100
세곡동      559.9150
신사동      422.8700
율현동       31.8000
Name: 거래금액, dtype: float64

In [107]:
# 법정동별 거래금액의 평균
df.groupby(by = '법정동')['거래금액'].mean().sort_values(ascending=False)

법정동
압구정동    44.257438
대치동     26.480027
청담동     26.123096
도곡동     25.096186
신사동     23.492778
삼성동     23.143571
일원동     18.865277
개포동     18.729293
역삼동     16.436453
자곡동     13.898393
논현동     13.557868
세곡동     12.725341
수서동     12.330742
율현동     10.600000
Name: 거래금액, dtype: float64

In [108]:
# 법정동별 거래금액의 표준편차
df.groupby(by = '법정동')['거래금액'].std().sort_values(ascending=False)

법정동
신사동     20.617350
청담동     16.135499
삼성동     13.719509
도곡동     12.563278
압구정동    12.276875
대치동      9.682611
논현동      9.608798
역삼동      9.271425
개포동      7.305774
일원동      5.718115
수서동      4.795038
자곡동      2.893454
세곡동      1.191815
율현동      0.173205
Name: 거래금액, dtype: float64

In [109]:
# 법정동별 거래금액의 최소값
df.groupby(by = '법정동')['거래금액'].min().sort_values(ascending=False)

법정동
압구정동    20.00
율현동     10.50
세곡동      9.75
자곡동      8.98
일원동      7.91
수서동      7.21
신사동      5.50
개포동      5.00
삼성동      3.00
대치동      2.60
도곡동      2.59
청담동      2.05
논현동      1.95
역삼동      1.40
Name: 거래금액, dtype: float64

In [110]:
# 법정동별 거래금액의 최대값
df.groupby(by = '법정동')['거래금액'].max().sort_values(ascending=False)

법정동
도곡동     99.00
청담동     90.00
압구정동    78.00
삼성동     65.85
신사동     60.50
대치동     53.50
논현동     48.00
개포동     44.80
역삼동     43.70
일원동     40.00
수서동     38.00
자곡동     19.50
세곡동     15.75
율현동     10.80
Name: 거래금액, dtype: float64

### 범주형 변수의 도수/상대도수 확인

In [111]:
# 법정동에서 중복을 제거한 고유값을 반환
df['법정동'].unique()

array(['역삼동', '개포동', '청담동', '삼성동', '대치동', '신사동', '압구정동', '일원동', '수서동',
       '도곡동', '논현동', '세곡동', '자곡동', '율현동'], dtype=object)

In [112]:
# 법정동에서 중복을 제거한 고유값 개수을 반환
df['법정동'].nunique()

14

In [113]:
# 법정동별 도수를 내림차순 정렬한 결과를 반환
df['법정동'].value_counts()

법정동
개포동     382
대치동     371
도곡동     312
역삼동     256
일원동     235
수서동     182
삼성동     126
압구정동    121
청담동      89
논현동      65
자곡동      56
세곡동      44
신사동      18
율현동       3
Name: count, dtype: int64

In [114]:
# 법정동별 도수를 인덱스로 오름차순 정렬한 결과를 반환
df['법정동'].value_counts().sort_index()

법정동
개포동     382
논현동      65
대치동     371
도곡동     312
삼성동     126
세곡동      44
수서동     182
신사동      18
압구정동    121
역삼동     256
율현동       3
일원동     235
자곡동      56
청담동      89
Name: count, dtype: int64

In [115]:
# 법정동별 상대도수를 내림차순 정렬한 결과를 반환
df['법정동'].value_counts(normalize=True)

법정동
개포동     0.169027
대치동     0.164159
도곡동     0.138053
역삼동     0.113274
일원동     0.103982
수서동     0.080531
삼성동     0.055752
압구정동    0.053540
청담동     0.039381
논현동     0.028761
자곡동     0.024779
세곡동     0.019469
신사동     0.007965
율현동     0.001327
Name: proportion, dtype: float64