# Data Prep (정형 데이터 전처리)
- 데이터 분석
  - 주제 → 데이터 → 전처리 → 모형 → 리포팅 → 활용

### 주제
 - Step 1) 목표변수 : 수율 (측정가능)
 - Step 2) 가설 수립 가능 
 - Step 3) 도메인 지식 기반

In [1]:
import os
import numpy as np
import pandas as pd

In [2]:
os.getcwd()

'c:\\git\\DataAnalysisProcess'

In [3]:
os.chdir('./data')

In [4]:
os.getcwd()

'c:\\git\\DataAnalysisProcess\\data'

In [5]:
df = pd.read_excel(io = 'APT_Price_2023.xlsx')

In [6]:
df.head()

Unnamed: 0,거래금액,거래유형,건축년도,년,등기일자,법정동,아파트,월,일,전용면적,중개사소재지,지번,지역코드,층,해제사유발생일,해제여부
0,24000,직거래,1999,2023,23.03.06,역삼동,현대휴먼터치빌,1,6,25.92,,606-18,11680,10,,
1,23000,중개거래,2003,2023,23.01.13,역삼동,진넥스빌2,1,12,23.85,서울 강남구,706-24,11680,10,,
2,280000,중개거래,2006,2023,23.08.11,역삼동,개나리래미안,1,12,144.55,서울 강남구,754,11680,17,,
3,14000,중개거래,2012,2023,23.01.20,역삼동,요진와이시티미니,1,14,12.94,서울 강남구,727-9,11680,4,,
4,210000,중개거래,2006,2023,23.04.19,역삼동,개나리래미안,1,19,84.93,서울 강남구,754,11680,9,,


### Dtype
#### object 
 - 시리즈 원소에 문자열 포함
 - object는 str 이 아닌 str을 포함한다
#### int64
 - 정수
#### float64
 - 실수

※ 열별 자료형을 판단하는 것은 도메인 지식 필요

In [7]:
# 행 개수, 열 개수, 행이름, 열이름, 열별 결측값 아닌 개수 및 자료형 출력
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2260 entries, 0 to 2259
Data columns (total 16 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   거래금액     2260 non-null   object 
 1   거래유형     2260 non-null   object 
 2   건축년도     2260 non-null   int64  
 3   년        2260 non-null   int64  
 4   등기일자     1798 non-null   object 
 5   법정동      2260 non-null   object 
 6   아파트      2260 non-null   object 
 7   월        2260 non-null   int64  
 8   일        2260 non-null   int64  
 9   전용면적     2260 non-null   float64
 10  중개사소재지   2183 non-null   object 
 11  지번       2260 non-null   object 
 12  지역코드     2260 non-null   int64  
 13  층        2260 non-null   int64  
 14  해제사유발생일  104 non-null    object 
 15  해제여부     104 non-null    object 
dtypes: float64(1), int64(6), object(9)
memory usage: 282.6+ KB


In [8]:
# 행 및 열 개수 확인하기
df.shape

(2260, 16)

In [9]:
df.shape[0]

2260

In [10]:
# 열별 자료형을 series 로 보여주기
df.dtypes

거래금액        object
거래유형        object
건축년도         int64
년            int64
등기일자        object
법정동         object
아파트         object
월            int64
일            int64
전용면적       float64
중개사소재지      object
지번          object
지역코드         int64
층            int64
해제사유발생일     object
해제여부        object
dtype: object

### 결측값 처리 방법
#### 원본 데이터
#### 단순 대체(Simple Imputation)
 - 결측값을 대표값(ex. 연속형이면 평균 또는 중위수, 범주형이면 최빈값 등)으로 대체
#### 결측값이 있는 행 삭제
 - 특정 열에서 결측값이 일부(예를 들어, 5% 미만) 있다면 결측값이 있는 행을 삭제하는 방법
#### 다중대체(Multiple Imputation)
 - 원본 데이터셋의 분포에 기반한 여러 데이터셋을 무작위로 생성하고 다중회귀로 추정
 - 평균의 기댓값 == 모평균
##### 다중회귀
 - Y : 몸무게
 - X1 : 키
 - X2 : 성
 - X3 : 나이
```
Y = X1 + X2 + X3
```

#### 참고자료
 - https://bit.ly/imputations

### 열별 결측값 확인하기

In [11]:
# 열별 결측값 개수
df.isna().sum()

거래금액          0
거래유형          0
건축년도          0
년             0
등기일자        462
법정동           0
아파트           0
월             0
일             0
전용면적          0
중개사소재지       77
지번            0
지역코드          0
층             0
해제사유발생일    2156
해제여부       2156
dtype: int64

In [12]:
# 열별 결측값 평균
df.isna().mean() * 100

거래금액        0.000000
거래유형        0.000000
건축년도        0.000000
년           0.000000
등기일자       20.442478
법정동         0.000000
아파트         0.000000
월           0.000000
일           0.000000
전용면적        0.000000
중개사소재지      3.407080
지번          0.000000
지역코드        0.000000
층           0.000000
해제사유발생일    95.398230
해제여부       95.398230
dtype: float64

In [13]:
# 결측값을 NULL 로 대입 - 권장하는 것 아님
df.fillna('NULL')

Unnamed: 0,거래금액,거래유형,건축년도,년,등기일자,법정동,아파트,월,일,전용면적,중개사소재지,지번,지역코드,층,해제사유발생일,해제여부
0,24000,직거래,1999,2023,23.03.06,역삼동,현대휴먼터치빌,1,6,25.9200,,606-18,11680,10,,
1,23000,중개거래,2003,2023,23.01.13,역삼동,진넥스빌2,1,12,23.8500,서울 강남구,706-24,11680,10,,
2,280000,중개거래,2006,2023,23.08.11,역삼동,개나리래미안,1,12,144.5500,서울 강남구,754,11680,17,,
3,14000,중개거래,2012,2023,23.01.20,역삼동,요진와이시티미니,1,14,12.9400,서울 강남구,727-9,11680,4,,
4,210000,중개거래,2006,2023,23.04.19,역삼동,개나리래미안,1,19,84.9300,서울 강남구,754,11680,9,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2255,433000,중개거래,2002,2023,,도곡동,타워팰리스1,12,2,164.9700,서울 강남구,467,11680,18,,
2256,192000,중개거래,1978,2023,,도곡동,도곡쌍용예가,12,5,107.5300,서울 강남구,933,11680,8,,
2257,215000,중개거래,2006,2023,,도곡동,도곡렉슬,12,6,59.9818,서울 강남구,527,11680,19,,
2258,41800,중개거래,1999,2023,23.12.28,도곡동,현대비젼21,12,13,32.6500,서울 강남구,467-19,11680,23,,


In [14]:
# 결측값이 있는 행을 삭제한 결과 df.dropna(axis=0)
df.dropna()

Unnamed: 0,거래금액,거래유형,건축년도,년,등기일자,법정동,아파트,월,일,전용면적,중개사소재지,지번,지역코드,층,해제사유발생일,해제여부


In [15]:
# 결측값이 있는 열을 삭제한 결과
df.dropna(axis=1)

Unnamed: 0,거래금액,거래유형,건축년도,년,법정동,아파트,월,일,전용면적,지번,지역코드,층
0,24000,직거래,1999,2023,역삼동,현대휴먼터치빌,1,6,25.9200,606-18,11680,10
1,23000,중개거래,2003,2023,역삼동,진넥스빌2,1,12,23.8500,706-24,11680,10
2,280000,중개거래,2006,2023,역삼동,개나리래미안,1,12,144.5500,754,11680,17
3,14000,중개거래,2012,2023,역삼동,요진와이시티미니,1,14,12.9400,727-9,11680,4
4,210000,중개거래,2006,2023,역삼동,개나리래미안,1,19,84.9300,754,11680,9
...,...,...,...,...,...,...,...,...,...,...,...,...
2255,433000,중개거래,2002,2023,도곡동,타워팰리스1,12,2,164.9700,467,11680,18
2256,192000,중개거래,1978,2023,도곡동,도곡쌍용예가,12,5,107.5300,933,11680,8
2257,215000,중개거래,2006,2023,도곡동,도곡렉슬,12,6,59.9818,527,11680,19
2258,41800,중개거래,1999,2023,도곡동,현대비젼21,12,13,32.6500,467-19,11680,23


In [16]:
df = df.dropna(axis = 1)

In [17]:
df.shape

(2260, 12)

### 빈 문자열에 특정 값 할당

In [18]:
# 빈 문자열을 갖는 시리즈를 생성 - index = range(1, 6)
sr = pd.Series(data = ['A', 'B', '', np.nan, 'E'], index = [1,2,3,4,5])
sr

1      A
2      B
3       
4    NaN
5      E
dtype: object

In [19]:
# sr에서 결측값인 원소를 특정 값으로 대체
sr.fillna(value = 'NULL')

1       A
2       B
3        
4    NULL
5       E
dtype: object

In [20]:
sr.isna()

1    False
2    False
3    False
4     True
5    False
dtype: bool

In [21]:
sr.loc[sr.isna()] = 'NULL'

In [22]:
sr

1       A
2       B
3        
4    NULL
5       E
dtype: object

In [23]:
# sr에서 빈 문자열인 원소에 특정 값을 할당
sr.loc[sr == ''] = 'NULL'

In [24]:
sr

1       A
2       B
3    NULL
4    NULL
5       E
dtype: object

In [25]:
# 빈 문자열을 갖는 시리즈를 생성 with 인덱스 중복
sr2 = pd.Series(data = ['A', 'B', '', np.nan, 'E'], index = ['가'] * 5)
sr2

가      A
가      B
가       
가    NaN
가      E
dtype: object