## 데이터 전처리

### 관련 라이브러리 호출

In [1]:
# 관련 라이브러리를 호출합니다.

import os
import chardet
import joblib
import numpy as np
import pandas as pd

### 작업경로 확인 및 변경

In [2]:
# 현재 작업 경로를 확인합니다.

os.getcwd()

'D:\\Data\\python2023\\PythonDataAnalysis1\\live'

In [3]:
# data 폴더로 작업 경로를 변경합니다.
# os.chdir(path = '../data')

os.chdir('../data')

In [4]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.

os.listdir()

['APT_Detail_Seoul_2022.csv',
 'APT_Detail_Seoul_2022.xlsx',
 'APT_Price_Seoul_2020.csv',
 'APT_Price_Seoul_2020_2022.xlsx',
 'APT_Price_Seoul_2021.csv',
 'APT_Price_Seoul_2022.csv',
 'code',
 'NA_Sample.xlsx']

In [5]:
# 현재 작업 경로에 있는 폴더명과 파일명을 정렬해서 출력합니다.

sorted(os.listdir())

['APT_Detail_Seoul_2022.csv',
 'APT_Detail_Seoul_2022.xlsx',
 'APT_Price_Seoul_2020.csv',
 'APT_Price_Seoul_2020_2022.xlsx',
 'APT_Price_Seoul_2021.csv',
 'APT_Price_Seoul_2022.csv',
 'NA_Sample.xlsx',
 'code']

### 실습 데이터셋 준비

In [6]:
# z 파일 없을 때 대신 실행하세요.
fileNames = [file for file in os.listdir() if '.csv' in file and 'Price' in file]
price = pd.DataFrame()
for fileName in fileNames:
    df = pd.read_csv(fileName, encoding = 'CP949')
    price = pd.concat(objs = [price, df], ignore_index = True)

In [7]:
# price의 정보를 확인합니다.

price.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 139919 entries, 0 to 139918
Data columns (total 11 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   지역코드    139919 non-null  int64  
 1   아파트     139919 non-null  object 
 2   시도명     139919 non-null  object 
 3   시군구     139919 non-null  object 
 4   법정동     139919 non-null  object 
 5   지번      139879 non-null  object 
 6   건축년도    139917 non-null  float64
 7   거래일     139919 non-null  object 
 8   전용면적    139919 non-null  float64
 9   층       139919 non-null  int64  
 10  거래금액    139919 non-null  object 
dtypes: float64(2), int64(2), object(7)
memory usage: 11.7+ MB


In [8]:
# price의 처음 5행을 출력합니다.

price.head()

Unnamed: 0,지역코드,아파트,시도명,시군구,법정동,지번,건축년도,거래일,전용면적,층,거래금액
0,11110,신동아블루아광화문의꿈,서울특별시,종로구,필운동,254,2007.0,2020-01-03,111.97,6,100000
1,11110,광화문스페이스본(106동),서울특별시,종로구,사직동,9-1,2008.0,2020-01-02,163.33,2,162000
2,11110,세종로대우,서울특별시,종로구,내수동,167,1994.0,2020-01-06,109.91,11,88000
3,11110,킹스매너,서울특별시,종로구,내수동,110-15,2004.0,2020-01-09,194.43,4,130000
4,11110,경희궁파크팰리스,서울특별시,종로구,내수동,95,2003.0,2020-01-20,148.09,8,149000


### 열이름으로 열 선택

In [9]:
# 열이름을 문자열 스칼라로 지정하면 시리즈로 반환합니다.

price['지역코드']

0         11110
1         11110
2         11110
3         11110
4         11110
          ...  
139914    11740
139915    11740
139916    11740
139917    11740
139918    11740
Name: 지역코드, Length: 139919, dtype: int64

In [10]:
price.loc[:, '지역코드']

0         11110
1         11110
2         11110
3         11110
4         11110
          ...  
139914    11740
139915    11740
139916    11740
139917    11740
139918    11740
Name: 지역코드, Length: 139919, dtype: int64

In [11]:
# 열이름 '지역코드' 을 리스트로 지정하면 데이터프레임으로 반환합니다.

price[['지역코드']]

Unnamed: 0,지역코드
0,11110
1,11110
2,11110
3,11110
4,11110
...,...
139914,11740
139915,11740
139916,11740
139917,11740


In [12]:
# 열이름 '아파트', 지역코드' 을 리스트로 지정하면 데이터프레임으로 반환합니다.
# 2개 컬럼을 지정하여 데이터프레임으로 반환

price[['아파트', '지역코드']]

Unnamed: 0,아파트,지역코드
0,신동아블루아광화문의꿈,11110
1,광화문스페이스본(106동),11110
2,세종로대우,11110
3,킹스매너,11110
4,경희궁파크팰리스,11110
...,...,...
139914,중앙하이츠,11740
139915,롯데캐슬퍼스트,11740
139916,선사현대아파트,11740
139917,파크뷰진도맨션,11740


In [13]:
# 열이름 '아파트', 지역코드' 을 리스트로 지정하면 데이터프레임으로 반환합니다.

price.loc[:, ['아파트', '지역코드']]

Unnamed: 0,아파트,지역코드
0,신동아블루아광화문의꿈,11110
1,광화문스페이스본(106동),11110
2,세종로대우,11110
3,킹스매너,11110
4,경희궁파크팰리스,11110
...,...,...
139914,중앙하이츠,11740
139915,롯데캐슬퍼스트,11740
139916,선사현대아파트,11740
139917,파크뷰진도맨션,11740


In [14]:
# 2개 이상의 열을 선택하려면 반드시 리스트로 지정해야 합니다.(배열 인덱싱)
# [참고] 열이름 순서를 변경하면 위치를 바꿔서 반환합니다.

price[['거래일', '전용면적', '층', '거래금액']]

Unnamed: 0,거래일,전용면적,층,거래금액
0,2020-01-03,111.97,6,100000
1,2020-01-02,163.33,2,162000
2,2020-01-06,109.91,11,88000
3,2020-01-09,194.43,4,130000
4,2020-01-20,148.09,8,149000
...,...,...,...,...
139914,2022-12-03,59.52,8,53000
139915,2022-12-06,111.22,10,135000
139916,2022-12-10,59.64,17,77000
139917,2022-12-06,208.92,18,145500


In [15]:
# 연속하는 열을 선택하려면 loc 인덱서를 추가해야 합니다.(슬라이싱)
# [주의] loc 인덱서를 추가했다면 열을 선택할 때 반드시 콤마를 추가해야 합니다.

price.loc[:, '거래일':'거래금액']

Unnamed: 0,거래일,전용면적,층,거래금액
0,2020-01-03,111.97,6,100000
1,2020-01-02,163.33,2,162000
2,2020-01-06,109.91,11,88000
3,2020-01-09,194.43,4,130000
4,2020-01-20,148.09,8,149000
...,...,...,...,...
139914,2022-12-03,59.52,8,53000
139915,2022-12-06,111.22,10,135000
139916,2022-12-10,59.64,17,77000
139917,2022-12-06,208.92,18,145500


## 조건에 맞는 열 선택

In [16]:
# 각 열의 자료형을 확인한다. 

price.dtypes

지역코드      int64
아파트      object
시도명      object
시군구      object
법정동      object
지번       object
건축년도    float64
거래일      object
전용면적    float64
층         int64
거래금액     object
dtype: object

In [17]:
# price의 열별 자료형이 정수형이면 True, 아니면 False를 반환합니다.

price.dtypes == 'int64'

지역코드     True
아파트     False
시도명     False
시군구     False
법정동     False
지번      False
건축년도    False
거래일     False
전용면적    False
층        True
거래금액    False
dtype: bool

In [18]:
# price에서 정수형인 열을 선택합니다.(불리언 인덱싱)

price.loc[:, price.dtypes == 'int64']

Unnamed: 0,지역코드,층
0,11110,6
1,11110,2
2,11110,11
3,11110,4
4,11110,8
...,...,...
139914,11740,8
139915,11740,10
139916,11740,17
139917,11740,18


In [19]:
# price의 열별 자료형의 수치(정수, 실수)형이면 True, 아니면 False를 반환합니다.
# [참고] 실행 결과를 1차원 시리즈로 반환합니다.

(price.dtypes == 'int64') | (price.dtypes == 'float64')

지역코드     True
아파트     False
시도명     False
시군구     False
법정동     False
지번      False
건축년도     True
거래일     False
전용면적     True
층        True
거래금액    False
dtype: bool

In [20]:
# price의 열별 자료형의 수치(정수, 실수)형이면 True, 아니면 False를 반환합니다.
# [참고] 위 코드와 결과가 같습니다.

price.loc[:, (price.dtypes == 'int64') | (price.dtypes == 'float64')]

Unnamed: 0,지역코드,건축년도,전용면적,층
0,11110,2007.0,111.97,6
1,11110,2008.0,163.33,2
2,11110,1994.0,109.91,11
3,11110,2004.0,194.43,4
4,11110,2003.0,148.09,8
...,...,...,...,...
139914,11740,1998.0,59.52,8
139915,11740,2008.0,111.22,10
139916,11740,2000.0,59.64,17
139917,11740,1996.0,208.92,18


In [21]:
# New Function Select 함수로 표현할 수 있다. 

price.select_dtypes(include = [int, float])

Unnamed: 0,지역코드,건축년도,전용면적,층
0,11110,2007.0,111.97,6
1,11110,2008.0,163.33,2
2,11110,1994.0,109.91,11
3,11110,2004.0,194.43,4
4,11110,2003.0,148.09,8
...,...,...,...,...
139914,11740,1998.0,59.52,8
139915,11740,2008.0,111.22,10
139916,11740,2000.0,59.64,17
139917,11740,1996.0,208.92,18


In [22]:
# 열이름을 확인한다. 

price.columns

Index(['지역코드', '아파트', '시도명', '시군구', '법정동', '지번', '건축년도', '거래일', '전용면적', '층',
       '거래금액'],
      dtype='object')

In [23]:
# price의 열이름에서 '거래'를 포함하면 True, 아니면 False를 반환합니다.
# [참고] 실행 결과를 1차원 배열로 반환합니다.

price.columns.str.contains('거래')

array([False, False, False, False, False, False, False,  True, False,
       False,  True])

In [24]:
# price의 열이름에서 '거래'를 포함하면 데이터프레임으로 반환한다.

price.loc[:, price.columns.str.contains('거래')]

Unnamed: 0,거래일,거래금액
0,2020-01-03,100000
1,2020-01-02,162000
2,2020-01-06,88000
3,2020-01-09,130000
4,2020-01-20,149000
...,...,...
139914,2022-12-03,53000
139915,2022-12-06,135000
139916,2022-12-10,77000
139917,2022-12-06,145500


In [25]:
# price 의 속성과 방식을 리스트로 반환한다.

dir(price)

['T',
 '_AXIS_LEN',
 '_AXIS_ORDERS',
 '_AXIS_TO_AXIS_NUMBER',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__bool__',
 '__class__',
 '__contains__',
 '__copy__',
 '__dataframe__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdivmod__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '

## 열이름으로 열 삭제

In [26]:
# 열이름을 확인한다. 

price.columns

Index(['지역코드', '아파트', '시도명', '시군구', '법정동', '지번', '건축년도', '거래일', '전용면적', '층',
       '거래금액'],
      dtype='object')

In [27]:
# price에서 열이름으로 삭제한 결과를 출력합니다.
# [주의] columns 매개변수를 생략하면 인덱스에서 찾습니다.
# [참고] 삭제할 열이 2개 이상이면 리스트를 지정합니다.

# price.drop(labels = '지역코드', axis = 1)
price.drop(columns = '지역코드')

Unnamed: 0,아파트,시도명,시군구,법정동,지번,건축년도,거래일,전용면적,층,거래금액
0,신동아블루아광화문의꿈,서울특별시,종로구,필운동,254,2007.0,2020-01-03,111.97,6,100000
1,광화문스페이스본(106동),서울특별시,종로구,사직동,9-1,2008.0,2020-01-02,163.33,2,162000
2,세종로대우,서울특별시,종로구,내수동,167,1994.0,2020-01-06,109.91,11,88000
3,킹스매너,서울특별시,종로구,내수동,110-15,2004.0,2020-01-09,194.43,4,130000
4,경희궁파크팰리스,서울특별시,종로구,내수동,95,2003.0,2020-01-20,148.09,8,149000
...,...,...,...,...,...,...,...,...,...,...
139914,중앙하이츠,서울특별시,강동구,암사동,493-14,1998.0,2022-12-03,59.52,8,53000
139915,롯데캐슬퍼스트,서울특별시,강동구,암사동,414-2,2008.0,2022-12-06,111.22,10,135000
139916,선사현대아파트,서울특별시,강동구,암사동,509,2000.0,2022-12-10,59.64,17,77000
139917,파크뷰진도맨션,서울특별시,강동구,성내동,452-2,1996.0,2022-12-06,208.92,18,145500


In [28]:
# price의 처음 5행을 출력합니다.
# [참고] price는 여전히 지역코드를 포함하고 있습니다.

price.head()

Unnamed: 0,지역코드,아파트,시도명,시군구,법정동,지번,건축년도,거래일,전용면적,층,거래금액
0,11110,신동아블루아광화문의꿈,서울특별시,종로구,필운동,254,2007.0,2020-01-03,111.97,6,100000
1,11110,광화문스페이스본(106동),서울특별시,종로구,사직동,9-1,2008.0,2020-01-02,163.33,2,162000
2,11110,세종로대우,서울특별시,종로구,내수동,167,1994.0,2020-01-06,109.91,11,88000
3,11110,킹스매너,서울특별시,종로구,내수동,110-15,2004.0,2020-01-09,194.43,4,130000
4,11110,경희궁파크팰리스,서울특별시,종로구,내수동,95,2003.0,2020-01-20,148.09,8,149000


In [29]:
# 열이름으로 삭제한 결과를 price에 재할당합니다.


#price.drop(labels = '지역코드', axis = 1)
price = price.drop(columns = '지역코드', axis = 1)

In [30]:
# price의 처음 5행을 출력합니다.

price.head()

Unnamed: 0,아파트,시도명,시군구,법정동,지번,건축년도,거래일,전용면적,층,거래금액
0,신동아블루아광화문의꿈,서울특별시,종로구,필운동,254,2007.0,2020-01-03,111.97,6,100000
1,광화문스페이스본(106동),서울특별시,종로구,사직동,9-1,2008.0,2020-01-02,163.33,2,162000
2,세종로대우,서울특별시,종로구,내수동,167,1994.0,2020-01-06,109.91,11,88000
3,킹스매너,서울특별시,종로구,내수동,110-15,2004.0,2020-01-09,194.43,4,130000
4,경희궁파크팰리스,서울특별시,종로구,내수동,95,2003.0,2020-01-20,148.09,8,149000


## 열이름 변경

In [31]:
# price에서 일부 열이름을 변경한 결과를 출력합니다.
# [주의] columns 매개변수를 생략하면 안됩니다!

price.rename(columns = {'시도명': '시', '시군구': '구', '법정동': '동'})

Unnamed: 0,아파트,시,구,동,지번,건축년도,거래일,전용면적,층,거래금액
0,신동아블루아광화문의꿈,서울특별시,종로구,필운동,254,2007.0,2020-01-03,111.97,6,100000
1,광화문스페이스본(106동),서울특별시,종로구,사직동,9-1,2008.0,2020-01-02,163.33,2,162000
2,세종로대우,서울특별시,종로구,내수동,167,1994.0,2020-01-06,109.91,11,88000
3,킹스매너,서울특별시,종로구,내수동,110-15,2004.0,2020-01-09,194.43,4,130000
4,경희궁파크팰리스,서울특별시,종로구,내수동,95,2003.0,2020-01-20,148.09,8,149000
...,...,...,...,...,...,...,...,...,...,...
139914,중앙하이츠,서울특별시,강동구,암사동,493-14,1998.0,2022-12-03,59.52,8,53000
139915,롯데캐슬퍼스트,서울특별시,강동구,암사동,414-2,2008.0,2022-12-06,111.22,10,135000
139916,선사현대아파트,서울특별시,강동구,암사동,509,2000.0,2022-12-10,59.64,17,77000
139917,파크뷰진도맨션,서울특별시,강동구,성내동,452-2,1996.0,2022-12-06,208.92,18,145500


In [33]:
# price의 열이름을 출력합니다.

price.columns

Index(['아파트', '시도명', '시군구', '법정동', '지번', '건축년도', '거래일', '전용면적', '층', '거래금액'], dtype='object')

In [34]:
# price의 열이름을 일괄 변경합니다.
# [주의] 데이터프레임의 열 개수와 같은 길이의 리스트를 지정해야 합니다.

price.columns = ['아파트', '시', '구', '동', '지번', 
                 '건축년도', '거래일', '전용면적', '층', '거래금액']

In [35]:
price.head()

Unnamed: 0,아파트,시,구,동,지번,건축년도,거래일,전용면적,층,거래금액
0,신동아블루아광화문의꿈,서울특별시,종로구,필운동,254,2007.0,2020-01-03,111.97,6,100000
1,광화문스페이스본(106동),서울특별시,종로구,사직동,9-1,2008.0,2020-01-02,163.33,2,162000
2,세종로대우,서울특별시,종로구,내수동,167,1994.0,2020-01-06,109.91,11,88000
3,킹스매너,서울특별시,종로구,내수동,110-15,2004.0,2020-01-09,194.43,4,130000
4,경희궁파크팰리스,서울특별시,종로구,내수동,95,2003.0,2020-01-20,148.09,8,149000


## 열별 자료형 변환

In [37]:
# price의 열별 자료형을 확인합니다.

price.dtypes

아파트      object
시        object
구        object
동        object
지번       object
건축년도    float64
거래일      object
전용면적    float64
층         int64
거래금액     object
dtype: object

In [40]:
# price의 열별 자료형을 확인합니다.

price['거래금액'] = price['거래금액'].str.replace(pat = ',', repl = '') \
                                     .astype(float)

In [41]:
# price의 열별 자료형을 확인합니다.
# 거래금액 자료형이 float 로 변경 되었다. 

price.dtypes

아파트      object
시        object
구        object
동        object
지번       object
건축년도    float64
거래일      object
전용면적    float64
층         int64
거래금액    float64
dtype: object

In [45]:
price.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 139919 entries, 0 to 139918
Data columns (total 10 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   아파트     139919 non-null  object 
 1   시       139919 non-null  object 
 2   구       139919 non-null  object 
 3   동       139919 non-null  object 
 4   지번      139879 non-null  object 
 5   건축년도    139917 non-null  float64
 6   거래일     139919 non-null  object 
 7   전용면적    139919 non-null  float64
 8   층       139919 non-null  int64  
 9   거래금액    139919 non-null  float64
dtypes: float64(3), int64(1), object(6)
memory usage: 10.7+ MB


In [46]:
# price에서 일부 열의 자료형을 변환합니다.

price = price.astype({'거래일': 'datetime64[ns]', '층': float})

In [47]:
# 거래일을 numpy.datetime64[ns], 층을 numpy.float64로 변환했다. 

price.dtypes

아파트             object
시               object
구               object
동               object
지번              object
건축년도           float64
거래일     datetime64[ns]
전용면적           float64
층              float64
거래금액           float64
dtype: object

In [None]:
# price = price.astype({'층': int, '거래금액': int})

In [48]:
# 정수형으로 변환할 열이름으로 리스트를 생성합니다.
# price에서 일부 열 ('층', '거래금액'을 선택하고 정수형으로 일괄 변환합니다.

cols = ['층', '거래금액']
price[cols] = price[cols].astype(np.int64)

In [49]:
price.dtypes

아파트             object
시               object
구               object
동               object
지번              object
건축년도           float64
거래일     datetime64[ns]
전용면적           float64
층                int64
거래금액             int64
dtype: object

## [참고] 문자열을 날짜형으로 변환

In [50]:
# 날짜 기본형이 아닌 문자열 리스트로 시리즈를 생성합니다.

birth = pd.Series(data = ['2000년 1월 1일'])
birth

0    2000년 1월 1일
dtype: object

In [52]:
# 날짜 기본형이 아닌 문자열 리스트를 날짜형으로 변환합니다.

birth = pd.to_datetime(arg = birth, format = '%Y년 %m월 %d일')
birth

0   2000-01-01
dtype: datetime64[ns]

In [53]:
# birth의 첫 번째 원소를 선택합니다.
# [참고] 날짜시간 자료형은 '년-월-일 시:분:초.마이크로초' 형태로 출력합니다.

birth.iloc[0]

Timestamp('2000-01-01 00:00:00')

## [참고] 날짜시간 자료형 연산

In [56]:
# birth의 첫 번째 원소를 선택하면 실수로 나타낸다.
# 기준년부터 birth day 까지의 누적 sec 를 의미한다.

birth.iloc[0].timestamp()

946684800.0

In [57]:
# 현재 날짜시간 데이터를 생성합니다.

today = pd.Timestamp.today()
today

Timestamp('2023-05-31 20:19:01.432032')

In [58]:
# today의 타임스태프를 출력합니다.

today.timestamp()

1685564341.432032

In [59]:
# 태어나서 현재까지 살아온 기간을 출력합니다.
# [참고] 날짜시간 자료형은 실수이므로 산술 연산이 가능합니다.
#  |--------|---------|
# base    birth     today

dtGap = today - birth.iloc[0]

In [60]:
# 태어난지 얼마나 되었는지 알수 있다. 

dtGap.days

8551

In [61]:
# 하루 3끼에 7,000원 금액을 계산하면 총 비용이 얼마인지 알 수 있다. 

dtGap.days * 3 * 7000

179571000