In [25]:
## https://github.com/teddylee777/machine-learning/tree/master/05-Pandas

import warnings
warnings.filterwarnings('ignore')

# pandas 모듈 import

In [26]:
import pandas as pd
import numpy as np

## csv파일을 불러오기
- [주택도시보증공사_전국 신규 민간아파트 분양가격 동향_20200430.csv](https://www.data.go.kr/tcs/dss/selectDataSetList.do?dType=FILE&keyword=%22%EB%B6%84%EC%96%91%EA%B0%80+2019%EB%85%84+3%EC%9B%94%22)


In [27]:
# TODO: encoding='utf-8'로 에러 없이 하는 방법 구현 필요
# UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc1 in position 0: invalid start byte
df = pd.read_csv('../_data/01_house_price_20200430.csv', encoding='CP949')

## 살펴보기

In [28]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가격(㎡)
0,서울,전체,2015,10,5841
1,서울,전용면적 60㎡이하,2015,10,5652
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721
4,서울,전용면적 102㎡초과,2015,10,5879


In [29]:
df['test'] = True

In [30]:
df.tail()

Unnamed: 0,지역명,규모구분,연도,월,분양가격(㎡),test
4670,제주,전체,2020,4,4085.0,True
4671,제주,전용면적 60㎡이하,2020,4,4039.0,True
4672,제주,전용면적 60㎡초과 85㎡이하,2020,4,4091.0,True
4673,제주,전용면적 85㎡초과 102㎡이하,2020,4,,True
4674,제주,전용면적 102㎡초과,2020,4,,True


## 열의 이름 바꾸기

In [31]:
df=df.rename(columns={'분양가격(㎡)':'분양가'})

In [32]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841,True
1,서울,전용면적 60㎡이하,2015,10,5652,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721,True
4,서울,전용면적 102㎡초과,2015,10,5879,True


## data type 보기

In [33]:
df.dtypes

지역명     object
규모구분    object
연도       int64
월        int64
분양가     object
test      bool
dtype: object

In [34]:
# BUG: 'Series' object has no attribute 'convert_objects'
# SOL: https://stackoverflow.com/questions/58211251/attributeerror-series-object-has-no-attribute-to-numeric
# ren[3] = pd.to_numeric(ren[3], errors='coerce')
# df['분양가'] = df['분양가'].convert_objects(convert_numeric=True)

df['분양가'] = pd.to_numeric(df['분양가'], errors='coerce')

In [35]:
df.dtypes

지역명      object
규모구분     object
연도        int64
월         int64
분양가     float64
test       bool
dtype: object

In [36]:
df.head()

Unnamed: 0,지역명,규모구분,연도,월,분양가,test
0,서울,전체,2015,10,5841.0,True
1,서울,전용면적 60㎡이하,2015,10,5652.0,True
2,서울,전용면적 60㎡초과 85㎡이하,2015,10,5882.0,True
3,서울,전용면적 85㎡초과 102㎡이하,2015,10,5721.0,True
4,서울,전용면적 102㎡초과,2015,10,5879.0,True


## numpy array로 변환하기

In [37]:
# BUG: AttributeError: 'DataFrame' object has no attribute 'to_numpy'
# SOL: https://stackoverflow.com/questions/54424818/10-minutes-to-pandas-tutorial-to-numpy-does-not-exist
# pip install --upgrade pandas (pandas 0.23.4 -> 1.15.0)
# pandas 업그레이드 적용 안되면: python -m ipykernel install --user --name mai --display-name MAI
arr = df.to_numpy()

In [38]:
arr

array([['서울', '전체', 2015, 10, 5841.0, True],
       ['서울', '전용면적 60㎡이하', 2015, 10, 5652.0, True],
       ['서울', '전용면적 60㎡초과 85㎡이하', 2015, 10, 5882.0, True],
       ...,
       ['제주', '전용면적 60㎡초과 85㎡이하', 2020, 4, 4091.0, True],
       ['제주', '전용면적 85㎡초과 102㎡이하', 2020, 4, nan, True],
       ['제주', '전용면적 102㎡초과', 2020, 4, nan, True]], dtype=object)

In [39]:
len(arr)

4675

In [40]:
arr[0], arr[1]

(array(['서울', '전체', 2015, 10, 5841.0, True], dtype=object),
 array(['서울', '전용면적 60㎡이하', 2015, 10, 5652.0, True], dtype=object))

## 간단한 통계 보기

In [41]:
df.describe()

Unnamed: 0,연도,월,분양가
count,4675.0,4675.0,4330.0
mean,2017.545455,6.454545,3280.755889
std,1.372844,3.577167,1313.776665
min,2015.0,1.0,1868.0
25%,2016.0,3.0,2461.0
50%,2018.0,6.0,2897.0
75%,2019.0,10.0,3616.75
max,2020.0,12.0,13835.0
