<p style="font-family:verdana;font-size:200%;text-align:center;">Python Data Analysis Day 3</p>

## 데이터프레임 전처리

###  실습 데이터셋 준비

In [None]:
# 라이브러리를 호출합니다.
import os
import numpy as np
import pandas as pd

In [None]:
# 작업경로를 data 폴더로 변경합니다.
os.chdir('../data')

In [None]:
# 현재 작업경로에 저장된 파일명을 출력합니다.
os.listdir()

In [None]:
# 가격 xlsx 파일을 읽고 데이터프레임을 생성합니다.
price = pd.read_excel('APT_Price_Seoul_2020.xlsx')

In [None]:
# price의 처음 다섯 행을 출력합니다.
price.head()

In [None]:
# price의 정보를 출력합니다.
price.info()

In [None]:
# 상세정보 xlsx 파일을 읽고 데이터프레임을 생성합니다.
detail = pd.read_excel('Naver_APT_Detail.xlsx')

In [None]:
# detail의 처음 다섯 행을 출력합니다.
detail.head()

In [None]:
# detail의 정보를 출력합니다.
detail.info()

#### [참고] csv 파일 읽을 때 날짜 자료형 유지하는 방법

In [None]:
# 라이브러리를 호출합니다.
import chardet

In [None]:
# csv 파일을 bytes 모드로 읽습니다.
raw = open('APT_Price_Seoul_2020.csv', 'rb').read()

In [None]:
# 텍스트 파일의 문자 인코딩 방식을 확인합니다.
chardet.detect(raw[:100])

In [None]:
# 가격 csv 파일을 읽고 데이터프레임을 생성합니다.
price = pd.read_csv('APT_Price_Seoul_2020.csv')

In [None]:
# price의 정보를 확인합니다.
price.info()

In [None]:
# csv 파일을 읽을 때 날짜 자료형으로 읽을 컬럼명을 지정합니다.
price = pd.read_csv('APT_Price_Seoul_2020.csv', parse_dates = ['거래일'])

In [None]:
# price의 정보를 다시 확인합니다.
price.info()

### 컬럼 선택 및 삭제

In [None]:
# 거래금액 컬럼을 선택하여 시리즈로 반환합니다.
price['거래금액']

In [None]:
# 컬럼명을 리스트로 지정하면 데이터프레임으로 반환합니다.
price[['거래금액']]

In [None]:
# 여러 컬럼을 선택하려면 리스트를 입력합니다.
price[['거래금액', '거래일']]

In [None]:
# drop() 함수에 삭제할 컬럼명을 리스트로 입력하여 삭제합니다.
price.drop('일련번호', axis = 1)

In [None]:
# 컬럼을 삭제하고 price에 재할당합니다.
price = price.drop('일련번호', axis = 1)

### 컬럼명 변경

In [None]:
# rename() 함수로 일부 컬럼명을 변경합니다.
price = price.rename(columns = {'아파트': '아파트명'})

In [None]:
# 가격 데이터의 컬럼명을 출력합니다.
price.columns

In [None]:
# columns 속성을 사용하면 컬럼명 전체를 변경합니다.
price.columns = ['아파트', '시도', '시군구', '읍면동', '지번', '거래일', 
                 '전용면적', '층', '거래금액']

In [None]:
# 가격 데이터의 처음 다섯 행을 출력합니다.
price.head()

### 컬럼 자료형 변환

In [None]:
# 거래일 컬럼을 문자열로 변환합니다.
price['거래일'] = price['거래일'].astype('str')

In [None]:
# 거래금액 컬럼을 실수로 변환합니다.
price['거래금액'] = price['거래금액'].astype('float')

In [None]:
# 가격 데이터의 컬럼별 자료형을 확인합니다.
price.dtypes

In [None]:
# 거래일 컬럼을 날짜로 복원합니다.
price['거래일'] = pd.to_datetime(price['거래일'])

In [None]:
# 가격 데이터의 컬럼별 자료형을 다시 확인합니다.
price.dtypes

In [None]:
# astype() 함수에 딕셔너리로 입력하면 여러 컬럼을 각각 변환합니다.
price = price.astype({'층':'float', '거래금액':'int'})

In [None]:
# 가격 데이터의 컬럼별 자료형을 확인합니다.
price.dtypes

In [None]:
# 여러 컬럼을 하나의 자료형으로 동시에 변환합니다.
price.iloc[:, 7:9] = price.iloc[:, 7:9].astype(int)

In [None]:
# 가격 데이터의 컬럼별 자료형을 확인합니다.
price.dtypes

### [참고] 문자열을 날짜 자료형으로 변환

In [None]:
# yyyy-mm-dd 형태가 아닌 문자열 데이터로 데이터프레임을 생성합니다.
dates = pd.DataFrame(['2020년 12월 13일', '2021년 1월 1일'], 
                     columns = ['날짜'])

In [None]:
# 거래일 컬럼을 날짜로 변환하려고 하면 에러가 발생합니다.
dates['날짜'] = dates['날짜'].astype('datetime64')

In [None]:
# to_datetime() 함수의 format 매개변수에 날짜 포맷을 지정하면 변환됩니다.
dates['날짜'] = pd.to_datetime(dates['날짜'], format = '%Y년 %m월 %d일')

### 조건에 맞는 행 선택

In [None]:
# 거래금액이 700000(70억) 이상인 행만 선택합니다.
price.loc[price['거래금액'] >= 700000]

In [None]:
# 거래금액이 70억 이상인 행을 선택하여 df1에 할당합니다.
df1 = price.loc[price['거래금액'] >= 700000]

In [None]:
# df1의 처음 10행을 출력합니다.
df1.head(10)

In [None]:
# 거래금액이 70억 미만이고, 60층 이상인 행을 선택하여 df2에 할당합니다.
df2 = price.loc[(price['거래금액'] < 700000) & (price['층'] >= 60)]

In [None]:
# df2의 처음 10행을 출력합니다.
df2.head(10)

### 행 삭제 및 인덱스명 초기화

In [None]:
# drop() 함수에 인덱스명 스칼라/리스트를 입력하여 행을 삭제합니다.
df2.drop([23700, 44541])

In [None]:
# [주의] 인덱스명에 없는 값을 입력하면 에러가 발생합니다.
df2.drop([1, 2])

In [None]:
# df1의 인덱스명을 초기화한 결과를 출력합니다.
df1.reset_index()

In [None]:
# index 컬럼이 생성되지 않도록 drop = True를 추가합니다.
df1.reset_index(drop = True)

In [None]:
# 인덱스명을 초기화한 결과를 df1에 재할당합니다.
df1 = df1.reset_index(drop = True)

### 결측값 처리

In [None]:
# 컬럼별 결측값 개수를 확인합니다.
price.isna().sum()

In [None]:
# 결측값을 포함하는 행을 삭제한 결과를 출력합니다.
price.dropna()

In [None]:
# 결측값을 공백으로 채운 결과를 출력합니다.
price.fillna('')

In [None]:
# 가격 데이터에서 결측값을 삭제하고 재할당합니다.
price = price.dropna()

In [None]:
# 컬럼별 결측값 개수를 다시 확인합니다.
price.isna().sum()

### 파생변수 생성

In [None]:
# 거래금액을 전용면적으로 나눈 새로운 컬럼을 생성합니다.
price['단위금액'] = price['거래금액'] / price['전용면적']

In [None]:
# 가격 데이터의 처음 다섯 행을 출력합니다.
price.head()

In [None]:
# 단위금액 컬럼값을 반올림하여 소수점 둘째 자리까지 남깁니다.
price['단위금액'] = price['단위금액'].round(2)

In [None]:
# 거래금액 컬럼을 만원 단위에서 억원 단위로 변경합니다.
price['거래금액'] = price['거래금액'] / 10000

In [None]:
# 가격 데이터의 처음 다섯 행을 출력합니다.
price.head()

In [None]:
# 단위금액의 크기를 1천만원 기준으로 구분하는 이진형 컬럼을 생성합니다.
price.loc[price['단위금액'] >= 1000, '금액구분'] = '1천 이상'
price.loc[price['단위금액'] < 1000, '금액구분'] = '1천 미만'

In [None]:
# 가격 데이터의 처음 다섯 행을 출력합니다.
price.head()

In [None]:
# 여러 컬럼값을 결합하여 지번주소 컬럼을 생성합니다.
price['지번주소'] = price['시도'] + ' ' + price['시군구'] + ' ' + price['읍면동'] + ' ' + price['지번']

#### [참고] 같은 함수 반복 실행 실습

In [None]:
# 거래금액 컬럼의 각 원소에 10000을 곱하고 정수로 변환합니다.
price['거래금액'].map(lambda x: x*10000).astype('int')

In [None]:
# 시도~지번 컬럼을 갖는 데이터프레임 각 열의 길이를 반환합니다.
price.loc[:, '시도':'지번'].apply(len, axis = 0)

In [None]:
# 시도~지번 컬럼을 갖는 데이터프레임 각 행의 길이를 반환합니다.
price.loc[:, '시도':'지번'].apply(len, axis = 1)

In [None]:
# 시도~지번 컬럼을 갖는 데이터프레임 각 행 원소를 하나로 결합합니다.
price.loc[:, '시도':'지번'].apply(lambda x: ' '.join(x), axis = 1)

In [None]:
# 시도~지번 컬럼을 갖는 데이터프레임 각 원소의 길이를 반환합니다.
price.loc[:, '시도':'지번'].applymap(len)

#### [참고] 날짜 컬럼 분해

In [None]:
# 날짜 자료형에서 연도만 추출합니다.
price['거래일'].dt.year

In [None]:
# 날짜 자료형에서 월만 추출합니다.
price['거래일'].dt.month

In [None]:
# 날짜 자료형에서 일만 추출합니다.
price['거래일'].dt.day

In [None]:
# 날짜 자료형에서 시만 추출합니다.
price['거래일'].dt.hour

In [None]:
# 날짜 자료형에서 분만 추출합니다.
price['거래일'].dt.minute

In [None]:
# 날짜 자료형에서 초만 추출합니다.
price['거래일'].dt.second

### 집계함수로 데이터 요약

In [None]:
# 시군구별 단위금액 빈도수를 반환합니다.
price.groupby('시군구').count()['거래금액']

In [None]:
# 시군구별 단위금액 합계를 반환합니다.
price.groupby('시군구').sum()['거래금액']

In [None]:
# 시군구별 단위금액 평균을 반환합니다.
price.groupby('시군구').mean()['단위금액']

In [None]:
# 시군구별 단위금액 표준편차를 반환합니다.
price.groupby('시군구').std()['단위금액']

In [None]:
# 시군구별 단위금액 최소값을 반환합니다.
price.groupby('시군구').min()['단위금액']

In [None]:
# 시군구별 단위금액 최대값을 반환합니다.
price.groupby('시군구').max()['단위금액']

In [None]:
# 시군구별 단위금액의 기술통계량을 한 번에 반환합니다.
price.groupby('시군구').describe()['단위금액']

### 데이터프레임 구조 변경

In [None]:
# 두 개의 컬럼으로 데이터를 요약하여 Long type의 데이터프레임을 생성합니다.
long = price.groupby(['시군구', '금액구분']).count()[['단위금액']]

In [None]:
# long의 처음 10행만 출력합니다.
long.head(10)

In [None]:
# 단위금액 컬럼명을 건수로 변경합니다.
long.columns = ['건수']

In [None]:
# Long type을 Wide type으로 변경합니다.
wide = long.unstack()

In [None]:
# wide의 처음 10행만 출력합니다.
wide.head(10)

In [None]:
# Wide type을 Long type으로 변경하고 처음 10행만 출력합니다.
wide.stack().head(10)

### 피벗 테이블 생성

In [None]:
# 원데이터로부터 피벗 테이블을 생성합니다.
pd.pivot_table(data = price, 
               index = '시군구', 
               columns = '금액구분', 
               values = '단위금액', 
               aggfunc = ['mean', 'std'])

### 데이터프레임 결합

In [None]:
# 컬럼명이 같은 df1과 df2를 세로 방향으로 결합한 결과를 반환합니다.
pd.concat([df1, df2])

In [None]:
# 두 데이터프레임을 결합한 결과에서 인덱스명을 초기화합니다.
pd.concat([df1, df2], ignore_index = True)

In [None]:
# df2의 일부 컬럼명을 변경합니다.
df2 = df2.rename(columns = {'아파트':'아파트명'})

In [None]:
# 컬럼명이 다른 df1과 df2를 세로 방향으로 결합한 결과를 반환합니다.
pd.concat([df1, df2])

In [None]:
# 인덱스명이 다른 df1과 df2를 가로 방향으로 결합한 결과를 반환합니다.
pd.concat([df1, df2], axis = 1)

### 외래키 확인 및 전처리

In [None]:
# 가격 데이터와 상세정보 데이터에서 일치하는 컬럼명을 찾습니다.
set(price.columns) & set(detail.columns)

In [None]:
# 가격 데이터의 지번주소를 출력합니다.
price['지번주소']

In [None]:
# 상세정보 데이터의 지번주소를 출력합니다.
detail['지번주소']

In [None]:
# 가격 데이터의 지번주소에서 '특별시'를 삭제합니다.
price['지번주소'] = price['지번주소'].str.replace('특별시', '')

In [None]:
# 가격 데이터의 지번주소를 다시 출력합니다.
price['지번주소']

### 데이터프레임 중복 확인 및 제거

In [None]:
# 상세정보 데이터에서 지번주소 컬럼의 중복 건수를 출력합니다.
detail.duplicated(['지번주소']).sum()

In [None]:
# 지번주소 컬럼이 중복인 인덱스를 추출합니다.
dup = detail.duplicated(['지번주소'], keep = False)
print(dup)

In [None]:
# 상세정보 데이터에서 지번주소 컬럼이 중복인 행만 선택합니다.
detail.loc[dup]

In [None]:
# 지번주소 컬럼이 중복이면 첫 번째 행을 남기고 재할당합니다.
detail = detail.drop_duplicates(['지번주소'], keep = 'first')

### 데이터프레임 병합

In [None]:
# 내부 병합을 실행합니다.
pd.merge(price, detail, how = 'inner', on = '지번주소')

In [None]:
# 외부 병합을 실행합니다.
pd.merge(price, detail, how = 'outer', on = '지번주소')

In [None]:
# 왼쪽 외부 병합을 실행합니다.
pd.merge(price, detail, how = 'left', on = '지번주소')

In [None]:
# 가격 데이터의 외래키 컬럼명을 변경합니다.
price = price.rename(columns = {'지번주소':'주소'})

In [None]:
# 외래키 컬럼명이 서로 일치하지 않으면 반드시 지정해야 합니다.
apt = pd.merge(price, detail, left_on = '주소', right_on = '지번주소')

In [None]:
# apt의 정보를 확인합니다.
apt.info()

### 데이터프레임 정렬

In [None]:
# 거래금액 컬럼 기준으로 오름차순으로 정한 결과에서 처음 5행만 출력합니다.
apt.sort_values(['거래금액']).head()

In [None]:
# 거래금액 컬럼 기준으로 오름차순으로 정한 결과에서 처음 다섯 행만 출력합니다.
apt.sort_values(['거래금액'], ascending = False).head()

In [None]:
# 층, 거래금액 컬럼 순으로 모두 내림차순 정렬하고 처음 다섯 행만 출력합니다.
apt.sort_values(['층', '거래금액'], ascending = False).head()

In [None]:
# 층은 내림차순, 거래금액은 오름차순으로 정렬하고 처음 다섯 행만 출력합니다.
apt.sort_values(['층', '거래금액'], ascending = [False, True]).head()

### 외부 파일로 저장

In [None]:
# 현재 작업경로를 확인합니다.
os.getcwd()

In [None]:
# apt를 xlsx 파일로 저장합니다.
apt.to_excel('APT_List_Seoul_2020.xlsx', index = None)

In [None]:
# apt를 csv 파일로 저장합니다.
apt.to_csv('APT_List_Seoul_2020.csv', index = None)

In [None]:
# 현재 작업경로에 포함된 폴더명과 파일명을 출력합니다.
os.listdir()

## 기술통계 분석

### 실습 데이터셋 준비

In [None]:
# 관련 라이브러리를 호출합니다.
import numpy as np
import pandas as pd
import chardet

In [None]:
# 현재 작업경로에 포함된 폴더명과 파일명을 출력합니다.
os.listdir()

In [None]:
# 실습할 csv 파일명을 fileName에 할당합니다.
fileName = 'APT_List_Seoul_2020.csv'

In [None]:
# csv 파일을 'bytes'로 읽습니다.
raw = open(fileName, 'rb').read()

In [None]:
# 텍스트 파일의 문자 인코딩 방식을 확인합니다.
chardet.detect(raw[:100])

In [None]:
# 아파트 csv 파일을 읽고 데이터프레임을 생성합니다.
apt = pd.read_csv(fileName)

In [None]:
# apt의 정보를 확인합니다.
apt.info()

In [None]:
# 거래일 컬럼의 자료형을 'datetime64'로 변환합니다.
apt['거래일'] = pd.to_datetime(apt['거래일'])

In [None]:
# apt의 컬럼별 자료형을 출력합니다.
apt.dtypes

### 대푯값 : 평균, 절사평균

In [None]:
# 거래금액 컬럼의 평균을 반환합니다.
apt['거래금액'].mean()

In [None]:
# scipy.stats 모듈을 호출합니다.
from scipy import stats

In [None]:
# 양 극단에서 10%씩 제외한 평균을 계산합니다.
stats.trim_mean(apt['거래금액'], 0.1)

### 대푯값 : 중위수

In [None]:
# 거래금액 컬럼의 중위수를 반환합니다.
apt['거래금액'].median()

In [None]:
# [주의] 양 극단의 50%씩 절사한 평균을 계산하면 원소 개수에 따라 중위수 또는 결측값을 반환합니다.
stats.trim_mean(apt['거래금액'], 0.5)

In [None]:
# 원소 개수가 홀수이면 결측값 대신 중위수를 반환합니다.
stats.trim_mean(range(11), 0.5)

### 대푯값 : 최빈값

In [None]:
# 시군구 컬럼의 최빈값을 반환합니다.
apt['시군구'].mode()

In [None]:
# 집계함수를 이용하여 시군구별 거래건수를 확인합니다.
siggCnt = apt.groupby('시군구').count()[['거래금액']]
siggCnt['시군구'] = siggCnt.index
siggCnt = siggCnt.rename(columns = {'거래금액':'거래건수'})
siggCnt = siggCnt.sort_values('거래건수', ascending = False)
siggCnt = siggCnt.reset_index(drop = True)
siggCnt.head()

### 산포 : 범위

In [None]:
# 거래금액 컬럼의 최소값을 반환합니다.
apt['거래금액'].min()

In [None]:
# 거래금액 컬럼의 최대값을 반환합니다.
apt['거래금액'].max()

In [None]:
# 거래금액 컬럼의 범위를 반환합니다.
apt['거래금액'].max() - apt['거래금액'].min()

### 산포 : 분위수

In [None]:
# 거래금액 컬럼의 10 백분위수를 반환합니다.
apt['거래금액'].quantile(0.10)

In [None]:
# 거래금액 컬럼의 90 백분위수를 반환합니다.
apt['거래금액'].quantile(0.90)

In [None]:
# 거래금액 컬럼의 10, 90 백분위수를 함께 반환합니다.
apt['거래금액'].quantile([0.10, 0.90])

In [None]:
# 거래금액 컬럼의 십분위수를 반환합니다.
apt['거래금액'].quantile(np.arange(0.0, 1.1, 0.1))

### 산포 : 사분위수와 사분범위

In [None]:
# 거래금액 컬럼의 1 사분위수를 반환합니다.
apt['거래금액'].quantile(0.25)

In [None]:
# 거래금액 컬럼의 3 사분위수를 반환합니다.
apt['거래금액'].quantile(0.75)

In [None]:
# 거래금액 컬럼의 최소값, 최대값 및 사분위수를 함께 반환합니다.
apt['거래금액'].quantile(np.arange(0.0, 1.1, 0.25))

In [None]:
# 거래금액 컬럼의 사분범위를 계산합니다.
apt['거래금액'].quantile(0.75) - apt['거래금액'].quantile(0.25)

### 산포 : 분산과 표준편차

In [None]:
# 거래금액 컬럼의 분산을 반환합니다.
apt['거래금액'].var()

In [None]:
# 거래금액 컬럼의 표준편차를 반환합니다.
apt['거래금액'].std()

### 산포 : 중위수절대편차

In [None]:
# 거래금액 컬럼의 중위수절대편차를 반환합니다. (값이 조금 다릅니다!)
apt['거래금액'].mad()

In [None]:
# 로버스트한 통계량을 반환하는 모듈을 호출합니다.
from statsmodels import robust

In [None]:
# 거래금액 컬럼의 중위수절대편차를 반환합니다.
robust.mad(apt['거래금액'])

### 여러 컬럼의 기술통계량 생성

In [None]:
# apt의 숫자 컬럼에 대한 평균을 반환합니다.
apt.apply('mean', numeric_only = True, axis = 0)

In [None]:
# apt의 숫자 컬럼에 대한 분산을 반환합니다.
apt.apply('var', numeric_only = True, axis = 0)

In [None]:
# apt의 숫자 컬럼에 대한 표준편차를 반환합니다.
apt.apply('std', numeric_only = True, axis = 0)

In [None]:
# apt의 문자열 컬럼에 대한 최빈값을 반환합니다.
apt.apply('mode', axis = 0)

In [None]:
# apt의 모든 숫자 컬럼에 대한 기술통계량을 반환합니다.
apt.describe()

In [None]:
# apt의 모든 문자열 컬럼에 대한 기술통계량을 반환합니다.
apt.describe(include = 'object')

### 상관관계 : 공분산

In [None]:
# 전용면적과 거래금액 컬럼 간 공분산을 반환합니다.
apt['전용면적'].cov(apt['거래금액'])

In [None]:
# apt의 모든 숫자 컬럼 간 공분산 행렬을 반환합니다.
apt.cov()

### 상관관계 : 상관계수

In [None]:
# 전용면적과 거래금액 컬럼 간 상관계수를 반환합니다.
apt['전용면적'].corr(apt['거래금액'])

In [None]:
# apt의 모든 숫자 컬럼 간 상관계수 행렬을 반환합니다.
apt.corr()

<p style="font-family:verdana;font-size:200%;text-align:center;">End of Document</p>