# Python 표준 라이브러리

## 폴더와 파일 다루기

### 작업경로 확인 및 변경

In [None]:
# 관련 라이브러리를 호출합니다.
import os, shutil

In [None]:
# 현재 작업경로를 확인합니다.
os.getcwd()

In [None]:
# 데이터 파일이 저장된 폴더로 작업경로를 변경합니다. (상대경로 사용)
os.chdir('../data')

### 새 폴더 생성

In [None]:
# 새로운 폴더를 생성합니다.
os.mkdir('./temp')

### 텍스트 파일 생성

In [None]:
# 현재 작업경로(cwd)에 'test.txt' 파일을 생성합니다.
file = open('test.txt', 'w')

In [None]:
# text.txt 파일에 row를 추가합니다.
for i in range(1, 6):
    row = f'{i}번째 페이지를 수집합니다.\n'
    file.write(row)

In [None]:
# 텍스트 파일을 닫습니다.
file.close()

In [None]:
# text.txt 파일을 추가 모드로 엽니다.
file = open('test.txt', 'a')

In [None]:
# text.txt 파일에 row를 추가합니다.
for i in range(6, 11):
    row = f'{i}번째 페이지를 수집합니다.\n'
    file.write(row)

In [None]:
# 텍스트 파일을 닫습니다.
file.close()

### 텍스트 파일 읽기 (2가지 모드 비교)

In [None]:
# 'text.txt' 파일을 읽고 문자열로 결합하여 반환합니다.
file = open('test.txt', 'r').read()

In [None]:
# file을 출력합니다. 한글이 제대로 출력됩니다.
file

In [None]:
# file의 클래스를 확인합니다.
type(file)

In [None]:
# 'text.txt' 파일을 binary로 읽습니다.
file = open('test.txt', 'rb').read()

In [None]:
# file을 출력합니다. 한글이 코드로 출력됩니다.
file

In [None]:
# file의 클래스를 확인합니다.
type(file)

In [None]:
# file은 한글이 인코드된 상태이므로, 디코딩해야 제대로 출력됩니다.
file.decode('utf-8')

### 파일 복사 및 이동

In [None]:
# 현재 작업경로에 포함되어 있는 폴더명과 파일명을 출력합니다.
os.listdir()

In [None]:
# 기존 파일을 복사합니다. (파일명, 파일명)
shutil.copy('test.txt', 'copy1.txt')

In [None]:
# 기존 파일을 다른 폴더로 복사합니다. (파일명, 폴더명)
shutil.copy('test.txt', './temp')

In [None]:
# 파일을 이동시킵니다. (파일명, 폴더명)
shutil.move('copy1.txt', './temp')

### 파일명 변경

In [None]:
# 작업경로를 변경합니다.
os.chdir('./temp')

In [None]:
# 현재 작업경로에 포함되어 있는 폴더명과 파일명을 출력합니다.
os.listdir()

In [None]:
# 파일명을 변경합니다. (파일명, 파일명)
os.rename('test.txt', 'copy2.txt')

In [None]:
# 파일을 복사합니다. (파일명, 파일명)
shutil.copy('copy2.txt', 'copy3.txt')

### 파일 삭제

In [None]:
# 현재 작업경로에 포함되어 있는 폴더명과 파일명을 출력합니다.
os.listdir()

In [None]:
# 한 개 파일을 삭제합니다.
os.remove('copy1.txt')

In [None]:
# 여러 개의 파일을 한 번에 삭제하려면 아래와 같이 반복문을 실행합니다.
for i in os.listdir():
    if os.path.splitext(i)[-1] != '':
        os.remove(i)

### 폴더 삭제

In [None]:
# 상위 폴더로 이동합니다.
os.chdir('../')

In [None]:
# 현재 작업경로에 포함되어 있는 폴더명과 파일명을 출력합니다.
os.listdir()

In [None]:
# 비어 있는 폴더를 삭제합니다.
os.rmdir('temp')

In [None]:
# 폴더와 파일을 모두 삭제합니다.
# shutil.rmtree('temp')

## 현재 날짜 및 시간 확인

In [None]:
# 관련 라이브러리를 호출합니다.
from time import *

In [None]:
# 유닉스 시간을 실수로 출력합니다.
time()

In [None]:
# 유닉스 시간을 로컬 시간으로 변환합니다.
localtime(0)

In [None]:
# 로컬 시간 데이터에서 원하는 날짜/시간 포맷으로 변환합니다.
strftime('%Y년 %m월 %d일', localtime())

## [참고] 로케일 관련 함수 소개

In [None]:
# 로컬 시간의 타임존을 출력합니다.
strftime('%Z', localtime())

In [None]:
# 관련 라이브러리를 호출합니다.
import locale

In [None]:
# 현재 설정된 로케일을 확인합니다.
locale.getlocale()

In [None]:
# 한국 로케일로 변경합니다.
locale.setlocale(locale.LC_TIME, 'ko_KR')

In [None]:
# 로컬 시간의 타임존을 다시 출력합니다.
strftime('%Z', localtime())

# numpy 기초

In [None]:
# numpy 라이브러리를 호출합니다.
import numpy as np

## 1차원 배열 생성

In [None]:
# 리스트로 1차원 배열을 생성합니다.
ar1 = np.array([1, 2, 3])

In [None]:
# ar1을 출력합니다.
ar1

In [None]:
# ar1의 클래스를 확인합니다.
type(ar1)

In [None]:
# ar1의 차원을 확인합니다. (1차원)
ar1.ndim

In [None]:
# ar1의 형태를 확인합니다. 
ar1.shape

In [None]:
# ar1 원소의 자료형을 확인합니다.
ar1.dtype

In [None]:
# 0부터 4까지 연속된 정수를 원소로 갖는 1차원 배열을 생성합니다.
np.arange(5)

In [None]:
# 1부터 5까지 연속된 정수를를 원소로 갖는 1차원 배열을 생성합니다.
np.arange(1, 6)

In [None]:
# 1부터 10에서 홀수를 원소로 갖는 1차원 배열을 생성합니다.
np.arange(1, 11, 2)

In [None]:
# 0부터 1까지 간격이 0.1인 실수를 원소로 갖는 1차원 배열을 생성합니다.
np.arange(0, 1, 0.1)

## 1차원 배열의 형 변환

In [None]:
# 자료형이 섞여 있는 리스트로 1차원 배열을 생성합니다.
ar1 = np.array([1, 2.0, '3'])

In [None]:
# ar1을 출력합니다.
ar1

In [None]:
# ar1의 자료형을 확인합니다.
ar1.dtype

In [None]:
# ar1의 원소를 실수로 변환합니다.
ar1.astype('float')

In [None]:
# ar1의 원소를 정수로 변환합니다. (에러가 발생합니다!)
ar1.astype('int')

## 1차원 배열의 인덱싱

In [None]:
# 1부터 11에서 홀수를 원소로 갖는 1차원 배열을 생성합니다. 
ar1 = np.arange(1, 12, 2)

In [None]:
# ar1의 0번 인덱스(첫 번째) 원소를 선택합니다.
ar1[0]

In [None]:
# ar1의 1번 인덱스(두 번째) 원소를 선택합니다.
ar1[1]

In [None]:
# ar1의 마지막 원소를 선택합니다.
ar1[-1]

## 1차원 배열의 슬라이싱

In [None]:
# ar1의 0~2번 인덱스 원소를 선택합니다. 
ar1[:3]

In [None]:
# ar1의 3번 인덱스부터 마지막 원소까지 선택합니다.
ar1[3:]

In [None]:
# ar1의 전체 원소를 선택합니다.
ar1[:]

In [None]:
# ar1에서 리스트로 지정된 인덱스 순서대로 원소를 선택합니다.
ar1[[3, 0, 2, 4, 1]]

In [None]:
# 오름차순 정렬 실습을 위해 ar1에 재할당합니다.
ar1 = ar1[[3, 0, 2, 4, 1]]

## 1차원 배열의 원소 정렬

In [None]:
# ar1의 원소를 오름차순으로 정렬한 결과를 출력합니다.
np.sort(ar1)

In [None]:
# ar1을 출력합니다.
ar1

In [None]:
# ar1을 오름차순으로 정렬한 결과를 ar1에 재할당합니다.
ar1.sort()

In [None]:
# ar1을 출력합니다.
ar1

In [None]:
# 1차원 배열의 원소를 역순으로 정렬합니다.
ar1 = ar1[::-1]

In [None]:
# ar1을 출력합니다.
ar1

## 2차원 배열 생성

In [None]:
# 리스트로 2차원 배열을 생성합니다.
ar2 = np.array([[1, 2, 3], [4, 5, 6]])

In [None]:
# ar2를 출력합니다.
ar2

In [None]:
# ar2의 클래스를 확인합니다.
type(ar2)

In [None]:
# ar2의 차원을 확인합니다. (2차원)
ar2.ndim

In [None]:
# ar2의 형태를 확인합니다. 
ar2.shape

In [None]:
# ar2 원소의 자료형을 확인합니다.
ar2.dtype

## 배열의 재구조

In [None]:
# 0부터 11까지 12개의 원소를 갖는 1차원 배열을 생성합니다.
ar1 = np.arange(12)

In [None]:
# ar1을 3행 4열인 2차원 배열로 변환합니다.
ar1.reshape(3, 4)

In [None]:
# 배열의 구조를 변경할 때 원소의 입력방향을 세로로 지정합니다.
ar1.reshape(3, 4, order = 'F')

In [None]:
# 행 위치에 숫자, 열 위치에 '-1'을 할당하면 열의 크기가 자동 계산됩니다.
ar1.reshape(4, -1)

In [None]:
# 2차원 배열 인덱싱 실습을 위해 ar2에 재할당합니다.
ar2 = ar1.reshape(4, -1)

## 2차원 배열의 인덱싱 및 슬라이싱

In [None]:
# ar2의 1행 1열의 원소를 선택합니다.
ar2[0, 0]

In [None]:
# ar2의 2행 2열의 원소를 선택합니다. 
ar2[1, 1]

In [None]:
# ar2의 1~2행 1~2열 원소를 선택합니다.
ar2[0:2, 0:2]

In [None]:
# ar2의 전체 행 2~3열 원소를 선택합니다.
ar2[:, 1:3]

In [None]:
# ar2의 열 순서를 변경합니다.
ar2[:, [2, 1]]

# pandas 기초

In [None]:
# pandas 라이브러리를 호출합니다.
import pandas as pd

## 시리즈 생성

In [None]:
# 1차원 배열로 시리즈를 생성합니다.
sr = pd.Series(np.arange(1, 10, 2))

In [None]:
# sr을 출력합니다.
sr

In [None]:
# sr의 클래스를 확인합니다.
type(sr)

In [None]:
# 리스트로 시리즈를 생성합니다. (value, index 순)
pd.Series([1, 3, 5, 7, 9], ['a', 'b', 'c', 'd', 'e'])

In [None]:
# 딕셔너리로 시리즈를 생성합니다. (key가 index로 자동 설정)
pd.Series({'a':1, 'b':3, 'c':5, 'd':7, 'e':9})

## 시리즈 확인

In [None]:
# sr의 형태를 출력합니다.
sr.shape

In [None]:
# sr의 값을 출력합니다.
sr.values

In [None]:
# sr의 인덱스명을 출력합니다.
sr.index

In [None]:
# sr의 자료형을 출력합니다.
sr.dtypes

In [None]:
# 시리즈의 인덱스명을 변경합니다.
sr.index = ['a', 'b', 'c', 'd', 'e']

In [None]:
# sr을 출력합니다.
sr

## 시리즈의 팬시 인덱싱

In [None]:
# iloc 인덱싱은 대괄호 안에 정수 인덱스 스칼라를 지정하면 해당 원소를 반환합니다.
sr.iloc[0]

In [None]:
# 대괄호 안에 스칼라 대신 리스트를 지정하면 항상 시리즈로 반환됩니다.
sr.iloc[[0]]

In [None]:
# 연속하지 않는 인덱스를 지정할 때 반드시 리스트로 할당해야 합니다.
sr.iloc[[1, 3]]

In [None]:
# sr의 1~2번 인덱스 원소를 선택하여 시리즈로 출력합니다.
sr.iloc[1:3]

In [None]:
# loc 인덱싱은 대괄호 안에 인덱스명 스칼라를 지정하면 해당 원소를 반환합니다.
sr.loc['a']

In [None]:
# 대괄호 안에 리스트를 지정하면 항상 시리즈로 반환됩니다.
sr.loc[['a']]

In [None]:
# sr의 인덱스명이 'b', 'd'인 원소를 선택합니다.
sr.loc[['b', 'd']]

In [None]:
# sr의 인덱스명이 'a', 'b', 'c'인 원소를 선택합니다.
sr.loc['a':'c']

## 시리즈의 불리언 인덱싱

In [None]:
# sr 원소의 자료형을 확인합니다.
sr.dtype

In [None]:
# sr로 비교 연산을 실행합니다.
sr >= 5

In [None]:
# 대괄호 안에 비교 연산 코드를 지정하면 True에 해당하는 원소만 추출합니다.
sr[sr >= 5]

In [None]:
# 두 개 이상의 비교 연산 결과로 불리언 인덱싱을 합니다.
sr[(sr >= 5) & (sr <= 7)]

## 시리즈 원소 추가 및 삭제

In [None]:
# 새로운 시리즈를 생성합니다.
nr = pd.Series(range(2, 11, 2))

In [None]:
# nr을 출력합니다.
nr

In [None]:
# append() 함수로 기존 시리즈에 새로운 시리즈를 추가합니다
sr = sr.append(nr)

In [None]:
# sr을 출력합니다.
sr

In [None]:
# drop() 함수에 인덱스명을 입력하여 원소를 삭제합니다.
sr.drop(['a', 4])

## 시리즈 원소 변경

In [None]:
# sr의 전체 원소에 1을 더합니다.
sr + 1

In [None]:
# sr의 전체 원소에 2를 곱합니다.
sr * 2

In [None]:
# sr에서 9보다 큰 원소를 시리즈로 반환합니다.
sr[sr >= 9]

In [None]:
# sr에서 9보다 큰 원소를 문자열로 변경합니다.
sr[sr >= 9] = ['가', '나']

In [None]:
# sr을 출력합니다.
sr

In [None]:
# sr의 1번 인덱스(두 번째) 원소의 클래스를 확인합니다.
type(sr.iloc[1])

## 시리즈의 결측값 처리

In [None]:
# sr의 원소 '가', '나'를 결측값으로 변경합니다. 
sr[(sr == '가') | (sr == '나')] = np.nan

In [None]:
# sr을 출력합니다.
sr

In [None]:
# sr의 결측값 개수를 출력합니다.
sr.isna().sum()

In [None]:
# sr의 결측값을 0으로 변경한 결과를 출력합니다.
sr.fillna(0)

In [None]:
# sr의 결측값을 삭제한 결과를 sr에 재할당합니다.
sr = sr.dropna()

In [None]:
# sr을 출력합니다.
sr

## 데이터프레임 생성

In [None]:
# 리스트로 데이터프레임을 생성합니다.
df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]],
                  index = [1, 2, 3],
                  columns = ['A반', 'B반', 'C반'])

In [None]:
# df를 출력합니다.
df

In [None]:
# df의 클래스를 확인합니다.
type(df)

In [None]:
# df의 처음 다섯 행을 출력합니다.
df.head()

In [None]:
# 딕셔너리로 데이터프레임을 생성합니다.
pd.DataFrame({'A반':[1, 2, 3], 'B반':[4, 5, 6], 'C반':[7, 8, 9]})

In [None]:
# 딕셔너리를 원소로 갖는 리스트로 데이터프레임을 생성합니다.
pd.DataFrame([{'A반': 1, 'B반': 2, 'C반': 3},
              {'A반': 4, 'B반': 5, 'C반': 6},
              {'A반': 7, 'B반': 8, 'C반': 9}])

## 데이터프레임 확인

In [None]:
# df의 형태를 튜플로 출력합니다. (행의 수, 열의 수)
df.shape

In [None]:
# df의 값을 2차원 배열로 출력합니다.
df.values

In [None]:
# df의 인덱스명을 출력합니다. 
df.index

In [None]:
# df의 컬럼명을 출력합니다. 
df.columns

In [None]:
# df의 컬럼별 자료형을 출력합니다. 
df.dtypes

In [None]:
# df의 정보를 한 번에 확인합니다.
df.info()

In [None]:
# df의 컬럼별 기술통계량을 한꺼번에 출력합니다. 
df.describe()

# 데이터 입출력

## xlsx 파일 입출력

In [None]:
!pip install openpyxl

In [None]:
# xlsx 파일을 읽고 데이터프레임을 생성합니다.
df = pd.read_excel('KBO_Hitters_2020.xlsx')

In [None]:
# df의 정보를 한 번에 확인합니다.
df.info()

In [None]:
# df의 처음 다섯 행을 출력합니다.
df.head()

In [None]:
# 데이터프레임을 xlsx 파일로 저장합니다.
df.to_excel('test.xlsx', sheet_name = 'test', index = None)

## csv 파일 인코딩 방식 확인 및 입출력

In [None]:
# 관련 라이브러리를 호출합니다.
import chardet

In [None]:
# 텍스트 파일을 bytes 모드로 읽습니다.
raw = open('KBO_Hitters_2020.csv', 'rb').read()

In [None]:
# 텍스트 파일의 문자 인코딩 방식을 확인합니다.
chardet.detect(raw)

In [None]:
# 텍스트 파일을 읽고 데이터프레임을 생성합니다.
df = pd.read_csv('KBO_Hitters_2020.csv', encoding = 'EUC-KR')

In [None]:
# 데이터프레임을 csv 파일로 저장합니다.
df.to_csv('test.csv', index = None, encoding = 'EUC-KR')

## 데이터프레임 팬시 인덱싱

In [None]:
# 정수 인덱스를 스칼라로 지정하면 해당 행을 선택하여 시리즈로 출력합니다.
df.iloc[0]

In [None]:
# 정수 인덱스를 리스트로 지정하면 해당 행을 선택하여 데이터프레임으로 출력합니다.
df.iloc[[0]]

In [None]:
# 대괄호 안에 콜론을 사용하여 슬라이싱하면 해당 행을 데이터프레임으로 반환합니다.
df.iloc[0:10]

In [None]:
# 컬럼을 선택하려면 대괄호 안에 콤마(,)를 추가하고 콤마 뒤에 정수 인덱스를 지정합니다.
df.iloc[0:10, ]

In [None]:
# df의 0~9번 인덱스 행, 0~11번 인덱스 컬럼을 데이터프레임으로 반환합니다.
df.iloc[0:10, 0:12]

In [None]:
# 대괄호 안에 리스트를 지정하면 원하는 순서대로 선택할 수 있습니다.
df.iloc[:, [1, 0, 4, 5, 6]]

In [None]:
# df의 인덱스를 정수 1부터 시작하도록 변경합니다.
df.index = range(1, 297)

In [None]:
# df의 인덱스명이 1인 행의 전체 컬럼을 선택하여 시리즈로 반환합니다.
df.loc[1]

In [None]:
# 인덱스명을 리스트로 지정하면 해당 행을 선택하여 데이터프레임으로 반환합니다.
df.loc[[1]]

In [None]:
# df의 인덱스명이 1~10인 행을 선택하여 데이터프레임으로 반환합니다.
df.loc[1:10]

In [None]:
# df의 인덱스명이 1~10인 행, 선수명~도루 컬럼을 반환합니다.
df.loc[1:10, '선수명':'도루']

In [None]:
# 컬럼명을 원하는 순서대로 선택할 수 있습니다.
df.loc[:, ['팀명', '선수명', '타수', '안타', '홈런']]

# 데이터프레임 전처리

##  실습 데이터셋 준비

In [None]:
# 현재 작업경로에 저장된 파일명을 출력합니다.
os.listdir()

In [None]:
# 가격 xlsx 파일을 읽고 데이터프레임을 생성합니다.
price = pd.read_excel('APT_Price_Seoul_2020.xlsx')

In [None]:
# price의 처음 다섯 행을 출력합니다.
price.head()

In [None]:
# price의 정보를 출력합니다.
price.info()

In [None]:
# 상세정보 xlsx 파일을 읽고 데이터프레임을 생성합니다.
detail = pd.read_excel('Naver_APT_Detail.xlsx')

In [None]:
# detail의 처음 다섯 행을 출력합니다.
detail.head()

In [None]:
# detail의 정보를 출력합니다.
detail.info()

### [참고] csv 파일 읽을 때 날짜 자료형 유지하는 방법

In [None]:
# csv 파일을 bytes 모드로 읽습니다.
raw = open('APT_Price_Seoul_2020.csv', 'rb').read()

In [None]:
# 텍스트 파일의 문자 인코딩 방식을 확인합니다.
chardet.detect(raw[:100])

In [None]:
# 가격 csv 파일을 읽고 데이터프레임을 생성합니다.
price = pd.read_csv('APT_Price_Seoul_2020.csv')

In [None]:
# price의 정보를 확인합니다.
price.info()

In [None]:
# csv 파일을 읽을 때 날짜 자료형으로 읽을 컬럼명을 지정합니다.
price = pd.read_csv('APT_Price_Seoul_2020.csv', parse_dates = ['거래일'])

In [None]:
# price의 정보를 다시 확인합니다.
price.info()

## 컬럼 선택 및 삭제

In [None]:
# 가격 데이터의 컬럼명을 출력합니다.
price.columns

In [None]:
# 일련번호 컬럼을 선택하여 시리즈로 반환합니다.
price['일련번호']

In [None]:
# 여러 컬럼을 선택하려면 리스트를 입력합니다.
price[['일련번호', '거래일']]

In [None]:
# drop() 함수에 삭제할 컬럼명을 리스트로 입력하여 삭제합니다.
price.drop('일련번호', axis = 1)

In [None]:
# 컬럼을 삭제하고 price에 재할당합니다.
price = price.drop('일련번호', axis = 1)

## 컬럼명 변경

In [None]:
# rename() 함수로 일부 컬럼명을 변경합니다.
price = price.rename(columns = {'아파트': '아파트명'})

In [None]:
# 가격 데이터의 컬럼명을 출력합니다.
price.columns

In [None]:
# columns 속성을 사용하면 컬럼명 전체를 변경합니다.
price.columns = ['아파트', '시도', '시군구', '읍면동', '지번', '거래일', '전용면적', '층', '거래금액']

In [None]:
# 가격 데이터의 처음 다섯 행을 출력합니다.
price.head()

## 컬럼 자료형 변환

In [None]:
# 거래일 컬럼을 문자열로 변환합니다.
price['거래일'] = price['거래일'].astype('str')

In [None]:
# 거래금액 컬럼을 실수로 변환합니다.
price['거래금액'] = price['거래금액'].astype('float')

In [None]:
# 가격 데이터의 컬럼별 자료형을 확인합니다.
price.dtypes

In [None]:
# 거래일 컬럼을 날짜로 복원합니다.
price['거래일'] = pd.to_datetime(price['거래일'])

In [None]:
# 가격 데이터의 컬럼별 자료형을 다시 확인합니다.
price.dtypes

In [None]:
# astype() 함수에 딕셔너리로 입력하면 여러 컬럼을 각각 변환합니다.
price = price.astype({'층':'float', '거래금액':'int'})

In [None]:
# 가격 데이터의 컬럼별 자료형을 확인합니다.
price.dtypes

In [None]:
# 여러 컬럼을 하나의 자료형으로 동시에 변환합니다.
price.iloc[:, 7:9] = price.iloc[:, 7:9].astype(int)

In [None]:
# 가격 데이터의 컬럼별 자료형을 확인합니다.
price.dtypes

### [참고] 문자열을 날짜 자료형으로 변환

In [None]:
# yyyy-mm-dd 형태가 아닌 문자열 데이터로 데이터프레임을 생성합니다.
dates = pd.DataFrame(['2020년 12월 13일', '2021년 1월 1일'], columns = ['날짜'])

In [None]:
# 거래일 컬럼을 날짜datetime로 변환하려고 하면 에러가 발생합니다.
dates['날짜'] = dates['날짜'].astype('datetime64')

In [None]:
# to_datetime() 함수의 format 매개변수에 날짜 포맷을 지정하면 변환됩니다.
dates['날짜'] = pd.to_datetime(dates['날짜'], format = '%Y년 %m월 %d일')

## 조건에 맞는 행 선택

In [None]:
# 거래금액이 700000(70억) 이상인 행만 선택합니다.
price.loc[price['거래금액'] >= 700000]

In [None]:
# 거래금액이 70억 이상인 행을 선택하여 df1에 할당합니다.
df1 = price.loc[price['거래금액'] >= 700000]

In [None]:
# df1의 처음 10행을 출력합니다.
df1.head(10)

In [None]:
# 거래금액이 70억 미만이고, 60층 이상인 행을 선택하여 df2에 할당합니다.
df2 = price.loc[(price['거래금액'] < 700000) & (price['층'] >= 60)]

In [None]:
# df2의 처음 10행을 출력합니다.
df2.head(10)

## 행 삭제 및 인덱스명 초기화

In [None]:
# drop() 함수에 인덱스명 스칼라/리스트를 입력하여 행을 삭제합니다.
df2.drop([23700, 44541])

In [None]:
# df1의 인덱스명을 초기화한 결과를 출력합니다.
df1.reset_index()

In [None]:
# index 컬럼이 생성되지 않도록 drop = True를 추가합니다.
df1.reset_index(drop = True)

In [None]:
# 인덱스명을 초기화한 결과를 df1에 재할당합니다.
df1 = df1.reset_index(drop = True)

## 결측값 처리

In [None]:
# 컬럼별 결측값 개수를 확인합니다.
price.isna().sum()

In [None]:
# 결측값을 포함하는 행을 삭제한 결과를 출력합니다.
price.dropna()

In [None]:
# 결측값을 공백으로 채운 결과를 출력합니다.
price.fillna('')

In [None]:
# 가격 데이터에서 결측값을 삭제하고 재할당합니다.
price = price.dropna()

In [None]:
# 컬럼별 결측값 개수를 다시 확인합니다.
price.isna().sum()

## 파생변수 생성

In [None]:
# 거래금액 컬럼을 만원 단위에서 억원 단위로 변경합니다.
price['거래금액'] = price['거래금액'] / 10000

In [None]:
# 거래금액을 전용면적으로 나눈 새로운 컬럼을 생성합니다.
price['단위금액'] = price['거래금액'] / price['전용면적'] * 10000

In [None]:
# 가격 데이터의 처음 다섯 행을 출력합니다.
price.head()

In [None]:
# 단위금액 컬럼값을 반올림하여 소수점 둘째 자리까지 남깁니다.
price['단위금액'] = price['단위금액'].round(2)

In [None]:
# 가격 데이터의 처음 다섯 행을 출력합니다.
price.head()

In [None]:
# 단위금액의 크기를 1천만원 기준으로 구분하는 이진형 컬럼을 생성합니다.
price.loc[price['단위금액'] >= 1000, '금액구분'] = '이상'
price.loc[price['단위금액'] < 1000, '금액구분'] = '미만'

In [None]:
# 가격 데이터의 처음 다섯 행을 출력합니다.
price.head()

In [None]:
# 여러 컬럼값을 결합하여 지번주소 컬럼을 생성합니다.
price['지번주소'] = price['시도'] + ' ' + price['시군구'] + ' ' + price['읍면동'] + ' ' + price['지번']

### [참고] 같은 함수 반복 실행 실습

In [None]:
# 거래금액 컬럼의 각 원소에 10000을 곱하고 정수로 변환합니다.
price['거래금액'].map(lambda x: x*10000).astype('int')

In [None]:
# 시도~지번 컬럼을 갖는 데이터프레임 각 열의 길이를 반환합니다.
price.loc[:, '시도':'지번'].apply(len, axis = 0)

In [None]:
# 시도~지번 컬럼을 갖는 데이터프레임 각 행의 길이를 반환합니다.
price.loc[:, '시도':'지번'].apply(len, axis = 1)

In [None]:
# 시도~지번 컬럼을 갖는 데이터프레임 각 행 원소를 하나로 결합합니다.
price.loc[:, '시도':'지번'].apply(lambda x: ' '.join(x), axis = 1)

In [None]:
# 시도~지번 컬럼을 갖는 데이터프레임 각 원소의 길이를 반환합니다.
price.loc[:, '시도':'지번'].applymap(len)

### [참고] 날짜 컬럼 분해

In [None]:
# 날짜 자료형에서 연도만 추출합니다.
price['거래일'].dt.year

In [None]:
# 날짜 자료형에서 월만 추출합니다.
price['거래일'].dt.month

In [None]:
# 날짜 자료형에서 일만 추출합니다.
price['거래일'].dt.day

In [None]:
# 날짜 자료형에서 시만 추출합니다.
price['거래일'].dt.hour

In [None]:
# 날짜 자료형에서 분만 추출합니다.
price['거래일'].dt.minute

In [None]:
# 날짜 자료형에서 초만 추출합니다.
price['거래일'].dt.second

## 집계함수로 데이터 요약

In [None]:
# 시군구별 단위금액 빈도수를 반환합니다.
price.groupby('시군구').count()['거래금액']

In [None]:
# 시군구별 단위금액 합계를 반환합니다.
price.groupby('시군구').sum()['거래금액']

In [None]:
# 시군구별 단위금액 평균을 반환합니다.
price.groupby('시군구').mean()['단위금액']

In [None]:
# 시군구별 단위금액 표준편차를 반환합니다.
price.groupby('시군구').std()['단위금액']

In [None]:
# 시군구별 단위금액 최소값을 반환합니다.
price.groupby('시군구').min()['단위금액']

In [None]:
# 시군구별 단위금액 최대값을 반환합니다.
price.groupby('시군구').max()['단위금액']

In [None]:
# 시군구별 단위금액의 기술통계량을 한 번에 반환합니다.
price.groupby('시군구').describe()['단위금액']

### 데이터프레임 구조 변경

In [None]:
# 두 개의 컬럼으로 데이터를 요약하여 Long type의 데이터프레임을 생성합니다.
long = price.groupby(['시군구', '금액구분']).count()[['단위금액']]

In [None]:
# long의 처음 10행만 출력합니다.
long.head(10)

In [None]:
# 단위금액 컬럼명을 건수로 변경합니다.
long.columns = ['건수']

In [None]:
# Long type을 Wide type으로 변경합니다.
wide = long.unstack()

In [None]:
# wide의 처음 10행만 출력합니다.
wide.head(10)

In [None]:
# Wide type을 Long type으로 변경하고 처음 10행만 출력합니다.
wide.stack().head(10)

## 피벗 테이블 생성

In [None]:
# 원데이터로부터 피벗 테이블을 생성합니다.
pd.pivot_table(price, 
               index = '시군구', 
               columns = '금액구분', 
               values = '단위금액', 
               aggfunc = ['mean', 'std'])

## 데이터프레임 결합

In [None]:
# 컬럼명이 같은 df1과 df2를 세로 방향으로 결합한 결과를 반환합니다.
pd.concat([df1, df2])

In [None]:
# 두 데이터프레임을 결합한 결과에서 인덱스명을 초기화합니다.
pd.concat([df1, df2], ignore_index = True)

In [None]:
# df2의 일부 컬럼명을 변경합니다.
df2 = df2.rename(columns = {'아파트':'아파트명'})

In [None]:
# 컬럼명이 다른 df1과 df2를 세로 방향으로 결합한 결과를 반환합니다.
pd.concat([df1, df2])

In [None]:
# 인덱스명이 다른 df1과 df2를 가로 방향으로 결합한 결과를 반환합니다.
pd.concat([df1, df2], axis = 1)

## 외래키 확인 및 전처리

In [None]:
# 가격 데이터와 상세정보 데이터에서 일치하는 컬럼명을 찾습니다.
set(price.columns) & set(detail.columns)

In [None]:
# 가격 데이터의 지번주소를 출력합니다.
price['지번주소']

In [None]:
# 상세정보 데이터의 지번주소를 출력합니다.
detail['지번주소']

In [None]:
# 가격 데이터의 지번주소에서 '특별시'를 삭제합니다.
price['지번주소'] = price['지번주소'].str.replace('특별시', '')

In [None]:
# 가격 데이터의 지번주소를 다시 출력합니다.
price['지번주소']

## 데이터프레임 중복 확인 및 제거

In [None]:
# 상세정보 데이터에서 지번주소 컬럼의 중복 건수를 출력합니다.
detail.duplicated(['지번주소']).sum()

In [None]:
# 지번주소 컬럼이 중복인 인덱스를 추출합니다.
dup = detail.duplicated(['지번주소'], keep = False)
print(dup)

In [None]:
# 상세정보 데이터에서 지번주소 컬럼이 중복인 행만 선택합니다.
detail.loc[dup]

In [None]:
# 지번주소 컬럼이 중복이면 첫 번째 행을 남기고 재할당합니다.
detail = detail.drop_duplicates(['지번주소'], keep = 'first')

## 데이터프레임 병합

In [None]:
# 내부 병합을 실행합니다.
pd.merge(price, detail, 'inner', on = '지번주소')

In [None]:
# 외부 병합을 실행합니다.
pd.merge(price, detail, 'outer', on = '지번주소')

In [None]:
# 왼쪽 외부 병합을 실행합니다.
pd.merge(price, detail, 'left', on = '지번주소')

In [None]:
# 가격 데이터의 외래키 컬럼명을 변경합니다.
price = price.rename(columns = {'지번주소':'주소'})

In [None]:
# 외래키가 일치하지 않으면 두 데이터프레임의 외래키를 각각 지정해야 합니다.
apt = pd.merge(price, detail, left_on = '주소', right_on = '지번주소')

In [None]:
# apt의 정보를 확인합니다.
apt.info()

## 데이터프레임 정렬

In [None]:
# 거래금액 컬럼 기준으로 오름차순으로 정한 결과에서 처음 5행만 출력합니다.
apt.sort_values(['거래금액']).head()

In [None]:
# 거래금액 컬럼 기준으로 오름차순으로 정한 결과에서 처음 다섯 행만 출력합니다.
apt.sort_values(['거래금액'], ascending = False).head()

In [None]:
# 층, 거래금액 컬럼 순으로 모두 내림차순 정렬하고 처음 다섯 행만 출력합니다.
apt.sort_values(['층', '거래금액'], ascending = False).head()

In [None]:
# 층은 내림차순, 거래금액은 오름차순으로 정렬하고 처음 다섯 행만 출력합니다.
apt.sort_values(['층', '거래금액'], ascending = [False, True]).head()

## 외부 파일로 저장

In [None]:
# 현재 작업경로를 확인합니다.
os.getcwd()

In [None]:
# apt를 xlsx 파일로 저장합니다.
apt.to_excel('APT_List_Seoul_2020.xlsx', index = None)

In [None]:
# apt를 csv 파일로 저장합니다.
apt.to_csv('APT_List_Seoul_2020.csv', index = None)

In [None]:
# 현재 작업경로에 포함된 폴더명과 파일명을 출력합니다.
os.listdir()

---