# 3-1 데이터 전처리
데이터를 본격적으로 분석하기 전 분석에 적합하게 데이터를 가공하는 작업

데이터 가공(Data Manipulation), 데이터 핸들링(Data Handling)

## 데이터 전처리에서 수행되는 작업들
1. 행, 열의 순서변경
2. 컬럼이나 인덱스의 이름 변경
3. 데이터 정렬
4. 데이터 검색
5. 행, 열 추가
6. 행, 열 삭제
7. 두 개 이상의 데이터 프레임 병합

# 01. 필요한 패키지 참조 및 샘플 데이터 준비
## 1) 패키지 참조하기

In [1]:
import numpy
from pandas import DataFrame
from pandas import Series
from pandas import read_excel
from pandas import concat     #행단위 병합기능을 제공하는 함수
from pandas import merge      #열단위 병합기능을 제공하는 함수

## 2) 샘플데이터 준비

In [2]:
xls = read_excel('http://itpaper.co.kr/demo/py/grade.xlsx')
성적표 = xls.set_index('이름')
성적표

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


# #02. 행, 열의 순서 변경
## 1) 열 순서 변경하기
지정된 순서대로 열이 재정렬된 결과 반환 (원본변화X)

In [3]:
df1 = 성적표.reindex(columns=['국어', '수학', '과학', '영어', '성별', '학년'])
df1

Unnamed: 0_level_0,국어,수학,과학,영어,성별,학년
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,98,88.0,64.0,,남자,1
영희,88,62.0,72.0,90.0,여자,2
민수,92,,,70.0,남자,1
수현,63,31.0,70.0,60.0,여자,3
호영,120,,88.0,50.0,남자,4


In [4]:
df2 = 성적표.reindex(columns = ['국어', '수학', '영어'])
df2

Unnamed: 0_level_0,국어,수학,영어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
철수,98,88.0,
영희,88,62.0,90.0
민수,92,,70.0
수현,63,31.0,60.0
호영,120,,50.0


## 2) 인덱스(행) 순서변경

In [5]:
df3 = 성적표.reindex(index=['민수', '수현', '호영', '영희', '철수'])
df3

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0
영희,2,여자,88,90.0,62.0,72.0
철수,1,남자,98,,88.0,64.0


In [6]:
df4 = 성적표.reindex(index=['민수', '수현'])
df4

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0


## 3) 행, 열 순서를 한번에 변경하기

In [8]:
df5 = 성적표.reindex(columns=['국어', '수학', '과학', '영어'],
                 index = ['호영', '영희', '철수'])
df5

Unnamed: 0_level_0,국어,수학,과학,영어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
호영,120,,88.0,50.0
영희,88,62.0,72.0,90.0
철수,98,88.0,64.0,


# #03. 컬럼이나 인덱스의 이름 변경
- "기존이름:새이름" 형식의 딕셔너리로 지정 (원본변화X)
- inplce=True 파라미터 지정 시 원본에 바로 반영되고 반환되는 결과값X

## 1) 컬럼이름 변경하기

In [9]:
df6 = 성적표.rename(columns = {'국어':'kor', '영어':'eng', '수학':'math', '과학':'sinc'})
df6

Unnamed: 0_level_0,학년,성별,kor,eng,math,sinc
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


## 2) 인덱스 이름 변경하기

In [11]:
df7 = 성적표.rename(index = {'철수':'학생1', '영희':'학생2', '민수':'학생2'})
df7

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
학생1,1,남자,98,,88.0,64.0
학생2,2,여자,88,90.0,62.0,72.0
학생2,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


# #04. 데이터 정렬
- rename() 함수와 마찬가지로 inplace=True 시 즉시 원본에 반영

## 1) 특정 열로 오름차순(순차) 정렬

In [13]:
오름차순 = 성적표.sort_values('국어')
오름차순

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수현,3,여자,63,60.0,31.0,70.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
철수,1,남자,98,,88.0,64.0
호영,4,남자,120,50.0,,88.0


## 2) 특정 열로 내림차순(역순) 정렬

In [14]:
내림차순 = 성적표.sort_values('국어', ascending=False)
내림차순

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
민수,1,남자,92,70.0,,
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0


## 3) 두 개 이상의 컬럼을 기준으로 정렬하기

In [15]:
# 국어점수가 동일할 경우 수학점수 순으로 정렬
# inplace = True를 사용했으므로 원본에 바로 반영
성적표.sort_values(['국어', '수학'], inplace=True)
성적표

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수현,3,여자,63,60.0,31.0,70.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
철수,1,남자,98,,88.0,64.0
호영,4,남자,120,50.0,,88.0


## 4) 인덱스를 기준으로 정렬
### 순차정렬

In [17]:
인덱스정렬1 = 성적표.sort_index()
인덱스정렬1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
영희,2,여자,88,90.0,62.0,72.0
철수,1,남자,98,,88.0,64.0
호영,4,남자,120,50.0,,88.0


### 역순정렬, 원본에 반영

In [18]:
성적표.sort_index(ascending=False, inplace=True)
성적표

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


# #05.데이터검색 (조건에 맞는 데이터 추출)
## 1) 행단위 조건 검색
### 단일조건

In [19]:
#국어점수가 90을 넘는 학생 조회
성적표.query('국어>90')

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
민수,1,남자,92,70.0,,


### AND 조건 / OR 조건 사용

In [21]:
성적표.query('국어>80 and 수학>80')

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0


In [22]:
성적표.query('국어<70 or 수학<70')

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0


### IN 조건 사용

In [24]:
# 검색 조건에 대한 리스트 준비
item=[98, 88]
item

[98, 88]

In [25]:
# 국어점수가 item 리스트에 포함되어 있는 데이터 찾기
성적표.query('국어 in @item')

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0


### NOT IN 조건 사용

In [26]:
#국어 점수가 item 리스트에 포함되지 않는 데이터 찾기
성적표.query('국어 not in @item')

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


## 3) 열단위 필터링

In [27]:
# 열 필터링 --> 추출할 컬럼의 이름을 리스트로 전달
성적표.filter(['국어','영어'])

Unnamed: 0_level_0,국어,영어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
호영,120,50.0
철수,98,
영희,88,90.0
수현,63,60.0
민수,92,70.0


# #06. 행, 열 추가
## 1) 행 추가
### a) 예제 진행을 위한 데이터 프레임 복사
원본 데이터가 변경될 경우 에러가 발생했을 때 처음부터 다시 실행할 수 없게 되므로 복사본을 만들어놓고 진행

In [30]:
# 데이터프레임 복제
add_row = 성적표.copy()
add_row

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


### b) 리스트 활용
- 원본 자체가 수정됨
- 추가될 행의 인덱스 이름 지정
- 리스트로 추가할 경우 dataframe의 컬럼 순서에 맞게 지정
- 누락되는 값이 있거나 값의 수가 초과될 경우 에러

In [31]:
add_row.loc['영민'] = [3,'남자', 90, 80, 90, 62]
add_row

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,
영민,3,남자,90,80.0,90.0,62.0


### c) 딕셔너리를 사용한 행 추가
- 컬럼의 순서는 상관X
- 누락되는 값이 있거나 값의 수가 초과 시 에러
- 빈 값을 적용해야 하는 경우 None 이라고 지정 (따옴표X)

In [32]:
add_row.loc['민정'] = {'국어':81, '영어':72, '과학':90, '수학':84, '성별':'여자', '학년':2}
add_row

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,
영민,3,남자,90,80.0,90.0,62.0
민정,2,여자,81,72.0,84.0,90.0


### d) 기존의 행을 복사하여 추가하기

In [33]:
add_row.loc['철민'] = add_row.loc['철수']
add_row

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,
영민,3,남자,90,80.0,90.0,62.0
민정,2,여자,81,72.0,84.0,90.0
철민,1,남자,98,,88.0,64.0


### e) 다른 데이터 프레임과 병합
제외된 열에 대해서는 NaN(결측치)로 설정

In [34]:
#sort: 열을 이름순으로 정렬(기본값 true)
tmp = DataFrame({'국어':81, '수학':84, '과학':90}, index=["상호"])
tmp

Unnamed: 0,국어,수학,과학
상호,81,84,90


<b> A. append(B) 명령은 A에 B를 덧붙인다는 의미.

이 경우 컬럼의 쌍이 맞지 않아도 병합 가능 -> 존재X 컬럼의 경우 None으로 저장

sort 파라미터에 대한 경고가 표시될 경우 무시해도 무관

In [36]:
append_row = add_row.append(tmp)
append_row

Unnamed: 0,학년,성별,국어,영어,수학,과학
호영,4.0,남자,120,50.0,,88.0
철수,1.0,남자,98,,88.0,64.0
영희,2.0,여자,88,90.0,62.0,72.0
수현,3.0,여자,63,60.0,31.0,70.0
민수,1.0,남자,92,70.0,,
영민,3.0,남자,90,80.0,90.0,62.0
민정,2.0,여자,81,72.0,84.0,90.0
철민,1.0,남자,98,,88.0,64.0
상호,,,81,,84.0,90.0


## 2) 열 추가
### a) 예제 진행을 위한 데이터프레임 복사

In [37]:
add_col = 성적표.copy()
add_col

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


### b) 리스트를 활용한 열 추가
리스트 형식으로 추가할 경우 행의 수에 맞게 추가되어야 한다.

In [38]:
add_col['한국사'] = [92, 83, 72, None, 80]
add_col

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
호영,4,남자,120,50.0,,88.0,92.0
철수,1,남자,98,,88.0,64.0,83.0
영희,2,여자,88,90.0,62.0,72.0,72.0
수현,3,여자,63,60.0,31.0,70.0,
민수,1,남자,92,70.0,,,80.0


### c) 단일값 추가
새로운 열에 하나의 값을 지정 시 모든 행이 동일 값을 갖는다

In [39]:
add_col['세계사'] = 100
add_col

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사,세계사
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
호영,4,남자,120,50.0,,88.0,92.0,100
철수,1,남자,98,,88.0,64.0,83.0,100
영희,2,여자,88,90.0,62.0,72.0,72.0,100
수현,3,여자,63,60.0,31.0,70.0,,100
민수,1,남자,92,70.0,,,80.0,100


### d) Series를 통한 열 추가
각 값이 연결될 행의 이름(index)를 지정해야 한다. 부분적으로 값을 비워둘 수 있다.
(호영의 데이터 생략, 민철은 원본 데이터에 존재하지 않으므로 추가 X)

In [40]:
add_col['사회'] = Series([82, 90, 92, 64, 77], index=['철수', '영희', '민철', '수현', '민수'])
add_col

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사,세계사,사회
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
호영,4,남자,120,50.0,,88.0,92.0,100,
철수,1,남자,98,,88.0,64.0,83.0,100,82.0
영희,2,여자,88,90.0,62.0,72.0,72.0,100,90.0
수현,3,여자,63,60.0,31.0,70.0,,100,64.0
민수,1,남자,92,70.0,,,80.0,100,77.0


### e) 조건에 따른 선택적인 값 추가
조건이 참인 경우 A, 그렇지 않은 경우 B

In [41]:
add_col['국어결과'] = numpy.where(add_col['국어'] >= 70, '합격', '불합격')
add_col

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사,세계사,사회,국어결과
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
호영,4,남자,120,50.0,,88.0,92.0,100,,합격
철수,1,남자,98,,88.0,64.0,83.0,100,82.0,합격
영희,2,여자,88,90.0,62.0,72.0,72.0,100,90.0,합격
수현,3,여자,63,60.0,31.0,70.0,,100,64.0,불합격
민수,1,남자,92,70.0,,,80.0,100,77.0,합격


### f) 여러 개의 조건 중 선택적인 값을 추가하기

In [42]:
# 학점을 부여하기 위한 점수의 구간을 설정하는 조건들을 리스트로 설정
conditions = [
    (add_col['영어']>=90), #A
    (add_col['영어']>=80), #B
    (add_col['영어']>=70) #C
]
# 조건에 따라 부여될 학점
grade = ['A', 'B', 'C']

# 조건에 따른 학점열 추가하기
# default 파라미터는 조건에 부합하지 않을 경우 사용할 기본값
add_col['영어학점'] = numpy.select(conditions, grade, default='F')
add_col

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사,세계사,사회,국어결과,영어학점
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
호영,4,남자,120,50.0,,88.0,92.0,100,,합격,F
철수,1,남자,98,,88.0,64.0,83.0,100,82.0,합격,F
영희,2,여자,88,90.0,62.0,72.0,72.0,100,90.0,합격,A
수현,3,여자,63,60.0,31.0,70.0,,100,64.0,불합격,F
민수,1,남자,92,70.0,,,80.0,100,77.0,합격,C


# #07. 행, 열 삭제
## 1) 행 삭제
### a) 예제 진행을 위한 데이터프레임 복사

In [44]:
del_row = 성적표.copy()
del_row

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


### b) 특정 행 삭제하기
행 삭제는 원본에 반영X <b>결과가 적용된 새로운 데이터프레임이 반환</b>

In [45]:
d1 = del_row.drop('철수')
d1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


### c) 여러행 삭제하기
리스트의 형태로 행의 이름을 파라미터로 전달 (존재하지 않는 행을 삭제 시도 시 에러 발생 )

In [46]:
d2 = del_row.drop(['호영', '영희'])
d2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


### d) 인덱스 번호를 통한 특정 위치의 행 삭제

In [48]:
#0번째 행 삭제
d3 = del_row.drop(del_row.index[0])
d3

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


### e) 인덱스 번호를 통한 범위 내의 행 삭제하기

In [49]:
d4 = del_row.drop(del_row.index[1:4])
d4

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
민수,1,남자,92,70.0,,


### f) 삭제 결과를 원본에 반영하기
drop 함수에 inplace=True 파라미터 추가 시 원본 자체에서 삭제

In [50]:
del_row.drop(['영희', '수현'], inplace=True)
del_row

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
민수,1,남자,92,70.0,,


## 2) 열 삭제
drop() 함수에 axis=1 파라미터 추가
- axis=0 : x축, 행에 대한 적용, 기본값
- axis=1 : y축, 열에 대한 적용, Optional

### 예제 진행을 위한 데이터프레임 복사

In [52]:
del_col = 성적표.copy()
del_col

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


### a) 컬럼이름을 통한 열 삭제

In [53]:
k1 = del_col.drop('국어', axis=1)
k1

Unnamed: 0_level_0,학년,성별,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
호영,4,남자,50.0,,88.0
철수,1,남자,,88.0,64.0
영희,2,여자,90.0,62.0,72.0
수현,3,여자,60.0,31.0,70.0
민수,1,남자,70.0,,


### b) 여러 열을 동시에 삭제하기

In [54]:
k2 = del_col.drop(['영어', '수학', '과학'], axis=1)
k2

Unnamed: 0_level_0,학년,성별,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
호영,4,남자,120
철수,1,남자,98
영희,2,여자,88
수현,3,여자,63
민수,1,남자,92


### c) 인덱스 번호를 활용한 열 삭제

In [55]:
k3 = del_col.drop(del_col.columns[3], axis=1)
k3

Unnamed: 0_level_0,학년,성별,국어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
호영,4,남자,120,,88.0
철수,1,남자,98,88.0,64.0
영희,2,여자,88,62.0,72.0
수현,3,여자,63,31.0,70.0
민수,1,남자,92,,


### d) 인덱스 번호를 활용하여 지정된 범위만큼 삭제

In [56]:
k4 = del_col.drop(del_col.columns[1:3], axis=1)
k4

Unnamed: 0_level_0,학년,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
호영,4,50.0,,88.0
철수,1,,88.0,64.0
영희,2,90.0,62.0,72.0
수현,3,60.0,31.0,70.0
민수,1,70.0,,


# #08. 두 개 이상의 데이터 프레임 병합하기
## 1) 행 단위 병합
### a) 샘플 DataFrame 만들기
- df_top과 df_middle = 국어 컬럼이 동일
- df_top과 df_bottom = 민철 인덱스가 동일

In [57]:
df_top = DataFrame({'국어':[90,82], '수학':[81,76]}, index=['민철', '철수'])
df_top

Unnamed: 0,국어,수학
민철,90,81
철수,82,76


In [58]:
df_middle = DataFrame({'국어':[70,62], '영어':[77,68]}, index=['영민', '정수'])
df_middle

Unnamed: 0,국어,영어
영민,70,77
정수,62,68


In [59]:
df_bottom = DataFrame({'영어':[70,88], '과학':[71,76]}, index=['민철', '태영'])
df_bottom

Unnamed: 0,영어,과학
민철,70,71
태영,88,76


### b) A에 B를 이어 붙이기
- 단순히 세로로 병합만 수행
- 데이터프레임 간 컬럼이 달라도 존재하지 않는 컬럼은 빈값(결측치)로 채움

In [60]:
# df_top에 연결할 대상이 두개 이상이라면 파라미터르르 리스트로 구분 
df_a = df_top.append([df_middle, df_bottom])
df_a

Unnamed: 0,국어,수학,영어,과학
민철,90.0,81.0,,
철수,82.0,76.0,,
영민,70.0,,77.0,
정수,62.0,,68.0,
민철,,,70.0,71.0
태영,,,88.0,76.0


### c) A,B,C를 병합하기
append() 함수와 동일 결과
- 단순히 세로 방향으로 덧붙이는 개념 (인덱스 중복 발생)

In [61]:
df_b = concat([df_top, df_middle, df_bottom])
df_b

Unnamed: 0,국어,수학,영어,과학
민철,90.0,81.0,,
철수,82.0,76.0,,
영민,70.0,,77.0,
정수,62.0,,68.0,
민철,,,70.0,71.0
태영,,,88.0,76.0


## 2) 열단위 병합
한번에 두 개의 데이터 프레임만 병합 가능

### a) 인덱스가 지정되지 않은 샘플 데이터 프레임 만들기

In [62]:
df_left = DataFrame({'고객번호':[1001, 1002, 1003, 1004], '이름':['철수', '영희', '민철', '미영']})
df_left

Unnamed: 0,고객번호,이름
0,1001,철수
1,1002,영희
2,1003,민철
3,1004,미영


In [63]:
df_right = DataFrame({'고객번호':[1001, 1002, 1003, 1005], '금액':[10000, 20000, 15000, 5000]})
df_right

Unnamed: 0,고객번호,금액
0,1001,10000
1,1002,20000
2,1003,15000
3,1005,5000


### b) 두 데이터프레임의 공통 컬럼을 기준으로 병합하기
양쪽 데이터 프레임에 모두 존재하는 데이터만 보여준다 <b>(= INNER JOIN)</b>

In [64]:
#병합시 제외되는 항목들
# - df_left의 1004번 데이터, df_right의 1005번 데이터
merge(df_left, df_right)

Unnamed: 0,고객번호,이름,금액
0,1001,철수,10000
1,1002,영희,20000
2,1003,민철,15000


### c) 왼쪽 데이터프레임을 기준으로 오른쪽 프레임을 병합하기
how='left' 파라미터는 왼쪽 DataFrame의 모든 데이터를 보여줌 <b>(= LeftOuterJoin)</b>

In [65]:
merge(df_left, df_right, how='left')

Unnamed: 0,고객번호,이름,금액
0,1001,철수,10000.0
1,1002,영희,20000.0
2,1003,민철,15000.0
3,1004,미영,


### d) 오른쪽 데이터 프레임을 기준으로 왼쪽 프레임을 병합하기
how='right' 파라미터는 오른쪽 DataFrame의 모든 데이터를 보여줌 <b>(= Right Outer Join)</b>

In [66]:
merge(df_left, df_right, how='right')

Unnamed: 0,고객번호,이름,금액
0,1001,철수,10000
1,1002,영희,20000
2,1003,민철,15000
3,1005,,5000


### e) 양쪽 DataFrame을 모두 병합하기
how = 'outer' <b> (= FuLL OUTER JOIN)</b>

In [67]:
merge(df_left, df_right, how='outer')

Unnamed: 0,고객번호,이름,금액
0,1001,철수,10000.0
1,1002,영희,20000.0
2,1003,민철,15000.0
3,1004,미영,
4,1005,,5000.0


### f) 중복되는 데이터가 존재하는 경우의 열단위 병합
모든 경우의 수를 따져서 조합을 만들어낸다.

In [69]:
df_first = DataFrame({'아이디' : ['hello', 'world', 'python', 'hello'], '결제금액' : [14000, 13000, 15000, 13000]})
df_first

Unnamed: 0,아이디,결제금액
0,hello,14000
1,world,13000
2,python,15000
3,hello,13000


In [70]:
df_second = DataFrame({'아이디' : ['hello', 'python', 'python', 'world'], '적립금' : [300, 500, 100, 200]})
df_second

Unnamed: 0,아이디,적립금
0,hello,300
1,python,500
2,python,100
3,world,200


In [71]:
merge(df_first, df_second)

Unnamed: 0,아이디,결제금액,적립금
0,hello,14000,300
1,hello,13000,300
2,world,13000,200
3,python,15000,500
4,python,15000,100


### g) 공통 컬럼이 두 개 이상 존재하는 경우의 병합
두 데이터프레임에서 이름이 같은 열의 모두 키가 된다

In [72]:
df_a = DataFrame({'고객명':['민수', '수영'],
                 '데이터':['20000', '100000'],
                 '날짜':['2021-01-01', '2021-01-01']})
df_a

Unnamed: 0,고객명,데이터,날짜
0,민수,20000,2021-01-01
1,수영,100000,2021-01-01


In [73]:
df_b = DataFrame({'고객명':['민수', '수영'], '데이터':['21세', '20세']})
df_b

Unnamed: 0,고객명,데이터
0,민수,21세
1,수영,20세


In [74]:
# 고객컬럼과 데이터 컬럼이 동시에 일치하는 데이터를 찾아 병합 -> 존재하지 않으므로 결과 없음
merge(df_a, df_b)

Unnamed: 0,고객명,데이터,날짜


### on 파라미터를 사용하여 기준 열 지정하기
df_a의 데이터는 금액, df_b의 데이터는 나이 => 병합의 기준이 X
기준 열이 아니면서 이름이 같은 열에는 _x, _y와 같은 접미사가 붙는다.

In [75]:
merge_tmp = merge(df_a, df_b, on=['고객명'])
merge_tmp

Unnamed: 0,고객명,데이터_x,날짜,데이터_y
0,민수,20000,2021-01-01,21세
1,수영,100000,2021-01-01,20세


In [76]:
#컬럼 이름을 수정하여 최종 결과 생성
merge_result = merge_tmp.rename(columns={"데이터_x":"금액", "데이터_y":"나이"})
merge_result 

Unnamed: 0,고객명,금액,날짜,나이
0,민수,20000,2021-01-01,21세
1,수영,100000,2021-01-01,20세


### h) 공통 컬럼이 존재하지 않는 경우의 병합
left_on, right_on 파라미터를 사용하여 병합의 기준이 되는 열 이름을 명시

In [78]:
국어점수 = DataFrame({'이름':['영희', '철수'], '국어':[87,91]})
국어점수

Unnamed: 0,이름,국어
0,영희,87
1,철수,91


In [79]:
영어점수 = DataFrame({'성명':['영희', '철수'], '영어':[90,82]})
영어점수

Unnamed: 0,성명,영어
0,영희,90
1,철수,82


In [80]:
# 왼쪽의 이름컬럼과 오른쪽의 성명 컬럼이 같은 데이터를 병합
국어영어 = merge(국어점수, 영어점수, left_on=['이름'], right_on =['성명'])
국어영어

Unnamed: 0,이름,국어,성명,영어
0,영희,87,영희,90
1,철수,91,철수,82


In [81]:
# 중복되는 값을 갖는 성명은 필요 없으므로 삭제
국어영어.drop('성명', axis=1, inplace=True)
국어영어

Unnamed: 0,이름,국어,영어
0,영희,87,90
1,철수,91,82


### i) 인덱스를 기준으로 하는 병합
left_index = True, right_index = True 파라미터를 선택적으로 사용

In [83]:
수학점수 = DataFrame({'수학':[90,82]}, index=['민철', '봉구'])
수학점수

Unnamed: 0,수학
민철,90
봉구,82


In [84]:
과학점수 = DataFrame({'과학':[90,82]}, index=['민철', '철수'])
과학점수

Unnamed: 0,과학
민철,90
철수,82


In [85]:
# index를 기준으로 양쪽 데이터 프레임의 인덱스가 같은 행끼리 병합
수학과학 = merge(수학점수, 과학점수, left_index=True, right_index=True)
수학과학

Unnamed: 0,수학,과학
민철,90,90


In [86]:
# 인덱스가 겹치지 않더라도 병합하도록 how 파라미터 적용
수학과학 = merge(수학점수, 과학점수, left_index=True, right_index=True, how='outer')
수학과학

Unnamed: 0,수학,과학
민철,90.0,90.0
봉구,82.0,
철수,,82.0


### j) 왼쪽의 인덱스와 오른쪽의 컬럼을 기준으로 병합하기

In [87]:
한국사 = DataFrame({'한국사':[87, 91]}, index=['영희', '철수'])
한국사

Unnamed: 0,한국사
영희,87
철수,91


In [92]:
세계사 = DataFrame({'세계사':[90, 82], '이름':['영희', '철수']})
세계사

Unnamed: 0,세계사,이름
0,90,영희
1,82,철수


In [93]:
# 왼쪽에서는 인덱스 사용, 오른쪽에서는 이름 열 사용
# 인덱스가 사라지고 모두 컬럼으로 지정된다
역사 = merge(한국사, 세계사, left_index=True, right_on=["이름"])
역사

Unnamed: 0,한국사,세계사,이름
0,87,90,영희
1,91,82,철수


### 이름 컬럼을 인덱스로 지정하기
Pandas DataFrame에서는 인덱스가 그래프 표현에서의 x축을 담당하기 때문에 매우 중요한 역할

그러므로 데이터프레임 생성 시 인덱스가 부적절하면 적절한 전처리 과정을 거쳐 인덱스를 생성해야 한다.

In [95]:
역사.set_index('이름', inplace=True)
역사

Unnamed: 0_level_0,한국사,세계사
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
영희,87,90
철수,91,82
