# #03- 데이터 전처리
데이터를 본격적으로 분석하기 전에 분석에 적합하게 데이터를 **가공**하는 작업

데이터 가공(Data manipulation), 데이터 핸들링(Data Handling)도 비슷한 의미로 사용되는 용어.

## 데이터 전처리에서 수행되는 작업들

1. 행, 열의 순서 변경 / 이름 변경
1. 데이터 정렬
1. 데이터 검색
1. 행, 열 추가
1. 행, 열 삭제
1. 두 개 이상의 데이터 프레임 병합하기

## #01. 필요한 패키지 참조 및 샘플 데이터 준비하기

### 1) 패키지 참조하기

In [4]:
import numpy
from pandas import DataFrame #데이터프레임 클래스
from pandas import Series #시리즈 클래스
from pandas import ExcelFile #엑셀 파일을 읽기 위한 클래스

### )2 샘플데이터 준비

In [5]:
xls = ExcelFile('http://itpaper.co.kr/demo/py/grade.xlsx')
성적표 = xls.parse(xls.sheet_names[0])
성적표

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


## #02. 데이터 순서 변경

### 1) 열 순서 변경하기

지정된 순서대로 **열** 재정렬 된 결과가 반환된다.

원본은 변화 없고, 결과가 적용된 복사본이 반환된다.

In [6]:
df1 = 성적표.reindex(columns=['국어','수학', '과학', '영어', '성별', '학년'])
df1

Unnamed: 0,국어,수학,과학,영어,성별,학년
0,98,88.0,64.0,,남자,1
1,88,62.0,72.0,90.0,여자,2
2,92,,,70.0,남자,1
3,63,31.0,70.0,60.0,여자,3
4,120,,88.0,50.0,남자,4


지정되지 않은 컬럼은 제외되기 떄문에 원하는 하옥을 추출하는 기능을 수행하기도 한다.

In [7]:
df2 = 성적표.reindex(columns=['이름', '국어', '수학', '영어'])
df2

Unnamed: 0,이름,국어,수학,영어
0,철수,98,88.0,
1,영희,88,62.0,90.0
2,민수,92,,70.0
3,수현,63,31.0,60.0
4,호영,120,,50.0


### 2) 인덱스(행) 순서 변경

지정된 순서대로 **행** 이 재정렬 된 결과가 반환된다.

원본은 변화 없고, 결과가 적용된 복사본이 생성된다.


In [8]:
df3 = 성적표.reindex(index = [1,3,2,0,4])
df3

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0
2,민수,1,남자,92,70.0,,
0,철수,1,남자,98,,88.0,64.0
4,호영,4,남자,120,50.0,,88.0


컬럼의 경우와 마찬가지로 지정되지 않은 항목은 제외되기 떄문에 원하느 행을 추출하는 기능을 수행하기도 한다.

In [9]:
df4 = 성적표.reindex(index=[0,1,2])
df4

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,


In [10]:
### 3) 행, 열 순서를 한번에 변경하기

In [11]:
df5 = 성적표.reindex(columns=['이름', '국어', '수학', '과학', '영어'],
index=[4,3,2,1,0])
df5

Unnamed: 0,이름,국어,수학,과학,영어
4,호영,120,,88.0,50.0
3,수현,63,31.0,70.0,60.0
2,민수,92,,,70.0
1,영희,88,62.0,72.0,90.0
0,철수,98,88.0,64.0,


## #03.컬럼, 인덱스 이름 변경하기
-"기존 이름: 새이름" 형식의 **딕셔너리**로 지정
-원본은 변화 없음. 결과가 적용된 복사본이 생성된다.

> 'inplace= True' 파라미터를 지정하면 원본에 바로 반영되고 반환되는 결과값이 없다.

### 1) 컬럼 이름 변경하기

In [12]:
df6 = 성적표.rename(columns= {'국어' : 'kor','영어' : 'eng','수학' : 'math','과학' : 'sinc'})
df6

Unnamed: 0,이름,학년,성별,kor,eng,math,sinc
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [13]:
### 2) 인덱스 이름 변경하기

In [14]:
df7 =성적표.rename(index={0:'학생1', 1:'학생2', 2:'학생3'})
df7

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
학생1,철수,1,남자,98,,88.0,64.0
학생2,영희,2,여자,88,90.0,62.0,72.0
학생3,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


### 3) 'rename()'함수를 사용한 외부 데이터 처리시의 전처리

외부에서 가져온 형태의 데이터(csv, xlsx파일 등)의 경우 인덱스 이름이지정되지 않고, 모든 값이 컬럼으로 형성되기 때문에 특정 컬럼을 인덱스로 지정하는 전처리가 요구된다.

#### 성적표에서 인덱스와 '이를 ' 컬럼을 딕셔너리 구조로 묵기


#####인덱스를 리스트로 추출

In [15]:
현재인덱스 = list(성적표.index)
현재인덱스

[0, 1, 2, 3, 4]

In [16]:
##### '이름' 컬럼을 리스트로 추출

In [17]:
이름 = list(성적표['이름'])
이름

['철수', '영희', '민수', '수현', '호영']

In [18]:
#### 딕셔너리로 묶기

In [19]:
indexDict = {}
for i, v in enumerate(이름):
    #'이름'의 i 번째에 대응되는 항목을 '현재인덱스'에서 가져옴
    before = 현재인덱스[i];
    indexDict[before]=v

indexDict

{0: '철수', 1: '영희', 2: '민수', 3: '수현', 4: '호영'}

In [20]:
#### 추출결과를 데이터 프레임에 반영

In [21]:
성적표.rename(index=indexDict, inplace=True)
성적표

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
철수,철수,1,남자,98,,88.0,64.0
영희,영희,2,여자,88,90.0,62.0,72.0
민수,민수,1,남자,92,70.0,,
수현,수현,3,여자,63,60.0,31.0,70.0
호영,호영,4,남자,120,50.0,,88.0


필요 없어진 이름 컬럼 삭제

In [22]:
성적표.drop(['이름'], axis=1, inplace=True)
성적표

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


## #04. 정렬
- rename() 함수와 마찬가지로 inplace = True 파라미터를 사용하면 원본에 즉시 반영된다.
### 1) 특정열로 오름차(순차) 정렬

In [23]:
오름차순 = 성적표.sort_values('국어')
오름차순

Unnamed: 0,학년,성별,국어,영어,수학,과학
수현,3,여자,63,60.0,31.0,70.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
철수,1,남자,98,,88.0,64.0
호영,4,남자,120,50.0,,88.0


In [24]:
### # 2) 특정 열로 내림차순(역순) 정렬

In [25]:
내림차순 = 성적표.sort_values('국어', ascending=False)
내림차순

Unnamed: 0,학년,성별,국어,영어,수학,과학
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
민수,1,남자,92,70.0,,
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0


### # 3) 두 개 이상의 컬럼을 기준으로 정렬하기

In [30]:
#국어 점수가 동일할 경우 수학점수 순으로 정렬된다.
#inpace=True를 사용했음으로 원본에 바로 반영된다.
성적표.sort_values(['국어','수학'])
성적표

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [31]:
### 4) 인덱스를 기준으로 정렬하기
#### 순차정렬

In [32]:
인덱스정렬1 = 성적표.sort_index()
인덱스정렬1

Unnamed: 0,학년,성별,국어,영어,수학,과학
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
영희,2,여자,88,90.0,62.0,72.0
철수,1,남자,98,,88.0,64.0
호영,4,남자,120,50.0,,88.0


In [33]:
#### 역순정렬, 원본에 반영

In [34]:
성적표.sort_index(ascending=False, inplace=True)
성적표

Unnamed: 0,학년,성별,국어,영어,수학,과학
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


## #03. 데이터 검색(조건에 맞는 데이터 추출하기)
### 1) 행단위 조건 검색
#### 단일 조건

기본적인 비교식을 사용한다.

In [35]:
#국어 점수가 90점을 넘는 학생 조회
성적표.query('국어 > 90')

Unnamed: 0,학년,성별,국어,영어,수학,과학
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
민수,1,남자,92,70.0,,


In [36]:
#### And 조건 사용

In [37]:
# 국어 점수가 80점을 넘고 수학점수도 80점을 넘는 학생 조회
성적표.query('국어>80 and 수학>80')

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,,88.0,64.0


In [38]:
#### or 조건

In [39]:
#국어점수가 70점 미만이거나 수학점수가 70점 미만인 학생 조회
성적표.query('국어 < 70 or 수학 < 70')

Unnamed: 0,학년,성별,국어,영어,수학,과학
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0


In [40]:
#### in 조건
##### 특정 리스트의 원소중 겹치는 값 찾기

In [41]:
# 검색 조건에 대한 리스트 준비
item = [98, 88]
item

[98, 88]

In [42]:
#국어점수가 item 리스트에 포함되어 있는 데이터 찾기
성적표.query('국어 in @item')

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0


#### not in 조건

특정 리스트의 원소와 겹치지 않는 값 찾기

In [43]:
#국어점수가 item 리스트에 포함되지 않는 데이터 찾기
성적표.query('국어 not in @item')

Unnamed: 0,학년,성별,국어,영어,수학,과학
호영,4,남자,120,50.0,,88.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


In [44]:
#열 필터링 --> 추출할 컬럼의 이름을 리스트로 전달한다.
성적표.filter(['국어', '영어'])

Unnamed: 0,국어,영어
호영,120,50.0
철수,98,
영희,88,90.0
수현,63,60.0
민수,92,70.0


## 06. 데이터 추가

### 1) 데이터 프레임 복제하기
원본 데이터가 변경될 경우 에러가 발생했을 때 처음부터 다시 실행할 수 없게 되므로 복사본을 만들어 놓고 진행하는 것이 좋다.

In [45]:
#데이터 프레임 복제
add_row = 성적표.copy()
add_row

Unnamed: 0,학년,성별,국어,영어,수학,과학
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


### 2)리스트를 사용한 행 추가
- 원본 자체가 수정됨
- 추가될 행의 인덱스 이름을 지정해 준다
- 리스트로 추가할 경우 dataframe의 컬럼 순서에 맞게 지정한다.
- 누락되는 값이 있거나 값의 수가 초과될 경우 에러

In [49]:
add_row.loc['영민'] = [3, '남자', 90, 80, 90, 62]
add_row

Unnamed: 0,학년,성별,국어,영어,수학,과학
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,
영민,3,남자,90,80.0,90.0,62.0


딕셔너리를 사용한 행 추가
-컬럼의 순서는 상관 없다.
-누락되는 값이 있거나 값의 수가 초과될 경우 에러
-빈 값을 적용해야하는 경우 None 이라고 지정한다.(따음표 사용 안함)

In [51]:
add_row.loc['민정'] ={'국어' : 81,'영어' : 72,'과학' : 80,'수학' : 84,'성별' : '여자','학년' : 2}
add_row

Unnamed: 0,학년,성별,국어,영어,수학,과학
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,
영민,3,남자,90,80.0,90.0,62.0
민정,2,여자,81,72.0,84.0,80.0


기존의 행을 복사하여 추가하기

In [58]:
add_row.loc['철민'] = add_row.loc['철수']
add_row

Unnamed: 0,학년,성별,국어,영어,수학,과학
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,
영민,3,남자,90,80.0,90.0,62.0
민정,2,여자,81,72.0,84.0,80.0
철민,1,남자,98,,88.0,64.0


### )5 다른 데이터 프레임과병합

제외된 열에 대해서는 NaN(결측치)로 설정됨

In [123]:
#sort : 열을 이름순으로 정렬함(기본값 true)
tmp = DataFrame({'국어' : 81, '수학' : 84, '과학' : 90}, index=["상호"])
tmp

Unnamed: 0,국어,수학,과학
상호,81,84,90


A.appand(B)명령은 A에 B를 덧붙인다는 의미

In [125]:
#sort = False 를 적용하면 컬럼의쌍이 맞지 않더라도 에러 없이 병합됨
append_raw = add_row.append(tmp, sort =False)
append_raw

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1.0,남자,98,,88.0,64.0
1,영희,2.0,여자,88,90.0,62.0,72.0
2,민수,1.0,남자,92,70.0,,
3,수현,3.0,여자,63,60.0,31.0,70.0
4,호영,4.0,남자,120,50.0,,88.0
상호,,,,81,,84.0,90.0


### 2)열 추가

#### a)예제 진행을 위한 데이터 프레임 복사

In [59]:
add_col = 성적표.copy()
add_col

Unnamed: 0,학년,성별,국어,영어,수학,과학
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


b)리스트를 활용한 열 추가

리스트 형식으로 추가할 경우 행의 수에 맞게 추가되어야 한다.

In [63]:
add_col['한국사'] =[92, 83, 72, None, 80]
add_col

Unnamed: 0,학년,성별,국어,영어,수학,과학,한국사
호영,4,남자,120,50.0,,88.0,92.0
철수,1,남자,98,,88.0,64.0,83.0
영희,2,여자,88,90.0,62.0,72.0,72.0
수현,3,여자,63,60.0,31.0,70.0,
민수,1,남자,92,70.0,,,80.0


c) 단일 값 추가

새로운 열에 하나의 값을 지정하면 모든 행이 동일한 값을 갖는다

In [65]:
add_col['세계사'] = 100
add_col

Unnamed: 0,학년,성별,국어,영어,수학,과학,한국사,세계사
호영,4,남자,120,50.0,,88.0,92.0,100
철수,1,남자,98,,88.0,64.0,83.0,100
영희,2,여자,88,90.0,62.0,72.0,72.0,100
수현,3,여자,63,60.0,31.0,70.0,,100
민수,1,남자,92,70.0,,,80.0,100


d) Serise를 통한 열 추가

각 값이 연결될 행의 이름 (index)를 지정해야한다. 부분적으로 값을 비워 둘 수 있따.

여기서는 호영의 데이터가 생략되었고, 민철은 원본 데이터에 존재 하지 않기 떄문에 추가되지 않는다.



In [67]:
add_col['사회'] = Series([82, 90, 92, 64, 77],index = ['철수','영희','민철','수현','민수'])
add_col

Unnamed: 0,학년,성별,국어,영어,수학,과학,한국사,세계사,사회
호영,4,남자,120,50.0,,88.0,92.0,100,
철수,1,남자,98,,88.0,64.0,83.0,100,82.0
영희,2,여자,88,90.0,62.0,72.0,72.0,100,90.0
수현,3,여자,63,60.0,31.0,70.0,,100,64.0
민수,1,남자,92,70.0,,,80.0,100,77.0


e)조건에 따른 선택적인 값을 추가

조건이 참인 경우 A, 그렇지 않은 경우 B

In [69]:
add_col['국어결과'] = numpy.where(add_col['국어'] >=70,'합격','불합격')
add_col

Unnamed: 0,학년,성별,국어,영어,수학,과학,한국사,세계사,사회,국어결과
호영,4,남자,120,50.0,,88.0,92.0,100,,합격
철수,1,남자,98,,88.0,64.0,83.0,100,82.0,합격
영희,2,여자,88,90.0,62.0,72.0,72.0,100,90.0,합격
수현,3,여자,63,60.0,31.0,70.0,,100,64.0,불합격
민수,1,남자,92,70.0,,,80.0,100,77.0,합격


In [70]:
conditions = [
                (add_col['영어'] >= 90),
                (add_col['영어'] >= 80),
                (add_col['영어'] >= 70),
                (add_col['영어'] < 70),
                (numpy.isnan(add_col['영어']) == True)]

grade = ['A', 'B', 'C', 'F','F']

add_col['영어학점'] = numpy.select(conditions, grade)
add_col

Unnamed: 0,학년,성별,국어,영어,수학,과학,한국사,세계사,사회,국어결과,영어학점
호영,4,남자,120,50.0,,88.0,92.0,100,,합격,F
철수,1,남자,98,,88.0,64.0,83.0,100,82.0,합격,F
영희,2,여자,88,90.0,62.0,72.0,72.0,100,90.0,합격,A
수현,3,여자,63,60.0,31.0,70.0,,100,64.0,불합격,F
민수,1,남자,92,70.0,,,80.0,100,77.0,합격,C


# #07. 행, 열 삭제

## 1) 행 삭제

#### a) 예제 진행을 위한 데이터 프레임복사

In [71]:
del_row = 성적표.copy()
del_row

Unnamed: 0,학년,성별,국어,영어,수학,과학
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


특정 행 삭제하기

행 삭제는 원본에 반영되지 않고 결과가 적용된 새로운 데이터 프레임이 반환된다

In [72]:
d1 = del_row.drop('철수')
d1

Unnamed: 0,학년,성별,국어,영어,수학,과학
호영,4,남자,120,50.0,,88.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


In [73]:
여러 행 삭제하기

리스트 형태로 행의 이름을 파라미터로 전달 한다

존재하지 않는 행을 삭제하고자 할 경우 에러가 발생한다.

SyntaxError: invalid syntax (<ipython-input-73-546d4ddad0f3>, line 1)

In [74]:
d2 = del_row.drop(['호영','영희'])
d2

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,,88.0,64.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


In [75]:
인덱스 번호를 통한 범위 내의 행 삭제하기

SyntaxError: invalid syntax (<ipython-input-75-8ccbc8c23ed0>, line 1)

In [77]:
d3 = del_row.drop(del_row.index[0])
d3

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


인덱스 번호를 통한 범위 내의 행 삭제하기

In [78]:
d4 = del_row.drop(del_row.index[1:4])
d4

Unnamed: 0,학년,성별,국어,영어,수학,과학
호영,4,남자,120,50.0,,88.0
민수,1,남자,92,70.0,,


drop 함수에 inplace = True 파라미터를 추가하면 원본 자체에서 삭제된다

In [79]:
del_row.drop(['영희','수현'], inplace = True)
del_row

Unnamed: 0,학년,성별,국어,영어,수학,과학
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
민수,1,남자,92,70.0,,


## 2) 열 삭제

#### *drop()함수에 axis=1 파라미터를 추가한다.

* axis = 0  x 축, 행에 대한 적용, 기본값
* axis = 1  y 축, 열에 대한 적용, Optional

inplace =True 를 적용하지 않는다면 삭제 결과가 반영된 결과값이 리턴된다.

In [80]:
예제 진행을 위한 데이터프레임 복사

SyntaxError: invalid syntax (<ipython-input-80-fc474a3425e2>, line 1)

In [81]:
del_col = 성적표.copy()
del_col

Unnamed: 0,학년,성별,국어,영어,수학,과학
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


In [82]:
컬럼 이름을 통한 열 삭제

SyntaxError: invalid syntax (<ipython-input-82-c190b9925754>, line 1)

In [84]:
k1 = del_col.drop('국어', axis=1)
k1

Unnamed: 0,학년,성별,영어,수학,과학
호영,4,남자,50.0,,88.0
철수,1,남자,,88.0,64.0
영희,2,여자,90.0,62.0,72.0
수현,3,여자,60.0,31.0,70.0
민수,1,남자,70.0,,


In [85]:
여러 열을 동시에삭제 하기

SyntaxError: invalid syntax (<ipython-input-85-1deccda8865e>, line 1)

In [86]:
k2 = del_col.drop(['국어','영어','수학'], axis=1)
k2

Unnamed: 0,학년,성별,과학
호영,4,남자,88.0
철수,1,남자,64.0
영희,2,여자,72.0
수현,3,여자,70.0
민수,1,남자,


In [87]:
인덱스 번호를 활용한 열 삭제


SyntaxError: invalid syntax (<ipython-input-87-1438101543ad>, line 1)

In [88]:
k3 = del_col.drop(del_col.columns[3], axis=1)
k3

Unnamed: 0,학년,성별,국어,수학,과학
호영,4,남자,120,,88.0
철수,1,남자,98,88.0,64.0
영희,2,여자,88,62.0,72.0
수현,3,여자,63,31.0,70.0
민수,1,남자,92,,


인덱스 번호를 활용하여 지정된 범위만큼 삭제

In [89]:
k4 = del_col.drop(del_col.columns[1:3], axis=1)
k4

Unnamed: 0,학년,영어,수학,과학
호영,4,50.0,,88.0
철수,1,,88.0,64.0
영희,2,90.0,62.0,72.0
수현,3,60.0,31.0,70.0
민수,1,70.0,,


## 07와 . 두개이상의 데이터 프레임 병합하기

### 1) 행단위 병합

#### a) 샘플 DataFrame 만들기

 * df_top 과 df_middle 은 국어
 * df_top 와 df_bottom은 민철