In [3]:
# 데이터 전처리

## 전처리에서 수행되는 작업
1. 행,열의 순서 변경
2. 컬럼이나 인덱스의 이름 변경
3. 데이터 정렬
4. 데이터 검색
5. 행, 열 추가
6. 행, 열 삭제
7. 데이터 프레임 병합

In [4]:
# 패키지 참조
import numpy as np
from pandas import DataFrame
from pandas import Series
from pandas import read_excel
from pandas import concat
from pandas import merge

xlsx = read_excel('http://itpaper.co.kr/data/grade_card.xlsx', engine='openpyxl')
df = xlsx.set_index('이름')
df

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


### 행, 열의 순서 변경

In [5]:
# 열 순서 변경
df1 = df.reindex(columns=['국어', '수학', '과학', '영어', '성별', '학년'])
df1

Unnamed: 0_level_0,국어,수학,과학,영어,성별,학년
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,98,88.0,64.0,,남자,1
영희,88,62.0,72.0,90.0,여자,2
민수,92,,,70.0,남자,1
수현,63,31.0,70.0,60.0,여자,3
호영,120,,88.0,50.0,남자,4


In [6]:
# 특정 항목만 추출 

df2 = df.reindex(columns=['국어', '수학', '과학', '영어']) # 추출하고싶은 항목만 쓰면 추출됨
df2

Unnamed: 0_level_0,국어,수학,과학,영어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
철수,98,88.0,64.0,
영희,88,62.0,72.0,90.0
민수,92,,,70.0
수현,63,31.0,70.0,60.0
호영,120,,88.0,50.0


In [7]:
# index(행) 순서 변경
df3 = df.reindex(index = ['철수','민수','영희','호영','수현'])
df3

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
민수,1,남자,92,70.0,,
영희,2,여자,88,90.0,62.0,72.0
호영,4,남자,120,50.0,,88.0
수현,3,여자,63,60.0,31.0,70.0


In [8]:
# 원하는 행 추출
df4 = df.reindex(index = ['철수','영희','수현'])
df4

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0


In [9]:
# 행,열 한번에 변경

df5 = df.reindex(columns=['이름', '국어', '수학', '과학', '영어', '학년'],
                index = ['민수','영희','호영','수현','철수'])
df5

Unnamed: 0_level_0,이름,국어,수학,과학,영어,학년
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
민수,,92,,,70.0,1
영희,,88,62.0,72.0,90.0,2
호영,,120,,88.0,50.0,4
수현,,63,31.0,70.0,60.0,3
철수,,98,88.0,64.0,,1


## 컬럼이나 인덱스 이름 변경

In [10]:
df6 = df.rename(columns = {'국어' : 'kor', '영어' :'eng', '수학': 'math', '과학': 'sinc'})
df6

#인덱스 변경은 columns를 index로 바꾸면 동일

Unnamed: 0_level_0,학년,성별,kor,eng,math,sinc
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [11]:
df = read_excel('http://itpaper.co.kr/data/grade_card.xlsx', engine='openpyxl')

df.set_index('이름', inplace = True)
df

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


## 데이터 정렬

In [12]:
ASC = df.sort_values('국어')
ASC

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수현,3,여자,63,60.0,31.0,70.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
철수,1,남자,98,,88.0,64.0
호영,4,남자,120,50.0,,88.0


In [13]:
DSC = df.sort_values('국어', ascending=False)
DSC

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
민수,1,남자,92,70.0,,
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0


In [14]:
# 두 개 이상의 컬럼을 기준으로 정렬
df.sort_values(['국어', '수학'], inplace=True)
df

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수현,3,여자,63,60.0,31.0,70.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
철수,1,남자,98,,88.0,64.0
호영,4,남자,120,50.0,,88.0


In [15]:
# 인덱스 기준 정렬
index_sort1 = df.sort_index()
index_sort1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
영희,2,여자,88,90.0,62.0,72.0
철수,1,남자,98,,88.0,64.0
호영,4,남자,120,50.0,,88.0


In [16]:
# 역순, 원본 반영
df.sort_index(ascending = False, inplace = True)
df

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


## 데이터 필터링 (데이터 추출하기)

### 행단위 조건검색

In [17]:
df.query('국어 > 90')

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
민수,1,남자,92,70.0,,


In [18]:
df.query('국어 > 80 and 수학 > 80')

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0


In [19]:
df.query('국어 < 70 or 수학 < 70')

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0


In [20]:
item = [98,88]

# 조건문은 안에 다른 변수를 끌어오기 위해서는 @변수명 형식으로 표기한다.
df.query('국어 in @item')

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0


In [21]:
df.query('국어 not in @item')

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


### 열단위 필터링

In [22]:
# filter() 함수 파라미터로 리스트
국어영어 = df.filter(['국어', '영어'])
국어영어

Unnamed: 0_level_0,국어,영어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
호영,120,50.0
철수,98,
영희,88,90.0
수현,63,60.0
민수,92,70.0


## 행, 열 추가

In [23]:
add_row = df.copy() # 데이터 복사
add_row

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


<b>리스트를 활용한 행 추가</b>
<li> 원본 자체가 수정됨 </li>
<li> 리스트로 추가할 경우 dataframe의 컬럼 순서에 맞게 지정한다. </li>
<li> 누락되는 값이 있거나 값의 수가 초과될 경우 에러 </li>

In [24]:
add_row.loc['영민'] = [3,'남자',90,80,90,62]
add_row

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,
영민,3,남자,90,80.0,90.0,62.0


<b>딕셔너리를 활용한 행 추가</b>
<li> 컬럼의 순서는 상관 없다. </li>
<li> 빈 값을 넣을때는 None </li>
<li> 누락되는 값이 있거나 값의 수가 초과될 경우 에러 </li>

In [26]:
add_row.loc['민정'] = {'국어' : 81, '영어' : 72, '과학' : 90, '수학' : 84, '성별' : '여자', '학년' : 2}
add_row

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,
영민,3,남자,90,80.0,90.0,62.0
민정,2,여자,81,72.0,84.0,90.0


In [27]:
# 기존행을 복사하여 추가하기
add_row.loc['철민'] = add_row.loc['철수']
add_row

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,
영민,3,남자,90,80.0,90.0,62.0
민정,2,여자,81,72.0,84.0,90.0
철민,1,남자,98,,88.0,64.0


In [30]:
# 데이터 프레임 덧붙이기

# 컬럼의 쌍이 맞지 않더라도 병합 가능. 존재하지 않을경우 None으로 저장
tmp = DataFrame({'국어' : 81, '수학' : 84, '과학' : 90}, index=['상호'])
append_row = add_row.append(tmp)
append_row

Unnamed: 0,학년,성별,국어,영어,수학,과학
호영,4.0,남자,120,50.0,,88.0
철수,1.0,남자,98,,88.0,64.0
영희,2.0,여자,88,90.0,62.0,72.0
수현,3.0,여자,63,60.0,31.0,70.0
민수,1.0,남자,92,70.0,,
영민,3.0,남자,90,80.0,90.0,62.0
민정,2.0,여자,81,72.0,84.0,90.0
철민,1.0,남자,98,,88.0,64.0
상호,,,81,,84.0,90.0


In [31]:
### 열추가

In [32]:
add_col = df.copy()

In [33]:
# 리스트를 확용한 열 추가

# 행의 수를 맞춰야 함
add_col['한국사'] = [92,83,72,None,88]
add_col


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
호영,4,남자,120,50.0,,88.0,92.0
철수,1,남자,98,,88.0,64.0,83.0
영희,2,여자,88,90.0,62.0,72.0,72.0
수현,3,여자,63,60.0,31.0,70.0,
민수,1,남자,92,70.0,,,88.0


In [35]:
# 단일 값 추가 (하나의 값을 지정하면 모두 동일한 값을 가짐)
add_col['세계사'] = 100
add_col

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사,세계사
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
호영,4,남자,120,50.0,,88.0,92.0,100
철수,1,남자,98,,88.0,64.0,83.0,100
영희,2,여자,88,90.0,62.0,72.0,72.0,100
수현,3,여자,63,60.0,31.0,70.0,,100
민수,1,남자,92,70.0,,,88.0,100


In [37]:
# Series를 통한 열 추가

# index를 지정해 줘야한다. 값을 비울 수 있고, 없는데이터는 추가되지 않는다. index에 명시되지 않았으면 생략한다.
add_col['사회'] = Series([82,90,92,64,77], index = ['철수', '영희','민철','수현','민수'])
add_col

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사,세계사,사회
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
호영,4,남자,120,50.0,,88.0,92.0,100,
철수,1,남자,98,,88.0,64.0,83.0,100,82.0
영희,2,여자,88,90.0,62.0,72.0,72.0,100,90.0
수현,3,여자,63,60.0,31.0,70.0,,100,64.0
민수,1,남자,92,70.0,,,88.0,100,77.0


In [38]:
# 선택적인 값 추가

# numpy의 where 함수 사용

add_col['국어결과'] = np.where(add_col['국어'] >= 70, '합격', '불합격')
add_col

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사,세계사,사회,국어결과
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
호영,4,남자,120,50.0,,88.0,92.0,100,,합격
철수,1,남자,98,,88.0,64.0,83.0,100,82.0,합격
영희,2,여자,88,90.0,62.0,72.0,72.0,100,90.0,합격
수현,3,여자,63,60.0,31.0,70.0,,100,64.0,불합격
민수,1,남자,92,70.0,,,88.0,100,77.0,합격


In [39]:
# 여러개의 조건
condition = [
    (add_col['영어'] >= 90),
    (add_col['영어'] >= 80),
    (add_col['영어'] >= 70)
]

grade = ['A', 'B', 'C']

add_col['영어학점'] = np.select(condition, grade, default='F')
add_col

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사,세계사,사회,국어결과,영어학점
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
호영,4,남자,120,50.0,,88.0,92.0,100,,합격,F
철수,1,남자,98,,88.0,64.0,83.0,100,82.0,합격,F
영희,2,여자,88,90.0,62.0,72.0,72.0,100,90.0,합격,A
수현,3,여자,63,60.0,31.0,70.0,,100,64.0,불합격,F
민수,1,남자,92,70.0,,,88.0,100,77.0,합격,C
