## 데이터 전처리(1) - 행, 열 재배치

- 행 혹은 열(변수)에 대한 재배치
- 이름 변경
- 정렬
- 특정 데이터 필터링
- 행 혹은 열 추가, 삭제

#### 분석 준비  (패키지 참조, 데이터 가져오기)

In [1]:
# 패키지 참조
from pandas import read_excel
from pandas import Series
import numpy

In [2]:
# 결측치(엑셀의 빈칸, NaN)가 있는 변수는 계산이 안되므로 가공하고 넘어가야 한다. 결측치가 있으면 그 변수의 dtype이 int가 아니라 float로 나옴 
# 데이터가 부족한 경우 serise로 넣어야 한다. 다른걸로 하면 error 뜸 

# 추가할 때 리스트로 하고 행을 벗어나면 에러가 난다. 


In [3]:
df = read_excel("https://data.hossam.kr/pre_sample.xlsx", index_col='이름')
# 인덱스가 이름인 엑셀 데이터를 불러와라 
df

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,120,62,72
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,71
호영,4,남자,75,50,90,88
영호,4,남자,80,88,91,72
용식,2,남자,82,88,79,90
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80


### 데이터 확인하기

In [4]:
# 데이터의 크기
df.shape

(9, 6)

In [5]:
# 각 변수의 데이터 타입 확인
df.dtypes

학년     int64
성별    object
국어     int64
영어     int64
수학     int64
과학     int64
dtype: object

In [6]:
# 데이터 타입 변경
# 단, 결과가 적용된 복사본이 리턴 (원본은 변하지 않음)
df2 = df.astype({'국어':'float','영어':'float','수학':'str','과학':'bool'})
df2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98.0,77.0,88,True
영희,2,여자,88.0,120.0,62,True
민철,1,남자,92.0,70.0,83,True
수현,3,여자,63.0,60.0,31,True
호영,4,남자,75.0,50.0,90,True
영호,4,남자,80.0,88.0,91,True
용식,2,남자,82.0,88.0,79,True
나영,1,여자,90.0,92.0,81,True
석영,1,남자,91.0,90.0,89,True


In [7]:
df.dtypes

학년     int64
성별    object
국어     int64
영어     int64
수학     int64
과학     int64
dtype: object

행 혹은 열(변수)에 대한 재배치, 이름 변경

1. 열 순서 변경
- 지정된 순서대로 열이 재정렬 된 결과가 반환된다
- 원본은 변화없음. 결과가 적용된 복사본이 생성된다.
- 재배치 되지 못한 열은 제외된다. 

In [8]:
df1 = df.reindex(columns=['국어','수학','과학','영어'])
df1 # 약간 필터와 비슷 원하는 것만 데려옴 

Unnamed: 0_level_0,국어,수학,과학,영어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
철수,98,88,64,77
영희,88,62,72,120
민철,92,83,79,70
수현,63,31,71,60
호영,75,90,88,50
영호,80,91,72,88
용식,82,79,90,88
나영,90,81,95,92
석영,91,89,80,90


2. 행 순서 변경
- 지정된 순서대로 행이 재정렬 된 결과가 반환된다.
- 원본은 변화없음, 결과가 적용된 복사본 리턴
- 재배치 되지 못한 행은 제외된다

In [9]:
df2 = df.reindex(index=['석영','호영','민철','수현'])
df2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
석영,1,남자,91,90,89,80
호영,4,남자,75,50,90,88
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,71


3. 행, 열의 이름 변경
- 기존 이름 : 새이름 형식의 딕셔너리로 지정
- colums와 index 중 변경을 원하는 하나만 설정 가능
- 원본은 변화없고 결과가 적용도니 복사본이 생성
- 이름이 변경되지 않은 항목이 결과에서 제외되지는 않는다.(차이점)
- 원본에 즉시 반영해야 할 경우 inplace=True 파라미터를 적용

In [11]:
df3 = df.rename(
    columns={'국어':'kor','영어':'eng','수학':'math','과학':'sci'},
    index={'석영':'suk','호영': 'ho', '민철': 'min', '수현': 'su'}
)
df3

Unnamed: 0_level_0,학년,성별,kor,eng,math,sci
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,120,62,72
min,1,남자,92,70,83,79
su,3,여자,63,60,31,71
ho,4,남자,75,50,90,88
영호,4,남자,80,88,91,72
용식,2,남자,82,88,79,90
나영,1,여자,90,92,81,95
suk,1,남자,91,90,89,80


## 정렬
특정 변수를(열,컬럼) 기준으로 하여 행 단위로 정렬

1. 변수에 대한 오름차순 정렬
- 단일 컬럼에 대한 정렬

In [12]:
# 원본에 즉시 반영해야 할 경우 inplace=True 파라미터를 적용
df4 = df. sort_values('국어') # default는 오름차순 
df4

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수현,3,여자,63,60,31,71
호영,4,남자,75,50,90,88
영호,4,남자,80,88,91,72
용식,2,남자,82,88,79,90
영희,2,여자,88,120,62,72
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80
민철,1,남자,92,70,83,79
철수,1,남자,98,77,88,64


In [13]:
# 복수 컬럼에 대한 정렬
# 정렬 기준이 되는 컬럼 이름을 리스트로 설정하면 첫번째 컬럼의 값이 동일한 경우 두 번째 컬럼을 기준으로 정렬한다.
df5 = df.sort_values(['영어','수학'])
df5

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,75,50,90,88
수현,3,여자,63,60,31,71
민철,1,남자,92,70,83,79
철수,1,남자,98,77,88,64
용식,2,남자,82,88,79,90
영호,4,남자,80,88,91,72
석영,1,남자,91,90,89,80
나영,1,여자,90,92,81,95
영희,2,여자,88,120,62,72


2. 변수에 대한 내림차순 정렬


In [15]:
df6 = df.sort_values('국어',ascending=False)
df6

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
민철,1,남자,92,70,83,79
석영,1,남자,91,90,89,80
나영,1,여자,90,92,81,95
영희,2,여자,88,120,62,72
용식,2,남자,82,88,79,90
영호,4,남자,80,88,91,72
호영,4,남자,75,50,90,88
수현,3,여자,63,60,31,71


3. 인덱스를 기준으로 하는 정렬
- 인덱스는 하나만 존재하므로 열 이름을 지정할 필요가 없다.
- 정렬 방향을 위한 ascending 파라미터를 False로 설정하면 내림차순으로 정렬된다
- inplace=True를 적용할 경우 원본에 즉시 반영된다

In [16]:
df7 = df.sort_index()
df7

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
나영,1,여자,90,92,81,95
민철,1,남자,92,70,83,79
석영,1,남자,91,90,89,80
수현,3,여자,63,60,31,71
영호,4,남자,80,88,91,72
영희,2,여자,88,120,62,72
용식,2,남자,82,88,79,90
철수,1,남자,98,77,88,64
호영,4,남자,75,50,90,88


특정 데이터 필터링

1. 행 단위 필터링(조건 검색)

In [19]:
# 특정 조건에 맞는 행 조회 
r1 = df.query('국어 > 80')
r1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,120,62,72
민철,1,남자,92,70,83,79
용식,2,남자,82,88,79,90
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80


In [20]:
#AND 조건
r2 = df.query('국어>80 and 수학>80')
r2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
민철,1,남자,92,70,83,79
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80


In [22]:
# or 조건
r3 = df.query('국어>80 or 수학<80')
r3

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,120,62,72
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,71
용식,2,남자,82,88,79,90
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80


In [23]:
# 조건값을 변수로 적용하기
point = int(input('점수를 입력하세용: '))
print('입력한 점수인 %d 점보다 높은 학생은 다음과 같다' % point)
r4 = df.query('국어 > @point')
r4

입력한 점수인 80 점보다 높은 학생은 다음과 같다


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,120,62,72
민철,1,남자,92,70,83,79
용식,2,남자,82,88,79,90
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80


In [24]:
# 열단위 필터링
f1 = df.filter(['국어','영어'])
f1

Unnamed: 0_level_0,국어,영어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
철수,98,77
영희,88,120
민철,92,70
수현,63,60
호영,75,50
영호,80,88
용식,82,88
나영,90,92
석영,91,90


## 행 혹은 열 추가 삭제

1. 행 추가
원본 자체가 수정됨

리스트로 추가하기
- 추가될 행의 인덱스 이름을 지정해야 한다.
- 리스트로 추가할 경우 dataframe의 컬럼 순서에 맞게 지정해야한다
- 누락되는 값이 있거나 값의 수가 초과할 경우 에러

In [26]:
df.loc['정호']=[2,'남자',90,80,70,60]

df

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,120,62,72
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,71
호영,4,남자,75,50,90,88
영호,4,남자,80,88,91,72
용식,2,남자,82,88,79,90
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80
정호,2,남자,90,80,70,60


### 딕셔너리로 추가하기
- 컬럼 순서는 상관없다
- 누락되는 값이 있거나 값의 수가 초과할 경우 에러


In [27]:
df.loc['민정'] =  {'성별': '여자', '학년': 4, '국어': 81, '영어': 72, '수학': 84, '과학': 90}
df

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,120,62,72
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,71
호영,4,남자,75,50,90,88
영호,4,남자,80,88,91,72
용식,2,남자,82,88,79,90
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80
정호,2,남자,90,80,70,60


시리즈 객체로 추가하기 
- 시리즈 객체의 index가 지정되지 않은 경우 값을 추가할 수 없다

In [29]:
s = Series([2,'남자',90,10,77,60], index = ['학년','성별','국어','영어','ㅜ학','과학'])
df.loc['형석'] = s
df

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88.0,64
영희,2,여자,88,120,62.0,72
민철,1,남자,92,70,83.0,79
수현,3,여자,63,60,31.0,71
호영,4,남자,75,50,90.0,88
영호,4,남자,80,88,91.0,72
용식,2,남자,82,88,79.0,90
나영,1,여자,90,92,81.0,95
석영,1,남자,91,90,89.0,80
정호,2,남자,90,80,70.0,60


In [31]:
# 빈 값이 있는 경우
# Series 객체 형태만 가능
s = Series([2,'남자',90,10,77], index = ['학년','성별','국어','수학','과학'])
df.loc['석호'] = s
df

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77.0,88.0,64
영희,2,여자,88,120.0,62.0,72
민철,1,남자,92,70.0,83.0,79
수현,3,여자,63,60.0,31.0,71
호영,4,남자,75,50.0,90.0,88
영호,4,남자,80,88.0,91.0,72
용식,2,남자,82,88.0,79.0,90
나영,1,여자,90,92.0,81.0,95
석영,1,남자,91,90.0,89.0,80
정호,2,남자,90,80.0,70.0,60


In [32]:
# 기존의 행 복사하기
df.loc['철민'] = df.loc['철수'] 
df


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77.0,88.0,64
영희,2,여자,88,120.0,62.0,72
민철,1,남자,92,70.0,83.0,79
수현,3,여자,63,60.0,31.0,71
호영,4,남자,75,50.0,90.0,88
영호,4,남자,80,88.0,91.0,72
용식,2,남자,82,88.0,79.0,90
나영,1,여자,90,92.0,81.0,95
석영,1,남자,91,90.0,89.0,80
정호,2,남자,90,80.0,70.0,60


행 삭제

In [33]:
# 단일 행 삭제
# 추가는 원본 자체가 변하지만 삭제는 결과가 반영된 새로운 복사본이 생성된다
# drop() 메서드도 inplace=True 파라미터 적용 가능
k1 = df.drop('철민')
k1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77.0,88.0,64
영희,2,여자,88,120.0,62.0,72
민철,1,남자,92,70.0,83.0,79
수현,3,여자,63,60.0,31.0,71
호영,4,남자,75,50.0,90.0,88
영호,4,남자,80,88.0,91.0,72
용식,2,남자,82,88.0,79.0,90
나영,1,여자,90,92.0,81.0,95
석영,1,남자,91,90.0,89.0,80
정호,2,남자,90,80.0,70.0,60


In [34]:
# 다중 행 삭제
k2 = df.drop(['석영','정호','민정','형석'])
k2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77.0,88.0,64
영희,2,여자,88,120.0,62.0,72
민철,1,남자,92,70.0,83.0,79
수현,3,여자,63,60.0,31.0,71
호영,4,남자,75,50.0,90.0,88
영호,4,남자,80,88.0,91.0,72
용식,2,남자,82,88.0,79.0,90
나영,1,여자,90,92.0,81.0,95
석호,2,남자,90,,10.0,77
철민,1,남자,98,77.0,88.0,64


In [36]:
# index에 대한 인덱싱으로 삭제하기
k2 = df.drop(df.index[0])
k2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
영희,2,여자,88,120.0,62.0,72
민철,1,남자,92,70.0,83.0,79
수현,3,여자,63,60.0,31.0,71
호영,4,남자,75,50.0,90.0,88
영호,4,남자,80,88.0,91.0,72
용식,2,남자,82,88.0,79.0,90
나영,1,여자,90,92.0,81.0,95
석영,1,남자,91,90.0,89.0,80
정호,2,남자,90,80.0,70.0,60
민정,4,여자,81,72.0,84.0,90


In [37]:
# index에 대한 슬라이싱으로 삭제하기 
k4 = df.drop(df.index[0:10])
k4

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
민정,4,여자,81,72.0,84.0,90
형석,2,남자,90,10.0,,60
석호,2,남자,90,,10.0,77
철민,1,남자,98,77.0,88.0,64


열 추가

In [40]:
# 리스트로 추가하기 / 범위를 초과하면 error
k4['한국사'] = [72,56,90,88]
k4

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
민정,4,여자,81,72.0,84.0,90,72
형석,2,남자,90,10.0,,60,56
석호,2,남자,90,,10.0,77,90
철민,1,남자,98,77.0,88.0,64,88


In [44]:
# 딕셔너리로 추가하기 # 없는 사람을 집어넣는다고 추가되지는 않는다
k4['세계사'] = {"민정": 90, "형석": 88, "석호": 72, "철민": 56}
k4

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사,세계사
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
민정,4,여자,81,72.0,84.0,90,72,90
형석,2,남자,90,10.0,,60,56,88
석호,2,남자,90,,10.0,77,90,72
철민,1,남자,98,77.0,88.0,64,88,56


Series 객체로 추가하기
- 각 밧이 연결된 행의 이름(index)를 지정해야 한다
- 부분적으로 값을 비워둘 수 있다.


In [45]:
s = Series([72,59,90,88],index=['석호','철민','민정','형석'])
k4['윤리'] = s
k4

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사,세계사,윤리
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
민정,4,여자,81,72.0,84.0,90,72,90,90
형석,2,남자,90,10.0,,60,56,88,88
석호,2,남자,90,,10.0,77,90,72,72
철민,1,남자,98,77.0,88.0,64,88,56,59


In [47]:
# 단일 값 추가하기
k4['체육'] = 100
k4

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사,세계사,윤리,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
민정,4,여자,81,72.0,84.0,90,72,90,90,100
형석,2,남자,90,10.0,,60,56,88,88,100
석호,2,남자,90,,10.0,77,90,72,72,100
철민,1,남자,98,77.0,88.0,64,88,56,59,100
