### 데이터 전처리
- 전처리란 어떠한 작업을 하기 전에 그 작업을 위한 처리를 의미한다.
- 컬럼 이름이나 인덱스를 변경
- 행과 열의 순서를 변경
- 데이터 정렬
- 데이터 검색
- 행, 열 추가
- 행, 열 삭제
- 행, 열의 값을 변경
- 두 개의 이상의 프레임을 병합
- 결측치 처리
- 이상치 처리
- 기타 등등

### inplace
- 데이터 프레임의 변형을 가하는 함수들은 원본을 변경하거나 원본을 유지하고 작업이 반영된 새로운 데이터 프레임을 생성한다.
- 만약 변형을 가하는 함수에 inplace라는 매개변수가 있다면 개발자에게 선택권을 준것이다.
- inplace에 True를 넣어주면 원본이 변경되고 False를 넣어주면 원본은 유지한채 새로운 데이터 프레임을 생성한다.
- 앞으로 만드는 예제 중에 inplace가 있다면 데이터 프레임을 복제하고 inplace에 True를 넣어서 작업을 할 것이다. (복습할 때 이 함수는 inplace가 있다라는 것을 상기시키지 위해서...)

### 만약 inplace가 없다면..
- 함수가 원본을 변경시키는 것만 제공하는 경우
- 함수가 원본을 유지시키고 새로운 데이터 프레임을 생성하는 것만 제공하는 경우
- 원본을 유지하는 함수와 원본을 변경시키는 함수를 각각 따로 제공하는 경우


### axis
- 작업을 반영하는 기준이나, 작업을 하기 위해 그룹을 묶는 기준을 설정한다.
- 0이면 행기준
- 1이면 열기준

### axis가 없으면
- 행에 대해서만 작업을 하는 함수인 경우
- 열에 대해서만 작업을 하는 함수인 경우
- columns라는 매개변수나 index라는 매개변수가 제공되는 경우
- 행이나 열에 대해서 작업하는 함수가 각각 따로 제공되는 경우

In [1]:
import numpy as np
import pandas as pd

### 행, 열의 순서를 변경

In [2]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [3]:
# reindex : 행이나 열의 순서를 바꾸는 것을 의미한다.

# 열 순서 변경 - 지정된 컬럼 데이터를 지정된 순서대로 가져온다.
# 원본은 유지하고 새로운 데이터 프레임을 생성한다.
df2 = df1.reindex(columns=['과학', '수학', '영어', '국어', '성별', '학년', '이름'])
display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,과학,수학,영어,국어,성별,학년,이름
0,64.0,88.0,,98,남자,1,철수
1,72.0,62.0,90.0,88,여자,2,영희
2,,,70.0,92,남자,1,민수
3,70.0,31.0,60.0,63,여자,3,수현
4,88.0,,50.0,120,남자,4,호영


In [4]:
# 컬럼 이름을 일부만 지정하면 일부만 가져오는 효과를 얻을 수 있다.
df3 = df1.reindex(columns=['국어', '영어', '수학'])
df3

Unnamed: 0,국어,영어,수학
0,98,,88.0
1,88,90.0,62.0
2,92,70.0,
3,63,60.0,31.0
4,120,50.0,


In [5]:
# 컬럼에 없는 이름이 있다면...
# 없는 컬럼도 결과에 추가되며 결측치로 채워진다.
df4 = df1.reindex(columns=['국어', '영어', '한국사'])
df4

Unnamed: 0,국어,영어,한국사
0,98,,
1,88,90.0,
2,92,70.0,
3,63,60.0,
4,120,50.0,


In [6]:
# 행의 순서를 변경한다 (index를 지정한다)
df2 = df1.reindex(index=[4, 1, 3, 0, 2])

display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,호영,4,남자,120,50.0,,88.0
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,


In [8]:
# 일부만 지정하면 일부만 가져온다.
df3 = df1.reindex(index=[3, 0, 1])
df3

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0


In [9]:
# 없는 index를 지정하면 결과에 추가되고 결측치로 채워진다.
df4 = df1.reindex(index=[3, 0, 10])
df4

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3.0,여자,63.0,60.0,31.0,70.0
0,철수,1.0,남자,98.0,,88.0,64.0
10,,,,,,,


In [10]:
# 같이 사용도 가능하다.
a1 = ['성별', '과학', '이름']
a2 = [3, 0, 4]

df2 = df1.reindex(columns=a1, index=a2)
df2

Unnamed: 0,성별,과학,이름
3,여자,70.0,수현
0,남자,64.0,철수
4,남자,88.0,호영


In [11]:
# [], loc, iloc : 지정한 것을 가져온다라는 의미를 가진다.
# 모든 컬럼을 작성해주면 순서대로 가져온다.
df2 = df1[['과학', '수학', '영어', '국어', '성별', '학년', '이름']]

display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,과학,수학,영어,국어,성별,학년,이름
0,64.0,88.0,,98,남자,1,철수
1,72.0,62.0,90.0,88,여자,2,영희
2,,,70.0,92,남자,1,민수
3,70.0,31.0,60.0,63,여자,3,수현
4,88.0,,50.0,120,남자,4,호영


In [12]:
# 일부만 지정하면 일부만 가져온다.
df2 = df1[['국어', '영어', '수학']]
df2

Unnamed: 0,국어,영어,수학
0,98,,88.0
1,88,90.0,62.0
2,92,70.0,
3,63,60.0,31.0
4,120,50.0,


In [13]:
# 없는 것을 지정하면 오류가 발생한다.
df2 = df1[['영어', '수학', '한국사']]
df2

KeyError: "['한국사'] not in index"

In [14]:
# loc : index를 통해 가져온다.
df2 = df1.loc[[4, 0, 1, 3, 2]]
df3 = df1.loc[[3, 0, 1]]

display(df2)
display(df3)

# 없는 것을 지정하면 오류가 발생한다.
df4 = df1.loc[[3, 0, 10]]
df4

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,호영,4,남자,120,50.0,,88.0
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0
2,민수,1,남자,92,70.0,,


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0


KeyError: '[10] not in index'

In [15]:
# iloc : 순서
df2 = df1.iloc[[4, 3, 2, 1, 0]]
df3 = df1.iloc[[3, 0, 1]]

display(df2)
display(df3)

# 없는 순서값을 넣어주면 오류가 발생한다.
df4 = df1.iloc[[3, 0, 10]]
df4

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,호영,4,남자,120,50.0,,88.0
3,수현,3,여자,63,60.0,31.0,70.0
2,민수,1,남자,92,70.0,,
1,영희,2,여자,88,90.0,62.0,72.0
0,철수,1,남자,98,,88.0,64.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0


IndexError: positional indexers are out-of-bounds

In [16]:
# filter : 원본 데이터 프레임에서 지정한 것 외에는 걸러진다는 의미를 갖고 있다.
# axis를 통해 행, 열을 지정한다.
# 생략시 컬럼이 기준이다.
df2 = df1.filter(['과학', '수학', '영어', '국어', '성별', '학년', '이름'])
df3 = df1.filter(['국어', '영어', '수학'])
# 없는 것을 지정하면 무시된다.
df4 = df1.filter(['국어', '영어', '한국사'])

display(df2)
display(df3)
display(df4)

Unnamed: 0,과학,수학,영어,국어,성별,학년,이름
0,64.0,88.0,,98,남자,1,철수
1,72.0,62.0,90.0,88,여자,2,영희
2,,,70.0,92,남자,1,민수
3,70.0,31.0,60.0,63,여자,3,수현
4,88.0,,50.0,120,남자,4,호영


Unnamed: 0,국어,영어,수학
0,98,,88.0
1,88,90.0,62.0
2,92,70.0,
3,63,60.0,31.0
4,120,50.0,


Unnamed: 0,국어,영어
0,98,
1,88,90.0
2,92,70.0
3,63,60.0
4,120,50.0


In [17]:
# axis에 0을 넣어주면 index를 통해 행을 가져온다.
df2 = df1.filter([4, 1, 3, 0, 2], axis=0)
df3 = df1.filter([3, 0, 2], axis=0)
# 없는 index를 지정하면 무시된다.
df4 = df1.filter([3, 0, 10], axis=0)

display(df2)
display(df3)
display(df4)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,호영,4,남자,120,50.0,,88.0
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
0,철수,1,남자,98,,88.0,64.0


### 컬럼 이름과 인덱스를 변경한다.

In [18]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [19]:
# 전체변경
df2 = df1.copy()
# 컬럼의 이름을 변경할 때는 모든 컬럼을 지정해줘야 한다.
df2.columns = ['c1', 'c2', 'c3', 'c4', 'c5', 'c6', 'c7']
# index를 변경할 때는 모든 index를 지정해줘야 한다.
df2.index = ['r1', 'r2', 'r3', 'r4', 'r5']

display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,c1,c2,c3,c4,c5,c6,c7
r1,철수,1,남자,98,,88.0,64.0
r2,영희,2,여자,88,90.0,62.0,72.0
r3,민수,1,남자,92,70.0,,
r4,수현,3,여자,63,60.0,31.0,70.0
r5,호영,4,남자,120,50.0,,88.0


In [20]:
# 일부만 변경하고자 할 때

# 딕셔너리에 저장하는 데이터의 구조를 이용한다
# 이름 : 원래의 이름
# 값 : 새로운 이름

df2 = df1.copy()

a1 = {
    '국어' : 'korean',
    '영어' : 'english'
}
a2 = {
    0 : '학생1',
    2 : '학생3'
}

df2.rename(columns=a1, index=a2, inplace=True)

display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,korean,english,수학,과학
학생1,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
학생3,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


### 데이터 정렬

In [21]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [22]:
# 특정 컬럼을 기준으로 오름차순 정렬
df2 = df1.copy()

df2.sort_values('국어', inplace=True)

display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
0,철수,1,남자,98,,88.0,64.0
4,호영,4,남자,120,50.0,,88.0


In [23]:
# 특정 컬럼을 기준으로 내림차순 정렬
df2 = df1.copy()

df2.sort_values('영어', inplace=True, ascending=False)

display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0
0,철수,1,남자,98,,88.0,64.0


In [24]:
# 정렬시 결측치 확인
# 정렬의 기준이 되는 컬럼에 결측치가 있는 행은 무조건 제일 아래로 내려간다.
df2 = df1.copy()

df3 = df2.sort_values('영어')
df4 = df2.sort_values('영어', ascending=False)

display(df3)
display(df4)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,호영,4,남자,120,50.0,,88.0
3,수현,3,여자,63,60.0,31.0,70.0
2,민수,1,남자,92,70.0,,
1,영희,2,여자,88,90.0,62.0,72.0
0,철수,1,남자,98,,88.0,64.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0
0,철수,1,남자,98,,88.0,64.0


In [None]:
# 정렬의 기준이 되는 컬럼을 다수를 설정했을 경우
# 첫 번째 기준으로 정렬을 한다.
# 그 후 첫 번째 기준이 되는 컬럼의 값이 같은 것 끼리 그룹으로 묶은 후 각 그룹 내에서
# 두 번째 기준이 되는 컬럼을 기준으로 각각 정렬을 한다.
df2 = df1.copy()

# ascending을 생략 했으므로 두 컬럼 모두 오름 차순 정렬을 수행한다.
df2.sort_values(['성별', '국어'], inplace=True)

display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
2,민수,1,남자,92,70.0,,
0,철수,1,남자,98,,88.0,64.0
4,호영,4,남자,120,50.0,,88.0
3,수현,3,여자,63,60.0,31.0,70.0
1,영희,2,여자,88,90.0,62.0,72.0


In [26]:
# 만약 ascending에 False를 설정하면 두 정렬 모두 내림 차순 정렬을 수행한다.
df2 = df1.copy()

df2.sort_values(['성별', '국어'], inplace=True, ascending=False)

display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,


In [27]:
# 만약 정렬 방식을 각각 따로 설정하고 싶다면...
df2 = df1.copy()

df2.sort_values(['성별', '국어'], inplace=True, ascending=[True, False])

display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,호영,4,남자,120,50.0,,88.0
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0


In [28]:
# index를 통한 정렬
# 정렬 테스트를 위해 index를 새롭게 설정해준다.
df2 = df1.copy()

df2.index=[4, 1, 2, 0, 3]
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
0,수현,3,여자,63,60.0,31.0,70.0
3,호영,4,남자,120,50.0,,88.0


In [29]:
df3 = df2.copy()

# index를 기준으로 오름 차순 정렬한다.

df3.sort_index(inplace=True)

display(df2)
display(df3)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
0,수현,3,여자,63,60.0,31.0,70.0
3,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,수현,3,여자,63,60.0,31.0,70.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,호영,4,남자,120,50.0,,88.0
4,철수,1,남자,98,,88.0,64.0


In [30]:
# index를 기준으로 내림 차순 정렬
df3 = df2.copy()

df3.sort_index(inplace=True, ascending=False)

display(df2)
display(df3)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
0,수현,3,여자,63,60.0,31.0,70.0
3,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,철수,1,남자,98,,88.0,64.0
3,호영,4,남자,120,50.0,,88.0
2,민수,1,남자,92,70.0,,
1,영희,2,여자,88,90.0,62.0,72.0
0,수현,3,여자,63,60.0,31.0,70.0


### 조건에 만족하는 데이터를 검색해온다.
- 조건에 만족하는 행들을 가져와 새로운 데이터 프레임을 생성한다.

In [31]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [32]:
# 원래는 데이터 프레임[ ] 방식으로 접근하면 컬럼을 선택하는 것이다.
# 하지만 True나 False로 구성되어 있는 것을 넣어주면 True에 해당하는 행들을 가져올 수 있다.
df2 = df1[[True, False, True, False, True]]
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [33]:
# 아래의 코드는 df1['국어']를 통해 국어 컬럼의 값을 Series로 가져온다.
# Sereis와 > 90의 연산을 통해 90보다 큰 값는 True 아닌 것은 False로 구성되어 있는
# Sereis를 가져온다. 그 Sereis를 데이터 프레임[ ] 안에 넣어주었기 때문에
# True에 해당하는 행들을 가져온 것이다.

# 이것은 검색의 기능이 아닌 True, False로 구성된것을 넣어주면 True에 해당하는
# 행만 가져온 다는 것을 응용한 것이다.
df2 = df1[df1['국어'] > 90]
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [34]:
# 데이터 프레임은 검색을 위한 함수를 제공하고 있다.
# 특정 컬럼의 값을 비교하는 조건을 통해서 해당 조건에 만족하는 행들만
# 모아놓은 데이터 프레임을 생성할 수 있다.
df2 = df1.query('국어 > 90')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [35]:
# 수학 점수가 70 이하인 것을 가져온다.
df2 = df1.query('수학 <= 70')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0


In [36]:
# 3학년 이상의 행만 가져온다.
df2 = df1.query('학년 >= 3')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [37]:
# and : 두 조건이 모두 만족하는 것만 가져온다.
df2 = df1.query('국어 > 80 and 수학 > 80')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0


In [38]:
# or 둘 중 하나라도 만족한 것을 가져온다.
df2 = df1.query('국어 < 70 or 수학 < 70')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0


In [39]:
# query 안쓰고 해보기
df2 = df1[(df1['국어'] < 70) | (df1['수학'] < 70)]
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0


In [42]:
# 변수에 저장되어 있는 값을 이용한다.
a1 = 90

df2 = df1.query(f'국어 > {a1}')
display(df2)

# query 함수를 사용할 때 변수에 저장되어 있는 값을 사용하고자 한다면
# 변수 이름앞에 @를 붙혀준다.
df3 = df1.query('국어 > @a1')
display(df3)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [44]:
list1 = ['철수', '영희', '민수']

df2 = df1.query('이름 in ["철수", "영희", "민수"]')
display(df2)

df3 = df1.query(f'이름 in {list1}')
display(df3)

# 이름 컬럼의 값이 list1라는 리스트에 포함되어 있는 행들만 가져온다.
df4 = df1.query('이름 in @list1')

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,


In [45]:
# 포함하지 않는 것을 한다면 not 을 붙혀준다.
df2 = df1.query('이름 not in @list1')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [46]:
# 컬럼과 컬럼간의 비교
# 국점점수가 영어점수보다 큰 행들을 가져온다.
df2 = df1.query('국어 > 영어')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [47]:
# 만약 문자열 값을 넣어준다면..
# 따옴표 없이 작성하면 컬럼의 이름으로 인식하기 때문에 따옴표를 넣어준다.
# 성별이 남자인 행만 가져온다.
df2 = df1.query('성별 =="남자"')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [48]:
# 결측치가 있는 행을 가져오고 싶다.
# 영어 컬럼에 결측치가 있는 행을 가져온다.
# 아래는 pandas에서 제공하는 함수를 사용하는 방식이다.
# 과거에는 이러한 방식을 사용할 때 engine이라는 매개변수에 'python'을 넣어주지 않으면
# 오류가 발생했다.
# 현재는 기본이 python으로 되어 있기 때문에 생략해도 된다.
# df2 = df1.query('영어.isna()', engine='python')
df2 = df1.query('영어.isna()')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0


In [49]:
# 결측치가 아닌 행들만 가져온다.
df2 = df1.query('영어.notna()')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


### 특정 컬럼을 인덱스로 지정한다.

In [2]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [3]:
# 이름 컬럼을 index로 지정한다.
# 데이터 프레임에서 이름 컬럼이 제거되고 index로 지정된다.
df2 = df1.copy()

df2.set_index('이름', inplace=True)

display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [4]:
# index를 컬럼에 포함시킨다.

# index를 컬럼으로 포함시키고 index는 0 부터 1씩 증가는 것으로 설정된다.
df3 = df2.copy()

df3.reset_index(inplace=True)

display(df2)
display(df3)

df3.reset_index(inplace=True)
display(df3)

df3.reset_index(inplace=True)
display(df3)

df3.reset_index(inplace=True)
display(df3)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,index,이름,학년,성별,국어,영어,수학,과학
0,0,철수,1,남자,98,,88.0,64.0
1,1,영희,2,여자,88,90.0,62.0,72.0
2,2,민수,1,남자,92,70.0,,
3,3,수현,3,여자,63,60.0,31.0,70.0
4,4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,level_0,index,이름,학년,성별,국어,영어,수학,과학
0,0,0,철수,1,남자,98,,88.0,64.0
1,1,1,영희,2,여자,88,90.0,62.0,72.0
2,2,2,민수,1,남자,92,70.0,,
3,3,3,수현,3,여자,63,60.0,31.0,70.0
4,4,4,호영,4,남자,120,50.0,,88.0


ValueError: cannot insert level_0, already exists

In [5]:
# index를 리셋(0부터 1씩 증가하는 것으로 변경하는 것)시킬 때 index를
# 컬럼에 포함시키지 않고 버릴 수도 있다.
df3 = df2.copy()

df3.reset_index(inplace=True, drop=True)

display(df2)
display(df3)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0,학년,성별,국어,영어,수학,과학
0,1,남자,98,,88.0,64.0
1,2,여자,88,90.0,62.0,72.0
2,1,남자,92,70.0,,
3,3,여자,63,60.0,31.0,70.0
4,4,남자,120,50.0,,88.0


### 값 변경 하거나 추가

In [6]:
f1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1.set_index('이름', inplace=True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [7]:
# 철수의 모든 정보를 변경한다.
# 모든 컬럼에 들어갈 값들을 지정해 줘야 한다.
df2 = df1.copy()

df2.loc['철수'] = [5, '외계인', 2000, 3000, 4000, 5000]

display(df1)
display(df2)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,5,외계인,2000,3000.0,4000.0,5000.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [8]:
# 특정 컬럼의 모든 값을 변경한다.
# 행의 개수와 동일하게 값을 지정해한다.
df2 = df1.copy()

df2['과학'] = [100, 200, 300, 400, 500]

display(df1)
display(df2)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,100
영희,2,여자,88,90.0,62.0,200
민수,1,남자,92,70.0,,300
수현,3,여자,63,60.0,31.0,400
호영,4,남자,120,50.0,,500


In [9]:
# 특정 컬럼의 일부 행만 변경한다.
# 민수, 수현의 국어 점수를 변경한다.
df2 = df1.copy()

df2.loc[['민수', '수현'], '국어'] = [1000, 2000]

display(df1)
display(df2)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,1000,70.0,,
수현,3,여자,2000,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [12]:
# 특정 행의 컬럼 일부만 변경한다.
df2 = df1.copy()

df2.loc['호영', ['국어', '영어']] = [1000, 2000]

display(df1)
display(df2)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,1000,2000.0,,88.0


In [13]:
# 일부 행, 일부 열의 값을 변경한다.
# 영희, 민수의 수학, 과학 점수를 변경한다.

df2 = df1.copy()

df2.loc[['영희', '민수'], ['수학', '과학']] = [[100, 200], [300, 400]]

display(df1)
display(df2)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,100.0,200.0
민수,1,남자,92,70.0,300.0,400.0
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [14]:
# 없는 이름으로 행을 지정하면 추가된다.
# 이때, 넣어주는 값의 개수가 컬럼의 개수와 동일해야 한다.
display(df1)

df1.loc['영민'] = [5, '오징어', 1, 2, 3, 4]

display(df1)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0
영민,5,오징어,1,2.0,3.0,4.0


In [15]:
# 없는 이름의 컬럼을 통해 값을 넣어주면 컬럼이 추가된다.
# 이 때, 컬럼의 모든 행에 값이 지정되어야 한다.
display(df1)

df1['한국사'] = [1, 2, 3, 4, 5, 6]

display(df1)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0
영민,5,오징어,1,2.0,3.0,4.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
철수,1,남자,98,,88.0,64.0,1
영희,2,여자,88,90.0,62.0,72.0,2
민수,1,남자,92,70.0,,,3
수현,3,여자,63,60.0,31.0,70.0,4
호영,4,남자,120,50.0,,88.0,5
영민,5,오징어,1,2.0,3.0,4.0,6


In [16]:
# 만약 행이나 컬럼을 추가할 때 설정해줄 수 있는 값이 일부만 있다면...
# 나머지는 결측치로 채워줘야 한다.
# numpy의 nan 이라는 값이 결측치를 의미하는 값이다.
df1.loc['아이유'] = [np.nan, np.nan, 100, np.nan, 90, np.nan, np.nan]

display(df1)

df1['지구과학'] = [np.nan, np.nan, 50, np.nan, 60, np.nan, np.nan]

display(df1)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
철수,1.0,남자,98.0,,88.0,64.0,1.0
영희,2.0,여자,88.0,90.0,62.0,72.0,2.0
민수,1.0,남자,92.0,70.0,,,3.0
수현,3.0,여자,63.0,60.0,31.0,70.0,4.0
호영,4.0,남자,120.0,50.0,,88.0,5.0
영민,5.0,오징어,1.0,2.0,3.0,4.0,6.0
아이유,,,100.0,,90.0,,


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사,지구과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
철수,1.0,남자,98.0,,88.0,64.0,1.0,
영희,2.0,여자,88.0,90.0,62.0,72.0,2.0,
민수,1.0,남자,92.0,70.0,,,3.0,50.0
수현,3.0,여자,63.0,60.0,31.0,70.0,4.0,
호영,4.0,남자,120.0,50.0,,88.0,5.0,60.0
영민,5.0,오징어,1.0,2.0,3.0,4.0,6.0,
아이유,,,100.0,,90.0,,,


In [17]:
# 딕셔너리를 통해 설정할 수 이다.
# 행에 적용할 경우 데이터의 이름이 컬럼명이 된다.
# 열에 적용할 경우 데이터의 이름이 index가 된다.
# 지정하지 않는 부분은 결측치로 채워준다.
df1.loc['강태풍'] = {
    '국어' : 100,
    '수학' : 200
}

display(df1)

df1['물리'] = {
    '호영' : 50,
    '민수' : 60
}

display(df1)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사,지구과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
철수,1.0,남자,98.0,,88.0,64.0,1.0,
영희,2.0,여자,88.0,90.0,62.0,72.0,2.0,
민수,1.0,남자,92.0,70.0,,,3.0,50.0
수현,3.0,여자,63.0,60.0,31.0,70.0,4.0,
호영,4.0,남자,120.0,50.0,,88.0,5.0,60.0
영민,5.0,오징어,1.0,2.0,3.0,4.0,6.0,
아이유,,,100.0,,90.0,,,
강태풍,,,100.0,,200.0,,,


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사,지구과학,물리
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
철수,1.0,남자,98.0,,88.0,64.0,1.0,,
영희,2.0,여자,88.0,90.0,62.0,72.0,2.0,,
민수,1.0,남자,92.0,70.0,,,3.0,50.0,60.0
수현,3.0,여자,63.0,60.0,31.0,70.0,4.0,,
호영,4.0,남자,120.0,50.0,,88.0,5.0,60.0,50.0
영민,5.0,오징어,1.0,2.0,3.0,4.0,6.0,,
아이유,,,100.0,,90.0,,,,
강태풍,,,100.0,,200.0,,,,


### 데이터 프레임 병합

In [18]:
# 테스트를 위해 grade.csv 로 데이터 프레임을 생성하고
# 행 하나를 추가한 다음
# 행 두개씩 해서 3개의 데이터 프레임으로 나눈다.
temp_df = pd.read_csv('data/grade.csv', encoding='euc-kr')
temp_df.set_index('이름', inplace=True)
temp_df.loc['민호'] = [1, '남자', 50, 60, 70, 80]

df1 = temp_df.loc[['철수', '영희']]
df2 = temp_df.loc[['민수', '수현']]
df3 = temp_df.loc[['호영', '민호']]

display(df1)
display(df2)
display(df3)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
민호,1,남자,50,60.0,70.0,80.0


In [None]:
# 데이터 프레임.append([다른 데이터 프레임들..])
# 위에서 아래 방향으로 병합한다.
# 현재는 지원하지 않는다.

# df1을 기준으로 df1 밑에 df2가,  df2 밑에 df3가 붙는다.
# 이 때, 만약 컬럼의 순서가 다르면 df1의 컬럼 순서와 매칭하여 병합된다.
# 다른 데이터 프레임에는 없는 컬럼이 있다면 결측치로 채워진다.
df100 = df1.append([df2, df3])
df100

In [20]:
# 데이터 프레임 병합
# 리스트 안에 병합하고자 하는 데이터 프레임들을 모두 넣어주면 된다.
df100 = pd.concat([df1, df2, df3])
df100

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0
민호,1,남자,50,60.0,70.0,80.0


In [21]:
# 데이터 프레임들의 컬럼 순서가 다르다면 첫 번째 데이터 프레임의 컬럼 순서를 기준으로
# 컬럼명이 같은 것 끼리 병합된다.
df200 = df2[['국어', '영어', '수학', '과학', '학년', '성별']]

df100 = pd.concat([df1, df200, df3])
df100

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0
민호,1,남자,50,60.0,70.0,80.0


In [22]:
# 병합하고자 하는 데이터 프레임들의 컬럼이 동일하지 않더라도
# 병합이 되고 컬럼이 없는 쪽은 결측치로 채워진다.
df200 = df2.copy()
df200['한국사'] = [100, 200]

df100 = pd.concat([df1, df200, df3])
df100

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
철수,1,남자,98,,88.0,64.0,
영희,2,여자,88,90.0,62.0,72.0,
민수,1,남자,92,70.0,,,100.0
수현,3,여자,63,60.0,31.0,70.0,200.0
호영,4,남자,120,50.0,,88.0,
민호,1,남자,50,60.0,70.0,80.0,


In [23]:
# merge : 데이터 베이스의 join 과 동일하다.
# merge 테스트를 위해서 데이터 프레임 두개를 생성한다.
a1 = {
    '고객번호' : [1001, 1002, 1003, 1005],
    '주소지' : ['서울', '부산', '대구', '경기'],
    '이름' : ['홍길동', '길김동', '최길동', '고길동']
}

a2 = {
    '고객번호' : [1001, 1002, 1003, 1004],
    '배송지' : ['서울', '부산', '대구', '대전'],
    '금액' : [10000, 20000, 30000, 40000]
}

df1 = pd.DataFrame(a1)
df2 = pd.DataFrame(a2)

display(df1)
display(df2)

Unnamed: 0,고객번호,주소지,이름
0,1001,서울,홍길동
1,1002,부산,길김동
2,1003,대구,최길동
3,1005,경기,고길동


Unnamed: 0,고객번호,배송지,금액
0,1001,서울,10000
1,1002,부산,20000
2,1003,대구,30000
3,1004,대전,40000


In [24]:
# merge 사용
# merge는 join 조건으로 사용할 각 데이터 프레임의 컬럼들을 지정해줘야 한다.
# 만약 생략시 두 데이터 프레임의 컬럼들 중 이름이 같은 컬럼으로 자동 지정된다.
# 데이터 베이스의 inner join과 동일하다.
# join 조건으로 지정된 두 컬럼의 값이 똑같은 것만 가져오고 다른 부분은 가져오지 않는다.
df10 = pd.merge(df1, df2)
df10

Unnamed: 0,고객번호,주소지,이름,배송지,금액
0,1001,서울,홍길동,서울,10000
1,1002,부산,길김동,부산,20000
2,1003,대구,최길동,대구,30000


In [25]:
# 만약 join 조건으로 사용할 두 컬럼의 이름이 다르다면 지정해 줘야 한다.
# left_on : 좌측 데이터 프레임의 컬럼 이름
# right_on : 우측 데이터 프레임의 컬럼 이름
df20 = pd.merge(df1, df2, left_on='주소지', right_on='배송지')
df20

Unnamed: 0,고객번호_x,주소지,이름,고객번호_y,배송지,금액
0,1001,서울,홍길동,1001,서울,10000
1,1002,부산,길김동,1002,부산,20000
2,1003,대구,최길동,1003,대구,30000


In [26]:
# full outer join
# 두 데이터 프레임에 서로 없는 것들까지 포함한다.
# 없는 쪽은 결측치로 채워진다.
df30 = pd.merge(df1, df2, how='outer')
df30

Unnamed: 0,고객번호,주소지,이름,배송지,금액
0,1001,서울,홍길동,서울,10000.0
1,1002,부산,길김동,부산,20000.0
2,1003,대구,최길동,대구,30000.0
3,1004,,,대전,40000.0
4,1005,경기,고길동,,


In [27]:
# left outer join
# 좌측 데이터 프레임에는 있지만 우측 데이터 프레임에는 없는 것도 포함된다.
df100 = pd.merge(df1, df2, how='left')
df100

Unnamed: 0,고객번호,주소지,이름,배송지,금액
0,1001,서울,홍길동,서울,10000.0
1,1002,부산,길김동,부산,20000.0
2,1003,대구,최길동,대구,30000.0
3,1005,경기,고길동,,


In [28]:
# right outer join
# 우측 데이터 프레임에는 있지만 좌측 데이터 프레임에는 없는 것도 포함된다.
df100 = pd.merge(df1, df2, how='right')
df100

Unnamed: 0,고객번호,주소지,이름,배송지,금액
0,1001,서울,홍길동,서울,10000
1,1002,부산,길김동,부산,20000
2,1003,대구,최길동,대구,30000
3,1004,,,대전,40000


### 삭제

In [29]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1.set_index('이름', inplace=True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [30]:
# 특정 행 하나만 삭제
df2 = df1.copy()

df2.drop('철수', inplace=True)

display(df1)
display(df2)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [31]:
# 여러 행 삭제
df2 = df1.copy()

df2.drop(['민수', '호영'], inplace=True)

display(df1)
display(df2)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0


In [32]:
# 컬럼 하나 제거
df2 = df1.copy()

df2.drop('학년', inplace=True, axis=1)

display(df1)
display(df2)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
철수,남자,98,,88.0,64.0
영희,여자,88,90.0,62.0,72.0
민수,남자,92,70.0,,
수현,여자,63,60.0,31.0,70.0
호영,남자,120,50.0,,88.0


In [33]:
# 여러 컬럼을 제거한다.
df2 = df1.copy()

df2.drop(['성별', '수학'], inplace=True, axis=1)

display(df1)
display(df2)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,학년,국어,영어,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
철수,1,98,,64.0
영희,2,88,90.0,72.0
민수,1,92,70.0,
수현,3,63,60.0,70.0
호영,4,120,50.0,88.0
