# 데이터 전처리
- 데이터를 가지고 분석. 기계학습 하기 전에 데이터를 가공하는 작업
- 컬럼이나 인덱스 이름을 변경
- 행과 열의 순서를 변경
- 데이터 정렬
- 데이터 검색
- 행, 열 추가
- 행, 열 삭제
- 두 개 이상의 데이터 프레임 병합
- 등등...

In [1]:
import numpy as np
import pandas as pd

In [3]:
# 데이터를 불러온다
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


## inplace
- 제공되는 전처리 관련 함수들은 inplace 매개변수를 제공하는 것들이 있다.
- inplace가 없는 함수들은 원본을 수정하거나 원본을 유지한채 작업이 반영된 새로운 것을 생성해 반환한다.
- inplace를 제공할 경우 True를 넣어주면 원본이 변경되고 False를 넣어주면 원본은 유지하고 작업이 반영된 새로운 것을 생성해 반환한다.

# 행, 열의 순서 변경

In [4]:
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [7]:
# 열 순서 변경 - 지정된 컬럼 데이터를 지정된 순서로 가져온다.
# 원본은 유지하고 순서가 변경된 데이터 프레임을 새롭게 생성해서 반환한다.
a1 = ['과학', '수학', '영어', '국어', '성별', '학년', '이름']
df2 = df1.reindex(columns= a1)
display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,과학,수학,영어,국어,성별,학년,이름
0,64.0,88.0,,98,남자,1,철수
1,72.0,62.0,90.0,88,여자,2,영희
2,,,70.0,92,남자,1,민수
3,70.0,31.0,60.0,63,여자,3,수현
4,88.0,,50.0,120,남자,4,호영


In [8]:
# 일부만 작성하면 일부만 추출하는 효과를 얻을 수 있다.
# reindex의 의미는 재정렬의 의미를 가지고 있지만 일부 추출도 가능하다.
df3 = df1.reindex(columns = ['국어', '영어', '수학'])
df3

Unnamed: 0,국어,영어,수학
0,98,,88.0
1,88,90.0,62.0
2,92,70.0,
3,63,60.0,31.0
4,120,50.0,


In [9]:
# 없는 이름을 지정해서 가져온다.
# 없는 이름의 컬럼이 추가되고 모두 결측치로 채워진다.
df4 = df1.reindex(columns = ['국어', '영어', '한국사'])
df4

Unnamed: 0,국어,영어,한국사
0,98,,
1,88,90.0,
2,92,70.0,
3,63,60.0,
4,120,50.0,


In [10]:
# 행 변경
a1 = [4, 1, 3, 0, 2]
df2 = df1.reindex(index=a1)
display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,호영,4,남자,120,50.0,,88.0
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,


In [11]:
# 일부만 지정
df3 = df1.reindex(index=[3, 0, 1])
df3

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0


In [12]:
# 없는 행을 지정하면
df4 = df1.reindex(index=[3, 0, 10])
df4

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3.0,여자,63.0,60.0,31.0,70.0
0,철수,1.0,남자,98.0,,88.0,64.0
10,,,,,,,


In [15]:
# 열 순서 변경
# 일부만 가져오는 용도로 사용하지만 모든 것들을 다 작성하면 모두 다 가져올 수 있다
a1 = ['과학', '수학', '영어', '국어', '성별', '학년', '이름']
df2 = df1[a1]
df2

Unnamed: 0,과학,수학,영어,국어,성별,학년,이름
0,64.0,88.0,,98,남자,1,철수
1,72.0,62.0,90.0,88,여자,2,영희
2,,,70.0,92,남자,1,민수
3,70.0,31.0,60.0,63,여자,3,수현
4,88.0,,50.0,120,남자,4,호영


In [16]:
# 일부만 추출
df3 = df1[['국어', '영어', '수학']]
df3

Unnamed: 0,국어,영어,수학
0,98,,88.0
1,88,90.0,62.0
2,92,70.0,
3,63,60.0,31.0
4,120,50.0,


In [17]:
# 존재하지 않는 컬럼 이름
# 오류발생
df4 = df1[['영어', '수학', '한국사']]
df4

KeyError: "['한국사'] not in index"

In [21]:
# 행 정렬
df2 = df1.loc[[0, 1, 3, 2, 4]]
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [22]:
# 행 발퀘
df3 = df1.loc[[0, 3, 2]]
df3

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
3,수현,3,여자,63,60.0,31.0,70.0
2,민수,1,남자,92,70.0,,


In [23]:
# 없는 인덱스
# 오류발생
df4 = df1.loc[[0, 1, 10]]
df4

KeyError: "Passing list-likes to .loc or [] with any missing labels is no longer supported. The following labels were missing: Int64Index([10], dtype='int64'). See https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#deprecate-loc-reindex-listlike"

In [24]:
# 컬럼 순서를 정렬한다.,
a1 = ['과학', '수학', '영어', '국어', '성별', '학년', '이름']
df2 = df1.filter(a1)
df2

Unnamed: 0,과학,수학,영어,국어,성별,학년,이름
0,64.0,88.0,,98,남자,1,철수
1,72.0,62.0,90.0,88,여자,2,영희
2,,,70.0,92,남자,1,민수
3,70.0,31.0,60.0,63,여자,3,수현
4,88.0,,50.0,120,남자,4,호영


In [25]:
# 일부만 가져온다.
df3 = df1.filter(['국어', '영어', '수학'])
df3

Unnamed: 0,국어,영어,수학
0,98,,88.0
1,88,90.0,62.0
2,92,70.0,
3,63,60.0,31.0
4,120,50.0,


In [26]:
# 없는 이름
# filter는 없는 이름을 넣어주면 무시된다.
df4 = df1.filter(['국어', '영어', '한국사'])
df4

Unnamed: 0,국어,영어
0,98,
1,88,90.0
2,92,70.0
3,63,60.0
4,120,50.0


In [29]:
# 행 정렬
# axis : 하나의 함수를 통해 행과 열에 대한 작업을 하는 함수인 경우 작업의 기준을 설정하기 위해 axis라는 매개변수를 제공한다.
# 0이면 행이 기준, 1이면 열이 기준
df2 = df1.filter([4, 1, 3, 0, 2], axis = 0)
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,호영,4,남자,120,50.0,,88.0
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,


In [30]:
# 행 추출
df3 = df1.filter([3, 1, 0], axis=0)
df3

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
1,영희,2,여자,88,90.0,62.0,72.0
0,철수,1,남자,98,,88.0,64.0


In [31]:
# 없는 인덱스를 지정한다.
df4 = df1.filter([0, 1, 10], axis = 0)
df4

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0


# 컬럼이나 인덱스의 이름을 변경

In [33]:
df1 = pd.read_csv('data/grade.csv', encoding = 'euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [34]:
# 전체 변경
# 반드시 컬럼의 수나 로우의 수 만큼 지정해야 한다.
df1.columns = ['c1', 'c2', 'c3', 'c4', 'c5', 'c6', 'c7']
df1.index = ['v1', 'v2', 'v3', 'v4', 'v5']
df1

Unnamed: 0,c1,c2,c3,c4,c5,c6,c7
v1,철수,1,남자,98,,88.0,64.0
v2,영희,2,여자,88,90.0,62.0,72.0
v3,민수,1,남자,92,70.0,,
v4,수현,3,여자,63,60.0,31.0,70.0
v5,호영,4,남자,120,50.0,,88.0


In [48]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [49]:
# 컬럼 일부만 변경한다
# 딕셔너리에 원래의 컬럼 이름을 키로 변경할 컬럼의 이름을 값으로 넣어준다.
map1 = {
    '국어' : 'kor',
    '영어' : 'eng'
}

df2 = df1.rename(columns=map1)
display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,kor,eng,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [51]:
# inplace에 True를 넣어주면 원본이 변경된다.
map1 = {
    '국어' : 'kor',
    '영어' : 'eng'
}

df2 = df1.rename(columns=map1, inplace=True)
display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,kor,eng,수학,과학
학생1,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
학생4,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


None

In [54]:
# 인덱스를 변경한다
map1 = {
    0 : '학생1',
    3 : '학생4'
}

df1.rename(index=map1, inplace=True)
display(df1)

Unnamed: 0,이름,학년,성별,kor,eng,수학,과학
학생1,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
학생4,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


# 데이터 정렬

In [55]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [57]:
# 특정 컬럼을 기준으로 오름차순 정렬
df1.sort_values('국어', inplace=True)
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
0,철수,1,남자,98,,88.0,64.0
4,호영,4,남자,120,50.0,,88.0


In [58]:
# 특정 열을 기준으로 내림 차순 정렬
df1.sort_values('영어', inplace = True, ascending=False)
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0
0,철수,1,남자,98,,88.0,64.0


In [61]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
# 정렬의 기준이 되는 컬럼을 여러개를 설정하면 첫 번째 컬럼을 기준으로 전체를 정렬하고 첫 번째 컬럼의 값이 똑같은 것들끼리 묶어 그 안에서 두 번째 기준으로 정렬한다.

df1.sort_values(['학년', '국어'], inplace = True)
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
2,민수,1,남자,92,70.0,,
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [63]:
# index를 기준으로 한 정렬
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')

df1 = df1.loc[[4, 1, 2, 0, 3]]
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,호영,4,남자,120,50.0,,88.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
0,철수,1,남자,98,,88.0,64.0
3,수현,3,여자,63,60.0,31.0,70.0


In [64]:
# 인덱스를 기준으로 오름 차순 정렬
df1.sort_index(inplace = True)
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [65]:
# 인덱스를 기준으로 내림 차순 정렬
df1.sort_index(inplace = True, ascending=False)
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,호영,4,남자,120,50.0,,88.0
3,수현,3,여자,63,60.0,31.0,70.0
2,민수,1,남자,92,70.0,,
1,영희,2,여자,88,90.0,62.0,72.0
0,철수,1,남자,98,,88.0,64.0


## 조건에 해당하는 데이터를 검색해온다.

In [66]:
# 데이터 프레임도 True나 False로 구성된 요소를 넣어주면 True에 해당하는 행들만 가져올 수 있다.
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')




Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [67]:
df2 = df1[df1['국어'] > 90]
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [69]:
# 검색
# 국어 점수가 90점 보다 큰 학생 정보를 가져온다.
df2 = df1.query('국어 > 90')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [70]:
# 성별이 남자인 학생들
# 식안에 따옴표가 없는 문자열을 칼럼 이름으로 인식하고
# 따옴표가 있는 것은 문자열 값으로 인식한다.
df2 = df1.query('성별 == "남자"')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [72]:
# and
df2 = df1.query('국어 > 80 and 수학 > 80')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0


In [71]:
# or
df2 = df1.query('국어 < 70 or 수학 < 70')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0


In [73]:
# 변수 사용
a1 = 90

df2 = df1.query('국어 > @a1')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [74]:
list1 = ['철수', '영희', '민수']

# 리스트 안에 포함되어 있는 행만 가져온다.

df2 = df1.query('이름 in @list1')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,


In [75]:
# 리스트 안에 포함되지 않는 것만 가져온다.
df2 = df1.query('이름 not in @list1')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


## index 설정
- 데이터 프레임의 특정 컬럼을 인덱스로 지정할 수 있다.

In [80]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [81]:
# 이름을 인덱스로 지정한다.
df1.set_index('이름', inplace = True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


# 행 추가

In [82]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1.set_index('이름', inplace = True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [83]:
# 철수의 모든 정보를 변경한다.
# 칼럼의 개수만큼 데이터를 넣어준다.
df1.loc['철수'] = [5, '외계인', 2000, 3000, 4000, 5000]
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,5,외계인,2000,3000.0,4000.0,5000.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [84]:
# 특정 칼럼의 모든 값을 변경한다.
df1['과학'] = [100, 200, 300, 400, 500]
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,5,외계인,2000,3000.0,4000.0,100
영희,2,여자,88,90.0,62.0,200
민수,1,남자,92,70.0,,300
수현,3,여자,63,60.0,31.0,400
호영,4,남자,120,50.0,,500


In [85]:
# 특정 행의 일부만 병경한다.
df1.loc['호영', ['국어', '영어']] = [1000, 2000]
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,5,외계인,2000,3000.0,4000.0,100
영희,2,여자,88,90.0,62.0,200
민수,1,남자,92,70.0,,300
수현,3,여자,63,60.0,31.0,400
호영,4,남자,1000,2000.0,,500


In [86]:
# 특정 컬럼의 일부 행만 병경한다.
df1.loc[['민수', '수현'], '국어'] = [500, 600]
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,5,외계인,2000,3000.0,4000.0,100
영희,2,여자,88,90.0,62.0,200
민수,1,남자,500,70.0,,300
수현,3,여자,600,60.0,31.0,400
호영,4,남자,1000,2000.0,,500


In [87]:
# 일부 행, 일부 열의 값을 변경한다.
df1.loc[['영희', '민수'], ['수학', '과학']] = [[100, 200], [300, 400]]
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,5,외계인,2000,3000.0,4000.0,100
영희,2,여자,88,90.0,100.0,200
민수,1,남자,500,70.0,300.0,400
수현,3,여자,600,60.0,31.0,400
호영,4,남자,1000,2000.0,,500


In [88]:
# 행 추가
# 존재하지 않는 인덱스로 값을 설정해주면 행이 추가된다.
df1.loc['영민'] = [5, '여자', 1, 2, 3, 4]
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,5,외계인,2000,3000.0,4000.0,100
영희,2,여자,88,90.0,100.0,200
민수,1,남자,500,70.0,300.0,400
수현,3,여자,600,60.0,31.0,400
호영,4,남자,1000,2000.0,,500
영민,5,여자,1,2.0,3.0,4


# 데이터프레임 병합

In [94]:
temp_df = pd.read_csv('data/grade.csv', encoding = 'euc-kr')
temp_df.set_index('이름', inplace = True)
temp_df.loc['민호'] = [1, '남자', 50, 60, 70, 80]

df1 = temp_df.loc[['철수', '영희']]
df2 = temp_df.loc[['민수', '수현']]
df3 = temp_df.loc[['호영', '민호']]

display(df1)
display(df2)
display(df3)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
민호,1,남자,50,60.0,70.0,80.0


In [95]:
# append : 그냥 뒤에다가 붇이는것
df4 = df1.append([df2, df3])
df4

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0
민호,1,남자,50,60.0,70.0,80.0


In [97]:
# df2 컬럼의 순서를 변경한다
df2 = df2[['국어', '영어', '수학', '과학', '학년', '성별']]
df2

Unnamed: 0_level_0,국어,영어,수학,과학,학년,성별
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
민수,92,70.0,,,1,남자
수현,63,60.0,31.0,70.0,3,여자


In [98]:
df4 = df1.append([df2, df3])
df4

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0
민호,1,남자,50,60.0,70.0,80.0


In [99]:
# 존재하지 않는 컬럼이 있을 경우
df2['한국사'] = [100, 200]
df2

Unnamed: 0_level_0,국어,영어,수학,과학,학년,성별,한국사
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
민수,92,70.0,,,1,남자,100
수현,63,60.0,31.0,70.0,3,여자,200


In [100]:
df4 = df1.append([df2, df3])
df4

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
철수,1,남자,98,,88.0,64.0,
영희,2,여자,88,90.0,62.0,72.0,
민수,1,남자,92,70.0,,,100.0
수현,3,여자,63,60.0,31.0,70.0,200.0
호영,4,남자,120,50.0,,88.0,
민호,1,남자,50,60.0,70.0,80.0,


In [102]:
# merge 테스트를 위해 데이터 프레임 두 개를 만든다.
a1 = {
    '고객번호' : [1001, 1002, 1003],
    '주소지' : ['서울', '부산', '대전'],
    '이름' : ['홍길동', '김길동', '최길동']
}

a2 = {
    '고객번호' : [1001, 1002, 1003, 1004],
    '배송지' : ['서울', '부산', '대전', '대구'],
    '금액' : [10000, 20000, 30000, 40000]
}

df1 = pd.DataFrame(a1)
df2 = pd.DataFrame(a2)
display(df1)
display(df2)

Unnamed: 0,고객번호,주소지,이름
0,1001,서울,홍길동
1,1002,부산,김길동
2,1003,대전,최길동


Unnamed: 0,고객번호,배송지,금액
0,1001,서울,10000
1,1002,부산,20000
2,1003,대전,30000
3,1004,대구,40000


In [103]:
# 합칠 기준이 되는 컬럼을 직접 지정한다.
df20 = pd.merge(df1, df2, left_on='주소지', right_on='배송지')
df20

Unnamed: 0,고객번호_x,주소지,이름,고객번호_y,배송지,금액
0,1001,서울,홍길동,1001,서울,10000
1,1002,부산,김길동,1002,부산,20000
2,1003,대전,최길동,1003,대전,30000


In [104]:
# outer join : how를 생략하면 inner join을 숳ㅇ한다. inner join은 기준이 되는 컬럼의 값이 양쪽 모두 있는 것만 합쳐주고 둘 중 하나라도 없는 것은 제외한다.
# 만약 둘 중 하나라도 없는 것 까지 포함하고자 한다면 outer join을 수행한다.

df20 = pd.merge(df1, df2, how = 'outer')
df20

Unnamed: 0,고객번호,주소지,이름,배송지,금액
0,1001,서울,홍길동,서울,10000
1,1002,부산,김길동,부산,20000
2,1003,대전,최길동,대전,30000
3,1004,,,대구,40000


In [105]:
df20 = pd.merge(df1, df2, how = 'inner')
df20

Unnamed: 0,고객번호,주소지,이름,배송지,금액
0,1001,서울,홍길동,서울,10000
1,1002,부산,김길동,부산,20000
2,1003,대전,최길동,대전,30000


In [106]:
# left outer join
# 죄측의 데이터 프레임에는 있지만, 우측에는 없는 것만 포함한다.a1
df100 = pd.merge(df1, df2, how = 'left')
df200 = pd.merge(df2, df1, how = 'left')

display(df100)
display(df200)

Unnamed: 0,고객번호,주소지,이름,배송지,금액
0,1001,서울,홍길동,서울,10000
1,1002,부산,김길동,부산,20000
2,1003,대전,최길동,대전,30000


Unnamed: 0,고객번호,배송지,금액,주소지,이름
0,1001,서울,10000,서울,홍길동
1,1002,부산,20000,부산,김길동
2,1003,대전,30000,대전,최길동
3,1004,대구,40000,,


In [107]:
# right outer join
# 우측의 데이터 프레임에는 있지만, 좌측에는 없는 것만 포함한다.a1
df100 = pd.merge(df1, df2, how = 'right')
df200 = pd.merge(df2, df1, how = 'right')

display(df100)
display(df200)

Unnamed: 0,고객번호,주소지,이름,배송지,금액
0,1001,서울,홍길동,서울,10000
1,1002,부산,김길동,부산,20000
2,1003,대전,최길동,대전,30000
3,1004,,,대구,40000


Unnamed: 0,고객번호,배송지,금액,주소지,이름
0,1001,서울,10000,서울,홍길동
1,1002,부산,20000,부산,김길동
2,1003,대전,30000,대전,최길동


# 삭제

In [114]:
df1 = pd.read_csv('data/grade.csv', encoding = 'euc-kr')
df1.set_index('이름', inplace = True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [115]:
# 한 행을 삭제
df1.drop('민수', inplace= True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [111]:
# 여러 행을 삭제
df1.drop(['민수', '호영'], inplace = True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0


In [116]:
df1 = pd.read_csv('data/grade.csv', encoding = 'euc-kr')
df1.set_index('이름', inplace = True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [113]:
# 열 하나 삭제
df1.drop('학년', inplace = True, axis = 1)
df1

Unnamed: 0_level_0,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
철수,남자,98,,88.0,64.0
영희,여자,88,90.0,62.0,72.0
민수,남자,92,70.0,,
수현,여자,63,60.0,31.0,70.0
호영,남자,120,50.0,,88.0


In [117]:
# 여러 컬럼을 제거한다.
df1.drop(['성별', '수학'], inplace = True, axis = 1)
df1

Unnamed: 0_level_0,학년,국어,영어,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
철수,1,98,,64.0
영희,2,88,90.0,72.0
민수,1,92,70.0,
수현,3,63,60.0,70.0
호영,4,120,50.0,88.0
