### 데이터 전처리
- 전처리란 어떠한 작업을 하기 전에 그 작업을 위한 처리를 의미한다.
- 컬럼이름이나 인덱스를 변경
- 행과 열의 순서를 변경
- 데이터 정렬
- 데이터 검색
- 행, 열 추가
- 행, 열 삭제
- 행, 열의 값 변경
- 두 개 이상의 데이터 프레임을 병합
- 기타 등등

### inplace
- 데이터 프레임의 변형을 가하는 함수들은 원본을 변경하거나 원본을 유지하고 작업이 반영된 새로운 데이터 프레임을 생성하여 반환한다.
- 만약 inplace라는 매개변수가 있다면 이를 통해 선택할 수 있다.
- True면 원본을 변경하고 False면 원본을 유지해준다.

### 만약 inplace가 없다면 
- 함수가 원본을 변경시키는 것만 제공하는 경우
- 함수가 원본을 유지시키는 것만 제공하는 경우
- 원본을 유지하는 함수와 원본을 변경하는 함수를 따로 제공하는 경우

### axis
- 작업을 반영하는 기준이나 작업을 하기 위한 그룹을 묶는 기준을 설정한다.
- 0이면 행 기준
- 1이면 열 기준

### 만약 axis가 없다면
- 행에 대해서만 작업을 하는 함수인 경우
- 열에 대해서만 작업을 하는 함수인 경우
- columns라는 매개변수나 index라는 매개변수가 제공되는 경우
- 행이나 열에 대해서 작업하는 함수가 각각 따로 제공되거나 

In [1]:
import numpy as np
import pandas as pd

### 행과 열의 순서를 변경

In [2]:
df1 = pd.read_csv('data/data/grade.csv', encoding = 'euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [3]:
# reindex : 행이나 열의 순서를 바꾸는 것을 의미한다.
# 열 순서 변경: 지정된 컬럼 데이터를 지정된 순서로 가져온다.
# 원본을 유지하고 새로운 데이터 프레임을 생성하여 반환한다.
df2 = df1.reindex(columns = ['과학', '수학', '영어', '국어', '성별', '학년', '이름'])
df2

Unnamed: 0,과학,수학,영어,국어,성별,학년,이름
0,64.0,88.0,,98,남자,1,철수
1,72.0,62.0,90.0,88,여자,2,영희
2,,,70.0,92,남자,1,민수
3,70.0,31.0,60.0,63,여자,3,수현
4,88.0,,50.0,120,남자,4,호영


In [4]:
# 컬럼 이름 일부만 지정하면 일부만 가져오는 효과를 얻을 수 있다
df3 = df1.reindex(columns = ['국어', '영어', '수학'])
df3

Unnamed: 0,국어,영어,수학
0,98,,88.0
1,88,90.0,62.0
2,92,70.0,
3,63,60.0,31.0
4,120,50.0,


In [5]:
# 없는 이름의 컬럼을 가져온다.
# 없는 이름의 컬럼이 추가되고 결측치로 채워진다. 
df4 = df1.reindex(columns = ['국어', '영어', '한국사'])
df4

Unnamed: 0,국어,영어,한국사
0,98,,
1,88,90.0,
2,92,70.0,
3,63,60.0,
4,120,50.0,


In [6]:
# 행 순서 변경(순서값이 아닌 인덱스를 지정한다)
df2 = df1.reindex(index = [4, 1, 3, 0, 2])
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,호영,4,남자,120,50.0,,88.0
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,


In [7]:
# 행 일부만 가져오는 것도 가능함
df4 = df1.reindex(index = [3, 0, 1])
df4

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0


In [8]:
# 없는 index를 지정한다
# 없는 index에 해당하는 행이 추가되고 결측치로 채워진다.
df5 = df1.reindex(index = [3, 0, 10])
df5

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3.0,여자,63.0,60.0,31.0,70.0
0,철수,1.0,남자,98.0,,88.0,64.0
10,,,,,,,


In [9]:
# 같이도 가능하다.
a1 = ['성별', '과학', '이름']
a2 = [3, 0, 4]
df2 = df1.reindex(columns = a1, index = a2)
df2

Unnamed: 0,성별,과학,이름
3,여자,70.0,수현
0,남자,64.0,철수
4,남자,88.0,호영


### [  ] , loc, iloc
- 데이터 프레임에서 원하는 것만 가져온다는 의미

In [10]:
# 모든 컬럼을 작성해주면 원하는 순서대로 가져온다.
df2 = df1[['과학', '수학', '영어', '국어', '성별', '학년', '이름']]
df2

Unnamed: 0,과학,수학,영어,국어,성별,학년,이름
0,64.0,88.0,,98,남자,1,철수
1,72.0,62.0,90.0,88,여자,2,영희
2,,,70.0,92,남자,1,민수
3,70.0,31.0,60.0,63,여자,3,수현
4,88.0,,50.0,120,남자,4,호영


In [11]:
# 일부만 가져온다
df3 = df1[['국어', '영어', '수학']]
df3

Unnamed: 0,국어,영어,수학
0,98,,88.0
1,88,90.0,62.0
2,92,70.0,
3,63,60.0,31.0
4,120,50.0,


In [12]:
# 없는 것만 가져온다.
# 오류발생
df4 = df1[['영어', '수학', '한국사']]
df4

KeyError: "['한국사'] not in index"

In [None]:
# index 를 지정하여 가져온다
df2 = df1.loc[[4, 0, 1, 3, 2]]
df3 = df1.loc[[3, 0, 1]]

display(df2, df3)

In [None]:
# 없는 index 저장
# 오류 발생
df4 = df1.loc[[3, 0, 10]]
df4

In [None]:
# iloc : 순서
df2 = df1.iloc[[4, 3, 2, 1, 0]]
df3 = df1.iloc[[3, 0, 1]]

display(df2, df3)

In [None]:
# 없는 순서값
# 오류
df5 = df1.iloc[[3, 0, 10]]
df5

### filter

In [None]:
# 있는 것 사용
# axis가 있으며 생략 시 컬럼이 기준

df2 = df1.filter(['과학', '수학', '영어', '국어', '성별', '학년', '이름'])
df3 = df1.filter(['국어', '영어', '수학'])
display(df2, df3)

In [None]:
# 없는 것은 제외된다.
df4 = df1.filter(['국어', '영어', '한국사'])
df4 

In [None]:
# axis에 0을 설정하면 index를 통해 행을 가져온다.
df2 = df1.filter([4, 1, 3, 0, 2], axis = 0)
df3 = df1.filter([3, 0, 2], axis = 0)

display(df2, df3)

In [None]:
# 없는 index
# 없는 것은 제외된다.
df4 = df1.filter([3, 1, 10], axis=0)
df4

- 3가지 모두 있는 것만 사용하면 결과가 동일하다
- 없는 것이 있을 때는 다음과 같이 각각 다르게 동작한다.
- reindex : 없는 이름의 컬럼이 추가되고 결측치로 채워진다.
- [  ], loc[  ], iloc[  ] : 오류가 발생한다.  --> 강사님 추천
- filter : 제외된다.

# 컬럼 이름과 인덱스를 변경한다. 

In [None]:
df1 = pd.read_csv('data/data/grade.csv', encoding = 'euc-kr')
df1

In [None]:
# 전체 변경
# 컬럼 이름 지정 시에는 모든 컬럼에 지정해야 한다.
# index 지정 시에는 모든 행에 지정해야 한다.
# 부족하거나 많으면 오류가 발생한다.
df2 = df1.copy()

df2.columns = ['c1', 'c2', 'c3', 'c4', 'c5', 'c6', 'c7']
df2.index = ['r1', 'r2', 'r3', 'r4', 'r5']

df2

In [None]:
# 일부만 변경한다
# 딕셔너리에 저장하는 데이터의 구조를 '원래의 이름 : 새로운 이름' 형태로 해준다.
df2 = df1.copy()

d1 = {
    '국어' : 'korean',
    '영어' : 'english' 
}

d2 = {
    0 : '학생1', 
    2 : '학생3'
}

df2.rename(columns = d1, index = d2, inplace=True)
# true면 원본에 반영, false면 원본에는 반영되지 않고 대신 새로운 table을 만들어 반영
df2

### 데이터 정렬

In [None]:
df1 = pd.read_csv('data/data/grade.csv', encoding = 'euc-kr')
df1

In [16]:
# 특정 칼럼을 기준으로 오름차순 정렬
df2 = df1.copy()
df2.sort_values('국어', inplace=True, ascending = True)

display(df1, df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
0,철수,1,남자,98,,88.0,64.0
4,호영,4,남자,120,50.0,,88.0


In [15]:
# 특정 컬럼을 기준으로 내림차순 정렬
df2 = df1.copy()

df2.sort_values('영어', inplace = True, ascending = False)

display(df1, df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0
0,철수,1,남자,98,,88.0,64.0


In [18]:
# 정렬 시 결측치 확인
# 정렬의 기준이 되는 컬럼에 결측치가 있는 행은 무조건 제일 아래로 내려간다. (무한대의 개념 아님)
df2 = df1.copy()
df3 = df2.sort_values('영어')
df4 = df2.sort_values('영어', ascending=False)

display(df2, df3, df4)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,호영,4,남자,120,50.0,,88.0
3,수현,3,여자,63,60.0,31.0,70.0
2,민수,1,남자,92,70.0,,
1,영희,2,여자,88,90.0,62.0,72.0
0,철수,1,남자,98,,88.0,64.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0
0,철수,1,남자,98,,88.0,64.0


In [19]:
# 정렬의 기준이 되는 컬럼을 다수를 설정했을 경우
# 첫 번째 기준으로 정렬을 한다.
# 첫 번째 정렬 기준이 되는 컬럼의 값이 같은 것끼리 그룹으로 묶는다.
# 각 그룹 안에서 두 번째 정렬 기준으로 정렬을 한다.

df2 = df1.copy()
df2.sort_values(['학년', '국어'], inplace = True)
display(df1, df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
2,민수,1,남자,92,70.0,,
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [20]:
# 내림 차순 정렬
df2 = df1.copy()

df2.sort_values(['성별', '국어'], inplace=True, ascending=False)

display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,


In [21]:
# 정렬의 기준이 되는 컬럼의 수만큼 true나 false가 들어있는 list를 ascending 매개변수에 넣어주면
# 각각에 대한 정렬 방식을 설정할 수 있다.
df2 = df1.copy()
df2.sort_values(['성별', '국어'], inplace = True, ascending = [True, False])

display(df1, df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,호영,4,남자,120,50.0,,88.0
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0


In [22]:
# 행 정렬 테스트를 위해 인덱스를 다시 설정한다.
# 인덱스가 숫자이건 아니건 관계없이 동일하게 동작한다.
df2 = df1.copy()
df2.index = [4, 1, 2, 0, 3]
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
0,수현,3,여자,63,60.0,31.0,70.0
3,호영,4,남자,120,50.0,,88.0


In [24]:
df3 = df2.copy()

# index를 기준으로 오름차순 정렬한다.
df3.sort_index(inplace = True)

display(df2, df3)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
0,수현,3,여자,63,60.0,31.0,70.0
3,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,수현,3,여자,63,60.0,31.0,70.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,호영,4,남자,120,50.0,,88.0
4,철수,1,남자,98,,88.0,64.0


In [27]:
# index를 기준으로 내림차순 정렬
df3 = df2.copy()
df3.sort_index(inplace = True, ascending = False)
display(df3)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,철수,1,남자,98,,88.0,64.0
3,호영,4,남자,120,50.0,,88.0
2,민수,1,남자,92,70.0,,
1,영희,2,여자,88,90.0,62.0,72.0
0,수현,3,여자,63,60.0,31.0,70.0


### 조건에 해당하는 데이터를 검색한다.

In [32]:
df1 = pd.read_csv('data/data/grade.csv', encoding = 'euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [34]:
# 원래는 데이터프레임 [  ] 방식으로 접근하면 컬럼을 선택하는 것이다.
# 하지만 True나 False가 들어있는 것을 넣어주면 True 자리에 해당하는 행들을 가져올 수 있다.
df2 = df1[[True, False, True, False, True]]
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [35]:
# df1['국어'] > 90을 먼저 수행한다.
# 이를 수행하면 국어점수가 90보다 큰 것은 True, 아닌 것은 false가 들어있는 결과를 얻을 수 잇다.
# 이것을 df1[  ] 안에 넣어줬기 때문에 True에 해당하는 행들만 가져올 수 있다.

df2 = df1[df1['국어'] > 90]
df2


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [36]:
# 데이터 프레임은 검색을 위한 함수를 제공하고 있다.
# 문자열로 검색 조건을 작성하여 넣어준다.
# 이때, 컬럼이름은 그냥 문자열로 작성해주면 된다.
# 컬럼이름에 띄어쓰기가 있으면 애매해지기 때문에 가급적 컬럼명은 띄어쓰기가 없는 것이 좋다.
df2 = df1.query('국어 > 90')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [37]:
# 수학점수가 70 이하인 것을 가져온다.
df2 = df1.query('수학 <= 70')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0


In [38]:
# 3학년 이상의 행만 가져온다.
df2 = df1.query('학년 >= 3')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [39]:
# and : 두 조건을 모두 만족하는 것만 가져온다.
df2 = df1.query('국어 > 80 and 수학 > 80')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0


In [41]:
# or : 두 조건 중 하나라도 만족하는 것을 가져온다.
df2 = df1.query('국어 < 70 or 수학 <70')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0


In [47]:
df2 = df1[(df1['국어'] < 70) | (df1['수학'] < 70)]
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0


In [48]:
# 변수에 담겨진 값을 조건식에 사용할 수 있다.
a1 = 90

df2 = df1.query(f'국어 > {a1}')
# 조건 문자열 안에 변수의 값을 사용하고 싶다면 @변수명 형태로 사용하면 된다.
df3 = df1.query('국어 > @a1')

display(df2)
display(df3)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [49]:
list1 = ['철수', '영희', '민수']

df2 = df1.query(f'이름 in {list1}')
df3 = df1.query('이름 in @list1')

display(df2)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,


In [50]:
list1 = ['철수', '영희', '민수']

df2 = df1.query(f'이름 not in {list1}')
df3 = df1.query('이름 not in @list1')

display(df2)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [51]:
# 컬럼과 컬럼간의 비교
# 국어점수가 영어점수보다 크다
df2 = df1.query('국어 > 영어')
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [52]:
# 문자열 값을 작성하고 싶다면 따옴표로 묶어줘야 한다.
# 따옴표로 묶어주지 않으면 컬럼 이름으로 인식한다.
# 변수에 담아서 변수를 지정해야 된다.
df2 = df1.query('성별 == "남자"')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [55]:
# 영어 컬럼에 결측치가 있는 행을 가져온다.
# 만약 제대로 동작하지 않으면 다음과 같은 매개변수를 설정해준다. 
# engine = 'python'
df2 = df1.query('영어.isna()')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0


In [56]:
# 영어 컬럼에 결측치가 없는 행을 가져온다.
# 만약 제대로 동작하지 않으면 다음과 같은 매개변수를 설정해준다. 
# engine = 'python'
df2 = df1.query('영어.notna()')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


### 특정 컬럼을 인덱스로 지정한다.

In [57]:
df1 = pd.read_csv('data/data/grade.csv', encoding = 'euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [58]:
# 이름 컬럼을 index로 지정한다.
# 데이터 프레임에서 이름 컬럼이 제거되고 index로 지정된다.
df1.set_index('이름', inplace = True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [59]:
# index를 컬럼에 포함시킨다.
df2 = df1.copy()
df2.reset_index(inplace = True)
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [60]:
# index를 reset할 때 원래의 index를 컬럼으로 포함시키지 않고 버릴 수 있다.
df2 = df1.copy()
df2.reset_index(inplace = True, drop = True)
df2

Unnamed: 0,학년,성별,국어,영어,수학,과학
0,1,남자,98,,88.0,64.0
1,2,여자,88,90.0,62.0,72.0
2,1,남자,92,70.0,,
3,3,여자,63,60.0,31.0,70.0
4,4,남자,120,50.0,,88.0


### 값 변경 및 추가

In [62]:
df1 = pd.read_csv('data/data/grade.csv', encoding = 'euc-kr')
df1.set_index('이름', inplace = True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [64]:
# 철수의 모든 정보를 변경한다.
# 모든 컬럼의 값을 지정해줘야 한다.
df2 = df1.copy()

df2.loc['철수'] = [5, '외계인', 2000, 3000, 4000, 5000]
df2



Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,5,외계인,2000,3000.0,4000.0,5000.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [65]:
# 특정 컬럼의 모든 값을 변경한다.
# 컬럼의 행의 개수와 동일한 개수의 값을 지정해줘야 한다.
df2 = df1.copy()
display(df2)
df2['과학'] = [100, 200, 300, 400, 500]
display(df2)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,100
영희,2,여자,88,90.0,62.0,200
민수,1,남자,92,70.0,,300
수현,3,여자,63,60.0,31.0,400
호영,4,남자,120,50.0,,500


In [67]:
# 특정 컬럼의 일부 행만 변경한다.
# 민수, 수현의 국어 점수를 변경한다.
df1.loc[['민수', '수현'], '국어'] = [500, 600]
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,500,70.0,,
수현,3,여자,600,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [69]:
# 특정 행의 컬럼 일부만 변경한다.
# 호영의 국어, 영어 점수를 변경한다.
df2 = df1.copy()
df2.loc['호영', ['국어', '영어']] = [1000, 2000]
df2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,500,70.0,,
수현,3,여자,600,60.0,31.0,70.0
호영,4,남자,1000,2000.0,,88.0


In [70]:
# 일부 행, 일부 열의 값을 변경한다.
# 영희, 민수의 수학, 과학 점수를 변경한다.
df2 = df1.copy()
df2

df2.loc[['영희', '민수'], ['수학', '과학']] = [[100, 200], [300, 400]]
display(df2)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,100.0,200.0
민수,1,남자,500,70.0,300.0,400.0
수현,3,여자,600,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [71]:
# 없는 이름으로 행을 지정하면 추가된다.
# 이 때 넣어주는 값의 개수가 컬럼의 개수와 동일해야 한다.
df1.loc['영민'] = [5, '오징어', 1, 2, 3, 4]
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,500,70.0,,
수현,3,여자,600,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0
영민,5,오징어,1,2.0,3.0,4.0


In [72]:
# 없는 이름의 컬럼을 통해 값을 넣어주면 컬럼이 추가된다.
# 이 때 컬럼의 모든 행에 값이 지정되어야 한다.
df1['한국사'] = [1, 2, 3, 4, 5, 6]
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
철수,1,남자,98,,88.0,64.0,1
영희,2,여자,88,90.0,62.0,72.0,2
민수,1,남자,500,70.0,,,3
수현,3,여자,600,60.0,31.0,70.0,4
호영,4,남자,120,50.0,,88.0,5
영민,5,오징어,1,2.0,3.0,4.0,6


In [81]:
df1.loc['아이유'] = [np.nan, np.nan, 100, np.nan, 90, np.nan]  
df1['지구과학'] = [np.nan, np.nan, 50, np.nan, 60, np.nan, np.nan]  
display(df1)

ValueError: Must have equal len keys and value when setting with an iterable

In [79]:
df1.loc['박은빈'] = {
    '국어' : 100,
    '수학' : 200
}
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사,지구과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
철수,1.0,남자,98.0,,88.0,64.0,1.0,
영희,2.0,여자,88.0,90.0,62.0,72.0,2.0,
민수,1.0,남자,500.0,70.0,,,3.0,50.0
수현,3.0,여자,600.0,60.0,31.0,70.0,4.0,
호영,4.0,남자,120.0,50.0,,88.0,5.0,60.0
영민,5.0,오징어,1.0,2.0,3.0,4.0,6.0,
아이유,,,100.0,,90.0,,,
박은빈,,,100.0,,200.0,,,


In [83]:
df1['물리'] = {
    '호영' : 50,
    '아이유': 60
}

df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사,지구과학,물리
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
철수,1.0,남자,98.0,,88.0,64.0,1.0,,
영희,2.0,여자,88.0,90.0,62.0,72.0,2.0,,
민수,1.0,남자,500.0,70.0,,,3.0,50.0,
수현,3.0,여자,600.0,60.0,31.0,70.0,4.0,,
호영,4.0,남자,120.0,50.0,,88.0,5.0,60.0,50.0
영민,5.0,오징어,1.0,2.0,3.0,4.0,6.0,,
아이유,,,100.0,,90.0,,,,60.0
박은빈,,,100.0,,200.0,,,,


### 데이터 프레임 병합

In [85]:
# 테스트를 위해 grade.csv로 데이터 프레임을 생성하고 행을 하나 추가한다.
# 그 다음 행 2개씩 나눠서 총 3개의 데이터프레임을 사용한다.

# grade 데이터에 민호를 추가한다
temp_df = pd.read_csv('data/data/grade.csv', encoding = 'euc-kr')
temp_df.set_index('이름', inplace=True)
temp_df.loc['민호'] = [1, '남자', 50, 60, 70, 80]

df1 = temp_df.loc[['철수', '영희']]
df2 = temp_df.loc[['민수', '수현']]
df3 = temp_df.loc[['호영', '민호']]

display(df1, df2, df3)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
민호,1,남자,50,60.0,70.0,80.0


In [86]:
# append : 위에서 아래방향으로 병합한다.
# append 함수는 더 이상 지원되지 않는다.
df100 = df1.append([df2, df3])
df100

AttributeError: 'DataFrame' object has no attribute 'append'

In [87]:
# 데이터 프레임 병합
# 병합하고자 하는 모든 데이터 프레임을 넣어주면 된다.
df100 = pd.concat([df1, df2, df3])
df100

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0
민호,1,남자,50,60.0,70.0,80.0


In [88]:
df200 = df2[['국어', '영어', '수학', '과학', '학년', '성별']]

# 만약 병합의 대상이 되는 데이터 프레임 컬럼의 순서가 다를 경우
# 컬럼의 순서가 아닌 같은 이름의 컬럼끼리 매칭하여 병합한다.
df100 = pd.concat([df1, df200, df3])
df100

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0
민호,1,남자,50,60.0,70.0,80.0


In [92]:
df200 = df2.copy()
df200['한국사'] = [100, 200]

# 병합하고자 하는 데이터프레임들의 컬럼이 동일하지 않더라도 병합이 되고
# 컬럼이 없는 쪽은 결측치로 채워진다. 
df100 = pd.concat([df1, df200,df3])
df100

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
철수,1,남자,98,,88.0,64.0,
영희,2,여자,88,90.0,62.0,72.0,
민수,1,남자,92,70.0,,,100.0
수현,3,여자,63,60.0,31.0,70.0,200.0
호영,4,남자,120,50.0,,88.0,
민호,1,남자,50,60.0,70.0,80.0,


In [93]:
# merge 테스트를 위해서 데이터 프레임 두개를 생성한다.
a1 = {
    '고객번호' : [1001, 1002, 1003, 1005],
    '주소지' : ['서울', '부산', '대구', '경기'],
    '이름' : ['홍길동', '김길동', '최길동', '고길동']
}

a2 = {
    '고객번호' : [1001, 1002, 1003, 1004],
    '배송지' : ['서울', '부산', '대구', '대전'],
    '금액' : [10000, 20000, 30000, 40000]
}

df1 = pd.DataFrame(a1)
df2 = pd.DataFrame(a2)

display(df1)
display(df2)

Unnamed: 0,고객번호,주소지,이름
0,1001,서울,홍길동
1,1002,부산,김길동
2,1003,대구,최길동
3,1005,경기,고길동


Unnamed: 0,고객번호,배송지,금액
0,1001,서울,10000
1,1002,부산,20000
2,1003,대구,30000
3,1004,대전,40000


In [94]:
# merge 사용
# 두 데이터 프레임을 하나로 합쳐준다
# 컬럼명이 동일한 컬럼을 기준으로 행을 합친다
# 컬럼명이 동일한 컬럼의 값이 동일한 행끼리 매칭되어 합쳐진다.
# 값이 매칭되는 행이 서로 없다면 결과에서 제외된다.
# database 에서 inner join에 해당한다
df10 = pd.merge(df1, df2)
df10

Unnamed: 0,고객번호,주소지,이름,배송지,금액
0,1001,서울,홍길동,서울,10000
1,1002,부산,김길동,부산,20000
2,1003,대구,최길동,대구,30000


In [95]:
# 합칠 기준이 되는 컬럼을 직접 지정한다
# left_on : 좌측의 데이터 프레임의 컬럼명
# right_on : 우측의 데이터 프레임의 컬럼명
# 이 때, 두 데이터 프레임에 동일한 이름의 컬럼이 있다면
# 병합된 결과에서 좌측 데이터 프레임의 컬럼 이름에는 _X를 우측 데이터 프레임의 
# 컬럼 이름에는 _y를 붙혀서 구분할 수 있도록 해준다.
df20 = pd.merge(df1, df2, left_on='주소지', right_on='배송지')
df20

Unnamed: 0,고객번호_x,주소지,이름,고객번호_y,배송지,금액
0,1001,서울,홍길동,1001,서울,10000
1,1002,부산,김길동,1002,부산,20000
2,1003,대구,최길동,1003,대구,30000


In [96]:
# full outer join
# 프레임 병합시 한쪽에 있는 것 모두를 포함한다.
df30 = pd.merge(df1, df2, how='outer')
df30

Unnamed: 0,고객번호,주소지,이름,배송지,금액
0,1001,서울,홍길동,서울,10000.0
1,1002,부산,김길동,부산,20000.0
2,1003,대구,최길동,대구,30000.0
3,1004,,,대전,40000.0
4,1005,경기,고길동,,


In [97]:
# left outer join
# 좌측 데이터 프레임에는 있지만 우측에는 없는 것도 포함된다.
# 우측 에는 있지만 좌측에 없는 것은 포함되지 않는다.
df100 = pd.merge(df1, df2, how='left')
df100

Unnamed: 0,고객번호,주소지,이름,배송지,금액
0,1001,서울,홍길동,서울,10000.0
1,1002,부산,김길동,부산,20000.0
2,1003,대구,최길동,대구,30000.0
3,1005,경기,고길동,,


### 삭제

In [100]:
df1 = pd.read_csv('data/data/grade.csv', encoding='euc-kr')
df1.set_index('이름', inplace=True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [101]:
# 특정 행 하나만 삭제
df2 = df1.copy()

display(df2)

df2.drop('철수', inplace=True)

display(df2)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [102]:
# 여러 행을 삭제
df2 = df1.copy()

display(df2)

df2.drop(['민수', '호영'], inplace=True)

display(df2)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0


In [103]:
# 컬럼 하나 제거
df2 = df1.copy()

display(df2)

df2.drop('학년', inplace=True, axis=1)

display(df2)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
철수,남자,98,,88.0,64.0
영희,여자,88,90.0,62.0,72.0
민수,남자,92,70.0,,
수현,여자,63,60.0,31.0,70.0
호영,남자,120,50.0,,88.0


In [104]:
# 여러 컬럼을 제거한다.
df2 = df1.copy()

display(df2)

df2.drop(['성별', '수학'], inplace=True, axis=1)

display(df2)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,학년,국어,영어,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
철수,1,98,,64.0
영희,2,88,90.0,72.0
민수,1,92,70.0,
수현,3,63,60.0,70.0
호영,4,120,50.0,88.0
