In [2]:
import numpy as np
import pandas as pd

### 데이터 전처리
- 데이터 분석, 인공지능 등의 프로젝트를 수행하기 전이나 중에 필요한 형태로 데이터를 가공하는 것
    - 컬럼 이름이나 인덱스를 변경
    - 행이나 열의 순서를 변경
    - 데이터 정렬
    - 데이터 검색
    - 행이나 열을 추가
    - 행이나 열을 삭제
    - 두개 이상의 데이터프레임을 병합
    - 등등...

### inplace
- 데이터프레임에 변형을 가하는 함수들은 원본을 변경하거나 원본을 유지하고 작업이 반영된 새로운 데이터프레임을 생성해 반환함
- 만약 inplace라는 매개변수가 제공된다면, 이 함수는 원본을 변경하거나 새로운 데이터프레임을 생성하는 것에 대해 개발자에게 선택권을 주는 것임
- False는 원본을 유지하고, True는 원본을 변경함

### axis
- 작업의 기준을 설정함
- 0이면 행기준, 1이면 열기준
- 어떠한 함수들은 작업을 반영할 기준으로 시용하고, 어떤 함수들은 작업을 위해 데이터를 어떻게 그룹화할 것인가를 결정하는 기준으로 사용
- 반드시 0과 1을 넣을때의 작업 결과를 확인해야 함

### axis가 없다면....
- 행이나 열에 대해서만 작업을 하는 함수인 경우
- 컬럼을 통해 열을 지정하고, index를 통해 행을 지정하는 함수인 경우
- 행에 대한 작업을 하는 함수와 열에 대해 작업을 하는 함수를 각각 제공하는 경우

### 행, 열의 순서 변경

In [3]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [4]:
# reindex: 행이나 열을 재정렬 하는 것을 의미함
# 원본을 유지하고 재 정렬된 새로운 데이터프레임을 생성해 반환함

# 열 순서 변경
a1 = ['과학', '국어', '수학', '성별', '영어', '이름', '학년']
df2 = df1.reindex(columns=a1)

display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,과학,국어,수학,성별,영어,이름,학년
0,64.0,98,88.0,남자,,철수,1
1,72.0,88,62.0,여자,90.0,영희,2
2,,92,,남자,70.0,민수,1
3,70.0,63,31.0,여자,60.0,수현,3
4,88.0,120,,남자,50.0,호영,4


In [5]:
# 일부만 작성하면 일부만 추출하는 효과를 얻을 수 있음
# reindex 함수의 의미는 재정렬이지만 일부만 추출도 가능함
df3 = df1.reindex(columns= ['국어', '영어', '수학'])
df3

Unnamed: 0,국어,영어,수학
0,98,,88.0
1,88,90.0,62.0
2,92,70.0,
3,63,60.0,31.0
4,120,50.0,


In [6]:
# 없는 이름의 컬럼을 가져옴
# 데이터프레임에 없는 컬럼 이름을 지정하면 결과에
# 해당 컬럼이 추가되고 값은 결측치로 채워짐
df4 = df1.reindex(columns=['국어', '영어', '한국사'])
df4

Unnamed: 0,국어,영어,한국사
0,98,,
1,88,90.0,
2,92,70.0,
3,63,60.0,
4,120,50.0,


In [8]:
# 행변경
# 순서가 아닌 index를 지정함
df2 = df1.reindex(index=[4, 1, 3, 0, 2])

display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,호영,4,남자,120,50.0,,88.0
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,


In [9]:
# 행 일부만
df3 = df1.reindex(index=[3, 0, 1])
df3

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0


In [10]:
# 없는 index
df4 = df1.reindex(index=[3, 0, 10])
df4

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3.0,여자,63.0,60.0,31.0,70.0
0,철수,1.0,남자,98.0,,88.0,64.0
10,,,,,,,


In [11]:
# [], loc[], iloc[]: 데이터프레임에서 원하는 것을 발췌해 오는 것을 의미
# 모든 것을 작성하면 재정렬로 사용할 수 있음
# 컬럼이나 index를 리스트에 담아 설정 가능

#컬럼
df2 = df1[['과학', '수학', '영어', '국어', '성별', '학년', '이름']]

display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,과학,수학,영어,국어,성별,학년,이름
0,64.0,88.0,,98,남자,1,철수
1,72.0,62.0,90.0,88,여자,2,영희
2,,,70.0,92,남자,1,민수
3,70.0,31.0,60.0,63,여자,3,수현
4,88.0,,50.0,120,남자,4,호영


In [12]:
# 컬럼 일부
df3 = df1[['국어', '영어', '수학']]
df3

Unnamed: 0,국어,영어,수학
0,98,,88.0
1,88,90.0,62.0
2,92,70.0,
3,63,60.0,31.0
4,120,50.0,


In [13]:
# 없는 컬럼
# 오류발생
df4 = df1[['영어', '수학', '한국사']]
df4

KeyError: "['한국사'] not in index"

In [15]:
# 행정렬 - index
df2 = df1.loc[[4, 0, 1, 3, 2]]
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,호영,4,남자,120,50.0,,88.0
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0
2,민수,1,남자,92,70.0,,


In [16]:
# 행 일부만 가져옴 - index
df3 = df1.loc[[3, 0, 1]]
df3

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0


In [17]:
# 없는 index 사용
# 오류발생
df4 = df1.loc[[3, 0, 10]]
df4

KeyError: '[10] not in index'

In [18]:
# 행정렬 - 순서
df2 = df1.iloc[[4, 3, 2, 1, 0]]

display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,호영,4,남자,120,50.0,,88.0
3,수현,3,여자,63,60.0,31.0,70.0
2,민수,1,남자,92,70.0,,
1,영희,2,여자,88,90.0,62.0,72.0
0,철수,1,남자,98,,88.0,64.0


In [19]:
# 일부만 가져옴 - 순서
df3 = df1.iloc[[3, 0, 1]]
df3

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0


In [20]:
# 없는 순서
# 오류발생
df4 = df1.iloc[[3, 0, 10]]
df4

IndexError: positional indexers are out-of-bounds

In [21]:
# 필터(filter)
# 모든 컬럼을 작성해주면 재정렬의 효과를 얻을 수 있음
df2 = df1.filter(['과학', '수학', '영어', '국어', '성별', '학년', '이름'])
df2

Unnamed: 0,과학,수학,영어,국어,성별,학년,이름
0,64.0,88.0,,98,남자,1,철수
1,72.0,62.0,90.0,88,여자,2,영희
2,,,70.0,92,남자,1,민수
3,70.0,31.0,60.0,63,여자,3,수현
4,88.0,,50.0,120,남자,4,호영


In [22]:
# 일부만 가져옴
df3 = df1.filter(['국어', '영어', '수학'])
df3

Unnamed: 0,국어,영어,수학
0,98,,88.0
1,88,90.0,62.0
2,92,70.0,
3,63,60.0,31.0
4,120,50.0,


In [24]:
# 없는 컬럼명 지정
# 지정한 컬럼 중 데이터프레임에 없는 컬럼은 무시됨
df4 = df1.filter(['국어', '영어', '한국사'])
df4

Unnamed: 0,국어,영어
0,98,
1,88,90.0
2,92,70.0
3,63,60.0
4,120,50.0


In [25]:
# 모든행 - index
df2 = df1.filter([4, 1, 3, 0, 2], axis=0)
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,호영,4,남자,120,50.0,,88.0
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,


In [27]:
# 일부행 - index
df3 = df1.filter([3, 0, 1], axis=0)
df3

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0


In [30]:
# 없는 index
df4 = df1.filter([3, 10], axis=0)
df4

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0


- 있는 컬럼과 index를 사용할때는 3가지 모두 동일
- 없는 컬럼이나 index를 사용할 경우에만 다름
    - reindex : 없는 컬럼이나 행이 추가되고 모두 결측치로 채워짐
    - [], loc, iloc : 오류발생
    - filter: 무시됨

### 조건에 해당하는 데이터를 검색

In [31]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [32]:
# 원래 데이터프레임 [] 방식으로 접근하면 컬럼을 선택하는 것이지만,
# True, False로 구성된 것을 넣어주면 True에 해당하는 행을 가져올 수 있음
# 이때, 행의 개수와 일치해야 함
df1[[True, False, True, False, True]]

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [33]:
# df1['국어'] > 90을 수행하게 되면 조건을 만족하는 것은 True, 그렇지 않은 것은 False로
# 구성된 결과를 생성
# 이 결과를 df1[] 안에 넣었기 때문에 True 자리에 해당하는 것만 가져올 수 있음
# 이렇게 하여 검색 기능을 구현할 수 있음
df1[df1['국어'] > 90]

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [34]:
# 데이터프레임은 검색을 위한 함수를 제공하고 있음
df2 = df1.query('국어 > 90')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [35]:
# 영어 점수가 50보다 큰 학생들의 정보를 가져옴
# 영어 칼럼에 결측치가 있는 행은 결과에 포함되지 않음
df2 = df1.query('영어 > 50')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0


In [36]:
# 영어점수가 국어점수보다 큰 학생들의 정보를 가져옴
df2 = df1.query('영어 > 국어')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0


In [37]:
# 성별이 남자인 학생들의 정보를 가져옴
# 조건문에서 단어는 컬럼 이름을 의미
# 문자열 값을 사용할 때는 따옴표로 묶어줘야 함
df2 = df1.query('성별 =="남자"')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [38]:
# and : 두 조건을 모두 만족하는 것만 가져옴
# 국어가 80보다 크고 수학이 80보다 큰 학생들의 정보를 가져옴
df2 = df1.query('국어 > 80 and 수학 > 80')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0


In [39]:
# or: 두 조건 중에 하나라도 만족하면 가져옴
# 국어가 70보다 작거나 수학이 70보다 작은 정보를 가져옴
df2 = df1.query('국어 < 70 or 수학 < 70')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0


In [40]:
# query 함수를 쓰지 않은 경우
df2 = df1[(df1['국어'] > 80) & (df1['수학'] > 80)]
df3 = df1[(df1['국어'] < 70) | (df1['수학'] < 70)]

display(df2)
display(df3)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0


In [41]:
# 변수 사용
a1 = 90

# 파이썬에서 제공하는 포맷 문자열을 이용하여
# 조건식 문자열을 완성하고 이를 query 함수에 제공하는 방식
df2 = df1.query(f'국어 > {a1}')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [42]:
# 조건식에 들어가는 문자열 앞에 @를 붙이면 변수를 의미
a1 = 90

df2 = df1.query('국어 > @a1')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
4,호영,4,남자,120,50.0,,88.0


In [43]:
# 이름이 철수, 영희, 민수인 사람들을 가져옴
df2 = df1.query('이름 == "철수" or 이름 == "영희" or 이름 == "민수"')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,


In [44]:
# 이름이 철수, 영희, 민수인 사람들을 가져옴
# in 사용
a1 = ['철수', '영희', '민수']

# 이름 컬럼의 값이 지정된 리스트에 있는 행들만 가져옴
df2 = df1.query('이름 in @a1')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,


In [45]:
# 연산의 결과를 부정하는 not을 쓰면 포함하지 않은 것을 가져옴
df2 = df1.query('이름 not in @a1')
df2

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [None]:
# 조건식을 통해 수학의 결측치인 행들만 가져옴
# isna() : 데이터프레임이나 Series에서 결측치 부분은 True,
# 결측치가 아닌 부분은 False로 되어 있는 결과를 반환
# 이를 조건식의 컬럼과 같이 사용하면 해당 컬럼에 대한 결측치가 있는
# 행만 추출할 수 있음
# 이때 isna 함수는 파이썬의 함수라고 알려줘야 하기 때문에 engine='python'이라고 넣어줘야 함
# 기본적으로 engine에는 'python'만 넣을 수 있고, cython(c/c++ + pytho