In [1]:
import pandas as pd
import numpy as np
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

### 데이터 전처리
- 데이터를 본격적으로 분석하거나 학습시키기 전에 가공하는 것을 의미한다.
- 공통 : 데이터 자체의 문제가 없도록 가공하는 것.
- 데이터 분석을 위한 전처리 : 사람이 데이터를 잘 이해할 수 있도록 가공하는 것.
- 머신러닝, 딥러닝 : 컴퓨터가 데이터를 잘 학습 할 수 있도록 가공하는 것.

### 데이터 준비

In [2]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


### 확인사항(함수의 매개변수)
- inplace : True를 주면 원본이 변경된다.
- axis : 작업의 기준을 설정. 0 : index, 1 : column, 만약 이 매개변수가 없다면 행과 열에대한 작업을 할 수 있는 함수를 따로 제공하거나 둘 중 하나만 제공하는 경우이다.

### 데이터 프레임 구조 변경

#### reindex
- index나 컬럼을 정해진 순서대로 재 배열한다.

In [52]:
# 원하는 순서대로 컬럼 목록을 작성한다.
list1 = ['국어', '영어', '과학', '수학', '이름', '성별', '학년']
df2 = df1.reindex(columns = list1)

df1
df2

# NAN는 실수 타임
# 결측치를 나중에 채울때를 대비해서 가장 범위가 큰 실수로 해줌

Unnamed: 0_level_0,학년,성별,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
철수,1,남자,64.0
영희,2,여자,72.0
민수,1,남자,
수현,3,여자,70.0
호영,4,남자,88.0


Unnamed: 0_level_0,국어,영어,과학,수학,이름,성별,학년
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
철수,,,64.0,,,남자,1
영희,,,72.0,,,여자,2
민수,,,,,,남자,1
수현,,,70.0,,,여자,3
호영,,,88.0,,,남자,4


In [4]:
# 컬럼의 일부만 작성한다.
# 존재하지 않는 컬럼이 있을 경우 해당 컬럼은 결과에 포함되고
# 결측치로 채워진다.
list2 = ['영어', '국어', '과학', '수학', '한국사']
df3 = df2.reindex(columns=list2)
df3

Unnamed: 0,영어,국어,과학,수학,한국사
0,,98,64.0,88.0,
1,90.0,88,72.0,62.0,
2,70.0,92,,,
3,60.0,63,70.0,31.0,
4,50.0,120,88.0,,


In [5]:
# 행의 순서를 바꾼다.s
list3 = [4, 0, 2, 1, 3]
df4 =  df1.reindex(index=list3)
df4

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
4,호영,4,남자,120,50.0,,88.0
0,철수,1,남자,98,,88.0,64.0
2,민수,1,남자,92,70.0,,
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0


In [6]:
# 일부만 지정하면 발췌를 한다.
# 존재하지 않은 인덱스를 지공하면 결측치로 채워진
# 행이 추가된다.
list4 = [3, 0, 2, 10]
df5 = df1.reindex(index=list4)
df5

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
3,수현,3.0,여자,63.0,60.0,31.0,70.0
0,철수,1.0,남자,98.0,,88.0,64.0
2,민수,1.0,남자,92.0,70.0,,
10,,,,,,,


### [] 
- 지정한 컬럼의 이름이나 인덱스에 해당하는 것을 발췌하는 의미

In [7]:
list1 = ['국어', '영어', '과학', '수학', '이름', '성별', '학년']
df2 = df1[list1]
df2

Unnamed: 0,국어,영어,과학,수학,이름,성별,학년
0,98,,64.0,88.0,철수,남자,1
1,88,90.0,72.0,62.0,영희,여자,2
2,92,70.0,,,민수,남자,1
3,63,60.0,70.0,31.0,수현,여자,3
4,120,50.0,88.0,,호영,남자,4


In [8]:
# 일부만 지정하면 컬럼 일부만 가져온다.
list2 = ['국어', '영어', '수학', '과학']
# 없는 컬럼이름을 지정하면 오류가 발생한다.
# list2 = ['국어', '영어', '수학', '과학', '한국사']

df3 = df1[list2]
df3

Unnamed: 0,국어,영어,수학,과학
0,98,,88.0,64.0
1,88,90.0,62.0,72.0
2,92,70.0,,
3,63,60.0,31.0,70.0
4,120,50.0,,88.0


In [9]:
# 행 테스트를 위해 이름을 인덱스로 지정한다.
df2 = df1.set_index('이름')
df2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [10]:
# 행의 순서를 변경한다(인덱스)
a1 = ['수현', '민수', '철수', '호영', '영희']
df10 = df2.loc[a1]
df10

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,
철수,1,남자,98,,88.0,64.0
호영,4,남자,120,50.0,,88.0
영희,2,여자,88,90.0,62.0,72.0


In [11]:
# 행의 일부만 발췌(인덱스)
a1 = ['철수', '민수', '호영']
# 없는 이름 포함(오류가 발생)
# a1 = ['철수', '민수', '호영', '차은우']

df10 = df2.loc[a1]
df10

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
민수,1,남자,92,70.0,,
호영,4,남자,120,50.0,,88.0


In [12]:
# 행의 순서를 변경한다(순서값)
a1 = [4, 1, 3, 0, 2]
df10 = df2.iloc[a1]

df2
df10

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
철수,1,남자,98,,88.0,64.0
민수,1,남자,92,70.0,,


In [13]:
# 행 일부만 발췌한다(순서)
a1 = [4, 1, 3]

# 존재하지 않는 순서를 넣어주면 오류가 발생한다.
# a1 = [4, 1, 3, 10]

df10 = df2.iloc[a1]
df10

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0


### filter
- 컬럼만 적용이 가능하다.

In [14]:
# 모두 작성하면 재정렬의 의미
a1 = ['국어', '영어', '과학', '수학', '이름', '성별', '학년']
df10 = df1.filter(a1)
df10

Unnamed: 0,국어,영어,과학,수학,이름,성별,학년
0,98,,64.0,88.0,철수,남자,1
1,88,90.0,72.0,62.0,영희,여자,2
2,92,70.0,,,민수,남자,1
3,63,60.0,70.0,31.0,수현,여자,3
4,120,50.0,88.0,,호영,남자,4


In [15]:
# 일부만 작성하면 발췌
a1 = ['국어', '영어', '수학']
df10 = df1.filter(a1)
df10

Unnamed: 0,국어,영어,수학
0,98,,88.0
1,88,90.0,62.0
2,92,70.0,
3,63,60.0,31.0
4,120,50.0,


In [16]:
# 없는 것
# 없는 이름이 지정되면 무시된다.
a1 = ['국어', '영어', '수학', '한국사']
df10 = df1.filter(a1)
df10

Unnamed: 0,국어,영어,수학
0,98,,88.0
1,88,90.0,62.0
2,92,70.0,
3,63,60.0,31.0
4,120,50.0,


### 컬럼의 이름과 인덱스의 이름을 변경한다.

In [17]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [18]:
# 데이터 프레임 자체를 변경하고자 할 때(원본 유지 X)
# 모든 컬럼의 이름과 인덱스를 변경한다.
df1.columns = ['값1', '값2', '값3', '값4', '값5', '값6', '값7']
df1.index = ['사람1', '사람2', '사람3', '사람4', '사람5']
df1

Unnamed: 0,값1,값2,값3,값4,값5,값6,값7
사람1,철수,1,남자,98,,88.0,64.0
사람2,영희,2,여자,88,90.0,62.0,72.0
사람3,민수,1,남자,92,70.0,,
사람4,수현,3,여자,63,60.0,31.0,70.0
사람5,호영,4,남자,120,50.0,,88.0


In [19]:
# 일부만 변경한다.
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')

# 컬럼
dict1 = {
    '국어' : 'kor',
    '영어' : 'eng'
}

# 인덱스
dict2 = {
    0 : '값0',
    2 : '값2'
}

df1.rename(columns=dict1, index=dict2, inplace=True)
df1

Unnamed: 0,이름,학년,성별,kor,eng,수학,과학
값0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
값2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [20]:
# 특정 컬럼을 지정하여 인덱스로 설정한다.
# 지정한 컬럼은 데이터 프레임에서 제거되고 컬럼의 값이 인덱스로
# 설정된다.
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1

df1.set_index('이름', inplace=True)
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


### 데이터 검색

In [21]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1.set_index('이름', inplace=True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [22]:
# df1['국어'] > 90 의 결과를 수행하면 각 행의 국어점수가 90보다 큰 것은 True,
# 아닌 것은 False 의 결과를 가져온다. 이 결과를 [ ] 안에 넣어주면
# 이 경우에 한해서만 행이 선택되며 True에 해당하는 것을 반환한다.
df1[df1['국어'] > 90]

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
민수,1,남자,92,70.0,,
호영,4,남자,120,50.0,,88.0


In [23]:
# 검색에 관련된 함수
df1.query('국어 > 90')

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
민수,1,남자,92,70.0,,
호영,4,남자,120,50.0,,88.0


In [24]:
# and 연산 : 두 조건 모두를 만족하는 것만 가져온다.
df1.query('국어 > 90 and 과학 > 80')

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
호영,4,남자,120,50.0,,88.0


In [25]:
# or 연산 : 둘 중 하나라도 만족하면 가져온다.
df1.query('학년 == 3 or 국어 > 95')

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [26]:
# 변수의 값을 지정해서 사용한다.
a1 = 90
df1.query(f'국어 > {a1}')

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
민수,1,남자,92,70.0,,
호영,4,남자,120,50.0,,88.0


In [27]:
# @변수명 : 변수에 있는 값을 대입하여 검색을 수행한다.
df1.query('국어 > @a1')

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
민수,1,남자,92,70.0,,
호영,4,남자,120,50.0,,88.0


In [28]:
a1 = [1, 2]

# 학년 컬럼의 값이 리스트에 포함되어 있는 것을 가져온다.
df1.query('@a1 in 학년')

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,


In [29]:
# 비교하는 값이 문자열일 경우
# 조건식에서 단어를 그냥 작성하면 컬럼이름에 해당한다.
# 따라서 문자열 값은 따옴표로 묶어 줘야 한다.
df1.query('성별 == "남자"')

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
민수,1,남자,92,70.0,,
호영,4,남자,120,50.0,,88.0


### 추가, 수정, 삭제

In [30]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1.set_index('이름', inplace=True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [31]:
# 철수행 국어 열의 값을 바꾼다.
df1.loc['철수', '국어'] = 2000
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,2000,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [32]:
# 특정 행 전체를 변경한다.
# 코든 컬럼에 값이 설정되어야 오류가 발생하지 않는다.
df1.loc['영희'] = [100, '오징어', 2000, 3000, 4000, 5000]
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,2000,,88.0,64.0
영희,100,오징어,2000,3000.0,4000.0,5000.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [33]:
# 리스트로 여러개를 설정하면 여러 개를 동시에 선택할 수 있다.
df1.loc[['철수', '영희'], ['국어', '영어', '수학']]

Unnamed: 0_level_0,국어,영어,수학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
철수,2000,,88.0
영희,2000,3000.0,4000.0


In [34]:
# 민수의 국어, 영어, 수학, 과학만 새롭게 셋팅한다.
df1

df1.loc['민수', ['국어', '영어', '수학', '과학']] = [1, 2, 3, 4]
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,2000,,88.0,64.0
영희,100,오징어,2000,3000.0,4000.0,5000.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,2000,,88.0,64.0
영희,100,오징어,2000,3000.0,4000.0,5000.0
민수,1,남자,1,2.0,3.0,4.0
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [35]:
# 수현, 호영의 국어, 영어, 수학, 과학을 지정한다.
df1

a1 = [
    [10, 20, 30, 40],
    [11, 21, 31, 41]
]

df1.loc[['수현', '호영'], ['국어', '영어', '수학', '과학']] = a1

df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,2000,,88.0,64.0
영희,100,오징어,2000,3000.0,4000.0,5000.0
민수,1,남자,1,2.0,3.0,4.0
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,2000,,88.0,64.0
영희,100,오징어,2000,3000.0,4000.0,5000.0
민수,1,남자,1,2.0,3.0,4.0
수현,3,여자,10,20.0,30.0,40.0
호영,4,남자,11,21.0,31.0,41.0


In [36]:
# 추가
# 없는 인덱스를 이용해 값을 넣는 코드를 작성하면 추가된다.
df1.loc['길동'] = [5, '여자', 200, 150, 100, 50]
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,2000,,88.0,64.0
영희,100,오징어,2000,3000.0,4000.0,5000.0
민수,1,남자,1,2.0,3.0,4.0
수현,3,여자,10,20.0,30.0,40.0
호영,4,남자,11,21.0,31.0,41.0
길동,5,여자,200,150.0,100.0,50.0


In [37]:
# 값이 부족하거나 많으면 오류가 발생한다.
df1.loc['흥부'] = [6, '남자', 100, 90, 80]

ValueError: cannot set a row with mismatched columns

In [38]:
df1.loc['놀부'] = [10, '남자', 100, 200, 300, 400, 500]

ValueError: cannot set a row with mismatched columns

In [39]:
# 데이터를 더 많이 넣는 경우는 컬럼수가 부족하기 때문에 오류가 발생하는
# 것이고 컬럼수가 부족할 경우에는 값을 어떤 컬럼에 넣어야할지 모르기 때문에
# 오류가 발생한다.
# 따라서 부족하게 지정하는 경우 어떤 컬럼에 들어갈지 정해주면 나머지는
# 결측치로 채워진다.

# 명시되지 않은 컬럼에는 결측치가 들어간다.
df1.loc['돌쇠', ['국어', '영어', '수학']] = [100, 200, 300]
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1.0,남자,2000.0,,88.0,64.0
영희,100.0,오징어,2000.0,3000.0,4000.0,5000.0
민수,1.0,남자,1.0,2.0,3.0,4.0
수현,3.0,여자,10.0,20.0,30.0,40.0
호영,4.0,남자,11.0,21.0,31.0,41.0
길동,5.0,여자,200.0,150.0,100.0,50.0
돌쇠,,,100.0,200.0,300.0,


In [40]:
# 이미 존재하고 있는 행을 복제하여 추가한다.
df1.loc['마당쇠'] = df1.loc['철수']
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1.0,남자,2000.0,,88.0,64.0
영희,100.0,오징어,2000.0,3000.0,4000.0,5000.0
민수,1.0,남자,1.0,2.0,3.0,4.0
수현,3.0,여자,10.0,20.0,30.0,40.0
호영,4.0,남자,11.0,21.0,31.0,41.0
길동,5.0,여자,200.0,150.0,100.0,50.0
돌쇠,,,100.0,200.0,300.0,
마당쇠,1.0,남자,2000.0,,88.0,64.0


In [41]:
# 컬럼의 값을 변경한다.
df1['국어'] = [1, 2, 3, 4, 5, 6, 7, 8]
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1.0,남자,1,,88.0,64.0
영희,100.0,오징어,2,3000.0,4000.0,5000.0
민수,1.0,남자,3,2.0,3.0,4.0
수현,3.0,여자,4,20.0,30.0,40.0
호영,4.0,남자,5,21.0,31.0,41.0
길동,5.0,여자,6,150.0,100.0,50.0
돌쇠,,,7,200.0,300.0,
마당쇠,1.0,남자,8,,88.0,64.0


In [42]:
# 없는 이름으로 컬럼을 지정하여 값을 넣으면 추가된다.
df1['한국사'] = [10, 20, 30, 40, 50, 60, 70, 80]
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,한국사
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
철수,1.0,남자,1,,88.0,64.0,10
영희,100.0,오징어,2,3000.0,4000.0,5000.0,20
민수,1.0,남자,3,2.0,3.0,4.0,30
수현,3.0,여자,4,20.0,30.0,40.0,40
호영,4.0,남자,5,21.0,31.0,41.0,50
길동,5.0,여자,6,150.0,100.0,50.0,60
돌쇠,,,7,200.0,300.0,,70
마당쇠,1.0,남자,8,,88.0,64.0,80


In [43]:
# 학생들의 점수 총합을 구해서 담는다.
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1.set_index('이름', inplace=True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [44]:
# 결측치를 0으로 채워준다.
df1.fillna(0, inplace=True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,0.0,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,0.0,0.0
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,0.0,88.0


In [45]:
df1['총합'] = df1['국어'] + df1['영어'] + df1['수학'] + df1['과학']
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학,총합
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
철수,1,남자,98,0.0,88.0,64.0,250.0
영희,2,여자,88,90.0,62.0,72.0,312.0
민수,1,남자,92,70.0,0.0,0.0,162.0
수현,3,여자,63,60.0,31.0,70.0,224.0
호영,4,남자,120,50.0,0.0,88.0,258.0


### 제거

In [46]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1.set_index('이름', inplace=True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [47]:
# 호영행을 제거한다.
df1.drop('호영', inplace=True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0


In [48]:
# 다수의 행을 제거한다.
df1.drop(['민수', '수현'], inplace=True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0


In [49]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1.set_index('이름', inplace=True)

df2 = df1.drop('영희')

df1
df2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [50]:
# 열 제거
# axis : 0을 지정하면 인덱스에서 찾고 1을 지정하면 컬럼며에서 찾는다.
df1.drop('국어', axis=1, inplace=True)
df1

Unnamed: 0_level_0,학년,성별,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
철수,1,남자,,88.0,64.0
영희,2,여자,90.0,62.0,72.0
민수,1,남자,70.0,,
수현,3,여자,60.0,31.0,70.0
호영,4,남자,50.0,,88.0


In [51]:
# 동시에 여러 컬럼을 제거하고 싶을 때
df1.drop(['영어', '수학'], axis=1, inplace=True)
df1

Unnamed: 0_level_0,학년,성별,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
철수,1,남자,64.0
영희,2,여자,72.0
민수,1,남자,
수현,3,여자,70.0
호영,4,남자,88.0
