## 01. [] 이용하기 ##

### 1-1. 예제 데이터 만들기 ###

In [2]:
import pandas as pd
df_raw = pd.read_csv('exam.csv')
df = df_raw.head(10)
df

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


###  1-2. 조건 충족하는 행 추출하기 ###

In [3]:
df['nclass']

0    1
1    1
2    1
3    1
4    2
5    2
6    2
7    2
8    3
9    3
Name: nclass, dtype: int64

In [4]:
df['nclass'] == 1

0     True
1     True
2     True
3     True
4    False
5    False
6    False
7    False
8    False
9    False
Name: nclass, dtype: bool

In [None]:
# nclass가 1이면 추출
df[df['nclass'] ==1] 

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [6]:
# 프론트 점수가 80점 이상이면 추출
df[df['front'] >= 80]

Unnamed: 0,id,nclass,front,back,design
6,7,2,80,90,45
7,8,2,90,78,25


In [7]:
# nclass가 1이면서 프론트 점수가 50점 이상이면 추출
df[(df['nclass'] ==1) & (df['front'] >= 50)]

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50
1,2,1,60,97,60


In [8]:
# 프론트 점수가 50점 미만이거나 백 점수가 50점 미만이면 추출
df[(df['front'] < 50) | (df['back'] < 50)]

Unnamed: 0,id,nclass,front,back,design
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
8,9,3,20,98,15


→ df[] 안에 한 번 더 추출 조건을 넣어야 df의 형태로 추출됨

→ 조건이 여러개라면 각 조건은 ()으로 감싸기!

### 1-3. 열 추출하기 ###

In [9]:
df['id']

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
Name: id, dtype: int64

In [10]:
df['nclass']

0    1
1    1
2    1
3    1
4    2
5    2
6    2
7    2
8    3
9    3
Name: nclass, dtype: int64

In [11]:
df[['id', 'nclass']]

Unnamed: 0,id,nclass
0,1,1
1,2,1
2,3,1
3,4,1
4,5,2
5,6,2
6,7,2
7,8,2
8,9,3
9,10,3


→ 여러 변수를 동시 추출하려면 [] 안에 변수명 나열하기

In [12]:
# 시리즈로 추출
df['id']

# 데이터프레임으로 추출
df[['id']]

Unnamed: 0,id
0,1
1,2
2,3
3,4
4,5
5,6
6,7
7,8
8,9
9,10


→ 데이터프레임 자료 구조 유지하며 출력하기 위해선 (not 시리즈 형태) []로 한 번 더 감싸기!

### 1-4. 조건 충족하는 행에서 열 추출하기 ###

In [13]:
# nclass가 1인 행의 프론트열
df[df['nclass'] == 1]['front']

0    50
1    60
2    45
3    30
Name: front, dtype: int64

In [14]:
# nclass가 1인 행의 프론트, 백 열
df[df['nclass'] ==1][['front', 'back']]

Unnamed: 0,front,back
0,50,98
1,60,97
2,45,86
3,30,98


→ df[행 추출 조건]['추출할 열 변수']

→ 여러 열 추출 위해서는 마찬가지로 [] 안에 변수명 나열하기

### 1-5. []와 pandas 함수 함께 사용하기 ###

In [None]:
# pandas만 사용
df.groupby('nclass') \
    .agg(front = ('front', 'mean'),
         back  = ('back', 'mean'))

Unnamed: 0_level_0,front,back
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,46.25,94.75
2,61.25,84.25
3,35.0,98.0


In [16]:
# pandas와 [] 함께 사용
df.groupby('nclass')[['front', 'back']].mean()

Unnamed: 0_level_0,front,back
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,46.25,94.75
2,61.25,84.25
3,35.0,98.0


→ pandas와 []을 함께 사용하면 더 간단한 코드 작성 가능!

## 02. df.loc[] 이용하기 ##

### 2-1. 인덱스 문자열 지정하기 ###

In [18]:
df = pd.DataFrame({'var1' : [1, 2, 3],
                   'var2' : [4, 5, 6]})
df

Unnamed: 0,var1,var2
0,1,4
1,2,5
2,3,6


In [19]:
# 인덱스 문자열 지정하기
df = pd.DataFrame({'var1' : [1, 2, 3],
                   'var2' : [4, 5, 6]},
                   index= ['kim', 'lee', 'park'])
df

Unnamed: 0,var1,var2
kim,1,4
lee,2,5
park,3,6


→ df.loc[]은 인덱스를 이용해 데이터 프레임의 행과 열을 추출할 수 있음! (위는 df.loc[] 활용을 위해 인덱스 문자열 지정해보는 절차)

### 2-2. 인덱스 문자열 지정하여 행 추출하기 ###

In [20]:
# kim 행 추출
df.loc['kim']

var1    1
var2    4
Name: kim, dtype: int64

In [21]:
# 여러행(kim, park) 추출
df.loc[['kim', 'park']]

Unnamed: 0,var1,var2
kim,1,4
park,3,6


### 2-3. 인덱스 문자열 지정하여 열 추출하기 ###

In [22]:
# loc행의 var1열 추출
df.loc['lee', 'var1']

np.int64(2)

In [23]:
# kim, lee행의 var2열 추출
df.loc[['kim', 'lee'], 'var2']

kim    4
lee    5
Name: var2, dtype: int64

In [24]:
# df. loc[, 'var1'] 처럼 쉼표 앞의 행 추출 기준을 비워 두면 에러 발생

# 모든 행은 : 으로 지정
df.loc[:, 'var1']

kim     1
lee     2
park    3
Name: var1, dtype: int64

→ df.loc[]에서는 열 추출 시 반드시 행 추출 기준을 함께 입력해야함! (:라도 지정, 비워두면 오류 발생~~)

### 2-4. 인덱스 번호를 지정해 행 추출하기 ###

In [25]:
# 인덱스 번호가 있는 데이터프레임 가져오기
df = df_raw.copy()
df

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [None]:
# 0행 추출 (시리즈로)
df.loc[0]

id         1
nclass     1
front     50
back      98
design    50
Name: 0, dtype: int64

In [27]:
# 0행 추출 (데이터프레임으로)
df.loc[[0]]

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50


→ 시리즈가 아닌 데이터프레임 형태로 추출하려면 []를 한 번 더 감싸기! 

In [28]:
# 여러 행(0, 3, 5) 추출
df.loc[[0, 3, 5]]

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50
3,4,1,30,98,58
5,6,2,50,89,98


In [29]:
# 0~3행 추출
df.loc[0:3]

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [None]:
# : 앞을 생략하면 첫번째 행부터 추출
df.loc[:3]

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [31]:
# : 뒤를 생략하면 마지막 행까지 추출
df.loc[5:]

Unnamed: 0,id,nclass,front,back,design
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12
14,15,4,75,56,78


In [32]:
# : 만 입력하면 첫번째부터 마지막 행까지 모두 추출
df.loc[:]

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


→ 인덱스 번호를 통해 df.loc[]으로 추출할 때는 : 으로 범위 지정하는 것 기억하기! (=슬라이싱)

In [33]:
# 행 추출 가능
df.loc[2, :]

# 열 추출 불가능
# df.loc[:, 2]

id         3
nclass     1
front     45
back      86
design    78
Name: 2, dtype: int64

→ 참고로, df.loc[]으로는 행만 추출 가능하며 열은 추출할 수 없다. 

### 2-5. 조건을 충족하는 행 추출하기 ###

In [34]:
# nclass가 1이면 추출
df.loc[df['nclass'] == 1]

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [35]:
# nclass가 1인 행의 프론트, 백열 추출
df.loc[df['nclass'] == 1, ['front', 'back']]

Unnamed: 0,front,back
0,50,98
1,60,97
2,45,86
3,30,98


In [36]:
# 0~3행의 프론트열 추출
df.loc[0:3, 'front']

0    50
1    60
2    45
3    30
Name: front, dtype: int64

→ 조건 순서가 df.loc[행조건, 열조건]임을 주의해서 코드 작성하기!

## 03. df.iloc[] 이용하기 ##

### 3-1. 인덱스 번호 지정하여 행 추출하기 ###

In [39]:
# 0행 추출 (시리즈로)
df.iloc[0]

id         1
nclass     1
front     50
back      98
design    50
Name: 0, dtype: int64

In [38]:
# 0행 추출 (데이터프레임으로)
df.iloc[[0]]

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50


In [40]:
# 0, 3, 5행 추출
df.iloc[[0, 3, 5]]

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50
3,4,1,30,98,58
5,6,2,50,89,98


In [None]:
# 1~5행 출력
df.loc[1:5]

Unnamed: 0,id,nclass,front,back,design
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98


In [42]:
# 1~4행 출력
df.iloc[1:5]

Unnamed: 0,id,nclass,front,back,design
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65


→ df.loc[]은 이상~이하이지만 df.iloc[]은 이상~미만이므로 주의!

In [44]:
# 인덱스 문자열만 있는 데이터 프레임 만들기
df_label = pd.DataFrame({'var1' : [1, 2, 3], 
                         'var2' : [4, 5, 6]},
                         index= ['kim', 'lee', 'park'])
df_label

Unnamed: 0,var1,var2
kim,1,4
lee,2,5
park,3,6


In [45]:
# 인덱스 문자열만 있는 데이터프레임에 df.loc[]을 사용하면 에러 발생
# df_label.loc[0]

# df.iloc[]은 인덱스 문자열만 있는 데이터프레임에서도 사용 가능
df_label.iloc[0]

var1    1
var2    4
Name: kim, dtype: int64

→ 인덱스 문자열만 있는 데이터프레임에서 숫자로 행을 추출하려면 df.loc[] 보다는 df.iloc[] 사용할 것!

### 3-2. 인덱스 번호 지정하여 열 추출하기 ###

In [46]:
# 모든 행의 1, 3열 추출
df.iloc[:, [1, 3]]

Unnamed: 0,nclass,back
0,1,98
1,1,97
2,1,86
3,1,98
4,2,80
5,2,89
6,2,90
7,2,78
8,3,98
9,3,98


In [47]:
# 0, 1goddml 2, 3열 추출
df.iloc[[0, 1], [2, 3]]

Unnamed: 0,front,back
0,50,98
1,60,97


→ df.loc[]와 다르게 df.iloc[]은 인덱스 번호를 지정해 열을 추출할 수 있음 (행 조건 입력 필수) 

In [48]:
# nclass가 1인 행을 추출하기 위해 df.iloc 사용하면 오류 발생
# df.iloc[df['nclass'] == 1]

→ df.loc[]와 다르게 df.iloc[]은 조건 지정으로 행 추출 불가