### 1.[] 이용하기
- [] 하나: 시리즈 반환
- [[]] 이중 대괄호: 데이터프레임 반환
- 복합 조건시 각 조건을 ()로 감싸고 &, | 사용
- 조건부 추출 후 열 선택은 연속으로 [] 사용 가능

#### 주요 특징
- **단순한 구조**: 대괄호만 사용하는 직관적인 방법
- **열 우선**: 주로 열 선택에 사용, 행 선택은 조건부로만 가능
- **연쇄 사용**: 조건 추출 후 열 선택을 연속으로 사용 가능
- **불린 인덱싱**: 조건식을 통한 필터링 방식


In [1]:
import pandas as pd
df_raw = pd.read_csv('exam.csv')
df = df_raw.head(10)
df

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [2]:
# nclass 추출
df['nclass']

0    1
1    1
2    1
3    1
4    2
5    2
6    2
7    2
8    3
9    3
Name: nclass, dtype: int64

In [3]:
#nclass가 1인지 확인
df['nclass'] == 1

0     True
1     True
2     True
3     True
4    False
5    False
6    False
7    False
8    False
9    False
Name: nclass, dtype: bool

In [4]:
# nclass가 1이면 추출
df[df['nclass'] == 1]

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [5]:
# 프론트 점수가 80점 이상이면 추출
df[df['front'] >= 80]

Unnamed: 0,id,nclass,front,back,design
6,7,2,80,90,45
7,8,2,90,78,25


In [6]:
# nclass가 1이면서 프론트 점수가 50점 이상
df[(df['nclass'] == 1) & (df['front'] >= 50)]

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50
1,2,1,60,97,60


In [7]:
# 프론트 점수가 50점 미만이거나 백 점수가 50점 미만
df[(df['front'] < 50) | (df['back'] < 50)]

Unnamed: 0,id,nclass,front,back,design
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
8,9,3,20,98,15


In [8]:
df['id']

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
Name: id, dtype: int64

In [9]:
df['nclass']

0    1
1    1
2    1
3    1
4    2
5    2
6    2
7    2
8    3
9    3
Name: nclass, dtype: int64

In [10]:
# 여러 변수를 동시에 추출
df[['id', 'nclass']]

Unnamed: 0,id,nclass
0,1,1
1,2,1
2,3,1
3,4,1
4,5,2
5,6,2
6,7,2
7,8,2
8,9,3
9,10,3


In [11]:
# 시리즈로 추출
df['id']

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
Name: id, dtype: int64

In [12]:
# 데이터 프레임으로 추출
df[['id']]

Unnamed: 0,id
0,1
1,2
2,3
3,4
4,5
5,6
6,7
7,8
8,9
9,10


In [13]:
# nclass가 1인 행의 프론트열
df[df['nclass'] == 1]['front']

0    50
1    60
2    45
3    30
Name: front, dtype: int64

In [14]:
#nclass가 1인 행의 프론트, 백 열
df[df['nclass'] == 1][['front', 'back']]

Unnamed: 0,front,back
0,50,98
1,60,97
2,45,86
3,30,98


In [16]:
# pandas 함수만 사용
df.groupby('nclass')\
    .agg(front =('front','mean'),
         back =('back','mean'))

Unnamed: 0_level_0,front,back
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,46.25,94.75
2,61.25,84.25
3,35.0,98.0


In [18]:
# pandas 함수와 [] 함께 사용
df.groupby('nclass')[['front', 'back']].mean()

Unnamed: 0_level_0,front,back
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,46.25,94.75
2,61.25,84.25
3,35.0,98.0


### 2. df.loc[] 이용하기
- 행과 열을 동시에 지정 가능한 인덱서
- 라벨 기반 인덱싱 (문자열 인덱스, 정수 인덱스 모두 가능)
- `df.loc[행, 열]` 형태로 사용
- 슬라이싱 시 끝점 포함 (iloc과 차이점)

#### 주요 특징
- **라벨 기반**: 인덱스 이름이나 컬럼 이름 사용
- **끝점 포함**: 슬라이싱 시 `0:3`은 0,1,2,3 모두 포함
- **유연한 선택**: 행과 열을 동시에 지정 가능
- **조건부 지원**: 불린 마스크와 함께 사용 가능

In [20]:
df = pd.DataFrame({
    'var1': [1, 2, 3],
    'var2': [4, 5, 6]
})
df

Unnamed: 0,var1,var2
0,1,4
1,2,5
2,3,6


In [21]:
# 인덱스 문자열 저장하기
df = pd.DataFrame({ 'var1': [1,2,3],
                   'var2':[4,5,6]},
                   index= ['kim','lee','park'])
df

Unnamed: 0,var1,var2
kim,1,4
lee,2,5
park,3,6


In [22]:
# kim행 추출
df.loc['kim']

var1    1
var2    4
Name: kim, dtype: int64

In [23]:
# 여러행 (kim,park) 추출
df.loc[['kim','park']]

Unnamed: 0,var1,var2
kim,1,4
park,3,6


In [24]:
# lee 행의 var1열 추출
df.loc['lee', 'var1']

2

In [25]:
# kim, lee 행의 var2열 추출
df.loc[['kim','lee'], 'var2']

kim    4
lee    5
Name: var2, dtype: int64

In [26]:
# 모든 행은 :을 입력
df.loc[:, 'var1']

kim     1
lee     2
park    3
Name: var1, dtype: int64

In [28]:
# 인덱스 번호가 있는 데이터 프레임
df = df_raw.copy()
df

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [29]:
# 0행 추출
df.loc[0]

id         1
nclass     1
front     50
back      98
design    50
Name: 0, dtype: int64

In [30]:
# 시리즈로 추출
df.loc[0]

id         1
nclass     1
front     50
back      98
design    50
Name: 0, dtype: int64

In [31]:
# 데이터 프레임으로 추출
df.loc[[0]]

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50


In [32]:
# 여러 행(0,3,5 행 추출)
df.loc[[0,3,5]]

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50
3,4,1,30,98,58
5,6,2,50,89,98


In [33]:
# 0~3행 추출
df.loc[0:3]

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [34]:
# : 앞에 아무 값도 입력하지 않으면 첫 번째 행부터 출력됨
df.loc[:3]

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [35]:
# : 뒤에 아무 값도 입력하지 않으면 마지막 행까지 추출함
df.loc[5:]

Unnamed: 0,id,nclass,front,back,design
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12
14,15,4,75,56,78


In [37]:
# : 앞뒤에 아무 값도 입력하지 않으면 첫 번째 행부터 마지막 행까지 모두 추출함
df.loc[:] # df와 출력 결과가 동일함

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [38]:
df.loc[2,:] # 행 추출 가능

id         3
nclass     1
front     45
back      86
design    78
Name: 2, dtype: int64

In [39]:
# nclass가 1이면 추출
df.loc[df['nclass'] == 1]

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [40]:
# nclass가 1인 행의 프론트, 백열 추출
df.loc[df['nclass']==1, ['front','back']]

Unnamed: 0,front,back
0,50,98
1,60,97
2,45,86
3,30,98


In [41]:
# 0~3행의 프론트열 추출
df.loc[0:3, 'front']

0    50
1    60
2    45
3    30
Name: front, dtype: int64

### 3. df.iloc[] 이용하기
- 위치 기반 인덱싱 (정수 인덱스만 사용)
- `df.iloc[행, 열]` 형태로 사용
- 슬라이싱 시 끝점 제외 (Python 기본 슬라이싱과 동일)
- 문자열 인덱스가 있어도 정수 위치로만 접근

#### 주요 특징
- **위치 기반**: 정수 위치(0,1,2...)만 사용 가능
- **끝점 제외**: 슬라이싱 시 `1:5`는 1,2,3,4만 포함 (5 제외)
- **순수 위치**: 문자열 인덱스 무관하게 물리적 위치로 접근
- **Python 스타일**: 일반적인 Python 리스트 슬라이싱과 동일한 규칙

In [42]:
# 0행 추출
df.iloc[0]

id         1
nclass     1
front     50
back      98
design    50
Name: 0, dtype: int64

In [43]:
# 시리즈로 추출
df.iloc[0]

id         1
nclass     1
front     50
back      98
design    50
Name: 0, dtype: int64

In [44]:
# 데이터 프레임으로 추출
df.iloc[[0]]

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50


In [45]:
# 0,3,5 행 추출
df.iloc[[0,3,5]]

Unnamed: 0,id,nclass,front,back,design
0,1,1,50,98,50
3,4,1,30,98,58
5,6,2,50,89,98


In [47]:
df.loc[1:5] # 1~5행 출력

Unnamed: 0,id,nclass,front,back,design
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98


In [48]:
df.iloc[1:5] # 1~4행 출력

Unnamed: 0,id,nclass,front,back,design
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65


In [50]:
# 인덱스 문자열이 있는 데이터 프레임
df_label = pd.DataFrame({
'var1': [1,2,3],
'var2': [4,5,6]
}, index= ['kim','lee','park']
)

In [51]:
# df.iloc는 결과가 출력됨
df_label.iloc[0]

var1    1
var2    4
Name: kim, dtype: int64

In [52]:
# 모든 행의 1,3열 추출
df.iloc[:, [1,3]]

Unnamed: 0,nclass,back
0,1,98
1,1,97
2,1,86
3,1,98
4,2,80
5,2,89
6,2,90
7,2,78
8,3,98
9,3,98


In [53]:
# 0, 1행의 2, 3열 추출
df.iloc[[0,1], [2,3]]

Unnamed: 0,front,back
0,50,98
1,60,97
