In [2]:
import pandas as pd

# 데이터를 추출하는 다양한 방법

## [] 이용하기

In [3]:
df_raw = pd.read_csv('./input/exam.csv')
df_raw

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [4]:
df = df_raw.copy()

In [5]:
# 조건을 충족하는 행 추출 (math 가 80 이상)
df[df['math'] >= 80]

Unnamed: 0,id,nclass,math,english,science
6,7,2,80,90,45
7,8,2,90,78,25
17,18,5,80,78,90
18,19,5,89,68,87


In [6]:
# 여러 조건을 충족하는 행 추출 (1반이고 math가 50 이상)
df[(df['nclass'] == 1) & (df['math'] >= 50)]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60


In [7]:
# 열 추출
df[['id', 'nclass']]

Unnamed: 0,id,nclass
0,1,1
1,2,1
2,3,1
3,4,1
4,5,2
5,6,2
6,7,2
7,8,2
8,9,3
9,10,3


In [8]:
# 조건을 충족하는 행에서 열 추출 (1반, 수학)
df[df['nclass'] == 1]['math']   # 수학열

0    50
1    60
2    45
3    30
Name: math, dtype: int64

In [9]:
# 조건을 충족한느 행에서 여러 열 추출
df[df['nclass'] == 1][['math', 'english']]

Unnamed: 0,math,english
0,50,98
1,60,97
2,45,86
3,30,98


## df.loc[] 이용하기
- 인덱스를 이용해 데이터 프레임의 행과 열을 추출할 수 있음

In [11]:
df = pd.DataFrame({'var1':[1, 2, 3], 'var2':[4, 5, 6]},
                  index=['kim', 'lee', 'park'])
df

Unnamed: 0,var1,var2
kim,1,4
lee,2,5
park,3,6


### 인덱스 문자열을 지정해 행 추출하기

In [12]:
df.loc['kim']   # 인덱스가 kim, 행 추출

var1    1
var2    4
Name: kim, dtype: int64

In [14]:
# 여러 행 추출하기
df.loc[['kim', 'park']]

Unnamed: 0,var1,var2
kim,1,4
park,3,6


### 인덱스 문자열을 지정해 열 추출하기
- []에 쉼표를 입력한 다음 쉼표 앞에는 행을 가리키는 인덱스 문자열
- 뒤에는 열을 가리키는 변수명 입력
- 반드시 행 추출 기준도 함께 입력해야 함

In [15]:
df.loc['lee', 'var1']   # lee 행의 var1 열 추출

2

In [16]:
df.loc[['kim', 'lee'], 'var2']  # kim, lee 행의 var2 열 추출

kim    4
lee    5
Name: var2, dtype: int64

In [17]:
df.loc[:, 'var1']   # 모든 행 추출[:]

kim     1
lee     2
park    3
Name: var1, dtype: int64

### 인덱스 번호를 지정해 행 추출하기
- 인덱스 문자열이 있는 데이터 프레임은 인덱스 번호로 행을 추출할 수 없음
- 인덱스 번호로 열은 추출할 수 없음

In [18]:
df_raw

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [19]:
df = df_raw.copy()
df

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [20]:
df.loc[0]   # 0행 추출

id          1
nclass      1
math       50
english    98
science    50
Name: 0, dtype: int64

In [21]:
df.loc[2]   # 2행 추출

id          3
nclass      1
math       45
english    86
science    78
Name: 2, dtype: int64

In [22]:
type(df.loc[0]) # 행이 1개면 시리즈로 추출

pandas.core.series.Series

In [23]:
df.loc[[0]] 

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50


In [24]:
type(df.loc[[0]])   # 데이터 프레임으로 추출

pandas.core.frame.DataFrame

In [25]:
# 여러 행 추출하기
df.loc[[0, 3, 5]]   # 0, 3, 5행 추출

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
3,4,1,30,98,58
5,6,2,50,89,98


In [26]:
# 연속된 행 추출하기
df.loc[0:3] # 0 ~ 3 행 추출

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [27]:
df.loc[7:9] # 7 ~ 9 행 추출

Unnamed: 0,id,nclass,math,english,science
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [28]:
df.loc[:2]  # 0 생략 (처음부터, 0부터)

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78


In [29]:
df.loc[5:19]    # 5 ~ 19 행 추출

Unnamed: 0,id,nclass,math,english,science
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12
14,15,4,75,56,78


In [30]:
df.loc[5:]  # 끝번호 생략 가능 (끝까지 출력)

Unnamed: 0,id,nclass,math,english,science
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12
14,15,4,75,56,78


In [31]:
df.loc[:]   # 전체

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


### 조건을 충족하는 행 추출하기

In [32]:
# nclass가 1이면 추출
df.loc[df['nclass'] == 1]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [33]:
# 수학 점수가 60점 이상이면 추출
df.loc[df['math'] >= 60]

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
6,7,2,80,90,45
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [34]:
# nclass가 1인 행의 math, english 열 추출
df.loc[df['nclass'] == 1, ['math', 'english']]

Unnamed: 0,math,english
0,50,98
1,60,97
2,45,86
3,30,98


In [35]:
# 0 ~ 3 행의 math 열 추출
df.loc[0:3, 'math']

0    50
1    60
2    45
3    30
Name: math, dtype: int64

## 조건을 충족하는 행 추출방법 비교하기

### ex) 수학 점수가 50을 초과하는 행 추출하기

In [36]:
# 1) 쿼리 함수
df.query('math > 55')

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
6,7,2,80,90,45
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [37]:
# 2) 대괄호
df[df['math'] > 50]

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
6,7,2,80,90,45
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [38]:
# 3) loc
df.loc[df['math'] > 50]

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
6,7,2,80,90,45
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


## df.iloc[] 이용하기
- 인덱스 번호를 지정해 데이터 프레임의 행과 열 추출 가능
- 쉼표를 기준으로 앞에는 행, 뒤에는 열 기준
- df.loc[]와의 차이점은 인덱스 문자열이 아니라 '인덱스 번호'를 입력한다는 점(번호만 가능)

### 인덱스 번호를 지정해 행 추출하기

In [39]:
df.iloc[0]  # 0 행을 추출

id          1
nclass      1
math       50
english    98
science    50
Name: 0, dtype: int64

In [40]:
df.iloc[2]  # 2 행을 추출

id          3
nclass      1
math       45
english    86
science    78
Name: 2, dtype: int64

In [41]:
type(df.iloc[2])    # 시리즈로 추출

pandas.core.series.Series

In [42]:
df.iloc[[2]]

Unnamed: 0,id,nclass,math,english,science
2,3,1,45,86,78


In [43]:
type(df.iloc[[2]])  # 데이터 프레임으로 추출

pandas.core.frame.DataFrame

In [44]:
df.iloc[[0, 3, 5]]  # 0, 3, 5 행 추출

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
3,4,1,30,98,58
5,6,2,50,89,98


### df.loc[x:y]
- x행 이상 y행 <u>이하</u> 출력

In [46]:
df.loc[1:5]     # 1 ~ 5 행 출력

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98


### df.iloc[x:y]
- x행 이상 y행 <u>미만</u> 출력

In [47]:
df.iloc[1:5]    # 1 ~ 4 행 출력

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65


In [48]:
# 인덱스 문자열이 있는 데이터 프레임
df_label = pd.DataFrame({'var1':[1, 2, 3], 'var2':[4, 5, 6]}, index=['kim', 'lee', 'park'])
df_label

Unnamed: 0,var1,var2
kim,1,4
lee,2,5
park,3,6


In [50]:
df_label.loc[0] # 인덱스 문자열만 있으면 인덱스 번호로 행 추출 불가

KeyError: 0

In [51]:
df_label.iloc[0] # 인덱스 문자열만 있어도 인덱스 번호로 행 추출 가능

var1    1
var2    4
Name: kim, dtype: int64

### 인덱스 번호를 지정해 열 추출하기

In [52]:
df.iloc[:, 1]   # 모든 행의 1열 추출

0     1
1     1
2     1
3     1
4     2
5     2
6     2
7     2
8     3
9     3
10    3
11    3
12    4
13    4
14    4
15    4
16    5
17    5
18    5
19    5
Name: nclass, dtype: int64

In [53]:
df

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [54]:
df.iloc[:, [1, 3]]  # 모든 행의 1, 3 열 추출

Unnamed: 0,nclass,english
0,1,98
1,1,97
2,1,86
3,1,98
4,2,80
5,2,89
6,2,90
7,2,78
8,3,98
9,3,98


In [55]:
df.iloc[2, 3]   # 2 행의 3 열 값 추출

86

In [58]:
df.iloc[[0, 1], [2, 3]]

Unnamed: 0,math,english
0,50,98
1,60,97


In [59]:
# 조건을 지정해 행 추출 불가 => query, 대괄호, loc 사용
# nclass가 1이면 추출
df.iloc[df['nclass'] == 1]

NotImplementedError: iLocation based boolean indexing on an integer type is not available

## 연습문제
```
    mpg 데이터를 이용해 분석 문제 해결
```

### Q1. 자동차 배기량에 따라 연비가 다른지 알아보려 할때, displ(배기량)이 4 이하인 자동차와 5 이상인 자동차 중 어떤 자동차의 hwy(고속도로 연비) 평균이 더 높은지 확인

In [64]:
mpg = pd.read_csv('./input/mpg.csv')
mpg_copy = mpg.copy()
mpg_copy

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize


In [67]:
# displ <= 4 평균
displ_4 = mpg_copy.query('displ <= 4')
displ_4['hwy'].mean()

25.96319018404908

In [69]:
# displ >= 5 평균
displ_5 = mpg_copy.query('displ >= 5')
displ_5['hwy'].mean()

18.07894736842105

### Q2. 자동차 제조 회사에 따라 도시 연비가 어떻게 다른지 알아보기 위해 'audi'와 'toyota' 중 어느 manufacturer(자동차 제조 회사)의 cty(도시 연비) 평균이 더 높은지 확인

In [72]:
# audi 의 cty 평균
audi = mpg_copy.query('manufacturer == "audi"')
audi['cty'].mean()

17.61111111111111

In [74]:
# toyota 의 cty 평균
toyota = mpg_copy.query('manufacturer == "toyota"')
toyota['cty'].mean()

18.529411764705884

### Q3. 'chevrolet', 'ford', 'honda' 자동차의 고속도로 연비 평균을 알기 위해 세 회사의 데이터를 추출한 후 hwy 전체 평균 확인

In [79]:
# chevrolet, ford, honda에 해당하면 추출
mpg_new = mpg_copy.query('manufacturer in ["chevrolet", "ford", "honda"]')
mpg_new['hwy'].mean()

22.50943396226415