# 데이터프레임 행, 열 선택 및 필터 하기

## 행 선택

### by slicing

In [52]:
import pandas as pd

In [53]:
friend_list = [
    ['name', ['John', 'Jenny', 'Nate']],
    ['age', [20, 30, 30]],
    ['job', ['student', 'developer', 'teacher']]
]
df = pd.DataFrame.from_dict(dict(friend_list))

In [54]:
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [55]:
df[1:3]

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,30,teacher


In [56]:
df[::2]

Unnamed: 0,name,age,job
0,John,20,student
2,Nate,30,teacher


### by index

In [None]:
# loc : location의 약자
# 행 또는 컬럼의 lavel이나 boolean array로 인덱싱하는 방법
# 사람이 읽을 수 있는 라벨 값으로 특정 값들을 골라오는 방법
help(df.loc)

#### - df.loc[행 인덱싱 값]

In [58]:
# 하나의 행만 조회
# 행을 Series로 반환
selectOne = df.loc[1]
selectOne

name        Jenny
age            30
job     developer
Name: 1, dtype: object

In [59]:
type(selectOne)	# Series로 반환

pandas.core.series.Series

#### - df.loc[ [행 인덱싱 값1[, 행 인덱싱 값2, ...]] ]

In [60]:
# 여러 행 조회
# 행을 DataFrame으로 반환
select = df.loc[ [0, 2] ]
select

Unnamed: 0,name,age,job
0,John,20,student
2,Nate,30,teacher


In [61]:
print(type(select))	# DataFrame으로 반환

<class 'pandas.core.frame.DataFrame'>


### by column condition
- 컬럼 조건에 일치하는 행만 조회

In [None]:
help(df)

In [88]:
# age가 25 이상인 행 조회
df.loc[df.age > 25]

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


In [89]:
# age가 25 이상인 행 조회
# df.age, df['age'] 둘 다 사용 가능
df.loc[df['age'] > 25]

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


In [76]:
df.query('age > 25')

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,30,teacher


In [90]:
# 조건 여러개로 조회
df.loc[ (df.age > 25) & (df.name == 'Nate') ]

Unnamed: 0,name,age,job
2,Nate,30,teacher


## 열 선택

In [78]:
friend_list = [
    ['John', 20, 'student'],
    ['Jenny', 30, 'developer'],
    ['Nate', 30, 'teacher']
]
df = pd.DataFrame.from_records(friend_list)
df

Unnamed: 0,0,1,2
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


### by index

In [None]:
# iloc : integer location의 약자
# 데이터프레임의 행이나 컬럼의 순서를 나타내는 정수로 인덱싱하는 방법
# 컴퓨터가 읽기 좋은 방법으로 데이터에 접근하는 방법
help(df.iloc)

In [79]:
# df.iloc[행 인덱스 or 슬라이싱, 열 인덱스 or 슬라이싱]
df.iloc[0:2, 0:2]

Unnamed: 0,0,1
0,John,20
1,Jenny,30


#### * loc과 iloc의 차이
- loc은 컬럼명이나 조건식 같은 사람이 읽기 좋은 방식으로 데이터에 접근하는 방법이라면, iloc은 컴퓨터가 읽기 좋은 방법(숫자)으로 데이터가 있는 위치에 접근하는 방법이다.

### by column name

In [80]:
df = pd.read_csv('data/friend_list_no_head.csv', header = None, names = ['name', 'age', 'job'])

In [81]:
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


In [102]:
df_filtered = df[['name', 'age']]

In [103]:
df_filtered

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25


### by filter

In [None]:
help(df.filter)

In [84]:
# items : columns name 으로 조회
df.filter(items=['age', 'job'])

Unnamed: 0,age,job
0,20,student
1,30,developer
2,30,teacher
3,40,dentist
4,45,manager
5,25,intern


In [99]:
# like : 문자열을 포함하는 column name 조회
# axis 옵션 : 정보축을 의미. Series의 경우 'index', DataFrame의 경우 'columns'이 기본값
#  - 0 or 'index'
#  - 1 or 'columns'
#  - None

# 컬럼 이름에 a가 들어간 것만 조회
df.filter(like='a', axis=1)		# axis=1 생략 가능

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25


In [105]:
# 정규식(regular expression) 으로 조회
# b로 끝나는 컬럼 조회
df.filter(regex='b$', axis=1)

Unnamed: 0,job
0,student
1,developer
2,teacher
3,dentist
4,manager
5,intern
