In [2]:
import pandas as pd

# 로우 선택하기

## 인덱스로 로우 선택하기

In [3]:
friend_list = [ 
                ['name',['John', 'Jenny', 'Nate']],
                ['age',[20,30,30]],
                ['job',['student', 'developer', 'teacher']] 
              ]
df = pd.DataFrame.from_dict( dict(friend_list) ) 

In [4]:
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


아래는 로우 인덱스를 사용하여 로우1부터 3까지 순차적으로 선택하는 예제입니다.

In [5]:
df[1:3]

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,30,teacher


In [7]:
df # 적용이 안되어 있어 그대로 나옴

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [13]:
df = df[1:3]  # 이렇게 적용 해야 나옴

In [14]:
df

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,30,teacher


In [15]:
friend_list = [ 
                ['name',['John', 'Jenny', 'Nate']],
                ['age',[20,30,30]],
                ['job',['student', 'developer', 'teacher']] 
              ]
df = pd.DataFrame.from_dict( dict(friend_list) ) 

In [17]:
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


아래는 순차적이지 않은 로우를 선택하는 예제입니다.

In [18]:
df.loc[[0,2]]

Unnamed: 0,name,age,job
0,John,20,student
2,Nate,30,teacher


In [21]:
df=  df.loc[[0,2]]  # 적용 하려면

In [20]:
df

Unnamed: 0,name,age,job
0,John,20,student
2,Nate,30,teacher


In [23]:
friend_list = [ 
                ['name',['John', 'Jenny', 'Nate']],
                ['age',[20,30,30]],
                ['job',['student', 'developer', 'teacher']] 
              ]
df = pd.DataFrame.from_dict( dict(friend_list) ) 
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


## 컬럼값에 따른 로우 선택하기
마치 데이터베이스에 쿼리를 전달하듯, 특정한 컬럼값을 충족하는 로우만 선택하실 수 있습니다.

In [24]:
 df[df.age > 25] # 25살 이상만

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,30,teacher


In [25]:
df.query('age>25')

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,30,teacher


In [26]:
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [27]:
df[(df.age >25) & (df.name == 'Nate')]  # 25이상이고 이름이 Nate인 사람

Unnamed: 0,name,age,job
2,Nate,30,teacher


# 컬럼 필터하기

## 인덱스로 필터하기

In [29]:
friend_list = [ 
    ['John', 20, 'student'],
    ['Jenny', 30, 'developer'],
    ['Nate', 30, 'teacher']
]
df = pd.DataFrame.from_records(friend_list)

In [30]:
df

Unnamed: 0,0,1,2
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


모든 로우를 보여주되, 컬럼은 0부터 2까지만 출력하는 예제입니다.

In [31]:
df.iloc[:, 0:2]   # 앞은 로우 뒤는 컬럼

Unnamed: 0,0,1
0,John,20
1,Jenny,30
2,Nate,30


In [32]:
df.iloc[0:2, 0:2] 

Unnamed: 0,0,1
0,John,20
1,Jenny,30


## 컬럼 이름으로 필터하기

In [33]:
# you can create column header for no header data at once
df = pd.read_csv('data/friend_list_no_head.csv', header = None, names=['name', 'age', 'job'])
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


In [34]:
df_filtered = df[['name', 'age']]   # 새로운 데이터 프레임. name, age만 불러 온다
df_filtered

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25


In [35]:
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


In [36]:
df.filter(items=['age', 'job'])  # 필터를 사용한 예

Unnamed: 0,age,job
0,20,student
1,30,developer
2,30,teacher
3,40,dentist
4,45,manager
5,25,intern


In [37]:
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


원하는 글자를 가진 로우를 보여줍니다.

In [38]:
# select columns containing 'a' 컬럼에 a 가 들어있는 것만
df.filter(like='a',axis=1)

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25


In [39]:
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


정규식으로 필터도 가능합니다.

In [40]:
# select columns using regex
df.filter(regex='b$',axis=1)   # b로 끝나는 컬럼명만

Unnamed: 0,job
0,student
1,developer
2,teacher
3,dentist
4,manager
5,intern


In [41]:
# select columns using regex
df.filter(regex='e$',axis=1)   # e로 끝나는 컬럼명만

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25
