In [6]:
import pandas as pd
from collections import OrderedDict

In [7]:
friend_list = [ 
                ['name',['John', 'Jenny', 'Nate']],
                ['age',[20,30,30]],
                ['job',['student', 'developer', 'teacher']] 
              ]
df = pd.DataFrame.from_dict(OrderedDict(friend_list))
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [10]:
# index(1~2)의 row값을 선택해서 보여준다. 
print(df[1:3])
print()
print(df)

name  age        job
1  Jenny   30  developer
2   Nate   30    teacher

    name  age        job
0   John   20    student
1  Jenny   30  developer
2   Nate   30    teacher


In [14]:
# loc(loccation) 메소드를 이용함.
# 단 loc[]안에 또 []를 넣고 조회 할 수 있음. 
df.loc[[0,2]]

Unnamed: 0,name,age,job
0,John,20,student
2,Nate,30,teacher


In [2]:
df = df.loc[[0,2]]
df

NameError: name 'df' is not defined

### by column condition
#### column의 컨디션에 따라서 row를 선택하는것! 
예, age컬럼에서 25이상의 데이터를 보고 싶다면 아래와 같이 하면 됨.      

아래 3가지 방법을 살펴 보자.    

    첫 번째, df\[df.컬럼명 > 데이터값\]   
    두 번째, df.loc\[df.age > 5\]   
    세 번쨰, df.query('header명 > )   

In [16]:
df[df.age > 25]

Unnamed: 0,name,age,job
2,Nate,30,teacher


In [19]:
df.loc[df.age > 5]

Unnamed: 0,name,age,job
0,John,20,student
2,Nate,30,teacher


In [23]:
# query() 메소드는 소괄호를 써야함. 대괄호(x),중괄호(x)
df.query('age>25')

Unnamed: 0,name,age,job
2,Nate,30,teacher


### 조금더 복잡한 조건을 줘보자. 


In [26]:
df[(df.age>25) & (df.name == 'Nate')]

Unnamed: 0,name,age,job
2,Nate,30,teacher


### Filter Column   
컬럼을 필터하는 방법을 살펴보자.    
#### 1. by index

In [31]:
friend_list = [
     ['John', 20, 'student'],
     ['Jenny', 30, 'developer'],
     ['Nate', 30, 'teacher'] 
     ]
df = pd.DataFrame.from_records(friend_list)
df

Unnamed: 0,0,1,2
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


In [1]:
# 3번째 컬럼, 즉 2번 index빼고 다 보고 싶을 경우에는! 
# iloc(index location)를 사용한다. 
df.iloc[:,0:2]
# ,를 기준으로 왼쪽은 row index값들의 나열이고  오른쪽은 column인덱스 값들의 나열이다. 

NameError: name 'df' is not defined

## by column name   
컴럼 이름으로 조회 하는 방법

In [36]:
df = pd.read_csv('data/friend_list_no_head.csv', header = None, names=['name', 'age', 'job'])
df

# 문자열 name과 age 

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


In [60]:
# df[[ 컬럼명  , 컬럼명   ]]
# df[( 컬럼명  , 컬럼명   )]  
# df[{ 컬럼명  , 컬럼명   }]
# 소괄호(x),중괄호(0) 
df_filtered1 = df[['name','job','age']]
print( df_filtered1 )

df_filtered2 = df[{'age','job'}]
df_filtered2

name        job  age
0   John    student   20
1  Jenny  developer   30
2   Nate    teacher   30
3  Julia    dentist   40
4  Brian    manager   45
5  Chris     intern   25


Unnamed: 0,age,job
0,20,student
1,30,developer
2,30,teacher
3,40,dentist
4,45,manager
5,25,intern


In [61]:
# 필터 메소드를 사용해서 컬럼의 아이템들을 걸러 낼수 있다. 
df.filter(items = ['age' ,'job'])

Unnamed: 0,age,job
0,20,student
1,30,developer
2,30,teacher
3,40,dentist
4,45,manager
5,25,intern


In [68]:
# items의 속성값들 묶을때 소,중,대괄호 어느것으로 묶어도 가능(O)
df.filter(items = ('age' ,'job'))


Unnamed: 0,age,job
0,20,student
1,30,developer
2,30,teacher
3,40,dentist
4,45,manager
5,25,intern


In [77]:
# filter 메소드를 이용 컬럼 name의 'a'가 있는것만 확인 하고 싶을 때
# 여기서 파라미터 axis는 축을 의미한다. 
# axis=0은 x축만, axis = 2는 x,y축 모두를 의미한다. 
# axis =3일 경우 3차원에 해당된다. x,y,z축
# 그리고 like라는 parameter로 찾길 원하는 '문자열'단하나라도 입력해도 잡힘.

df.filter(like='a', axis=1)

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25


In [92]:
# 만약 컴럼 job처럼 b로 끝나는 문자열을 조회 하고 싶다면?! 
# regex는 regular expression인 정규표현식을 의미함.
# b$에서 달러표시는 마지막 단어가 b로 끝나는걸 의미함.
df.filter(regex='b$',axis =1)

Unnamed: 0,job
0,student
1,developer
2,teacher
3,dentist
4,manager
5,intern
