#### 조건으로 검색하기

In [None]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.arange(6).reshape(3,2), columns=["A", "B"])
print(df, "\n")
'''
   A  B
0  0  1
1  2  3
2  4  5
'''

#slicing으로 찾기
print(df[(df["B"]>1)&(df["A"]<3)])
#query메소드 사용하기
print(df.query("B>1 and A<3"))
'''
   A  B
1  2  3
'''

### 슬라이싱 하기 

In [12]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(6).reshape(3,2),index = ['1st','2nd','3rd'],columns=["A", "B"])

print(df)
'''   
   A  B
0  0  1
1  2  3
2  4  5
'''

#행 인덱스로 슬라이싱
print(df.iloc[[0]])
'''
   A  B
0  0  1
'''
#행 이름으로 으로 슬라이싱 후 전치
print(df.loc['1st'])
'''
A    0
B    1
'''
#열 이름으로 으로 슬라이싱 
print(df.loc[:,'A'])
'''
1st    0
2nd    2
3rd    4
'''


     A  B
1st  0  1
2nd  2  3
3rd  4  5
     A  B
1st  0  1
A    0
B    1
Name: 1st, dtype: int64
1st    0
2nd    2
3rd    4
Name: A, dtype: int64


### Apply 메소드 사용하기

In [None]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.arange(5), columns=["Num"])
print(df, "\n")
'''
	Num
0    0
1    1
2    2
3    3
4    4
'''

# 값을 받으면 제곱을 해서 돌려주는 함수
def square(x):
    return x**2

# apply로 컬럼에 함수 적용
df['Square'] = df['Num'].apply(square)

# 람다 표현식으로도 적용하기
df['Square'] = df['Num'].apply(lambda x: x**2)

print(df)
'''
    Num  Square
0    0       0
1    1       1
2    2       4
3    3       9
4    4      16
'''

### 집계하기

In [None]:
df = pd.DataFrame({
    'key': ['A', 'B', 'C', 'A', 'B', 'C'],
    'data1': [1, 2, 3, 1, 2, 3],
    'data2': [4, 4, 6, 0, 6, 1]
})
print(df)
'''
   key  data1  data2
0   A      1      4
1   B      2      4
2   C      3      6
3   A      1      0
4   B      2      6
5   C      3      1
'''

# groupby 함수를 이용
# key를 기준으로 묶어 합계를 구해 출력

x = df.groupby(['key']).sum()
print(x)

'''
key    data1  data2    
 A        2      4
 B        4     10
 C        6      7
'''
# key와 data1을 기준으로 묶어 합계를 구해 출력
y = df.groupby(['key','data1']).sum()
print(y)

'''
key data1  data2  
 A   1       4
 B   2       10
 C   3       7
'''

# 데이터 프레임을 'key' 칼럼으로 묶고, data1과 data2 각각의 최솟값, 중앙값, 최댓값을 출력
x = df.groupby(['key']).aggregate(['min','median','max'])
print(x)

'''
					data1            data2           
key    min median max   min median max                                  
A       1      1   1     0    2.0   4
B       2      2   2     4    5.0   6
C       3      3   3     1    3.5   6
'''

# 데이터 프레임을 'key' 칼럼으로 묶고, data1의 최솟값, data2의 합계를 출력
y = df.groupby('key').aggregate({'data1' : ['min'], 'data2' : ['sum']})
print(y)
'''
		data1 data2
key   min   sum         
A       1     4
B       2    10
C       3     7
'''

### filter, lambda 이용해서 활용하기

In [None]:
import numpy as np
import pandas as pd

df = pd.DataFrame({
    'key': ['A', 'B', 'C', 'A', 'B', 'C'],
    'data1': [0, 1, 2, 3, 4, 5],
    'data2': [4, 4, 6, 0, 6, 1]})
'''
   key  data1  data2
0   A      0      4
1   B      1      4
2   C      2      6
3   A      3      0
4   B      4      6
5   C      5      1
'''
def filter_by_mean(x) :
    return x['data2'].mean() > 3

# groupby()로 묶은 데이터에 filter를 적용
# key별 data2의 평균이 3이 넘는 인덱스만 출력
x = df.groupby('key').filter(filter_by_mean)
print(x)
'''
   key  data1  data2
1   B      1      4
2   C      2      6
4   B      4      6
5   C      5      1
'''


# groupby()로 묶은 데이터에 apply도 적용
# 람다식을 이용해 최댓값에서 최솟값을 뺀 값을 적용
y = df.groupby('key').apply(lambda x : x.max() - x.min())
print(y)
'''
   key  data1  data2
1   B      1      4
2   C      2      6
4   B      4      6
5   C      5      1
'''