# 03 Pandas 심화 알아보기

In [1]:
import numpy as np
import pandas as pd

print("Masking & query")
df = pd.DataFrame(np.random.rand(5, 2), columns=["A", "B"])
print(df, "\n")

#데이터 프레임에서 A컬럼값이 0.5보다 작고 B컬럼 값이 0.3보다 큰값들을 구해봅시다.
print(df.query('A < 0.5 and B>0.3'))
print(df[(df['A'] < 0.5) & (df['B'] > 0.3)])

Masking & query
          A         B
0  0.084892  0.336983
1  0.928409  0.516120
2  0.206005  0.445950
3  0.431231  0.912955
4  0.957844  0.226966 

          A         B
0  0.084892  0.336983
2  0.206005  0.445950
3  0.431231  0.912955
          A         B
0  0.084892  0.336983
2  0.206005  0.445950
3  0.431231  0.912955


In [2]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.arange(5), columns=["Num"])
print(df, "\n")

# 값을 받으면 제곱을 해서 돌려주는 함수
def square(x):
    return x**2
    
# apply로 컬럼에 함수 적용
df['Square']=df['Num'].apply(square)

# 람다 표현식으로도 적용하기
df["Square"] = df["Num"].apply(lambda x: x ** 2)

   Num
0    0
1    1
2    2
3    3
4    4 



In [3]:
import numpy as np
import pandas as pd

df = pd.DataFrame({
    'key': ['A', 'B', 'C', 'A', 'B', 'C'],
    'data1': [1, 2, 3, 1, 2, 3],
    'data2': [4, 4, 6, 0, 6, 1]
})
print("DataFrame:")
print(df, "\n")

# groupby 함수를 이용해봅시다.
# key를 기준으로 묶어 합계를 구해 출력해보세요.
print(df.groupby('key').sum())

# key와 data1을 기준으로 묶어 합계를 구해 출력해보세요.
print(df.groupby(['key', 'data1']).sum())

DataFrame:
  key  data1  data2
0   A      1      4
1   B      2      4
2   C      3      6
3   A      1      0
4   B      2      6
5   C      3      1 

     data1  data2
key              
A        2      4
B        4     10
C        6      7
           data2
key data1       
A   1          4
B   2         10
C   3          7


In [4]:
import numpy as np
import pandas as pd

df = pd.DataFrame({
    'key': ['A', 'B', 'C', 'A', 'B', 'C'],
    'data1': [0, 1, 2, 3, 4, 5],
    'data2': [4, 4, 6, 0, 6, 1]
})
print("DataFrame:")
print(df, "\n")

# aggregate를 이용하여 요약 통계량을 산출해봅시다.
# 데이터 프레임을 'key' 칼럼으로 묶고, data1과 data2 각각의 최솟값, 중앙값, 최댓값을 출력하세요.
print(df.groupby('key').aggregate(['min',np.median, max]))

# 데이터 프레임을 'key' 칼럼으로 묶고, data1의 최솟값, data2의 합계를 출력하세요.
print(df.groupby('key').aggregate({'data1':'min', 'data2':np.sum}))

DataFrame:
  key  data1  data2
0   A      0      4
1   B      1      4
2   C      2      6
3   A      3      0
4   B      4      6
5   C      5      1 

    data1            data2           
      min median max   min median max
key                                  
A       0    1.5   3     0    2.0   4
B       1    2.5   4     4    5.0   6
C       2    3.5   5     1    3.5   6
     data1  data2
key              
A        0      4
B        1     10
C        2      7


In [5]:
import numpy as np
import pandas as pd

df = pd.DataFrame({
    'key': ['A', 'B', 'C', 'A', 'B', 'C'],
    'data1': [0, 1, 2, 3, 4, 5],
    'data2': [4, 4, 6, 0, 6, 1]
})
print("DataFrame:")
print(df, "\n")

# groupby()로 묶은 데이터에 filter를 적용해봅시다.
# key별 data2의 평균이 3이 넘는 인덱스만 출력해봅시다.

print("filtering : ")
def filter_by_mean(x):
    return x['data2'].mean() > 3
print(df.groupby('key').filter(filter_by_mean))

# groupby()로 묶은 데이터에 apply도 적용해봅시다.
# 람다식을 이용해 최댓값에서 최솟값을 뺀 값을 적용해봅시다.

print("applying : ")
print(df.groupby('key').apply(lambda x:x.max()-x.min()))

DataFrame:
  key  data1  data2
0   A      0      4
1   B      1      4
2   C      2      6
3   A      3      0
4   B      4      6
5   C      5      1 

filtering : 
  key  data1  data2
1   B      1      4
2   C      2      6
4   B      4      6
5   C      5      1
applying : 
     data1  data2
key              
A        3      4
B        3      2
C        3      5


In [6]:
import numpy as np
import pandas as pd

df1 = pd.DataFrame(
    np.random.randn(4, 2), 
    index=[['A', 'A', 'B', 'B'], [1, 2, 1, 2]],
    columns=['data1', 'data2']
)
print("DataFrame1")
print(df1, "\n")

df2 = pd.DataFrame(
    np.random.randn(4, 4),
    columns=[["A", "A", "B", "B"], ["1", "2", "1", "2"]]
)
print("DataFrame2")
print(df2, "\n")

# 명시적 인덱싱을 활용한 df1의 인덱스 출력
print("df1.loc['A', 1]")
print(df1.loc['A', 1], "\n") 


# df2의 [A][1] 칼럼 출력
print('df2["A"]["1"]')
print(df2["A"]["1"], "\n")

DataFrame1
        data1     data2
A 1  0.361357 -1.205104
  2 -0.418437  0.069307
B 1  1.097697 -0.399238
  2 -0.965120  0.684276 

DataFrame2
          A                   B          
          1         2         1         2
0  0.907656 -0.485977  0.482741  1.384145
1 -0.719731 -0.159575  0.495445 -1.057930
2  0.325982  1.278920  0.179958  0.952235
3  2.026299  1.422196  0.120990  0.308623 

df1.loc['A', 1]
data1    0.361357
data2   -1.205104
Name: (A, 1), dtype: float64 

df2["A"]["1"]
0    0.907656
1   -0.719731
2    0.325982
3    2.026299
Name: 1, dtype: float64 

