In [7]:
# Pandas의 활용

# 데이터 프레임의 마스킹

import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randint(1, 10, (2, 2)), index=[0, 1], columns=["A", "B"])
# 데이터 프레임 출력하기
print(df)
# 컬럼 A의 각 원소가 5보다 작거나 같은지 출력
print(df["A"] <= 5)
# 컬럼 A의 원소가 5보다 작고, 컬럼 B의 원소가 8보다 작은 행 추출
print(df.query("A <= 5 and B <= 8"))

   A  B
0  4  9
1  3  6
0    True
1    True
Name: A, dtype: bool
   A  B
1  3  6


In [13]:
# 데이터 프레임의 개별 연산 ①

import pandas as pd

df = pd.DataFrame([[1, 2, 3, 4], [1, 2, 3, 4]], index=[0, 1], columns=["A", "B", "C", "D"])
print(df)

df = df.apply(lambda x: x + 1)
print(df)

def addOne(x):
  return x + 1
  
df = df.apply(addOne)
print(df)

   A  B  C  D
0  1  2  3  4
1  1  2  3  4
   A  B  C  D
0  2  3  4  5
1  2  3  4  5
   A  B  C  D
0  3  4  5  6
1  3  4  5  6


In [20]:
# 데이터 프레임의 개별 연산 ②
import pandas as pd
df = pd.DataFrame([
  ["Apple","Apple", "Carrot", "Banana"],
  ["Durian", "Banana", "Apple", "Carrot"]],
  index=[0,1],
  columns=["A", "B", "C", "D"])


print(df)

df=df.replace({"Apple": "Airport"})
print(df)

        A       B       C       D
0   Apple   Apple  Carrot  Banana
1  Durian  Banana   Apple  Carrot
         A        B        C       D
0  Airport  Airport   Carrot  Banana
1   Durian   Banana  Airport  Carrot


In [22]:
# 데이터 프레임의 그룹화①
import pandas as pd

df = pd.DataFrame([

 ["Apple", 7, 'Fruit'],
 ["Banana", 3, 'Fruit'],
 ['Beef', 5, 'Meal'],
 ['Kimchi', 4, 'Meal']],
 columns=["Name", 'Frequency', 'Type'])


print(df)
print(df.groupby(['Type']).sum())

     Name  Frequency   Type
0   Apple          7  Fruit
1  Banana          3  Fruit
2    Beef          5   Meal
3  Kimchi          4   Meal
       Frequency
Type            
Fruit         10
Meal           9


In [17]:
#데이터 프레임의 그룹화 ②

import numpy as np
import pandas as pd

df = pd.DataFrame([
  ['Apple', 7, 5, 'Fruit'],
  ['Banana', 3, 6, 'Fruit'],
  ['Beef', 5, 2, 'Meal'],
  ['Kimchi', 4, 8, 'Meal']],
  columns=["Name", "Frequency", "Importance", "Type"])

print(df)
print(df.groupby(['Type']).aggregate([min, max, np.average]))



     Name  Frequency  Importance   Type
0   Apple          7           5  Fruit
1  Banana          3           6  Fruit
2    Beef          5           2   Meal
3  Kimchi          4           8   Meal
      Frequency             Importance            
            min max average        min max average
Type                                              
Fruit         3   7     5.0          5   6     5.5
Meal          4   5     4.5          2   8     5.0


In [25]:
#데이터 프레임의 그룹화 ③


import pandas as pd

df= pd.DataFrame([
 ["Apple", 7, 5, 'Fruit'],
 ['Banana', 3, 6, 'Fruit'],
 ['Beef', 5, 2, 'Meal'],
 ['Kimchi', 4, 8, 'Meal']],
 columns=['Name', 'Frquency', 'Importance', 'Type'])


def my_filter(data):
  return data["Frquency"].mean() >= 5



print(df)
df = df.groupby("Type").filter(my_filter)
print(df)

     Name  Frquency  Importance   Type
0   Apple         7           5  Fruit
1  Banana         3           6  Fruit
2    Beef         5           2   Meal
3  Kimchi         4           8   Meal
     Name  Frquency  Importance   Type
0   Apple         7           5  Fruit
1  Banana         3           6  Fruit


In [26]:
# 데이터 프레임의 그룹화④


import pandas as pd

df = pd.DataFrame([
  ['Apple', 7, 5, 'Fruit'],
  ['Banana', 3, 6, 'Fruit'],
  ['Beef', 5, 2, 'Meal'],
  ['Kimchi', 4, 8, 'Meal']],
  columns=["Name", "Frequency", "Importance", "Type"])

df = df.groupby("Type").get_group("Fruit")
print(df)


     Name  Frequency  Importance   Type
0   Apple          7           5  Fruit
1  Banana          3           6  Fruit


In [27]:
# 데이터 프레임의 그룹화 ⑤

df = pd.DataFrame([
  ['Apple', 7, 5, 'Fruit'],
  ['Banana', 3, 6, 'Fruit'],
  ['Beef', 5, 2, 'Meal'],
  ['Kimchi', 4, 8, 'Meal']],
  columns=["Name", "Frequency", "Importance", "Type"])


df["God"] = df.groupby('Type')["Frequency"].apply(lambda x: x- x.mean())
print(df)

     Name  Frequency  Importance   Type  God
0   Apple          7           5  Fruit  2.0
1  Banana          3           6  Fruit -2.0
2    Beef          5           2   Meal  0.5
3  Kimchi          4           8   Meal -0.5


In [28]:
# 데이터 프레임의 다중화
import numpy as np
import pandas as pd

df = pd.DataFrame(
  np.random.randint(1, 10, (4, 4)),
  index=[['1차', '1차', '2차', '2차'], ['공격', '수비', '공격', '수비']],
  columns=['1회', '2회', '3회', '4회']
)

print(df)
print(df[["1회", "2회"]].loc["2차"])

       1회  2회  3회  4회
1차 공격   2   2   8   8
   수비   5   3   7   2
2차 공격   8   2   2   6
   수비   1   8   8   7
    1회  2회
공격   8   2
수비   1   8


In [30]:
# 피벗 테이블의 기초 
import numpy as np
import pandas as pd

df = pd.DataFrame([
    ['Apple', 7, 5, 'Fruit'],
    ['Banana', 3, 6, 'Fruit'],
    ['Coconut', 2, 6, 'Fruit'],
    ['Rice', 8, 2, 'Meal'],
    ['Beef', 5, 2, 'Meal'],
    ['Kimchi', 4, 8, 'Meal']],
   columns=["Name", "Frequency", "Importance", "Type"])


print(df)

df = df.pivot_table(
 index="Importance", columns="Type", values="Frequency",
 aggfunc=np.max
)
print(df)



      Name  Frequency  Importance   Type
0    Apple          7           5  Fruit
1   Banana          3           6  Fruit
2  Coconut          2           6  Fruit
3     Rice          8           2   Meal
4     Beef          5           2   Meal
5   Kimchi          4           8   Meal
Type        Fruit  Meal
Importance             
2             NaN   8.0
5             7.0   NaN
6             3.0   NaN
8             NaN   4.0
