In [7]:
# 데이터 프레임의 마스킹


import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randint(1, 10, (3, 3)), index=[0, 1, 2], columns=["A", "B", "C"])
# 데이터 프레임 출력하기
print(df)
# 컬럼 A의 각 원소가 5보다 작거나 같은지 출력
print(df["A"] <= 5)
# 컬럼 A의 원소가 5보다 작고, 컬럼 B의 원소가 8보다 작은 행 추출
# query() : 조건 부합 데이터 추출 
print(df.query("A <= 5 and B <= 8"))


   A  B  C
0  3  3  9
1  6  9  3
2  3  6  4
0     True
1    False
2     True
Name: A, dtype: bool
   A  B  C
0  3  3  9
2  3  6  4


In [8]:
# 데이터 프레임의 개별 연산

import pandas as pd

df = pd.DataFrame([[1, 2, 3, 4], [1, 2, 3, 4]], index=[0, 1], columns=["A", "B", "C", "D"])
print(df)

# lambda란 함수를 한 줄로 표현하는 익명 함수 기법
df = df.apply(lambda x: x + 1)
print(df)

# def 함수이름(): # 첫 행
# 본문 # 함수를 호출했을 때, 실행할 코드 블록
def addOne(x):
  return x + 1
  
df = df.apply(addOne)
print(df)

   A  B  C  D
0  1  2  3  4
1  1  2  3  4
   A  B  C  D
0  2  3  4  5
1  2  3  4  5
   A  B  C  D
0  3  4  5  6
1  3  4  5  6


In [9]:
import pandas as pd

df = pd.DataFrame([
  ['Apple', 'Apple', 'Carrot', 'Banana'],
  ['Durian', 'Banana', 'Apple', 'Carrot']],
  index=[0, 1],
  columns=["A", "B", "C", "D"])

print(df)
df = df.replace({"Apple": "Airport"})
print(df)

        A       B       C       D
0   Apple   Apple  Carrot  Banana
1  Durian  Banana   Apple  Carrot
         A        B        C       D
0  Airport  Airport   Carrot  Banana
1   Durian   Banana  Airport  Carrot


In [10]:
# 데이터 프레임의 그룹화
import pandas as pd

df = pd.DataFrame([
  ['Apple', 7, 'Fruit'],
  ['Banana', 3, 'Fruit'],
  ['Beef', 5, 'Meal'],
  ['Kimchi', 4, 'Meal']],
  columns=["Name", "Frequency", "Type"])

print(df)
# groupby : 주어진 데이터를 그룹 별로 구분하여 데이터를 보기 위해 사용되는 함수이다.
print(df.groupby(['Type']).sum())

     Name  Frequency   Type
0   Apple          7  Fruit
1  Banana          3  Fruit
2    Beef          5   Meal
3  Kimchi          4   Meal
       Frequency
Type            
Fruit         10
Meal           9


In [11]:
import numpy as np
import pandas as pd

df = pd.DataFrame([
  ['Apple', 7, 5, 'Fruit'],
  ['Banana', 3, 6, 'Fruit'],
  ['Beef', 5, 2, 'Meal'],
  ['Kimchi', 4, 8, 'Meal']],
  columns=["Name", "Frequency", "Importance", "Type"])

print(df)
# aggregate : 내가 원하는 함수를 직접 만들어 사용하고, dataframe에 적용시킬 수 있음
print(df.groupby(["Type"]).aggregate([min, max, np.average]))

     Name  Frequency  Importance   Type
0   Apple          7           5  Fruit
1  Banana          3           6  Fruit
2    Beef          5           2   Meal
3  Kimchi          4           8   Meal
      Frequency             Importance            
            min max average        min max average
Type                                              
Fruit         3   7     5.0          5   6     5.5
Meal          4   5     4.5          2   8     5.0


In [22]:
import pandas as pd

df = pd.DataFrame([
  ['Apple', 7, 5, 'Fruit'],
  ['Banana', 3, 6, 'Fruit'],
  ['Beef', 5, 2, 'Meal'],
  ['Kimchi', 4, 8, 'Meal']],
  columns=["Name", "Frequency", "Importance", "Type"])


def my_filter(data):
  return data["Frequency"].mean() >= 5


print(df)
#group객체.filter(조건식 함수)로 사용하며, 개별원소에 대한 필터링이 아니라, group객체를 필터링 한다는 것
df = df.groupby("Type").filter(my_filter)
print(df)

     Name  Frequency  Importance   Type
0   Apple          7           5  Fruit
1  Banana          3           6  Fruit
2    Beef          5           2   Meal
3  Kimchi          4           8   Meal
     Name  Frequency  Importance   Type
0   Apple          7           5  Fruit
1  Banana          3           6  Fruit


In [24]:
import pandas as pd

df = pd.DataFrame([
  ['Apple', 7, 5, 'Fruit'],
  ['Banana', 3, 6, 'Fruit'],
  ['Beef', 5, 2, 'Meal'],
  ['Kimchi', 4, 8, 'Meal']],
  columns=["Name", "Frequency", "Importance", "Type"])
#get_group() 메서드로 특정 그룹만 가져오기
df = df.groupby("Type").get_group("Fruit")
print(df)


     Name  Frequency  Importance   Type
0   Apple          7           5  Fruit
1  Banana          3           6  Fruit


In [25]:
import pandas as pd

df = pd.DataFrame([
  ['Apple', 7, 5, 'Fruit'],
  ['Banana', 3, 6, 'Fruit'],
  ['Beef', 5, 2, 'Meal'],
  ['Kimchi', 4, 8, 'Meal']],
  columns=["Name", "Frequency", "Importance", "Type"])

df["Gap"] = df.groupby("Type")["Frequency"].apply(lambda x: x - x.mean())
print(df)

     Name  Frequency  Importance   Type  Gap
0   Apple          7           5  Fruit  2.0
1  Banana          3           6  Fruit -2.0
2    Beef          5           2   Meal  0.5
3  Kimchi          4           8   Meal -0.5


In [29]:
# 데이터 프레임의 다중화

import numpy as np
import pandas as pd

df = pd.DataFrame(
  np.random.randint(1, 10, (4, 4)),
  index=[['1차', '1차', '2차', '2차'], ['공격', '수비', '공격', '수비']],
  columns=['1회', '2회', '3회', '4회']
)

print(df)
print(df[["1회", "2회"]].loc["2차"])

       1회  2회  3회  4회
1차 공격   4   8   7   8
   수비   5   8   4   7
2차 공격   8   6   8   4
   수비   3   6   8   3
    1회  2회
공격   8   6
수비   3   6


In [32]:
# 피벗 테이블의 기초 

import numpy as np
import pandas as pd

df = pd.DataFrame([
    ['Apple', 7, 5, 'Fruit'],
    ['Banana', 3, 6, 'Fruit'],
    ['Coconut', 2, 6, 'Fruit'],
    ['Rice', 8, 2, 'Meal'],
    ['Beef', 5, 2, 'Meal'],
    ['Kimchi', 4, 8, 'Meal']],
   columns=["Name", "Frequency", "Importance", "Type"])

print(df)
# 피벗(Pivot) 테이블이란 많은 양의 데이터에서 필요한 자료만을 뽑아 새롭게 표를 작성해 주는 기능
# 피벗 테이블을 사용하면 사용자 임의대로 데이터를 정렬하고 필터링 할 수 있음
# tips.pivot(index=[행 인덱스], columns=[열 인덱스], values=[분석하고자 하는 KEY FIGURE(변수)])
# aggfunc 라는 옵션을 통해 해당 데이터의 통계량을 바로 계산하는 것이 가능하다
# aggfunc : 데이터 축약 시 사용할 함수 (mean, sum, count ...)

출처: https://data-make.tistory.com/135 [Data Makes Our Future]
df = df.pivot_table(
    index="Importance", columns="Type", values="Frequency",
    aggfunc=np.max
)
print(df)

      Name  Frequency  Importance   Type
0    Apple          7           5  Fruit
1   Banana          3           6  Fruit
2  Coconut          2           6  Fruit
3     Rice          8           2   Meal
4     Beef          5           2   Meal
5   Kimchi          4           8   Meal
Type        Fruit  Meal
Importance             
2             NaN   8.0
5             7.0   NaN
6             3.0   NaN
8             NaN   4.0
