In [1]:
import pandas as pd

In [2]:
df = pd.DataFrame({"cat": ["food", "food", "snack", "snack", "snack"],
                   "type": ["A", "A", "B", "C", "B"],
                   "price": [100, 100, 300, 200, 500],
                   "star": [3.1, 3.5, 4.3, 4, 3.9]})
df

Unnamed: 0,cat,type,price,star
0,food,A,100,3.1
1,food,A,100,3.5
2,snack,B,300,4.3
3,snack,C,200,4.0
4,snack,B,500,3.9


In [3]:
len([2, 3, 5]) # 원소 개수 세기

3

집합 생성함수인 set() 을 활용하여 중복제거를 할 수 있다.

In [4]:
len(set(df["cat"]))

2

In [5]:
df["cat"].unique() # 반환 객체가 Pandas Series가 아닌 NumPy Array임

array(['food', 'snack'], dtype=object)

In [6]:
len(df["cat"].unique())

2

In [7]:
df["cat"].nunique()

2

In [8]:
df["cat"].value_counts()

snack    3
food     2
Name: cat, dtype: int64

In [9]:
df["cat"].value_counts(normalize = True) # 각 범주의 구성비 계산

snack    0.6
food     0.4
Name: cat, dtype: float64

In [10]:
df[["cat", "type"]].drop_duplicates() # DataFrame의 중복 행 제거에 사용

Unnamed: 0,cat,type
0,food,A
2,snack,B
3,snack,C


In [11]:
len(df[["cat", "type"]].drop_duplicates())

3

In [12]:
df[["cat", "type"]].drop_duplicates().shape[0]

3

In [15]:
df.groupby(["cat", "type"])["price"].count().reset_index() # 각 고유 행의 개수

Unnamed: 0,cat,type,price
0,food,A,2
1,snack,B,2
2,snack,C,1


Pandas의 crosstab() 함수는 두 변수간 매칭되는 각 범주들의 등장 횟수를 셀 수 있다.

In [16]:
pd.crosstab(df["cat"], df["type"])

type,A,B,C
cat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
food,2,0,0
snack,0,2,1


normalize 인자를 사용하여 정규화를 실시할 수 있으며, normalize 인자에 "True"를 입력할 경우 전체 원소 합 을 분모로 하고 각 원소를 분자로 하여 비율을 산출해준다. 그리고 normalize 인자에 0 또는 1을 입력하는 경우 0은 row 방향으로 비율을 산출하며 1은 column 방향으로 비율을 산출할 수 있다.

In [None]:
pd.crosstab(df["cat"], df["type"], normalize = True)

In [22]:
pd.crosstab(df["cat"], df["type"], normalize = 0)

type,A,B,C
cat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
food,1.0,0.0,0.0
snack,0.0,0.666667,0.333333


In [21]:
pd.crosstab(df["cat"], df["type"], normalize = 1)

type,A,B,C
cat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
food,1.0,0.0,0.0
snack,0.0,1.0,1.0


crosstab() 함수를 사용하는경우 두 변수의 범주를 기반으로 생성할 수 있는 모든 조합을 확인할 수 있으며 어떤 조합의 데이터가 없는지도 확인할 수 있다. 그리고 long form으로 정리하려면 .melt() 메서드를 사용할 수 있다.

In [20]:
pd.crosstab(df["cat"], df["type"]).reset_index().melt(id_vars = "cat")

Unnamed: 0,cat,type,value
0,food,A,2
1,snack,A,0
2,food,B,0
3,snack,B,2
4,food,C,0
5,snack,C,1


기본적인 사용은 두 변수이나 "index" 또는 "columns" 인자에 리스트 객체를 활용하여 다음과 같이 두 개 이상의 변수도 할당할 수 있으며 별도의 연산이 필요한 경우 "aggfunc" 인자에 요약연산을 실시하는 함수를 할당할 수 있다.

In [24]:
pd.crosstab(index = [df["cat"], df["type"]], columns = df["price"])

Unnamed: 0_level_0,price,100,200,300,500
cat,type,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
food,A,2,0,0,0
snack,B,0,0,1,1
snack,C,0,1,0,0
