# 데이터 가져오기

In [9]:
import polars as pl
pl.__version__

'1.22.0'

In [10]:
import pandas as pd
pd.__version__

'2.2.3'

In [2]:
contoso_sales = pl.read_csv("data/ch08/contoso_sales.csv")
contoso_sales.head(1)

Order Number,Line Number,Order Date,Delivery Date,Customer Name,Customer Gender,Customer Country,Customer Age,Store Name,Product Name,Color,Brand,Category,Subcategory,Quantity,Unit Price,Net Price,Unit Cost,Currency Code,Exchange Rate
i64,i64,str,str,str,str,str,i64,str,str,str,str,str,str,i64,f64,f64,f64,str,f64
284806,1,"""2017-10-18""","""2017-10-20""","""Eric Kennedy""","""Male""","""United States""",47,"""Online store""","""Contoso 512MB MP3 Player E51 S…","""Silver""","""Contoso""","""Audio""","""MP4&MP3""",7,11.691,10.288,5.958,"""USD""",1.0


# 레시피 37 : 집계함수 기초 

In [3]:
from polars import selectors as cs 
# 수치형 컬럼만 선택하고 합계 계산하기
# Select numeric columns and calculate their sums
contoso_sales.select(cs.numeric()).sum()

Order Number,Line Number,Customer Age,Quantity,Unit Price,Net Price,Unit Cost,Exchange Rate
i64,i64,i64,i64,f64,f64,f64,f64
4466019052,16195,725757,43517,4178500.0,3928600.0,1735600.0,14124.4597


In [4]:
# Quantity 컬럼을 series로 변환하고 합계 계산
# Convert Quantity column to series and calculate sum
print(contoso_sales.get_column("Quantity").sum())
print(contoso_sales.select(pl.col("Quantity")).sum())

43517
shape: (1, 1)
┌──────────┐
│ Quantity │
│ ---      │
│ i64      │
╞══════════╡
│ 43517    │
└──────────┘


In [10]:
# value_counts() 함수 적용
contoso_sales.get_column("Store Name").value_counts().head(5)

Store Name,count
str,u32
"""Contoso Store West Virginia""",142
"""Contoso Store Kansas""",131
"""Contoso Store Montana""",106
"""Contoso Store New Brunswick""",210
"""Contoso Store North Dakota""",138


In [11]:
# Store Name 컬럼의 값별 빈도수를 정렬하여 계산
contoso_sales.get_column("Store Name").value_counts(sort=True).head(5)

Store Name,count
str,u32
"""Online store""",8005
"""Contoso Store New Brunswick""",210
"""Contoso Store Nunavut""",170
"""Contoso Store Oregon""",167
"""Contoso Store Maine""",165


In [14]:
# 정규화된 빈도수 계산 (비율)
contoso_sales.get_column("Store Name").value_counts(sort=True, normalize=True).head(5)

Store Name,proportion
str,f64
"""Online store""",0.575278
"""Contoso Store New Brunswick""",0.015092
"""Contoso Store Nunavut""",0.012217
"""Contoso Store Oregon""",0.012001
"""Contoso Store Maine""",0.011858


### 특정 스토어 이름으로 필터링하고 수량 합계 계산

In [8]:
# Polars 버전 - 스토어 이름으로 필터링하고 수량 합계 계산
# Polars version - Filter store name and sum quantity
store_quantity_pl = contoso_sales.filter(pl.col("Store Name") == "Contoso Store Corse").select("Quantity").sum()
print("Contoso Store Corse 수량 합계 (Polars):")
print(store_quantity_pl)

Contoso Store Corse 수량 합계 (Polars):
shape: (1, 1)
┌──────────┐
│ Quantity │
│ ---      │
│ i64      │
╞══════════╡
│ 56       │
└──────────┘


In [9]:
# Polars 버전 - when() 함수를 사용한 필터링과 수량 합계 계산 
# Polars version - Filter using when() function and sum quantity
store_quantity_when = contoso_sales.select(
    pl.when(pl.col("Store Name") == "Contoso Store Corse")
    .then(pl.col("Quantity"))
    .otherwise(0)
    .sum()
)

print("Contoso Store Corse 수량 합계 (when 사용):")
print(store_quantity_when)

Contoso Store Corse 수량 합계 (when 사용):
shape: (1, 1)
┌──────────┐
│ Quantity │
│ ---      │
│ i64      │
╞══════════╡
│ 56       │
└──────────┘


In [10]:
# Pandas 버전 - Pandas로 변환하여 스토어 필터링 후 수량 합계 계산
# Pandas version - Convert to pandas, filter store and sum quantity
import pandas as pd
contoso_sales_pd = contoso_sales.to_pandas()
store_quantity_pd = contoso_sales_pd[contoso_sales_pd["Store Name"] == "Contoso Store Corse"]["Quantity"].sum()
print("\nContoso Store Corse 수량 합계 (Pandas):")
print(store_quantity_pd)


Contoso Store Corse 수량 합계 (Pandas):
56


# 레시피 38 : polars vs pandas 데이터 변환 비교

## 데이터 조회

In [5]:
import polars as pl 
contoso_sales = pl.read_csv("data/ch08/contoso_sales.csv")
contoso_sales.head(1)

Order Number,Line Number,Order Date,Delivery Date,Customer Name,Customer Gender,Customer Country,Customer Age,Store Name,Product Name,Color,Brand,Category,Subcategory,Quantity,Unit Price,Net Price,Unit Cost,Currency Code,Exchange Rate
i64,i64,str,str,str,str,str,i64,str,str,str,str,str,str,i64,f64,f64,f64,str,f64
284806,1,"""2017-10-18""","""2017-10-20""","""Eric Kennedy""","""Male""","""United States""",47,"""Online store""","""Contoso 512MB MP3 Player E51 S…","""Silver""","""Contoso""","""Audio""","""MP4&MP3""",7,11.691,10.288,5.958,"""USD""",1.0


### polars 버전

In [6]:
# Data processing using Polars
print("\nPolars select를 활용한 데이터 조회:")
contoso_sales.select(["Store Name", "Quantity", "Net Price"]).head(1)


Polars select를 활용한 데이터 조회:


Store Name,Quantity,Net Price
str,i64,f64
"""Online store""",7,10.288


### pandas 버전

In [10]:
# Pandas loc를 활용한 데이터 처리
# Data processing using pandas loc
contoso_sales_pd = contoso_sales.to_pandas()

print("\nPandas loc를 활용한 데이터 조회:")
contoso_sales_pd.loc[:, ["Store Name", "Quantity", "Net Price"]].head(1)


Pandas loc를 활용한 데이터 조회:


Unnamed: 0,Store Name,Quantity,Net Price
0,Online store,7,10.288


## 특정 조건 데이터 필터링

### polars 버전

In [11]:
# 특정 조건의 데이터 필터링 
filtered_data_pl = contoso_sales.filter(pl.col("Store Name") == "Contoso Store Corse")
print("\n특정 스토어 데이터:")
filtered_data_pl.head(1)


특정 스토어 데이터:


Order Number,Line Number,Order Date,Delivery Date,Customer Name,Customer Gender,Customer Country,Customer Age,Store Name,Product Name,Color,Brand,Category,Subcategory,Quantity,Unit Price,Net Price,Unit Cost,Currency Code,Exchange Rate
i64,i64,str,str,str,str,str,i64,str,str,str,str,str,str,i64,f64,f64,f64,str,f64
357705,0,"""2019-10-17""","""2019-10-17""","""Tabor Daigneault""","""Male""","""France""",35,"""Contoso Store Corse""","""Contoso 16GB Mp5 Player M1600 …","""White""","""Contoso""","""Audio""","""MP4&MP3""",1,199.9,173.913,91.93,"""EUR""",0.8998


### pandas 버전

In [14]:
# 특정 조건의 데이터 필터링
filtered_data = contoso_sales_pd.loc[contoso_sales_pd["Store Name"] == "Contoso Store Corse"]
print("\n특정 스토어 데이터:")
filtered_data.head(1)


특정 스토어 데이터:


Unnamed: 0,Order Number,Line Number,Order Date,Delivery Date,Customer Name,Customer Gender,Customer Country,Customer Age,Store Name,Product Name,Color,Brand,Category,Subcategory,Quantity,Unit Price,Net Price,Unit Cost,Currency Code,Exchange Rate
68,357705,0,2019-10-17,2019-10-17,Tabor Daigneault,Male,France,35,Contoso Store Corse,Contoso 16GB Mp5 Player M1600 White,White,Contoso,Audio,MP4&MP3,1,199.9,173.913,91.93,EUR,0.8998


## 다중조건을 활용한 데이터 필터링 

### polars 버전

In [15]:
# 다중 조건을 활용한 데이터 필터링
multi_condition_pl = contoso_sales.filter(
    (pl.col("Store Name") == "Contoso Store Corse") & 
    (pl.col("Net Price") > 400)
)
print("\n다중 조건 필터링 결과:")
multi_condition_pl.head(1)


다중 조건 필터링 결과:


Order Number,Line Number,Order Date,Delivery Date,Customer Name,Customer Gender,Customer Country,Customer Age,Store Name,Product Name,Color,Brand,Category,Subcategory,Quantity,Unit Price,Net Price,Unit Cost,Currency Code,Exchange Rate
i64,i64,str,str,str,str,str,i64,str,str,str,str,str,str,i64,f64,f64,f64,str,f64
349303,0,"""2019-07-25""","""2019-07-25""","""Fanette Robitaille""","""Female""","""France""",41,"""Contoso Store Corse""","""Adventure Works Desktop PC1.80…","""White""","""Adventure Works""","""Computers""","""Desktops""",2,499.9,439.912,254.86,"""EUR""",0.8997


### pandas 버전

In [17]:
# 다중 조건을 활용한 데이터 필터링
multi_condition = contoso_sales_pd.loc[
    (contoso_sales_pd["Store Name"] == "Contoso Store Corse") & 
    (contoso_sales_pd["Net Price"] > 400)
]
print("\n다중 조건 필터링 결과:")
multi_condition.head(1)


다중 조건 필터링 결과:


Unnamed: 0,Order Number,Line Number,Order Date,Delivery Date,Customer Name,Customer Gender,Customer Country,Customer Age,Store Name,Product Name,Color,Brand,Category,Subcategory,Quantity,Unit Price,Net Price,Unit Cost,Currency Code,Exchange Rate
2634,349303,0,2019-07-25,2019-07-25,Fanette Robitaille,Female,France,41,Contoso Store Corse,Adventure Works Desktop PC1.80 ED182 White,White,Adventure Works,Computers,Desktops,2,499.9,439.912,254.86,EUR,0.8997


# Group By 연산

In [2]:
import polars as pl
contoso_sales = pl.read_csv("data/ch08/contoso_sales.csv")

## 레시피 39 : Store별 판매 수량과 매출액 집계

### polars 버전

In [3]:
# Store별 판매 수량과 순 매출액 집계
store_summary = contoso_sales.group_by("Store Name").agg([
    pl.col("Quantity").sum().alias("Total Quantity"),
    pl.col("Net Price").sum().alias("Total Net Sales")
]).sort("Total Quantity", descending=True)

print("스토어별 판매 현황:")
store_summary.head(2)

스토어별 판매 현황:


Store Name,Total Quantity,Total Net Sales
str,i64,f64
"""Online store""",25017,2262400.0
"""Contoso Store New Brunswick""",631,63170.8342


### pandas 버전

In [4]:
# Store별 판매 수량과 순 매출액 집계 - pandas 버전
contoso_sales_pandas = contoso_sales.to_pandas()
store_summary_pandas = contoso_sales_pandas.groupby("Store Name").agg({
    "Quantity": "sum",
    "Net Price": "sum"
}).rename(columns={
    "Quantity": "Total Quantity",
    "Net Price": "Total Net Sales"
}).sort_values("Total Quantity", ascending=False)

print("스토어별 판매 현황:")
store_summary_pandas.head(2)

스토어별 판매 현황:


Unnamed: 0_level_0,Total Quantity,Total Net Sales
Store Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Online store,25017,2262381.0
Contoso Store New Brunswick,631,63170.83


## 레시피 40 : 스토어-제품별 상세 현황

### polars 버전

In [5]:
# 여러 컬럼으로 그룹화하고 다양한 집계 함수 적용
detailed_summary = contoso_sales.group_by(["Store Name", "Product Name"]).agg([
    pl.col("Quantity").sum().alias("Total Quantity"),
    pl.col("Quantity").count().alias("Number of Orders"), 
    pl.col("Net Price").mean().alias("Avg Net Price")
]).sort("Total Quantity", descending=True)

print("\n스토어-제품별 상세 현황:")
detailed_summary.head(5)


스토어-제품별 상세 현황:


Store Name,Product Name,Total Quantity,Number of Orders,Avg Net Price
str,str,i64,u32,f64
"""Online store""","""Contoso DVD Recorder L210 Silv…",112,28,215.503821
"""Online store""","""WWI Desktop PC3.0 M0300 Silver""",111,23,373.733478
"""Online store""","""Adventure Works Desktop PC1.60…",90,24,293.964296
"""Online store""","""SV DVD External DVD Burner M20…",84,21,57.26261
"""Online store""","""Contoso DVD 48 DVD Storage Bin…",83,25,17.366824


### pandas 버전

In [6]:
# 스토어-제품별 상세 현황 - pandas 버전
detailed_summary_pandas = contoso_sales_pandas.groupby(["Store Name", "Product Name"]).agg({
    "Quantity": ["sum", "count"],
    "Net Price": "mean"
}).reset_index()

# 컬럼명 변경
detailed_summary_pandas.columns = ["Store Name", "Product Name", "Total Quantity", "Number of Orders", "Avg Net Price"]

print("\n스토어-제품별 상세 현황 (pandas):")
detailed_summary_pandas.sort_values("Total Quantity", ascending=False).head(5)


스토어-제품별 상세 현황 (pandas):


Unnamed: 0,Store Name,Product Name,Total Quantity,Number of Orders,Avg Net Price
6013,Online store,Contoso DVD Recorder L210 Silver,112,28,215.503821
7448,Online store,WWI Desktop PC3.0 M0300 Silver,111,23,373.733478
5769,Online store,Adventure Works Desktop PC1.60 ED160 Silver,90,24,293.964296
7191,Online store,SV DVD External DVD Burner M200 Black,84,21,57.26261
5984,Online store,Contoso DVD 48 DVD Storage Binder M50 Black,83,25,17.366824


## 레시피 41 : 월별 매출 트렌드 분석

### polars 버전

In [57]:
# 월별 매출 트렌드 분석
monthly_sales = contoso_sales.with_columns([
    pl.col("Order Date").str.strptime(pl.Date).dt.strftime("%Y-%m").alias("Month")
]).group_by("Month").agg([
    pl.col("Net Price").sum().alias("Monthly Sales"),
    pl.col("Quantity").sum().alias("Monthly Quantity")
]).sort("Month")

print("월별 매출 트렌드:")
monthly_sales.head(2)

월별 매출 트렌드:


Month,Monthly Sales,Monthly Quantity
str,f64,i64
"""2017-05""",42107.7917,406
"""2017-06""",83015.3597,790


### pandas 버전

In [58]:
# 월별 매출 트렌드 분석 - pandas 버전
contoso_sales_pandas['Month'] = pd.to_datetime(contoso_sales_pandas['Order Date']).dt.strftime('%Y-%m')

monthly_sales_pandas = contoso_sales_pandas.groupby('Month').agg({
    'Net Price': 'sum',
    'Quantity': 'sum'
}).reset_index()

monthly_sales_pandas.columns = ['Month', 'Monthly Sales', 'Monthly Quantity']

print("\n월별 매출 트렌드 (pandas):")
monthly_sales_pandas.sort_values('Month').head(2)


월별 매출 트렌드 (pandas):


Unnamed: 0,Month,Monthly Sales,Monthly Quantity
0,2017-05,42107.7917,406
1,2017-06,83015.3597,790


## 레시피 42 : 카테고리별 성과 분석 (상위 5개)

### polars 버전

In [61]:
category_performance = contoso_sales.group_by("Category").agg([
    pl.col("Net Price").sum().alias("Total Sales"),
    pl.col("Net Price").mean().alias("Avg Price"),
    pl.col("Quantity").sum().alias("Total Units") 
]).sort("Total Sales", descending=True).head(5)

print("\n상위 5개 카테고리 성과:")
category_performance.head(2)


상위 5개 카테고리 성과:


Category,Total Sales,Avg Price,Total Units
str,f64,f64,i64
"""Computers""",1486900.0,445.458015,10503
"""Cell phones""",740308.5053,211.094527,10797


### pandas 버전

In [60]:
# 카테고리별 성과 분석 - pandas 버전
category_performance_pandas = contoso_sales_pandas.groupby('Category').agg({
    'Net Price': ['sum', 'mean'],
    'Quantity': 'sum'
}).reset_index()

# 컬럼명 재설정
category_performance_pandas.columns = ['Category', 'Total Sales', 'Avg Price', 'Total Units']

# 매출 기준 내림차순 정렬 후 상위 5개 추출
category_performance_pandas = category_performance_pandas.sort_values('Total Sales', ascending=False).head(5)

print("\n상위 5개 카테고리 성과 (pandas):")
category_performance_pandas.head(2)


상위 5개 카테고리 성과 (pandas):


Unnamed: 0,Category,Total Sales,Avg Price,Total Units
3,Computers,1486939.0,445.458015,10503
2,Cell phones,740308.5,211.094527,10797


## 레시피 43 : 고객 국가별 구매 패턴

### polars 버전

In [7]:
# 고객 국가별 구매 패턴
country_analysis = contoso_sales.group_by("Customer Country").agg([
    pl.col("Net Price").sum().alias("Total Sales"),
    pl.col("Customer Name").n_unique().alias("Unique Customers"),
    (pl.col("Net Price").sum() / pl.col("Customer Name").n_unique()).alias("Sales per Customer")
]).sort("Total Sales", descending=True)

print("\n국가별 고객 구매 분석:")
country_analysis.head(2)


국가별 고객 구매 분석:


Customer Country,Total Sales,Unique Customers,Sales per Customer
str,f64,u32,f64
"""United States""",2054300.0,2879,713.542429
"""Canada""",462249.0445,631,732.565839


### pandas 버전

In [11]:
# 고객 국가별 구매 패턴 - pandas 버전
country_analysis_pandas = contoso_sales_pandas.groupby('Customer Country').agg({
    'Net Price': 'sum',
    'Customer Name': pd.Series.nunique
}).reset_index()

# Sales per Customer 계산
country_analysis_pandas['Sales per Customer'] = country_analysis_pandas['Net Price'] / country_analysis_pandas['Customer Name']

# 컬럼명 재설정
country_analysis_pandas.columns = ['Customer Country', 'Total Sales', 'Unique Customers', 'Sales per Customer']

# 매출 기준 내림차순 정렬
country_analysis_pandas = country_analysis_pandas.sort_values('Total Sales', ascending=False)

print("\n국가별 고객 구매 분석 (pandas):")
country_analysis_pandas.head(2)


국가별 고객 구매 분석 (pandas):


Unnamed: 0,Customer Country,Total Sales,Unique Customers,Sales per Customer
7,United States,2054289.0,2879,713.542429
1,Canada,462249.0,631,732.565839


## 레시피 44 : 고객 국가별 상품별 매출 분석 (상위 5)

### polars 버전

In [12]:
import polars as pl
contoso_sales = pl.read_csv("data/ch08/contoso_sales.csv")
contoso_sales.head(1)

Order Number,Line Number,Order Date,Delivery Date,Customer Name,Customer Gender,Customer Country,Customer Age,Store Name,Product Name,Color,Brand,Category,Subcategory,Quantity,Unit Price,Net Price,Unit Cost,Currency Code,Exchange Rate
i64,i64,str,str,str,str,str,i64,str,str,str,str,str,str,i64,f64,f64,f64,str,f64
284806,1,"""2017-10-18""","""2017-10-20""","""Eric Kennedy""","""Male""","""United States""",47,"""Online store""","""Contoso 512MB MP3 Player E51 S…","""Silver""","""Contoso""","""Audio""","""MP4&MP3""",7,11.691,10.288,5.958,"""USD""",1.0


In [38]:
# 고객 국가별 상품별 매출 분석 (상위 5)
country_product_analysis = (
    contoso_sales.group_by(["Customer Country", "Product Name"])
    .agg([
        pl.col("Net Price").sum().alias("Total Sales"),
        pl.col("Quantity").sum().alias("Total Units"),
        pl.col("Net Price").mean().alias("Avg Price")
    ])
    .sort(["Customer Country", "Total Sales"], descending=[False, True])
    .group_by("Customer Country")
    .head(5)
)

print("국가별 상위 5개 인기 상품:")
country_product_analysis.head(10)

국가별 상위 5개 인기 상품:


Customer Country,Product Name,Total Sales,Total Units,Avg Price
str,str,f64,i64,f64
"""United Kingdom""","""Adventure Works 52"" LCD HDTV X…",5277.9818,6,2638.9909
"""United Kingdom""","""WWI Desktop PC2.33 X2330 Silve…",4434.175,9,1108.54375
"""United Kingdom""","""NT Washer & Dryer 25.5in M2550…",3542.022,10,1771.011
"""United Kingdom""","""WWI Desktop PC2.30 M2300 Brown""",3485.365,17,580.894167
"""United Kingdom""","""Litware Refrigerator 24.7CuFt …",3199.99,3,3199.99
"""Netherlands""","""Litware Refrigerator L1200 Ora…",2879.991,4,2879.991
"""Netherlands""","""Adventure Works 52"" LCD HDTV X…",2667.9908,1,2667.9908
"""Netherlands""","""Adventure Works Desktop PC2.33…",2645.37,6,1322.685
"""Netherlands""","""Adventure Works 52"" LCD HDTV X…",2609.991,4,2609.991
"""Netherlands""","""Adventure Works Desktop PC2.33…",2422.5,16,1211.25


### pandas 버전

In [39]:
# 고객 국가별 상품별 매출 분석 (상위 5)
contoso_sales_pandas = contoso_sales.to_pandas()
country_product_analysis_pandas = (
    contoso_sales_pandas.groupby(["Customer Country", "Product Name"])
    .agg({
        "Net Price": ["sum", "mean"],
        "Quantity": "sum"
    })
    .reset_index()
)

# 다중 인덱스 컬럼 이름 변경
country_product_analysis_pandas.columns = [
    "Customer Country", "Product Name", "Total Sales", "Avg Price", "Total Units"
]

# 국가별로 매출 기준 내림차순 정렬하고 상위 5개 선택
country_product_analysis_pandas = (
    country_product_analysis_pandas
    .sort_values(["Customer Country", "Total Sales"], ascending=[True, False])
    .groupby("Customer Country")
    .head(5)
    .reset_index(drop=True)
)

print("\n국가별 상위 5개 인기 상품 (pandas):")
country_product_analysis_pandas.head(5)


국가별 상위 5개 인기 상품 (pandas):


Unnamed: 0,Customer Country,Product Name,Total Sales,Avg Price,Total Units
0,Australia,"Adventure Works 52"" LCD HDTV X590 Black",5422.9813,2711.49065,4
1,Australia,WWI Desktop PC2.33 X2330 White,3924.13,981.0325,8
2,Australia,Adventure Works Desktop PC2.33 XD233 Brown,3716.115,1238.705,12
3,Australia,WWI Desktop PC2.33 X2330 Brown,3051.08,1017.026667,12
4,Australia,"Adventure Works 52"" LCD HDTV X790W White",3041.102,1520.551,2
