## Pandas VS Polars

### What is Pandas ?

- Pandas : 데이터 조작 및 분석을 위한 오픈소스 파이썬 라이브러리 
- Series, Dataframe 등으로 구조화된 데이터를 다루며, csv, parquet 등 다양한 포맷의 데이터 처리 가능 
- Series : 1차원 데이터 구조 
- Dataframe : 2차원 데이터 구조 

> pandas series, dataframe
> 
> ![series-dataframe-비교](./img/pandas-series-dataframe.png)
> 
> (https://medium.com/@sathwikasuggala17/pandas-data-structures-338ea5663eb6)

#### 장점
- 직관적 API 
- 다양한 파일 형식 지원 (csv, parquet, json, ...)
- 결측치 처리 간편 (NaN 처리 등)
- 그룹화, 집계 연산 효율적 (groupby, agg)
- 시계열 데이터 처리 특화
- numpy와 호환성 

> pandas example
> 
> ![pandas-example](./img/pandas-example.png)
> 
> (https://pbpython.com/pandas_transform.html)

#### 단점 
- 메모리 사용량 매우 큼 
  - 객체 처리 시 python object로 처리
  - numpy int8, float16 등 특정 타입으로 지정하지 않을 시, python 기본 데이터 타입이 사용됨
- 기본적으로 싱글 스레드로 동작
  - python GIL 이슈로 인해 싱글 스레드로 동작
  - 병렬 처리 원할 시, 별도 멀티 프로세싱 로직 작성하여 분산 처리 수행 필요
    - ex : https://www.delftstack.com/howto/python-pandas/python-use-multiprocessing-on-a-pandas-dataframe/
  - 따라서 대용량 데이터 처리에 부적합 
    - 대용량 데이터 처리 대안 : Spark, Dask 등 분산 처리 프레임워크 활용
    - 분산 환경 인프라 구성 및 관리, 프레임워크 러닝 커브 등의 단점 

> spark example
> 
> ![spark-example](./img/spark-example.png)
> 
> (https://medium.com/@k12shreyam/spark-for-parallel-processing-ef234b8ca034)


### What is Polars ?

- Polars : Rust로 구축된 데이터프레임 라이브러리 
- 북극곰 (Polar bear) + Rust 로, 판다 (panda) 보다 북극곰이 더 쎄다는 의미 
> polars naming
>
> ![polars-naming](./img/polars-naming.png)
>
> From Gemini

- Apache Arrow 메모리 모델로 사용하여 pandas 대비 성능 우수
- Lazy Evaluation으로 메모리 효율성 향상
  - Lazy Evaluation : 특정 데이터가 연산에 사용될 때만 메모리에 load하여 연산 수행
  - Pandas는 Eager 방식 (데이터 호출 시 메모리에 항상 저장 중)
  - Polars에서 Eager, Lazy Evaluation 모두 지원
    - Eager 방식 동작 시, DataFrame 타입으로 연산
    - Lazy 방식 동작 시, LazyFrame 타입으로 연산
- to_pandas() 메서드로 pandas와 호환성 제공 
- pandas와 마찬가지로 Series, DataFrame로 구조화된 1,2차원 데이터 처리 기능 
- 그룹화, join 등 병렬 처리 가능한 연산에서 기본으로 멀티 스레딩 제공
- Rust의 SIMD (Single Instruction, Multiple Data) 명령어 기능으로 벡터화된 연산 제공
  - SIMD : 하나의 명령 (instruction) 에서 여러 개 데이터를 처리 
  - 명령에 대해 순차적 처리가 아닌, 벡터 연산으로 한 번의 연산으로 처리
- streaming 엔진 기능으로 가용 메모리보다 더 큰 메모리 처리 가능
- gpu 엔진으로 gpu 환경에서 병렬 처리 지원 (nvidia rapids 베타 버전 지원 중)

> pandas vs polars
> 
> ![pandas-vs-polars](./img/pandas-vs-polars.png)
> 
> (https://www.kaggle.com/discussions/general/453522)

> Lazy Evaluation 
> 
> ![lazy-eval](./img/polars-eager-lazy.png)
> 
> (https://www.mdpi.com/2073-431X/14/8/319)

> SIMD
> 
> ![polars-simd](./img/polars-simd.png)
> 
> (https://pola.rs/posts/i-wrote-one-of-the-fastest-dataframe-libraries/)


#### 장점 
- pandas 대비 매우 빠른 성능, 메모리 효율성
- 멀티스레딩과 SIMD 최적화 기본 기능 
- streaming을 통한 대용량 데이터 처리 
- GPU 호환성 (베타 버전)
- Rust 기반의 타입 안전성

#### 단점 
- 신규 프로젝트에 따른 레퍼런스, 생태계 부족
- 모든 pandas 기능을 갖추진 않음 
- numpy, matplotlib 등 다른 python 라이브러리와의 호환성 부족 


### Comparison

- 핵심 성능 비교

| 항목 | 🐼 Pandas | 🐻‍❄️ Polars | 우수성
| --- | --- | --- | --- |
| 속도 | 기준점 | pandas 대비 5 ~ 30 배 빠름 | 🐻‍❄️ |
| 메모리 | 데이터 크기 5 ~ 10 배 필요 | 데이터 크기 2 ~ 4 배 필요 | 🐻‍❄️ |
| 병렬 처리 | 단일 스레드로만 동작 | 멀티 스레드, GPU 지원 | 🐻‍❄️ |
| 대용량 데이터 처리 | 메모리 제한으로 어려움 | 스트리밍 기능으로 대용량 데이터 처리 가능 | 🐻‍❄️ |

- 아키텍처

| 특징 | 🐼 Pandas | 🐻‍❄️ Polars |
| --- | --- | --- |
| 핵심 언어 | python + C (numpy) | Rust | 
| 메모리 모델 | numpy 배열 기반 | Apache Arrow 기반 |
| 컴파일 | 인터프리터 실행 | Rust 컴파일 | 
| 실행 방식 | Eager | Eager, Lazy |

- 생태계 호환성

| 분야 | 🐼 Pandas | 🐻‍❄️ Polars | 우수성 |
| --- | --- | --- | --- | 
| 시각화 | matplotlib 지원 | pandas로 변환 후 사용 필요 | 🐼 |
| 머신러닝, 딥러닝 | scikit-learn, pytorch 등 호환 | 최신 버전에서 제한적 지원 | 🐼 |
| 디버깅 | 직관적 | Lazy 모드 시 어려움 | 🐼 |

- 코드 레벨 기능 

| 기능 | 🐼 Pandas | 🐻‍❄️ Polars | 우수성 |
| --- | --- | --- | --- | 
| 인덱싱 | 라벨 기반 인덱싱 | 인덱스 개념 없음 | 🐼 | 
| pivot | 복잡한 pivot 테이블 가능 | 제한적 기능 제공 | 🐼 |
| 시계열 처리 | 복잡한 시계열 데이터 처리 | 제한적 기능 제공 | 🐼 |
| apply / map | 함수형 프로그래밍 가능 | 제한적 기능 제공 | 🐼 |
| null 처리 | NaN, None 등 혼재 | null 타입으로만 처리 | 🐻‍❄️ |

- 접근성 및 사용성

| 포맷 | 🐼 Pandas | 🐻‍❄️ Polars | 우수성 | 
| --- | --- | --- | --- | 
| 학습 난이도 | 보통 | 어려움 | 🐼 |
| 문서화 및 커뮤니티 | 풍부 | 적음 | 🐼 |
| 일관성 | 동일 기능 여러 API로 사용 가능 | 일관된 API | 🐻‍❄️ |
| 에러 처리 | 일부 에러 메시지 불친절 | 명확한 에러 메시지 | 🐻‍❄️ |

#### Pandas 사용 케이스
- 프로토타이핑
- 시각화, 머신러닝 파이프라인 등 다른 python 생태계와 호환성 필요 
- 복잡한 시계열 데이터 분석 
- 적은 러닝 커브, 빠른 적용

#### Polars 사용 케이스 
- 대용량 데이터 처리
- 속도, 메모리 성능 향상
- 신규 프로젝트 

#### 하이브리드 케이스
- polars로는 핵심 연산만 수행
- pandas로 시각화, 머신러닝 등 python 라이브러리와 연계 

#### refs
- https://pandas.pydata.org
- https://pola.rs
- https://techblog.woowahan.com/18632/
- https://modulabs.co.kr/blog/polars
- https://devocean.sk.com/blog/techBoardDetail.do?ID=167328&boardType=techBlog
- https://www.kaggle.com/discussions/general/453522


#### Test Dataset : https://www.kaggle.com/datasets/andrexibiza/grocery-sales-dataset

#### Dataset Dir : grocery-sales-dataset

#### Large File : sales.csv

- 총 675,8125 개 데이터
- 데이터셋 크기 : 517 MB

| Column | Type | Description |
| --- | --- | --- |
| SalesID | INT | 판매 기록 id | 
| SalesPersonID | INT | 판매자 id |
| CustomerID | INT | 구매자 id |
| ProductID | INT | 상품 id |
| Quantity | INT | 판매 수량 |
| Discount | DECIMAL(10,2) | 할인 금액 |
| TotalPrice | DECIMAL(10,2) | 최종 금액 |
| SalesDate | DATETIME | 판매 날짜 | 
| TransactionNumber | VARCHAR(25) | 트랜잭션 id |

#### Small File : products.csv

- 총 452 개 데이터
- 데이터셋 크기 : 37 KB

| Column | Type | Description | 
| --- | --- | --- |
| ProductID | INT | 상품 id |
| ProductName | VARCHAR(45) | 상품명 |
| Price | DECIMAL(4,0) | 상품 가격 | 
| CategoryID | INT | 상품 분류 id | 
| Class | VARCHAR(15) | 상품 분류 | 
| ModifyDate | DATE | 수정 날짜 | 
| Resistant | VARCHAR(15) | 상품 내구성 | 
| IsAllergic | VARCHAR | 알러지 여부 | 
| VitalityDays | DECIMAL(3,0) | 신선도 |

#### 주요 성능 비교 (처리 속도 / 메모리 사용량)
- csv 파일 읽기
- 필터링 (특정 조건 만족하는 부분 찾기)
- join 관련 (outer, inner 등)
- 정렬
- groupby

#### 비교 환경 
- Mac mini 2024
  - CPU : Apple M4
  - RAM : 24GB
- Python 3.13
  - Pandas : 2.3.1
  - polars : 1.32.2
  - numpy : 2.3.2

In [60]:
# 데이터셋 준비
# 위 사이트에서 zip 파일 해제 후, grocery-sales-dataset 디렉토리 생성 및 내부에 파일 위치하기

# 프로젝트 구조
# {project root}
# ㄴ grocery-sales-dataset
#   ㄴ products.csv
#   ㄴ sales.csv
# ㄴ img
# ㄴ compare.ipynb
# ㄴ requirements.txt 


In [None]:
# 실행 시간 및 메모리 측정 함수

import time 
import tracemalloc

def measure_time_memory(func) :
    tracemalloc.start()
    
    # 실행 시간 측정 (second)
    start_time = time.perf_counter()
    res = func()
    end_time = time.perf_counter()

    _, peak = tracemalloc.get_traced_memory()
    tracemalloc.stop()

    return {
        'time' : end_time - start_time,
        'memory' : peak / 1024 / 1024, # 메모리 측정 MB
        'result' : res
    }

In [None]:
# 실험 시 필요한 라이브러리 

import numpy as np 
import pandas as pd 
import polars as pl

In [None]:
# 메모리 측정 시 peak로 측정하여, 첫 번쨰 함수에 대해 이상하게 튀는 경우 있음
# 이를 방지하기 위함 

def prevent_weird_memory_peak() :
    a = 0
    for i in range(100) :
        a += i
    return a

In [None]:
# csv 파일 읽기

def test_csv_read(filepath) :
    print('csv 파일 읽기 테스트')
    print(f'file path : {filepath}')
    print('-----------------')

    # memory peak 튀는 경우 방지
    _ = measure_time_memory(prevent_weird_memory_peak)

    # polars 읽기 (eager)
    polars_result = measure_time_memory(lambda: pl.read_csv(filepath))
    print('polars csv 읽기 (eager)')
    print(f'time : {polars_result['time']:.3f} seconds')
    print(f'memory : {polars_result['memory']:.3f} MB')
    print('-----------------')

    # polars 읽기 (lazy) 
    polars_lazy_result = measure_time_memory(lambda: pl.scan_csv(filepath))
    print('polars csv 읽기 (lazy)')
    print(f'time : {polars_lazy_result['time']:.3f} seconds')
    print(f'memory : {polars_lazy_result['memory']:.3f} MB')
    print('-----------------')

    # polars 읽기 (lazy + collect)
    polars_lazy_collect_result = measure_time_memory(lambda: pl.scan_csv(filepath).collect())
    print('polars csv 읽기 (lazy + collect)')
    print(f'time : {polars_lazy_collect_result['time']:.3f} seconds')
    print(f'memory : {polars_lazy_collect_result['memory']:.3f} MB')
    print('-----------------')

    # pandas 읽기
    pandas_result = measure_time_memory(lambda: pd.read_csv(filepath))
    print('pandas csv 읽기')
    print(f'time : {pandas_result['time']:.3f} seconds')
    print(f'memory : {pandas_result['memory']:.3f} MB')
    print('-----------------')

small_file = './grocery-sales-dataset/products.csv'
large_file = './grocery-sales-dataset/sales.csv'

test_csv_read(small_file)
test_csv_read(large_file)

csv 파일 읽기 테스트
file path : ./grocery-sales-dataset/products.csv
-----------------
polars csv 읽기 (eager)
time : 0.002 seconds
memory : 0.010 MB
-----------------
polars csv 읽기 (lazy)
time : 0.000 seconds
memory : 0.001 MB
-----------------
polars csv 읽기 (lazy + collect)
time : 0.002 seconds
memory : 0.002 MB
-----------------
pandas csv 읽기
time : 0.006 seconds
memory : 0.310 MB
-----------------
csv 파일 읽기 테스트
file path : ./grocery-sales-dataset/sales.csv
-----------------
polars csv 읽기 (eager)
time : 0.157 seconds
memory : 0.002 MB
-----------------
polars csv 읽기 (lazy)
time : 0.000 seconds
memory : 0.001 MB
-----------------
polars csv 읽기 (lazy + collect)
time : 0.196 seconds
memory : 0.008 MB
-----------------
pandas csv 읽기
time : 6.434 seconds
memory : 1729.626 MB
-----------------


In [53]:
# 필터링 (products.csv)

def test_filtering_products() :
    # 필터링 테스트 
    # products.csv의 Price가 50 이상인 것, VitalityDays가 0 인것만 필터링
    products_file_path = './grocery-sales-dataset/products.csv'

    print('필터링 테스트')
    print('products.csv의 Price가 50 이상인 것, VitalityDays가 0 인것만 필터링')
    print('-----------------')

    # memory peak 튀는 경우 방지
    _ = measure_time_memory(prevent_weird_memory_peak)

    # polars 필터링 (eager)
    def polars_eager() :
        df = pl.read_csv(products_file_path)
        return df.filter((pl.col('Price') >= 50) & (pl.col('VitalityDays') == 0))
    
    res = measure_time_memory(polars_eager)
    print('polars 필터링 (eager)')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print(f'shape : {res['result'].shape}')
    print('-----------------')

    # polars 필터링 (lazy)
    def polars_lazy() :
        lf = pl.scan_csv(products_file_path)
        return lf.filter((pl.col('Price') >= 50) & (pl.col('VitalityDays') == 0)).collect()
    
    res = measure_time_memory(polars_lazy)
    print('polars 필터링 (lazy)')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print(f'shape : {res['result'].shape}')
    print('-----------------')

    # pandas 필터링 
    def pandas_() :
        df = pd.read_csv(products_file_path)
        return df[(df['Price'] >= 50) & (df['VitalityDays'] == 0)]
    
    res = measure_time_memory(pandas_)
    print('pandas 필터링')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print(f'shape : {res['result'].shape}')
    print('-----------------')

test_filtering_products()


필터링 테스트
products.csv의 Price가 50 이상인 것, VitalityDays가 0 인것만 필터링
-----------------
polars 필터링 (eager)
time : 0.003 seconds
memory : 0.010 MB
shape : (149, 9)
-----------------
polars 필터링 (lazy)
time : 0.001 seconds
memory : 0.002 MB
shape : (149, 9)
-----------------
pandas 필터링
time : 0.005 seconds
memory : 0.310 MB
shape : (149, 9)
-----------------


In [54]:
# 필터링 (sales.csv)

def test_filtering_sales() :
    # 필터링 테스트 
    # sales.csv의 Quantity가 10 이상인 것, TotalPrice가 0.0 인것만 필터링
    products_file_path = './grocery-sales-dataset/sales.csv'

    print('필터링 테스트')
    print('sales.csv의 Quantity가 10 이상인 것, TotalPrice가 0.0 인것만 필터링')
    print('-----------------')

    # memory peak 튀는 경우 방지
    _ = measure_time_memory(prevent_weird_memory_peak)

    # polars 필터링 (eager)
    def polars_eager() :
        df = pl.read_csv(products_file_path)
        return df.filter((pl.col('Quantity') >= 10) & (pl.col('TotalPrice') == 0.0))
    
    res = measure_time_memory(polars_eager)
    print('polars 필터링 (eager)')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print(f'shape : {res['result'].shape}')
    print('-----------------')

    # polars 필터링 (lazy)
    def polars_lazy() :
        lf = pl.scan_csv(products_file_path)
        return lf.filter((pl.col('Quantity') >= 10) & (pl.col('TotalPrice') == 0.0)).collect()
    
    res = measure_time_memory(polars_lazy)
    print('polars 필터링 (lazy)')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print(f'shape : {res['result'].shape}')
    print('-----------------')

    # pandas 필터링 
    def pandas_() :
        df = pd.read_csv(products_file_path)
        return df[(df['Quantity'] >= 10) & (df['TotalPrice'] == 0.0)]
    
    res = measure_time_memory(pandas_)
    print('pandas 필터링')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print(f'shape : {res['result'].shape}')
    print('-----------------')

test_filtering_sales()


필터링 테스트
sales.csv의 Quantity가 10 이상인 것, TotalPrice가 0.0 인것만 필터링
-----------------
polars 필터링 (eager)
time : 0.198 seconds
memory : 0.010 MB
shape : (4327118, 9)
-----------------
polars 필터링 (lazy)
time : 0.223 seconds
memory : 0.005 MB
shape : (4327118, 9)
-----------------
pandas 필터링
time : 7.235 seconds
memory : 1729.626 MB
shape : (4327118, 9)
-----------------


In [55]:
# join (outer, inner)
# join 기준 : ProductID

products_file_path = './grocery-sales-dataset/products.csv'
sales_file_path = './grocery-sales-dataset/sales.csv'
key = 'ProductID'

def polars_outer() :
    df_products = pl.read_csv(products_file_path)
    df_sales = pl.read_csv(sales_file_path)
    return df_products.join(df_sales, on=key, how='full')

def polars_inner() :
    df_products = pl.read_csv(products_file_path)
    df_sales = pl.read_csv(sales_file_path)
    return df_products.join(df_sales, on=key, how='inner')

def polars_lazy_outer() :
    lf_products = pl.scan_csv(products_file_path)
    lf_sales = pl.scan_csv(sales_file_path)
    return lf_products.join(lf_sales, on=key, how='full').collect()

def polars_lazy_inner() :
    lf_products = pl.scan_csv(products_file_path)
    lf_sales = pl.scan_csv(sales_file_path)
    return lf_products.join(lf_sales, on=key, how='inner').collect()

def pandas_outer() :
    df_products = pd.read_csv(products_file_path)
    df_sales = pd.read_csv(sales_file_path)
    return df_products.merge(df_sales, on=key, how='outer')

def pandas_inner() :
    df_products = pd.read_csv(products_file_path)
    df_sales = pd.read_csv(sales_file_path)
    return df_products.merge(df_sales, on=key, how='inner')


def test_join() :
    # products.csv 와 sales.csv outer, inner join
    # join 기준 : ProductID

    print('outer join 테스트')
    print('products.csv, sales.csv outer join 기준 : ProductID')
    print('-----------------')

    # memory peak 튀는 경우 방지
    _ = measure_time_memory(prevent_weird_memory_peak)

    res = measure_time_memory(polars_outer)
    print('polars outer join (eager)')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print(f'shape : {res['result'].shape}')
    print('-----------------')

    res = measure_time_memory(polars_lazy_outer)
    print('polars outer join (lazy)')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print(f'shape : {res['result'].shape}')
    print('-----------------')

    res = measure_time_memory(pandas_outer)
    print('pandas outer join')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print(f'shape : {res['result'].shape}')
    print('-----------------')

    print('inner join 테스트')
    print('products.csv, sales.csv inner join 기준 : ProductID')
    print('-----------------')

    res = measure_time_memory(polars_inner)
    print('polars inner join (eager)')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print(f'shape : {res['result'].shape}')
    print('-----------------')

    res = measure_time_memory(polars_lazy_inner)
    print('polars inner join (lazy)')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print(f'shape : {res['result'].shape}')
    print('-----------------')

    res = measure_time_memory(pandas_inner)
    print('pandas inner join')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print(f'shape : {res['result'].shape}')
    print('-----------------')


test_join()

outer join 테스트
products.csv, sales.csv outer join 기준 : ProductID
-----------------
polars outer join (eager)
time : 0.419 seconds
memory : 0.006 MB
shape : (6758125, 18)
-----------------
polars outer join (lazy)
time : 0.617 seconds
memory : 0.006 MB
shape : (6758125, 18)
-----------------
pandas outer join
time : 7.876 seconds
memory : 3534.331 MB
shape : (6758125, 17)
-----------------
inner join 테스트
products.csv, sales.csv inner join 기준 : ProductID
-----------------
polars inner join (eager)
time : 0.389 seconds
memory : 0.006 MB
shape : (6758125, 17)
-----------------
polars inner join (lazy)
time : 0.406 seconds
memory : 0.006 MB
shape : (6758125, 17)
-----------------
pandas inner join
time : 8.109 seconds
memory : 3534.324 MB
shape : (6758125, 17)
-----------------


In [57]:
# 정렬
# products.csv : Price 오름차순 정렬
# sales.csv : ProductID 오름차순 정렬

products_file_path = './grocery-sales-dataset/products.csv'
sales_file_path = './grocery-sales-dataset/sales.csv'

def polars_products_sort() :
    df = pl.read_csv(products_file_path)
    return df.sort('Price')

def polars_sales_sort() :
    df = pl.read_csv(sales_file_path)
    return df.sort('ProductID')

def polars_products_lazy_sort() :
    lf = pl.scan_csv(products_file_path)
    return lf.sort('Price').collect()

def polars_sales_lazy_sort() :
    lf = pl.scan_csv(sales_file_path)
    return lf.sort('ProductID').collect()

def pandas_products_sort() :
    df = pd.read_csv(products_file_path)
    return df.sort_values('Price')

def pandas_sales_sort() :
    df = pd.read_csv(sales_file_path)
    return df.sort_values('ProductID')


def test_sorting() :
    print('정렬 비교 테스트')
    print('products.csv : Price 오름차순 정렬')
    print('sales.csv : ProductID 오름차순 정렬')
    print('-----------------')

    # memory peak 튀는 경우 방지
    _ = measure_time_memory(prevent_weird_memory_peak)

    print('products.csv 정렬')
    print('-----------------')

    res = measure_time_memory(polars_products_sort)
    print('polars sort (eager)')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print('-----------------')

    res = measure_time_memory(polars_products_lazy_sort)
    print('polars sort (lazy)')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print('-----------------')

    res = measure_time_memory(pandas_products_sort)
    print('pandas sort')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print('-----------------')

    print('sales.csv 정렬')
    print('-----------------')

    res = measure_time_memory(polars_sales_sort)
    print('polars sort (eager)')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print('-----------------')

    res = measure_time_memory(polars_sales_lazy_sort)
    print('polars sort (lazy)')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print('-----------------')

    res = measure_time_memory(pandas_sales_sort)
    print('pandas sort')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print('-----------------')

test_sorting()

정렬 비교 테스트
products.csv : Price 오름차순 정렬
sales.csv : ProductID 오름차순 정렬
-----------------
products.csv 정렬
-----------------
polars sort (eager)
time : 0.001 seconds
memory : 0.013 MB
-----------------
polars sort (lazy)
time : 0.002 seconds
memory : 0.002 MB
-----------------
pandas sort
time : 0.006 seconds
memory : 0.310 MB
-----------------
sales.csv 정렬
-----------------
polars sort (eager)
time : 0.500 seconds
memory : 0.006 MB
-----------------
polars sort (lazy)
time : 0.467 seconds
memory : 0.005 MB
-----------------
pandas sort
time : 9.363 seconds
memory : 1832.726 MB
-----------------


In [59]:
# 그룹화
# products.csv : CategoryID 별로 그룹화
# sales.csv : CustomerID 별로 그룹화

products_file_path = './grocery-sales-dataset/products.csv'
sales_file_path = './grocery-sales-dataset/sales.csv'

def polars_products_group() :
    df = pl.read_csv(products_file_path)
    return df.group_by('CategoryID').len()

def polars_sales_group() :
    df = pl.read_csv(sales_file_path)
    return df.group_by('CustomerID').len()

def polars_products_lazy_group() :
    lf = pl.scan_csv(products_file_path)
    return lf.group_by('CategoryID').len().collect()

def polars_sales_lazy_group() :
    lf = pl.scan_csv(sales_file_path)
    return lf.group_by('CustomerID').len().collect()

def pandas_products_group() :
    df = pd.read_csv(products_file_path)
    return df.groupby('CategoryID').size()

def pandas_sales_group() :
    df = pd.read_csv(sales_file_path)
    return df.groupby('CustomerID').size()


def test_group() :
    print('그룹화 테스트')
    print('products.csv : CategoryID 별로 그룹화')
    print('sales.csv : CustomerID 별로 그룹화')
    print('-----------------')

    # memory peak 튀는 경우 방지
    _ = measure_time_memory(prevent_weird_memory_peak)

    print('products.csv 그룹화')
    print('-----------------')

    res = measure_time_memory(polars_products_group)
    print('polars grouping (eager)')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print(f'shape : {res['result'].shape}')
    print('-----------------')

    res = measure_time_memory(polars_products_lazy_group)
    print('polars grouping (lazy)')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print(f'shape : {res['result'].shape}')
    print('-----------------')

    res = measure_time_memory(pandas_products_group)
    print('pandas grouping')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print(f'shape : {res['result'].shape}')
    print('-----------------')

    print('sales.csv 그룹화')
    print('-----------------')

    res = measure_time_memory(polars_sales_group)
    print('polars grouping (eager)')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print(f'shape : {res['result'].shape}')
    print('-----------------')

    res = measure_time_memory(polars_sales_lazy_group)
    print('polars grouping (lazy)')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print(f'shape : {res['result'].shape}')
    print('-----------------')

    res = measure_time_memory(pandas_sales_group)
    print('pandas grouping')
    print(f'time : {res['time']:.3f} seconds')
    print(f'memory : {res['memory']:.3f} MB')
    print(f'shape : {res['result'].shape}')
    print('-----------------')


test_group()
    

그룹화 테스트
products.csv : CategoryID 별로 그룹화
sales.csv : CustomerID 별로 그룹화
-----------------
products.csv 그룹화
-----------------
polars grouping (eager)
time : 0.002 seconds
memory : 0.004 MB
shape : (11, 2)
-----------------
polars grouping (lazy)
time : 0.001 seconds
memory : 0.002 MB
shape : (11, 2)
-----------------
pandas grouping
time : 0.005 seconds
memory : 0.310 MB
shape : (11,)
-----------------
sales.csv 그룹화
-----------------
polars grouping (eager)
time : 0.219 seconds
memory : 0.008 MB
shape : (98759, 2)
-----------------
polars grouping (lazy)
time : 0.147 seconds
memory : 0.002 MB
shape : (98759, 2)
-----------------
pandas grouping
time : 7.772 seconds
memory : 1729.626 MB
shape : (98759,)
-----------------
