## 대규모 데이터에서의 Polars와 Pandas 모듈의 속도 차이 비교

#### 고사양의 CPU의 경우에는 1번 cell 사용. 그렇지 않은 경우, 2번 cell 사용

In [2]:
# !pip install polars

In [3]:
!pip install polars-lts-cpu



In [4]:
!pip install pandas



In [5]:
!pip install numpy



## 1. 10**7개의 데이터일 때

In [6]:
import polars as pl

In [7]:
import pandas as pd

In [8]:
import numpy as np
import time

In [9]:
def generate_data(size):
    np.random.seed(42)
    data = {
        "category": np.random.choice(['A', 'B', 'C', 'D'], size = size),
        "value": np.random.rand(size)
    }

    return data

In [10]:
def pandas_experiment(data):
    df = pd.DataFrame(data)
    start_time = time.time()
    result = df.groupby("category")["value"].sum()
    end_time = time.time()

    return end_time-start_time

In [11]:
def polars_experiment(data):
    df = pl.DataFrame(data)
    start_time = time.time()
    result = df.group_by("category").agg(pl.col("value").sum())
    end_time = time.time()
    
    return end_time-start_time

In [12]:
data_7 = generate_data(10**7)

In [13]:
data_7

{'category': array(['C', 'D', 'A', ..., 'A', 'B', 'C'], dtype='<U1'),
 'value': array([0.51665332, 0.93733723, 0.45094102, ..., 0.67688807, 0.43130422,
        0.03021891])}

In [14]:
pandas_time_7 = pandas_experiment(data_7)
polars_time_7 = polars_experiment(data_7)

In [15]:
print("In 10**7 datas")
print(f"Pandas Time: {pandas_time_7:.6f} seconds")
print(f"Polars Time: {polars_time_7:.6f} seconds")

In 10**7 datas
Pandas Time: 0.335754 seconds
Polars Time: 0.153627 seconds


#### 코드를 실행할 때마다, 시간은 다르게 나오지만 polars가 항상 더 빠른 것을 확인할 수가 있다.

## 2. 10**8개의 데이터일 때

In [16]:
data_8 = generate_data(10**8)

In [17]:
data_8

{'category': array(['C', 'D', 'A', ..., 'D', 'A', 'A'], dtype='<U1'),
 'value': array([0.68004708, 0.15708097, 0.61042311, ..., 0.68760863, 0.0647596 ,
        0.02103218])}

In [18]:
pandas_time_8 = pandas_experiment(data_8)
polars_time_8 = polars_experiment(data_8)

In [19]:
print("In 10**8 datas")
print(f"Pandas Time: {pandas_time_8:.6f} seconds")
print(f"Polars Time: {polars_time_8:.6f} seconds")

In 10**8 datas
Pandas Time: 3.145296 seconds
Polars Time: 0.966067 seconds


#### 데이터의 크기가 더 증가할 경우, 훨씬 더 차이가 심한 것을 확인할 수가 있다.