- https://www.rhosignal.com/posts/polars-pandas-cheatsheet/

# 들어가며

`Polars`는 Python의 유연성과 사용 편의성을 Rust의 속도와 확장성과 결합하여 다양한 데이터 처리 작업에 매력적인 선택지가 됩니다. 그렇다면 Polars가 다른 라이브러리들 사이에서 눈에 띄게 빛나는 이유는 무엇일까요? 이유는 많지만 그 중 가장 주목할 만한 것은 Polars가 엄청나게 빠르다는 점입니다.

Polars의 핵심은 외부 종속성이 없고 저수준에서 작동하는 `Rust` 언어로 작성되었습니다. Rust는 메모리 효율적이며 C 또는 C++과 동등한 성능을 제공하여 데이터 분석 라이브러리를 지원하기에 좋은 언어입니다. Polars는 또한 모든 사용 가능한 CPU 코어를 병렬로 활용할 수 있도록 하고, 모든 데이터를 메모리에 보유할 필요 없이 대규모 데이터 집합을 지원합니다.

Polars의 또 다른 탁월한 기능은 직관적인 API입니다. 이미 pandas와 같은 라이브러리를 알고 있다면, Polars를 사용하는 데 어려움이 없을 것입니다. 이 라이브러리는 익숙하면서도 독특한 인터페이스를 제공하여 Polars로의 전환을 쉽게 만듭니다. 이는 기존의 지식과 코드베이스를 활용하면서도 Polars의 성능 향상을 이끌어낼 수 있다는 것을 의미합니다.

Polars의 쿼리 엔진은 벡터화된 쿼리를 실행하기 위해 Apache Arrow를 활용합니다. 열 지향 데이터 저장을 활용하여, Apache Arrow는 빠른 인메모리 처리를 위해 설계된 개발 플랫폼입니다. 이것은 Polars에 뛰어난 성능 향상을 제공하는 또 다른 풍부한 기능입니다.

이러한 것들은 Polars를 매력적인 데이터 처리 라이브러리로 만드는 몇 가지 주요한 세부 사항에 불과하며, 이 튜토리얼 전반에 걸쳐 이를 실제로 확인하게 될 것입니다. 다음으로, Polars를 설치하는 방법에 대한 개요를 살펴보겠습니다.


Polars의 또 다른 탁월한 기능은 직관적인 API입니다. 이미 pandas와 같은 라이브러리를 알고 있다면, Polars를 사용하는 데 어려움이 없을 것입니다. 이 라이브러리는 익숙하면서도 독특한 인터페이스를 제공하여 Polars로의 전환을 쉽게 만듭니다. 이는 기존의 지식과 코드베이스를 활용하면서도 Polars의 성능 향상을 이끌어낼 수 있다는 것을 의미합니다.

Polars의 쿼리 엔진은 벡터화된 쿼리를 실행하기 위해 Apache Arrow를 활용합니다. 열 지향 데이터 저장을 활용하여, Apache Arrow는 빠른 인메모리 처리를 위해 설계된 개발 플랫폼입니다. 이것은 Polars에 뛰어난 성능 향상을 제공하는 또 다른 풍부한 기능입니다.

이러한 것들은 Polars를 매력적인 데이터 처리 라이브러리로 만드는 몇 가지 주요한 세부 사항에 불과하며, 이 튜토리얼 전반에 걸쳐 이를 실제로 확인하게 될 것입니다. 다음으로, Polars를 설치하는 방법에 대한 개요를 살펴보겠습니다.


# 준비하기

## `Polars` 설치하기

파이썬 3.7 버전 이상이 필요합니다. `conda` 혹은 `pixi` 명령어로 간단히 설치할 수 있습니다.

```python
conda install conda-forge::polars
```

## 예제 데이터

[다운로드](https://data.wa.gov/api/views/f6w7-q2d2/rows.csv?accessType=DOWNLOAD)


# Reading & writing

Polars는 일반 파일 형식 (예: csv, json, parquet), 클라우드 스토리지 (S3, Azure Blob, BigQuery) 및 데이터베이스 (예: postgres, mysql)를 위한 읽기 및 쓰기를 지원합니다. 아래에서는 디스크에 읽고 쓰는 개념을 보여줍니다.

# 데이터프레임, 표현식 및 컨텍스트

이제 Polars를 설치했고 왜 이것이 성능이 우수한지에 대한 고수준의 이해를 가졌으므로 몇 가지 핵심 개념을 살펴보겠습니다. 이 섹션에서는 예제를 통해 데이터프레임, 표현식 및 컨텍스트를 살펴보면서 Polars 구문에 대한 첫인상을 얻게 될 것입니다. 다른 DataFrame 라이브러리를 알고 있다면 몇 가지 유사점과 차이점을 알아차릴 수 있을 것입니다.

## Polars 데이터프레임 시작하기

대부분의 다른 데이터 처리 라이브러리와 마찬가지로, Polars에서 사용되는 핵심 데이터 구조는 데이터프레임입니다. 데이터프레임은 행과 열로 구성된 이차원 데이터 구조입니다. 데이터프레임의 열은 시리즈로 구성되어 있으며, 시리즈는 일차원 레이블이 지정된 배열입니다.

몇 줄의 코드로 Polars 데이터프레임을 생성할 수 있습니다. 다음 예제에서는 집 정보를 나타내는 임의의 데이터 사전에서 Polars 데이터프레임을 생성합니다. 이 예제를 실행하기 전에 NumPy가 설치되어 있는지 확인하세요:

In [1]:
# from datetime import datetime
import polars as pl

# df = pl.read_csv("../input/Electric_Vehicle_Population_Data.csv")
df = pl.read_csv("../input/pbmc3k_processed.csv")

df.head()

cell_barcode,n_genes,percent_mito,n_counts,louvain_cell_types
str,i64,f64,f64,str
"""AAACATACAACCAC…",781,0.030178,2419.0,"""CD4 T cells"""
"""AAACATTGAGCTAC…",1352,0.037936,4903.0,"""B cells"""
"""AAACATTGATCAGC…",1131,0.008897,3147.0,"""CD4 T cells"""
"""AAACCGTGCTTCCG…",960,0.017431,2639.0,"""CD14+ Monocyte…"
"""AAACCGTGTATGCG…",522,0.012245,980.0,"""NK cells"""


In [2]:
df = df.rename({"louvain_cell_types": "cell_type"})
df.head()

cell_barcode,n_genes,percent_mito,n_counts,cell_type
str,i64,f64,f64,str
"""AAACATACAACCAC…",781,0.030178,2419.0,"""CD4 T cells"""
"""AAACATTGAGCTAC…",1352,0.037936,4903.0,"""B cells"""
"""AAACATTGATCAGC…",1131,0.008897,3147.0,"""CD4 T cells"""
"""AAACCGTGCTTCCG…",960,0.017431,2639.0,"""CD14+ Monocyte…"
"""AAACCGTGTATGCG…",522,0.012245,980.0,"""NK cells"""


In [3]:
unique_type = df.select("cell_type").unique()["cell_type"].to_list()
for i in unique_type:
    print(f"'{i}':''", end=", ")

'B cells':'', 'NK cells':'', 'Dendritic cells':'', 'CD14+ Monocytes':'', 'Megakaryocytes':'', 'CD4 T cells':'', 'FCGR3A+ Monocytes':'', 'CD8 T cells':'', 

In [4]:
cell_type_dict = {
    "FCGR3A+ Monocytes": "FCGR3A+ Mono",
    "B cells": "B cell",
    "CD4 T cells": "CD4T",
    "Dendritic cells": "DC",
    "Megakaryocytes": "Megakaryocyte",
    "CD14+ Monocytes": "CD14+ Mono",
    "NK cells": "NK",
    "CD8 T cells": "CD8T",
}

df = df.with_columns(
    pl.col("cell_type").replace(cell_type_dict).alias("cell_type"))

In [5]:
df.head()

cell_barcode,n_genes,percent_mito,n_counts,cell_type
str,i64,f64,f64,str
"""AAACATACAACCAC…",781,0.030178,2419.0,"""CD4T"""
"""AAACATTGAGCTAC…",1352,0.037936,4903.0,"""B cell"""
"""AAACATTGATCAGC…",1131,0.008897,3147.0,"""CD4T"""
"""AAACCGTGCTTCCG…",960,0.017431,2639.0,"""CD14+ Mono"""
"""AAACCGTGTATGCG…",522,0.012245,980.0,"""NK"""


콘솔에서 DataFrame을 호출하면 위와 같은 출력을 얻을 수 있습니다. 
문자열 표현은 먼저 DataFrame의 데이터 모양을 튜플 형태로 출력하는데, 첫 번째 항목은 행 수를, 두 번째는 DataFrame의 열 수를 나타냅니다.

그런 다음 데이터의 열 이름과 데이터 유형이 표시되는 데이터의 테이블 미리보기가 나타납니다. 예를 들어, year는 float64 유형이고, building_type은 str 유형입니다. Polars는 주로 Arrow의 구현을 기반으로 하는 다양한 데이터 유형을 지원합니다.

Polars DataFrame에는 기본 데이터를 탐색하는 데 유용한 많은 메서드와 속성이 있습니다. 만약 pandas에 익숙하다면, Polars DataFrame은 주로 동일한 네이밍 컨벤션을 사용한다는 것을 알 수 있을 것입니다. 이전 예제에서 생성한 DataFrame에서 일부 메서드와 속성을 확인할 수 있습니다:

In [6]:
df.schema

OrderedDict([('cell_barcode', String),
             ('n_genes', Int64),
             ('percent_mito', Float64),
             ('n_counts', Float64),
             ('cell_type', String)])

우선 df.schema로 DataFrame의 스키마를 확인합니다. Polars 스키마는 DataFrame의 각 열의 데이터 유형을 알려주는 사전이며, 이후에 탐색할 레이지 API에 필요합니다.

다음으로 df.head()를 사용하여 DataFrame의 처음 다섯 개 행을 미리볼 수 있습니다. .head()에는 원하는 상위 행 수에 대한 정수를 전달할 수 있으며, 기본적으로 행 수는 다섯 개입니다. Polars DataFrame에는 또한 .tail() 메서드가 있어 하단 행을 볼 수 있습니다.

마지막으로 df.describe()를 호출하여 DataFrame의 각 열에 대한 요약 통계를 얻습니다. 이것은 작업 중인 데이터 집합의 특성을 빠르게 파악하는 가장 좋은 방법 중 하나입니다. .describe()에서 반환되는 각 행의 의미는 다음과 같습니다:

In [7]:
df.describe()

statistic,cell_barcode,n_genes,percent_mito,n_counts,cell_type
str,str,f64,f64,f64,str
"""count""","""2638""",2638.0,2638.0,2638.0,"""2638"""
"""null_count""","""0""",0.0,0.0,0.0,"""0"""
"""mean""",,850.086808,0.021166,2371.068992,
"""std""",,263.373564,0.008431,990.15877,
"""min""","""AAACATACAACCAC…",212.0,0.0,556.0,"""B cell"""
"""25%""",,700.0,0.015201,1779.0,
"""50%""",,820.0,0.020111,2213.0,
"""75%""",,956.0,0.025911,2767.0,
"""max""","""TTTGCATGCCTCAC…",2455.0,0.049938,8875.0,"""NK"""


마지막으로 df.describe()를 호출하여 DataFrame의 각 열에 대한 요약 통계를 얻습니다. 이것은 작업 중인 데이터 집합의 특성을 빠르게 파악하는 가장 좋은 방법 중 하나입니다. .describe()에서 반환되는 각 행의 의미는 다음과 같습니다:

- count는 데이터 집합의 관측치 또는 행 수입니다.
- null_count는 열에서 누락된 값의 수입니다.
- mean은 열의 산술 평균 또는 평균입니다.
- std는 열의 표준 편차입니다.
- min은 열의 최소값입니다.
- max는 열의 최대값입니다.
- median은 열의 중간값 또는 50번째 백분위수입니다.
- 25%는 열의 25번째 백분위수 또는 첫 번째 사분위수입니다.
- 75%는 열의 75번째 백분위수 또는 세 번째 사분위수입니다.

예를 들어, 데이터의 평균 연도는 2008년과 2009년 사이에 있으며, 표준 편차는 약 8년입니다. building_type 열은 문자열로 표현되는 범주형 값으로 구성되어 대부분의 요약 통계가 누락되었습니다.

이제 Polars DataFrames를 생성하고 상호 작용하는 기본 사항을 살펴보았으므로, 보다 정교한 쿼리를 시도하고 라이브러리의 능력을 파악할 수 있습니다. 이를 위해 다음 섹션에서는 컨텍스트 및 표현식을 이해해야 합니다.

# 표현식

Polars의 컨텍스트와 표현식은 Polars의 독특한 데이터 변환 구문의 핵심 구성 요소입니다. 표현식은 데이터 열에 수행되는 계산 또는 변환을 의미하며, 데이터에 다양한 작업을 적용하여 새로운 결과를 도출할 수 있습니다. 표현식에는 수학 연산, 집계, 비교, 문자열 조작 등이 포함됩니다.

컨텍스트는 표현식이 평가되는 특정 환경이나 상황을 나타냅니다. 다시 말해, 컨텍스트는 데이터에 수행하려는 기본 작업입니다. Polars에는 세 가지 주요 컨텍스트가 있습니다:

- 선택(Selection): DataFrame에서 열을 선택하는 작업
- 필터링(Filtering): 지정된 조건을 충족하는 행을 추출하여 DataFrame의 크기를 줄이는 작업
- 그룹화/집계(Groupby/aggregation): 데이터의 하위 그룹 내에서 요약 통계를 계산하는 작업

컨텍스트는 동사로, 표현식은 명사로 생각할 수 있습니다. 컨텍스트는 표현식이 어떻게 평가되고 실행되는지를 결정하며, 마찬가지로 언어에서 동사가 명사가 수행하는 동작을 결정합니다. 표현식과 컨텍스트를 사용하여 작업을 시작하려면 이전에 생성한 무작위로 생성된 데이터를 사용하십시오. 


이제 표현식과 컨텍스트를 사용하여 시작할 준비가 되었습니다. Polars의 세 가지 주요 컨텍스트 안에는 많은 종류의 표현식이 있으며, 여러 표현식을 연결하여 임의로 복잡한 쿼리를 실행할 수 있습니다. 이러한 아이디어를 더 잘 이해하기 위해 select 컨텍스트의 예를 살펴보겠습니다:


In [8]:
df.select("cell_type")

cell_type
str
"""CD4T"""
"""B cell"""
"""CD4T"""
"""CD14+ Mono"""
"""NK"""
…
"""CD14+ Mono"""
"""B cell"""
"""B cell"""
"""B cell"""


In [9]:
# df.select(pl.col("n_counts").sort())
df.sort("n_counts", descending=True)

cell_barcode,n_genes,percent_mito,n_counts,cell_type
str,i64,f64,f64,str
"""ACGAACTGGCTATG…",2455,0.015775,8875.0,"""Megakaryocyte"""
"""GGGCCAACCTTGGA…",2020,0.010576,8415.0,"""DC"""
"""CAGGTTGAGGATCT…",2000,0.026963,8011.0,"""B cell"""
"""ACGAGGGACAGGAG…",1997,0.014632,7928.0,"""DC"""
"""CATACTTGGGTTAC…",1938,0.02358,7167.0,"""CD4T"""
…,…,…,…,…
"""GGCATATGGGGAGT…",212,0.012174,575.0,"""Megakaryocyte"""
"""GGATGTACGTCTTT…",314,0.030249,562.0,"""CD14+ Mono"""
"""CACCCATGTTCTGT…",333,0.044563,561.0,"""CD4T"""
"""GAAATACTACCAAC…",283,0.016043,561.0,"""CD14+ Mono"""


# Polars의 컨텍스트와 표현식

컨텍스트와 표현식은 폴라스의 독특한 데이터 변환 구문의 핵심 요소입니다. 표현식은 데이터 열에 대해 수행되는 계산이나 변환을 참조하며, 데이터에 다양한 작업을 적용하여 새로운 결과를 도출할 수 있습니다. 표현식에는 수학적 연산, 집계, 비교, 문자열 조작 등이 포함됩니다.

컨텍스트는 표현식이 평가되는 특정 환경 또는 상황을 나타냅니다. 다시 말해, 컨텍스트는 데이터에 수행하려는 기본 작업입니다. 폴라스에는 세 가지 주요 컨텍스트가 있습니다:

선택: DataFrame에서 열을 선택합니다.
필터링: 지정된 조건을 충족하는 행을 추출하여 DataFrame의 크기를 줄입니다.
Groupby/집계: 데이터 하위 그룹 내에서 요약 통계를 계산합니다.
컨텍스트를 동사로, 표현식을 명사로 생각할 수 있습니다. 컨텍스트는 표현식이 어떻게 평가되고 실행되는지 결정하며, 마치 동사가 언어에서 명사가 수행하는 동작을 결정하는 것과 같습니다. 표현식과 컨텍스트를 사용하여 작업을 시작하려면 이전과 동일한 임의로 생성된 데이터를 사용합니다.


위와 같이, 이 자주 사용하는 컨텍스트 중 하나는 `.filter()`입니다. 이름에서 알 수 있듯이 .filter()는 주어진 표현식에 따라 데이터의 크기를 줄입니다. 예를 들어, 300개 이하의 데이터를 필터링하려면 다음을 실행할 수 있습니다:

In [10]:
under_300 = df.filter(pl.col("n_genes") < 300)
under_300.shape

(10, 5)

In [11]:
under_300.select(pl.col("n_genes").min())

n_genes
i64
212


.pl.col("n_genes") <> 300를 .filter()에 전달하면 300개 미만의 데이터가 포함된 DataFrame이 반환됩니다. 이를 확인할 수 있습니다. after_2015에는 원래 5000개의 행 중 1230개만 있으며, after_2015의 최소 연도는 2016입니다.

Polars에서 더 널리 사용되는 컨텍스트 중 하나는 groupby 컨텍스트 또는 집계입니다. 이는 데이터의 하위 그룹 내에서 요약 통계를 계산하는 데 유용합니다. 건물 데이터 예제에서 각 건물 유형에 대해 평균 평방 피트, 중앙값 건설 연도 및 건물 수를 알고 싶다고 가정해 보겠습니다. 다음 쿼리는 이 작업을 수행합니다:

In [12]:
df.group_by("cell_type").agg(
    [
        pl.mean("n_genes").alias("mean_n_genes"),
        pl.median("percent_mito").alias("median_percent_mito"),
        pl.len().alias("count"),
    ]
)

cell_type,mean_n_genes,median_percent_mito,count
str,f64,f64,u32
"""CD14+ Mono""",866.739583,0.022108,480
"""CD8T""",837.620253,0.022154,316
"""Megakaryocyte""",577.266667,0.027601,15
"""CD4T""",810.340909,0.017713,1144
"""NK""",905.480519,0.019383,154
"""B cell""",725.368421,0.020492,342
"""FCGR3A+ Mono""",1228.813333,0.024359,150
"""DC""",1466.891892,0.02116,37


이 예에서는 먼저 df.groupby("cell_type")을 호출하여 Polars GroupBy 객체를 생성합니다. GroupBy 객체에는 각 그룹에 대해 계산되는 표현식 목록을 허용하는 .agg()라는 집계 메서드가 있습니다. 예를 들어, pl.mean("sqft")는 각 건물 유형에 대한 평균 평방 피트를 계산하고, pl.count()는 각 건물 유형의 건물 수를 반환합니다. .alias()를 사용하여 집계된 열에 이름을 지정합니다.

고수준의 Python API에서는 명확하지 않지만, 모든 Polars 표현식은 내부적으로 최적화되어 병렬로 실행됩니다. 이는 Polars 표현식이 항상 지정된 순서대로 실행되지 않으며, 반드시 단일 코어에서 실행되지 않는다는 것을 의미합니다. 대신, Polars는 쿼리에서 표현식이 평가되는 순서를 최적화하고, 작업이 사용 가능한 코어에 분산됩니다. 나중에 최적화된 쿼리의 예제를 볼 것입니다.

이제 Polars 컨텍스트와 표현식에 대한 이해와 표현식이 왜 빠르게 평가되는지에 대한 통찰력을 갖게 되었으므로, 더 깊이 파고들 수 있는 또 다른 강력한 Polars 기능, 지연 API에 대해 더 자세히 살펴보겠습니다. 지연 API를 사용하면 Polars가 메모리 효율을 유지하면서 대규모 데이터 집합에서 복잡한 표현식을 평가하는 방법을 살펴볼 수 있습니다.

# 지연 API
Polars의 지연 API는 라이브러리의 가장 강력한 기능 중 하나입니다. 지연 API를 사용하면 연산의 시퀀스를 즉시 실행하지 않고 지정할 수 있습니다. 대신, 이러한 작업은 계산 그래프로 저장되며 필요할 때만 실행됩니다. 이를 통해 Polars는 실행 전에 쿼리를 최적화하고 데이터가 처리되기 전에 스키마 오류를 잡고 메모리에 맞지 않는 데이터 세트에 대한 메모리 효율적인 쿼리를 수행할 수 있습니다.

LazyFrame으로 작업하기
지연 API 내에서 핵심 객체는 LazyFrame이며, LazyFrame은 몇 가지 다른 방법으로 생성할 수 있습니다. LazyFrames와 지연 API를 시작하려면 다음 예제를 살펴보세요:

In [13]:
df_lazy = pl.LazyFrame(df)
df_lazy

In [14]:
lazy_query = (
     df_lazy
     .with_columns(
         (pl.col("n_genes") / pl.col("n_counts")).alias("gene_per_counts")
     )
     .filter(pl.col("gene_per_counts") > 0.5)
     .filter(pl.col("percent_mito") < 0.02)
  )
lazy_query

이 쿼리에서는 각 건물의 제곱 피트당 가격을 계산하고 price_per_sqft라는 이름을 할당합니다. 그런 다음 가격이 100보다 크고 연도가 2010보다 작은 모든 건물의 데이터를 필터링합니다. 지연된 쿼리가 실제로 쿼리를 실행하는 대신 다른 LazyFrame을 반환한다는 것을 알아챘을 것입니다. 이것이 지연 API의 아이디어입니다. 명시적으로 호출할 때만 쿼리를 실행합니다.

쿼리를 실행하기 전에 쿼리 계획을 검토할 수 있습니다. 쿼리 계획은 쿼리가 트리거하는 단계의 시퀀스를 알려줍니다. LazyFrame 쿼리 계획을 시각적으로 보려면 다음 코드를 실행할 수 있습니다:

In [15]:
print(lazy_query.explain())

FILTER [(col("gene_per_counts")) > (0.5)] FROM
 WITH_COLUMNS:
 [[(col("n_genes").cast(Float64)) / (col("n_counts"))].alias("gene_per_counts")]
  DF ["cell_barcode", "n_genes", "percent_mito", "n_counts"]; PROJECT */5 COLUMNS; SELECTION: "[(col(\"percent_mito\")) < (0.02)]"


LazyFrame의 .explain() 출력을 인쇄하면 쿼리 계획의 문자열 표현이 반환됩니다. 그래픽 쿼리 계획과 마찬가지로 문자열 쿼리 계획은 아래에서 위로 읽으며 각 단계는 자체 줄에 표시됩니다.

만약 print() 없이 lazy_query.explain()를 호출하면 쿼리 계획의 문자열 표현이 표시됩니다. 일반적으로 새 줄은 문자열에서 \n으로 나타나므로 계획을 읽기가 더 어려울 수 있습니다. 다시 말하지만, 그래픽 표현에 포함되지 않은 쿼리 계획에 대한 보다 자세한 설명이 필요할 때 .explain()을 사용해야 합니다.

지연 쿼리가 무엇을 수행할지 이해한 후 실제로 실행할 준비가 되었습니다. 이를 위해 지연 쿼리에 대해 .collect()를 호출하여 쿼리 계획에 따라 평가합니다. 다음은 이를 실행하는 방법입니다:

In [16]:
(
     lazy_query
     .collect()
     .select(pl.col(["cell_type", "n_genes"]))
)

cell_type,n_genes
str,i64
"""NK""",522
"""CD4T""",397
"""B cell""",563
"""NK""",862
"""B cell""",341
…,…
"""CD14+ Mono""",365
"""NK""",628
"""FCGR3A+ Mono""",395
"""CD14+ Mono""",536


지연 쿼리를 .collect()로 실행하면 결과로 일반적인 Polars DataFrame이 반환됩니다. 필터링 기준 때문에 원래 5000개 행 중 1317개만 얻습니다. 또한 표시된 모든 price_per_sqft 및 year 값이 각각 100보다 크고 2010보다 작음을 알 수 있습니다. 데이터가 올바르게 필터링되었는지 추가로 확인하기 위해 요약 통계를 살펴볼 수 있습니다:

# Seemless 통합

많은 사용 사례에서 Polars는 현재 사용 중인 데이터 처리 라이브러리를 대체할 수 있습니다. 이 섹션에서는 Polars가 다양한 데이터 소스 및 라이브러리와 잘 통합되어 있는 유연성을 예제를 통해 살펴보겠습니다.

Polars는 기존의 Python 라이브러리와 원활하게 통합됩니다. 이 기능은 기존 코드에 Polars를 쉽게 삽입할 수 있게 해주므로 종속성을 변경하거나 큰 리팩터링을 할 필요가 없습니다. 다음 예제에서는 Polars DataFrames가 NumPy 배열과 pandas DataFrames 사이를 원활하게 변환되는 것을 볼 수 있습니다.

In [22]:
df2 = df.to_pandas()
type(df2)

pandas.core.frame.DataFrame

Polars DataFrame를 pandas DataFrame과 NumPy 배열로 변환하기 위해 .to_pandas()와 .to_numpy()를 사용합니다. 편리하게도 .to_pandas()와 .to_numpy()은 Polars DataFrame 객체의 메서드입니다. Polars의 창시자들은 많은 사용자가 Polars 코드를 기존의 pandas 및 NumPy 코드와 통합하길 원할 것으로 예상하여 Polars와 pandas 또는 NumPy 간의 변환을 DataFrame 객체의 기본 작업으로 만들었습니다.

Python 커뮤니티에서 널리 사용되는 라이브러리인 pandas와 NumPy는 한동안 여전히 사용될 것입니다. Polars가 이러한 라이브러리와 통합될 수 있는 능력은 기존 워크플로우의 성능을 향상시키는 방법으로 소개할 수 있음을 의미합니다. 예를 들어, 머신 러닝 모델을 위한 고성능 데이터 전처리를 수행하고 결과를 모델에 공급하기 전에 NumPy 배열로 변환할 수 있습니다.

In [18]:
df.write_csv("../output/output.csv")
# df_csv = pl.read_csv("../output/output.csv")
# df_csv

# 다음 단계
Polars는 Python 커뮤니티에서 빠르게 주목을 받고 있는 라이브러리로, 이 튜토리얼에서는 그 일부만 다뤘습니다. Polars를 사용하여 데이터 처리 응용 프로그램을 개선할 수 있는 다양한 기능이 있으며, 이를 학습할 수 있습니다.

이 튜토리얼에서 다루지 않은 주요 기능 중 일부로는 조인, 멜트, 피벗, 시계열 처리, 클라우드 컴퓨팅 플랫폼과의 통합 등이 있습니다. 이러한 기능에 대한 정보는 Polars의 사용자 가이드나 API 참조에서 찾을 수 있습니다.

# 결론
Polars는 빠르고 빠르게 성장하는 DataFrame 라이브러리입니다. Polars의 최적화된 백엔드, 익숙하면서도 효율적인 구문, Lazy API 및 Python 생태계와의 통합은 이 라이브러리를 다른 라이브러리들과 구별되게 만듭니다. 이제 Polars를 사용하여 자신의 프로젝트를 시작할 수 있는 지식과 자원을 갖추었습니다.

이 튜토리얼에서 다음을 배웠습니다:

- Polars가 성능을 어떻게 확보하고 있는지 및 라이브러리가 트렌드인 이유
- 데이터를 조작하는 데 사용하는 DataFrame, 표현식 및 컨텍스트
- Lazy API가 무엇이며 어떻게 사용하는지
- Polars를 외부 데이터 소스 및 다른 인기 있는 Python 라이브러리와 통합하는 방법
이러한 다양한 기능을 갖춘 Polars는 의심할 여지없이 Python의 데이터 분석 및 조작 생태계에 중요한 추가입니다. 대용량 데이터셋을 다루거나 성능을 최적화하거나 효율적인 쿼리가 필요한 경우 Polars는 데이터 처리 작업에 매력적인 선택지입니다. Polars가 다음 데이터 프로젝트에 어떻게 도움이 될 수 있을까요?

# Expressions
Expressions are the core strength of Polars. The expressions offer a modular structure that allows you to combine simple concepts into complex queries. Below we cover the basic components that serve as building block (or in Polars terminology contexts) for all your queries:

- select
- filter
- with_columns
- group_by

In [19]:
df.select(pl.col("*"))

cell_barcode,n_genes,percent_mito,n_counts,cell_type
str,i64,f64,f64,str
"""AAACATACAACCAC…",781,0.030178,2419.0,"""CD4T"""
"""AAACATTGAGCTAC…",1352,0.037936,4903.0,"""B cell"""
"""AAACATTGATCAGC…",1131,0.008897,3147.0,"""CD4T"""
"""AAACCGTGCTTCCG…",960,0.017431,2639.0,"""CD14+ Mono"""
"""AAACCGTGTATGCG…",522,0.012245,980.0,"""NK"""
…,…,…,…,…
"""TTTCGAACTCTCAT…",1155,0.021104,3459.0,"""CD14+ Mono"""
"""TTTCTACTGAGGCA…",1227,0.009294,3443.0,"""B cell"""
"""TTTCTACTTCCTCG…",622,0.021971,1684.0,"""B cell"""
"""TTTGCATGAGAGGC…",454,0.020548,1022.0,"""B cell"""


In [20]:
df.select(pl.col("date"))

ColumnNotFoundError: date

Error originated just after this operation:
DF ["cell_barcode", "n_genes", "percent_mito", "n_counts"]; PROJECT */5 COLUMNS; SELECTION: "None"

In [None]:
df.select(pl.col("float", "string"))

float,string
f64,str
4.0,"""a"""
5.0,"""b"""
6.0,"""c"""


In [None]:
df.filter(
    pl.col("date").is_between(datetime(2025, 12, 2), datetime(2025, 12, 3)),
)

integer,date,float,string
i64,datetime[μs],f64,str


- The Python Polars Library
  - Getting to Know Polars
  - Installing Python Polars
- DataFrames, Expressions, and Contexts
  - Getting Started With Polars DataFrames
  - Polars Contexts and Expressions
- The Lazy API
  - Working With LazyFrames
  - Scanning Data With LazyFrames
- Seamless Integration
  - Integration With External Data Sources
  - Integration With the Python Ecosystem
- Next Steps
- Conclusion

In [None]:
df = pl.read_csv("../input/pima_diabetes.csv")
df

Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
i64,i64,i64,i64,i64,f64,f64,i64,i64
6,148,72,35,0,33.6,0.627,50,1
1,85,66,29,0,26.6,0.351,31,0
8,183,64,0,0,23.3,0.672,32,1
1,89,66,23,94,28.1,0.167,21,0
0,137,40,35,168,43.1,2.288,33,1
…,…,…,…,…,…,…,…,…
10,101,76,48,180,32.9,0.171,63,0
2,122,70,27,0,36.8,0.34,27,0
5,121,72,23,112,26.2,0.245,30,0
1,126,60,0,0,30.1,0.349,47,1


In [None]:
print(df)

shape: (768, 9)
┌─────────────┬─────────┬───────────────┬───────────────┬───┬──────┬───────────────┬─────┬─────────┐
│ Pregnancies ┆ Glucose ┆ BloodPressure ┆ SkinThickness ┆ … ┆ BMI  ┆ DiabetesPedig ┆ Age ┆ Outcome │
│ ---         ┆ ---     ┆ ---           ┆ ---           ┆   ┆ ---  ┆ reeFunction   ┆ --- ┆ ---     │
│ i64         ┆ i64     ┆ i64           ┆ i64           ┆   ┆ f64  ┆ ---           ┆ i64 ┆ i64     │
│             ┆         ┆               ┆               ┆   ┆      ┆ f64           ┆     ┆         │
╞═════════════╪═════════╪═══════════════╪═══════════════╪═══╪══════╪═══════════════╪═════╪═════════╡
│ 6           ┆ 148     ┆ 72            ┆ 35            ┆ … ┆ 33.6 ┆ 0.627         ┆ 50  ┆ 1       │
│ 1           ┆ 85      ┆ 66            ┆ 29            ┆ … ┆ 26.6 ┆ 0.351         ┆ 31  ┆ 0       │
│ 8           ┆ 183     ┆ 64            ┆ 0             ┆ … ┆ 23.3 ┆ 0.672         ┆ 32  ┆ 1       │
│ 1           ┆ 89      ┆ 66            ┆ 23            ┆ … ┆ 28.1 ┆ 0.167 

In [None]:
df.select(pl.col("BMI"))

BMI
f64
33.6
26.6
23.3
28.1
43.1
…
32.9
36.8
26.2
30.1


In [None]:
df.select(pl.col("BMI").sort() / 10)

BMI
f64
0.0
0.0
0.0
0.0
0.0
…
5.32
5.5
5.73
5.94


In [None]:
bmi_above_5 = df.filter(pl.col("BMI") > 5)
bmi_above_5.shape

(757, 9)

In [None]:
bmi_above_5.select(pl.col("BMI").min())

BMI
f64
18.2


In [None]:
df.group_by("Outcome").agg(
    [
        pl.mean("BMI").alias("mean_BMI"),
        pl.median("BMI").alias("median_BMI"),
        pl.mean("Age").alias("mean_age"),
        pl.mean("Glucose").alias("mean_glucose"),
        pl.mean("BloodPressure").alias("mean_bloodpressue"),
        pl.len(),
    ]
)

Outcome,mean_BMI,median_BMI,mean_age,mean_glucose,mean_bloodpressue,len
i64,f64,f64,f64,f64,f64,u32
0,30.3042,30.05,31.19,109.98,68.184,500
1,35.142537,34.25,37.067164,141.257463,70.824627,268


- https://realpython.com/polars-python/#the-python-polars-library

In [None]:
import numpy as np
import polars as pl

num_rows = 5000
rng = np.random.default_rng(seed=7)

buildings = {
    "sqft": rng.exponential(scale=1000, size=num_rows),
    "price": rng.exponential(scale=100_000, size=num_rows),
    "year": rng.integers(low=1995, high=2023, size=num_rows),
    "building_type": rng.choice(["A", "B", "C"], size=num_rows),
}
buildings_lazy = pl.LazyFrame(buildings)
buildings_lazy

In [None]:
lazy_query = (
    buildings_lazy.with_columns((pl.col("price") / pl.col("sqft")).alias("price_per_sqft"))
    .filter(pl.col("price_per_sqft") > 100)
    .filter(pl.col("year") < 2010)
)
lazy_query

In [None]:
(lazy_query.collect().select(pl.col(["price_per_sqft", "year"])).describe())

statistic,price_per_sqft,year
str,f64,f64
"""count""",1317.0,1317.0
"""null_count""",0.0,0.0
"""mean""",1400.622815,2002.003037
"""std""",5755.888716,4.324595
"""min""",100.02061,1995.0
"""25%""",166.351274,1998.0
"""50%""",296.71958,2002.0
"""75%""",744.552161,2006.0
"""max""",90314.966163,2009.0


# tutorials

In [None]:
df = pl.DataFrame(
    {
        "nrs": [1, 2, 3, None, 5],
        "names": ["foo", "ham", "spam", "egg", None],
        "random": np.random.rand(5),
        "groups": ["A", "A", "B", "C", "B"],
    }
)
print(df)

shape: (5, 4)
┌──────┬───────┬──────────┬────────┐
│ nrs  ┆ names ┆ random   ┆ groups │
│ ---  ┆ ---   ┆ ---      ┆ ---    │
│ i64  ┆ str   ┆ f64      ┆ str    │
╞══════╪═══════╪══════════╪════════╡
│ 1    ┆ foo   ┆ 0.779456 ┆ A      │
│ 2    ┆ ham   ┆ 0.066492 ┆ A      │
│ 3    ┆ spam  ┆ 0.554846 ┆ B      │
│ null ┆ egg   ┆ 0.021776 ┆ C      │
│ 5    ┆ null  ┆ 0.674241 ┆ B      │
└──────┴───────┴──────────┴────────┘


In [None]:
df_numerical = df.select(
    (pl.col("nrs") + 5).alias("nrs + 5"),
    (pl.col("nrs") - 5).alias("nrs - 5"),
    (pl.col("nrs") * pl.col("random")).alias("nrs * random"),
    (pl.col("nrs") / pl.col("random")).alias("nrs / random"),
)
print(df_numerical)

shape: (5, 4)
┌─────────┬─────────┬──────────────┬──────────────┐
│ nrs + 5 ┆ nrs - 5 ┆ nrs * random ┆ nrs / random │
│ ---     ┆ ---     ┆ ---          ┆ ---          │
│ i64     ┆ i64     ┆ f64          ┆ f64          │
╞═════════╪═════════╪══════════════╪══════════════╡
│ 6       ┆ -4      ┆ 0.779456     ┆ 1.282945     │
│ 7       ┆ -3      ┆ 0.132983     ┆ 30.078969    │
│ 8       ┆ -2      ┆ 1.664538     ┆ 5.406906     │
│ null    ┆ null    ┆ null         ┆ null         │
│ 10      ┆ 0       ┆ 3.371205     ┆ 7.415746     │
└─────────┴─────────┴──────────────┴──────────────┘


In [None]:
df_logical = df.select(
    (pl.col("nrs") > 1).alias("nrs > 1"),
    (pl.col("random") <= 0.5).alias("random <= .5"),
    (pl.col("nrs") != 1).alias("nrs != 1"),
    (pl.col("nrs") == 1).alias("nrs == 1"),
    ((pl.col("random") <= 0.5) & (pl.col("nrs") > 1)).alias("and_expr"),  # and
    ((pl.col("random") <= 0.5) | (pl.col("nrs") > 1)).alias("or_expr"),  # or
)
print(df_logical)

shape: (5, 6)
┌─────────┬──────────────┬──────────┬──────────┬──────────┬─────────┐
│ nrs > 1 ┆ random <= .5 ┆ nrs != 1 ┆ nrs == 1 ┆ and_expr ┆ or_expr │
│ ---     ┆ ---          ┆ ---      ┆ ---      ┆ ---      ┆ ---     │
│ bool    ┆ bool         ┆ bool     ┆ bool     ┆ bool     ┆ bool    │
╞═════════╪══════════════╪══════════╪══════════╪══════════╪═════════╡
│ false   ┆ false        ┆ false    ┆ true     ┆ false    ┆ false   │
│ true    ┆ true         ┆ true     ┆ false    ┆ true     ┆ true    │
│ true    ┆ false        ┆ true     ┆ false    ┆ false    ┆ true    │
│ null    ┆ true         ┆ null     ┆ null     ┆ null     ┆ true    │
│ true    ┆ false        ┆ true     ┆ false    ┆ false    ┆ true    │
└─────────┴──────────────┴──────────┴──────────┴──────────┴─────────┘


In [None]:
from datetime import date, datetime

import polars as pl

df = pl.DataFrame(
    {
        "id": [9, 4, 2],
        "place": ["Mars", "Earth", "Saturn"],
        "date": pl.date_range(date(2022, 1, 1), date(2022, 1, 3), "1d", eager=True),
        "sales": [33.4, 2142134.1, 44.7],
        "has_people": [False, True, False],
        "logged_at": pl.datetime_range(
            datetime(2022, 12, 1), datetime(2022, 12, 1, 0, 0, 2), "1s", eager=True
        ),
    }
).with_row_index("index")
print(df)

shape: (3, 7)
┌───────┬─────┬────────┬────────────┬───────────┬────────────┬─────────────────────┐
│ index ┆ id  ┆ place  ┆ date       ┆ sales     ┆ has_people ┆ logged_at           │
│ ---   ┆ --- ┆ ---    ┆ ---        ┆ ---       ┆ ---        ┆ ---                 │
│ u32   ┆ i64 ┆ str    ┆ date       ┆ f64       ┆ bool       ┆ datetime[μs]        │
╞═══════╪═════╪════════╪════════════╪═══════════╪════════════╪═════════════════════╡
│ 0     ┆ 9   ┆ Mars   ┆ 2022-01-01 ┆ 33.4      ┆ false      ┆ 2022-12-01 00:00:00 │
│ 1     ┆ 4   ┆ Earth  ┆ 2022-01-02 ┆ 2142134.1 ┆ true       ┆ 2022-12-01 00:00:01 │
│ 2     ┆ 2   ┆ Saturn ┆ 2022-01-03 ┆ 44.7      ┆ false      ┆ 2022-12-01 00:00:02 │
└───────┴─────┴────────┴────────────┴───────────┴────────────┴─────────────────────┘


In [None]:
out = df.select(pl.col("*").exclude("logged_at", "index"))
print(out)

shape: (3, 5)
┌─────┬────────┬────────────┬───────────┬────────────┐
│ id  ┆ place  ┆ date       ┆ sales     ┆ has_people │
│ --- ┆ ---    ┆ ---        ┆ ---       ┆ ---        │
│ i64 ┆ str    ┆ date       ┆ f64       ┆ bool       │
╞═════╪════════╪════════════╪═══════════╪════════════╡
│ 9   ┆ Mars   ┆ 2022-01-01 ┆ 33.4      ┆ false      │
│ 4   ┆ Earth  ┆ 2022-01-02 ┆ 2142134.1 ┆ true       │
│ 2   ┆ Saturn ┆ 2022-01-03 ┆ 44.7      ┆ false      │
└─────┴────────┴────────────┴───────────┴────────────┘
