# 데이터 선택

In [3]:
import polars as pl 

df = pl.read_csv('data/titanic_dataset.csv')
df.head(2)

PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
i64,i64,i64,str,str,f64,i64,i64,str,f64,str,str
1,0,3,"""Braund, Mr. Owen Harris""","""male""",22.0,1,0,"""A/5 21171""",7.25,,"""S"""
2,1,1,"""Cumings, Mrs. John Bradley (Fl…","""female""",38.0,1,0,"""PC 17599""",71.2833,"""C85""","""C"""


# Selecting Columns

## select()

In [5]:
# 기본 컬럼 선택
df.select(['Name', 'Age', 'Survived']).head(2)

Name,Age,Survived
str,f64,i64
"""Braund, Mr. Owen Harris""",22.0,0
"""Cumings, Mrs. John Bradley (Fl…",38.0,1


In [6]:
# 여러 컬럼 선택 방법들
df.select(pl.col(['Name', 'Age'])).head(2)  # pl.col 사용

Name,Age
str,f64
"""Braund, Mr. Owen Harris""",22.0
"""Cumings, Mrs. John Bradley (Fl…",38.0


In [7]:
df.select(pl.all()).head(2)  # 모든 컬럼 선택

PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
i64,i64,i64,str,str,f64,i64,i64,str,f64,str,str
1,0,3,"""Braund, Mr. Owen Harris""","""male""",22.0,1,0,"""A/5 21171""",7.25,,"""S"""
2,1,1,"""Cumings, Mrs. John Bradley (Fl…","""female""",38.0,1,0,"""PC 17599""",71.2833,"""C85""","""C"""


In [8]:
df.select(pl.exclude('PassengerId')).head(2)  # 특정 컬럼 제외하고 선택

Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
i64,i64,str,str,f64,i64,i64,str,f64,str,str
0,3,"""Braund, Mr. Owen Harris""","""male""",22.0,1,0,"""A/5 21171""",7.25,,"""S"""
1,1,"""Cumings, Mrs. John Bradley (Fl…","""female""",38.0,1,0,"""PC 17599""",71.2833,"""C85""","""C"""


In [15]:
# 컬럼 타입 기반 선택
df.select(pl.col(pl.Float64)).head(1)  # float64 타입 컬럼들

Age,Fare
f64,f64
22.0,7.25


In [16]:
df.select(pl.col(pl.Utf8)).head(1)     # 문자열 타입 컬럼들

Name,Sex,Ticket,Cabin,Embarked
str,str,str,str,str
"""Braund, Mr. Owen Harris""","""male""","""A/5 21171""",,"""S"""


In [17]:
# 컬럼 변환과 함께 선택
df.select([
    pl.col('Age').alias('age_years'),  # 컬럼명 변경
    pl.col('Fare').round(2),           # 반올림
    pl.col('Name').str.to_uppercase()  # 대문자 변환
]).head(1)

age_years,Fare,Name
f64,f64,str
22.0,7.25,"""BRAUND, MR. OWEN HARRIS"""


## with_columns()

In [20]:
# 기존 컬럼 변환
df.with_columns([
    pl.col('Age').alias('age_years'),  # 컬럼명 변경
    pl.col('Fare').round(2),           # 반올림
    pl.col('Name').str.to_uppercase()  # 대문자 변환
]).head(1)


PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,age_years
i64,i64,i64,str,str,f64,i64,i64,str,f64,str,str,f64
1,0,3,"""BRAUND, MR. OWEN HARRIS""","""male""",22.0,1,0,"""A/5 21171""",7.25,,"""S""",22.0


In [57]:
# 정규표현식으로 컬럼 선택
# ^: 문자열 시작
# [a-zA-Z]: 알파벳 대소문자
# {0, 4}: 0~4글자 
# $: 문자열 끝
# => 알파벳으로만 이루어진 0~4글자 컬럼 선택
df.select(pl.col(r'^[a-zA-Z]{0, 4}$')).head(2)

Name,Sex,Age,Fare
str,str,f64,f64
"""Braund, Mr. Owen Harris""","""male""",22.0,7.25
"""Cumings, Mrs. John Bradley (Fl…","""female""",38.0,71.2833


In [56]:
# ^S: S로 시작하는
# .*: 그 뒤에 어떤 문자(.)가 0개 이상(*) 올 수 있는
# $: 문자열 끝
# => S로 시작하는 모든 컬럼 선택 (Sex, Survived, SibSp)
df.select(pl.col(r"^S.*$")).head(2)

Survived,Sex,SibSp
i64,str,i64
0,"""male""",1
1,"""female""",1


In [59]:
df.select(pl.col(r"^S.*$")).head(2)

Survived,Sex,SibSp
i64,str,i64
0,"""male""",1
1,"""female""",1


In [60]:
# d로 끝나는 컬럼 선택
# .*: 앞에 어떤 문자(.)가 0개 이상(*) 올 수 있는
# d$: d로 끝나는 문자열
df.select(pl.col(r"^.*d$")).head(2)


PassengerId,Survived,Embarked
i64,i64,str
1,0,"""S"""
2,1,"""C"""


## polars selectors 
- 폴라스(Polars)는 데이터프레임의 컬럼 선택을 보다 유연하게 하기 위해 다양한 선택자(selector)를 제공합니다.
- 이 선택자들은 정규표현식 등등을 활용하여 이름 패턴에 맞는 컬럼들을 동적으로 선택할 수 있게 해줍니다.
    + 예를 들어, 단일 컬럼 이름으로 선택하거나, 정규표현식을 사용해 특정 패턴(예: 'S'로 시작하거나 'd'로 끝나는)을 갖는 컬럼들을 선택할 수 있습니다.
    + 자세한 사용법과 선택자들의 기능은 공식 문서(https://docs.pola.rs/api/python/stable/reference/selectors.html)를 참고하세요.

In [64]:
import polars.selectors as cs 
# 예시: 숫자형(numeric) 데이터 타입의 컬럼만 선택하여 첫 두 행을 출력
df.select(cs.numeric()).head(2)

PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
i64,i64,i64,f64,i64,i64,f64
1,0,3,22.0,1,0,7.25
2,1,1,38.0,1,0,71.2833


In [65]:
# cs.matches를 활용하여 대소문자 구분 없이 'a' 또는 'A'가 포함된 컬럼 선택 (예제)
df.select(cs.matches(r"(?i).*a.*")).head(2)



PassengerId,Pclass,Name,Age,Parch,Fare,Cabin,Embarked
i64,i64,str,f64,i64,f64,str,str
1,3,"""Braund, Mr. Owen Harris""",22.0,0,7.25,,"""S"""
2,1,"""Cumings, Mrs. John Bradley (Fl…",38.0,0,71.2833,"""C85""","""C"""


# Filtering Rows

In [21]:
# 조건에 맞는 행 필터링
df.filter(pl.col('Age') > 30).head(1)  # 30세 초과

PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
i64,i64,i64,str,str,f64,i64,i64,str,f64,str,str
2,1,1,"""Cumings, Mrs. John Bradley (Fl…","""female""",38.0,1,0,"""PC 17599""",71.2833,"""C85""","""C"""


In [22]:
df.filter(pl.col('Sex') == 'female').head(1)  # 여성 승객


PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
i64,i64,i64,str,str,f64,i64,i64,str,f64,str,str
2,1,1,"""Cumings, Mrs. John Bradley (Fl…","""female""",38.0,1,0,"""PC 17599""",71.2833,"""C85""","""C"""


In [23]:
df.filter(pl.col('Fare') >= 100).head(1)  # 100 이상 운임

PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
i64,i64,i64,str,str,f64,i64,i64,str,f64,str,str
28,0,1,"""Fortune, Mr. Charles Alexander""","""male""",19.0,3,2,"""19950""",263.0,"""C23 C25 C27""","""S"""


In [27]:
df.filter((pl.col('Pclass') == 1) & (pl.col('Survived') == 1)).head(3)  # 1등석 생존자

PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
i64,i64,i64,str,str,f64,i64,i64,str,f64,str,str
2,1,1,"""Cumings, Mrs. John Bradley (Fl…","""female""",38.0,1,0,"""PC 17599""",71.2833,"""C85""","""C"""
4,1,1,"""Futrelle, Mrs. Jacques Heath (…","""female""",35.0,1,0,"""113803""",53.1,"""C123""","""S"""
12,1,1,"""Bonnell, Miss. Elizabeth""","""female""",58.0,0,0,"""113783""",26.55,"""C103""","""S"""


In [26]:
# or 연산자 
df.filter((pl.col('Pclass') == 1) | (pl.col('Survived') == 1)).head(3)  # 1등석 또는 생존자

PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
i64,i64,i64,str,str,f64,i64,i64,str,f64,str,str
2,1,1,"""Cumings, Mrs. John Bradley (Fl…","""female""",38.0,1,0,"""PC 17599""",71.2833,"""C85""","""C"""
3,1,3,"""Heikkinen, Miss. Laina""","""female""",26.0,0,0,"""STON/O2. 3101282""",7.925,,"""S"""
4,1,1,"""Futrelle, Mrs. Jacques Heath (…","""female""",35.0,1,0,"""113803""",53.1,"""C123""","""S"""


## select()와 with_columns() 차이 
- select()는 지정한 컬럼만 선택하여 새로운 DataFrame을 반환
- with_columns()는 기존 DataFrame의 모든 컬럼을 유지하면서 지정한 컬럼만 변환/추가하여 반환
- select(): 컬럼 선택 (subset)
- with_columns(): 컬럼 변환/추가 (transform/add)