# Polars 버전

In [19]:
import polars as pl
pl.__version__

'1.22.0'

- Polars 설정

In [20]:
df = pl.read_csv("data/ch09/google_store_reviews.csv")
df.head(1)

reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,sortOrder,appId
str,str,str,str,i64,i64,str,str,str,str,str,str
"""gp:AOqpTOEhZuqSqqWnaKRgv-9ABYd…","""Eric Tie""","""https://play-lh.googleusercont…","""I cannot open the app anymore""",1,0,"""5.4.0.6""","""2020-10-27 21:24:41""",,,"""newest""","""com.anydo"""


In [3]:
import os
import polars as pl 
os.environ['POLARS_FMT_STR_LEN'] = str(10)
pl.Config.set_fmt_str_lengths(10)

polars.config.Config

In [4]:
df.head(1)

reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,sortOrder,appId
str,str,str,str,i64,i64,str,str,str,str,str,str
"""gp:AOqpTOE…","""Eric Tie""","""https://pl…","""I cannot o…",1,0,"""5.4.0.6""","""2020-10-27…",,,"""newest""","""com.anydo"""


# 레시피 45 : Filtering Strings

In [17]:
# 1. 기본 문자열 포함 여부 필터링
# "app"이라는 단어가 포함된 리뷰 필터링
app_reviews = df.filter(pl.col("content").str.contains("app"))

# 2. 정규식을 사용한 필터링
# 이모지가 포함된 리뷰 필터링 (Unicode 이모지 범위 사용)
emoji_pattern = df.filter(pl.col("content").str.contains(r"[\U0001F600-\U0001F64F]"))

# 3. 문자열 길이 기반 필터링
# 짧은 리뷰 (10자 미만) 필터링
short_reviews = df.filter(pl.col("content").str.len_chars() < 10)

# 4. 복합 조건을 사용한 필터링
# "bad"를 포함하지만 "not bad"는 포함하지 않는 리뷰
bad_reviews = df.filter(
    pl.col("content").str.contains("bad") & 
    ~pl.col("content").str.contains("not bad")
)

# 5. 시작 또는 끝 문자 기반 필터링
starts_with_i = df.filter(pl.col("content").str.starts_with("I"))
ends_with_exclamation = df.filter(pl.col("content").str.ends_with("!"))

# 결과 확인
print("앱 관련 리뷰 수:", app_reviews.shape[0])
print("이모지 포함 리뷰 수:", emoji_pattern.shape[0])
print("짧은 리뷰 수:", short_reviews.shape[0])
print("부정적 리뷰 수:", bad_reviews.shape[0])
print("'I'로 시작하는 리뷰 수:", starts_with_i.shape[0])
print("느낌표로 끝나는 리뷰 수:", ends_with_exclamation.shape[0])


앱 관련 리뷰 수: 5958
이모지 포함 리뷰 수: 327
짧은 리뷰 수: 940
부정적 리뷰 수: 207
'I'로 시작하는 리뷰 수: 2778
느낌표로 끝나는 리뷰 수: 935


# 레시피 46 : 문자열 날짜 변환

In [2]:
import polars as pl
# Convert a string column to a date column 
# 날짜 형식의 문자열을 date 타입으로 변환
date_df = pl.DataFrame({
    "date_str": ["2023-01-15", "2023-02-20", "2023-03-25"]
})
date_df = date_df.with_columns(
    pl.col("date_str").str.to_date().alias("date_column")
)
print("문자열에서 날짜로 변환:")
print(date_df)

문자열에서 날짜로 변환:
shape: (3, 2)
┌────────────┬─────────────┐
│ date_str   ┆ date_column │
│ ---        ┆ ---         │
│ str        ┆ date        │
╞════════════╪═════════════╡
│ 2023-01-15 ┆ 2023-01-15  │
│ 2023-02-20 ┆ 2023-02-20  │
│ 2023-03-25 ┆ 2023-03-25  │
└────────────┴─────────────┘


In [3]:
# Convert a string column to a time column 
# 시간 형식의 문자열을 time 타입으로 변환
time_df = pl.DataFrame({
    "time_str": ["14:30:00", "08:45:30", "23:15:45"]
})
time_df = time_df.with_columns(
    pl.col("time_str").str.to_time().alias("time_column")
)
print("\n문자열에서 시간으로 변환:")
print(time_df)


문자열에서 시간으로 변환:
shape: (3, 2)
┌──────────┬─────────────┐
│ time_str ┆ time_column │
│ ---      ┆ ---         │
│ str      ┆ time        │
╞══════════╪═════════════╡
│ 14:30:00 ┆ 14:30:00    │
│ 08:45:30 ┆ 08:45:30    │
│ 23:15:45 ┆ 23:15:45    │
└──────────┴─────────────┘


In [3]:
# Convert a string column to a datetime column
# 날짜/시간 형식의 문자열을 datetime 타입으로 변환
datetime_df = pl.DataFrame({
    "datetime_str": ["2023-01-15 14:30:00", "2023-02-20 08:45:30", "2023-03-25 23:15:45"]
})
datetime_df = datetime_df.with_columns(
    pl.col("datetime_str").str.to_datetime().alias("datetime_column")
)
print("\n문자열에서 날짜시간으로 변환:")
datetime_df


문자열에서 날짜시간으로 변환:


datetime_str,datetime_column
str,datetime[μs]
"""2023-01-15 14:30:00""",2023-01-15 14:30:00
"""2023-02-20 08:45:30""",2023-02-20 08:45:30
"""2023-03-25 23:15:45""",2023-03-25 23:15:45


In [6]:
# Convert a string to date, time, or datetime with .str.strptime()
# 사용자 지정 형식의 문자열을 날짜/시간 타입으로 변환
custom_df = pl.DataFrame({
    "custom_date": ["15/01/2023", "20/02/2023", "25/03/2023"],
    "custom_time": ["14.30.00", "08.45.30", "23.15.45"],
    "custom_datetime": ["15-Jan-2023 14:30", "20-Feb-2023 08:45", "25-Mar-2023 23:15"]
})

custom_df = custom_df.with_columns([
    # 사용자 지정 날짜 형식 변환
    pl.col("custom_date").str.strptime(pl.Date, format="%d/%m/%Y").alias("parsed_date"),
    # 사용자 지정 시간 형식 변환
    pl.col("custom_time").str.strptime(pl.Time, format="%H.%M.%S").alias("parsed_time"),
    # 사용자 지정 날짜시간 형식 변환
    pl.col("custom_datetime").str.strptime(pl.Datetime, format="%d-%b-%Y %H:%M").alias("parsed_datetime")
])
print("\n사용자 지정 형식 변환:")
custom_df


사용자 지정 형식 변환:


custom_date,custom_time,custom_datetime,parsed_date,parsed_time,parsed_datetime
str,str,str,date,time,datetime[μs]
"""15/01/2023""","""14.30.00""","""15-Jan-2023 14:30""",2023-01-15,14:30:00,2023-01-15 14:30:00
"""20/02/2023""","""08.45.30""","""20-Feb-2023 08:45""",2023-02-20,08:45:30,2023-02-20 08:45:00
"""25/03/2023""","""23.15.45""","""25-Mar-2023 23:15""",2023-03-25,23:15:45,2023-03-25 23:15:00


# 레시피 47 : Extracting substrings

In [2]:
# 데이터 가져오기
import polars as pl 
df = pl.read_csv("data/ch09/google_store_reviews.csv")
df.select(['userName', 'userImage', 'content', 'at', 'appId']).head(5)

userName,userImage,content,at,appId
str,str,str,str,str
"""Eric Tie""","""https://play-lh.googleusercont…","""I cannot open the app anymore""","""2020-10-27 21:24:41""","""com.anydo"""
"""john alpha""","""https://play-lh.googleusercont…","""I have been begging for a refu…","""2020-10-27 14:03:28""","""com.anydo"""
"""Sudhakar .S""","""https://play-lh.googleusercont…","""Very costly for the premium ve…","""2020-10-27 08:18:40""","""com.anydo"""
"""SKGflorida@bellsouth.net DAVID…","""https://play-lh.googleusercont…","""Used to keep me organized, but…","""2020-10-26 13:28:07""","""com.anydo"""
"""Louann Stoker""","""https://play-lh.googleusercont…","""Dan Birthday Oct 28""","""2020-10-26 06:10:50""","""com.anydo"""


In [10]:
# .str.slice()를 사용하여 위치별로 부분 문자열 추출
slice_df = df.select([
    # content에서 처음 10개 문자 추출
    pl.col("content").str.slice(0, 10).alias("content_preview"),
    # appId에서 앱 이름 추출 (점 이후)
    pl.col("appId").str.slice(4).alias("app_name")
])
print("\n문자열 슬라이싱:")
print(slice_df.head(3))


문자열 슬라이싱:
shape: (3, 2)
┌─────────────────┬──────────┐
│ content_preview ┆ app_name │
│ ---             ┆ ---      │
│ str             ┆ str      │
╞═════════════════╪══════════╡
│ I cannot o      ┆ anydo    │
│ I have bee      ┆ anydo    │
│ Very costl      ┆ anydo    │
└─────────────────┴──────────┘


In [19]:
# str.extract()를 사용하여 정규식으로 패턴 추출
extract_df = df.select([
    # userImage
    pl.col("userImage"),
    # userImage URL에서 도메인 추출
    pl.col("userImage").str.extract(r"https://([^/]+)").alias("image_domain"),
    # appId
    pl.col("appId"),
    # appId에서 앱 카테고리 추출
    pl.col("appId").str.extract(r"com\.([^.]+)").alias("app_category")
])
print("\n정규식으로 패턴 추출:")
extract_df.head(3)


정규식으로 패턴 추출:


userImage,image_domain,appId,app_category
str,str,str,str
"""https://play-lh.googleusercont…","""play-lh.googleusercontent.com""","""com.anydo""","""anydo"""
"""https://play-lh.googleusercont…","""play-lh.googleusercontent.com""","""com.anydo""","""anydo"""
"""https://play-lh.googleusercont…","""play-lh.googleusercontent.com""","""com.anydo""","""anydo"""


In [6]:
# str.extract_groups()를 사용하여 정규식에서 여러 그룹 추출
extract_groups_df = df.select([
    'userName', 
    # "FirstName LastName" 형식의 사용자 이름 부분 추출
    pl.col("userName").str.extract_groups(r"([A-Za-z]+)\s+([A-Za-z]+)").alias("name_parts"),
    'at', 
    # at 필드에서 날짜 구성 요소 추출
    pl.col("at").str.extract_groups(r"(\d{4})-(\d{2})-(\d{2})").alias("date_parts")
])
print("\n정규식으로 여러 그룹 추출:")
extract_groups_df.head(3)


정규식으로 여러 그룹 추출:


userName,name_parts,at,date_parts
str,struct[2],str,struct[3]
"""Eric Tie""","{""Eric"",""Tie""}","""2020-10-27 21:24:41""","{""2020"",""10"",""27""}"
"""john alpha""","{""john"",""alpha""}","""2020-10-27 14:03:28""","{""2020"",""10"",""27""}"
"""Sudhakar .S""","{null,null}","""2020-10-27 08:18:40""","{""2020"",""10"",""27""}"


In [7]:
import polars as pl

temp_df = pl.DataFrame({
    "name": ["John Doe", "Alice Brown", "Bob Smith"]
})

temp_df = temp_df.with_columns(
    pl.col("name").str.extract_groups(r"([A-Za-z]+)\s+([A-Za-z]+)").alias("name_parts")
)

temp_df

name,name_parts
str,struct[2]
"""John Doe""","{""John"",""Doe""}"
"""Alice Brown""","{""Alice"",""Brown""}"
"""Bob Smith""","{""Bob"",""Smith""}"


# 레시피 48 : Cleaning strings

In [18]:
import polars as pl 

# 샘플 데이터 생성 (3개 예시)
sample_df = pl.DataFrame({
    "content": [
        "  I cannot open the app anymore  ",  # 앞뒤 공백이 있는 텍스트
        " I have been begging for a refund ", # 앞뒤 공백이 있는 텍스트
        "\tVery costly for the premium version\t" # 탭 문자가 있는 텍스트
    ],
    "userName": [
        "Eric Tie!@#",       # 특수문자가 포함된 사용자 이름
        "john alpha#$%",     # 특수문자가 포함된 사용자 이름
        "Sudhaka%r^&*()"     # 특수문자가 포함된 사용자 이름
    ]
})

# remove leading and trailing whitespace with str.strip_chars() 
# str.strip_chars()를 사용하여 앞뒤 공백 제거
clean_df = sample_df.select([
    'content', 
    # str.strip_chars()를 사용하여 앞뒤 공백 제거
    pl.col("content").str.strip_chars().alias("content_clean"),
    'userName', 
    # 특정 문자 제거 (예: 특수문자)
    # 정규식을 사용하여 모든 특수문자 제거
    pl.col("userName").str.replace_all("[!@#$%^&*()]", "").alias("userName_clean")
])
print("\n공백 및 특정 문자 제거:")
clean_df.head(3)


공백 및 특정 문자 제거:


content,content_clean,userName,userName_clean
str,str,str,str
""" I cannot open the app anymor…","""I cannot open the app anymore""","""Eric Tie!@#""","""Eric Tie"""
""" I have been begging for a ref…","""I have been begging for a refu…","""john alpha#$%""","""john alpha"""
"""	Very costly for the premium v…","""Very costly for the premium ve…","""Sudhaka%r^&*()""","""Sudhakar"""


In [28]:
# replace matching substrings with str.replace() 
# str.replace()를 사용하여 일치하는 부분 문자열 대체하기
# 샘플 데이터 생성
sample_df = pl.DataFrame({
    "content": [
        "I cannot open the app anymore",
        "I have been begging for a refund"
    ],
    "userImage": [
        "http://play-lh.googleusercontent.com/image1",
        "http://play-lh.googleusercontent.com/image2"
    ]
})

# 부분 문자열 대체 예시
replace_df = sample_df.select([
    'content',
    # 첫 번째 일치 항목만 대체
    # str.replace()는 첫 번째로 일치하는 항목만 대체합니다
    pl.col("content").str.replace("can", "could").alias("content_replaced"),
    'userImage', 
    # URL에서 http를 https로 변경
    # 보안을 위해 http 프로토콜을 https로 변경합니다
    pl.col("userImage").str.replace("http:", "https:").alias("secure_image_url")
])
print("\n부분 문자열 대체:")
replace_df.head(2)


부분 문자열 대체:


content,content_replaced,userImage,secure_image_url
str,str,str,str
"""I cannot open the app anymore""","""I couldnot open the app anymor…","""http://play-lh.googleuserconte…","""https://play-lh.googleusercont…"
"""I have been begging for a refu…","""I have been begging for a refu…","""http://play-lh.googleuserconte…","""https://play-lh.googleusercont…"


In [19]:
# replace all the occurrences of the matched substring 
# 일치하는 모든 부분 문자열 대체하기
# 샘플 데이터 생성
text_df = pl.DataFrame({
    "text": [
        "Hello world, hello Python, hello Polars",
        "The quick brown fox jumps over the lazy dog",
        "Replace all vowels in this sentence"
    ],
    "email": [
        "user.name@example.com",
        "john.doe@company.org",
        "contact@website.net"
    ]
})

# 모든 일치 항목 대체 예시
replace_all_df = text_df.select([
    'text',
    # 모든 'hello' 단어를 'hi'로 대체 (대소문자 무시)
    # (?i)는 대소문자를 구분하지 않는 정규식 플래그입니다
    pl.col("text").str.replace_all("(?i)hello", "hi").alias("text_replaced"),
    'email',
    # 이메일 도메인을 모두 'secure.com'으로 변경
    # @.*$는 @ 기호부터 문자열 끝까지 모든 문자를 의미하는 정규식입니다
    pl.col("email").str.replace_all("@.*$", "@secure.com").alias("secure_email")
])
print("\n모든 일치 항목 대체:")
replace_all_df


모든 일치 항목 대체:


text,text_replaced,email,secure_email
str,str,str,str
"""Hello world, hello Python, hel…","""hi world, hi Python, hi Polars""","""user.name@example.com""","""user.name@secure.com"""
"""The quick brown fox jumps over…","""The quick brown fox jumps over…","""john.doe@company.org""","""john.doe@secure.com"""
"""Replace all vowels in this sen…","""Replace all vowels in this sen…","""contact@website.net""","""contact@secure.com"""


In [30]:
# 샘플 데이터 생성
case_df = pl.DataFrame({
    "userName": [
        "Eric tie",
        "John alpha"
    ],
    "content": [
        "I cannot open the app anymore",
        "I have been begging for a refund"
    ]
})

# 첫 글자만 대문자로 변환 (Title Case)
title_case_df = case_df.select([
    'userName', 
    pl.col("userName").str.to_titlecase().alias("userName_title"),
    'content', 
    pl.col("content").str.to_titlecase().alias("content_title")
])
print("\n첫 글자 대문자 변환:")
title_case_df


첫 글자 대문자 변환:


userName,userName_title,content,content_title
str,str,str,str
"""Eric tie""","""Eric Tie""","""I cannot open the app anymore""","""I Cannot Open The App Anymore"""
"""John alpha""","""John Alpha""","""I have been begging for a refu…","""I Have Been Begging For A Refu…"


In [23]:
df = pl.read_csv("data/ch09/google_store_reviews.csv")
df.head(1)

# 문자열이 지정된 길이에 도달할 때까지 특정 문자 추가하기
pad_df = df.select([
    'reviewId', 
    # 10자리가 되도록 왼쪽에 0 추가
    pl.col("reviewId").str.pad_start(10, "0").alias("reviewId_padded"),
    'userName', 
    # 20자리가 되도록 오른쪽에 * 추가
    pl.col("userName").str.pad_end(20, "*").alias("userName_padded")
])
print("\nString padding:")
pad_df.head(2)


String padding:


reviewId,reviewId_padded,userName,userName_padded
str,str,str,str
"""gp:AOqpTOEhZuqSqqWnaKRgv-9ABYd…","""gp:AOqpTOEhZuqSqqWnaKRgv-9ABYd…","""Eric Tie""","""Eric Tie************"""
"""gp:AOqpTOH0WP4IQKBZ2LrdNmFy_Ym…","""gp:AOqpTOH0WP4IQKBZ2LrdNmFy_Ym…","""john alpha""","""john alpha**********"""


# 레시피 49 : Splitting strings into lists and structs

In [5]:
# Split Strings into lists str.split()
split_df = df.select([
    # 공백을 기준으로 문자열 분할
    pl.col("userName").str.split(" ").alias("userName_split"),
    # 특정 문자를 기준으로 분할
    pl.col("appId").str.split(".").alias("appId_split")
])
print("\n문자열 분할:")
print(split_df.head(2))

# Split strings into structs using .str.splitn() and .str.split_exact()
# .str.splitn() - 지정된 수만큼만 분할
splitn_df = df.select([
    # 최대 2개 부분으로 분할
    pl.col("appId").str.splitn(".", 2).alias("appId_splitn")
])
print("\n지정된 수만큼 분할:")
print(splitn_df.head(2))

# .str.split_exact() - 정확히 지정된 수만큼 분할
split_exact_df = df.select([
    # 정확히 3개 부분으로 분할
    pl.col("appId").str.split_exact(".", 3).alias("appId_split_exact")
])
print("\n정확히 지정된 수만큼 분할:")
print(split_exact_df.head(2))


문자열 분할:
shape: (2, 2)
┌─────────────┬─────────────┐
│ userName_s… ┆ appId_spli… │
│ ---         ┆ ---         │
│ list[str]   ┆ list[str]   │
╞═════════════╪═════════════╡
│ ["Eric", "… ┆ ["com", "a… │
│ ["john", "… ┆ ["com", "a… │
└─────────────┴─────────────┘

지정된 수만큼 분할:
shape: (2, 1)
┌─────────────┐
│ appId_spli… │
│ ---         │
│ struct[2]   │
╞═════════════╡
│ {"com","an… │
│ {"com","an… │
└─────────────┘

정확히 지정된 수만큼 분할:
shape: (2, 1)
┌─────────────┐
│ appId_spli… │
│ ---         │
│ struct[4]   │
╞═════════════╡
│ {"com","an… │
│ {"com","an… │
└─────────────┘


# 레시피 50 : Concatenating and combining strings

In [6]:
# Concatenating and combining strings 

# Generate Sample DataFrame
df = pl.DataFrame({
    "firstName": ["John", "Jane", "Jim"],
    "lastName": ["Doe", "Smith", "Johnson"],
    "age": [25, 30, 35]
})

# Use + to concatenate strings
concat_plus_df = df.select([
    (pl.col("firstName") + " " + pl.col("lastName")).alias("fullName")
])
print("\n+ 연산자로 문자열 연결:")
print(concat_plus_df)

# Concatenate strings from multiple columns into a single column
concat_df = df.select([
    pl.concat_str([
        pl.col("firstName"),
        pl.lit(" "),
        pl.col("lastName"),
        pl.lit(", Age: "),
        pl.col("age").cast(pl.Utf8)
    ]).alias("profile")
])
print("\nconcat_str()로 여러 열 연결:")
print(concat_df)

# Using pl.concat_str() with separator
concat_sep_df = df.select([
    pl.concat_str([
        pl.col("firstName"),
        pl.col("lastName")
    ], separator=" - ").alias("name_with_separator")
])
print("\n구분자를 사용한 concat_str():")
print(concat_sep_df)

# Use .str.join() to combine all of the strings of a column into one string
join_df = df.select([
    pl.col("firstName").str.join(", ").alias("all_first_names")
])
print("\n모든 행의 문자열을 하나로 결합:")
print(join_df)


+ 연산자로 문자열 연결:
shape: (3, 1)
┌─────────────┐
│ fullName    │
│ ---         │
│ str         │
╞═════════════╡
│ John Doe    │
│ Jane Smith  │
│ Jim Johnso… │
└─────────────┘

concat_str()로 여러 열 연결:
shape: (3, 1)
┌─────────────┐
│ profile     │
│ ---         │
│ str         │
╞═════════════╡
│ John Doe, … │
│ Jane Smith… │
│ Jim Johnso… │
└─────────────┘

구분자를 사용한 concat_str():
shape: (3, 1)
┌─────────────┐
│ name_with_… │
│ ---         │
│ str         │
╞═════════════╡
│ John - Doe  │
│ Jane - Smi… │
│ Jim - John… │
└─────────────┘

모든 행의 문자열을 하나로 결합:
shape: (1, 1)
┌─────────────┐
│ all_first_… │
│ ---         │
│ str         │
╞═════════════╡
│ John, Jane… │
└─────────────┘
