# Polars 버전

In [2]:
import polars as pl
pl.__version__

'1.22.0'

- Polars 설정

In [19]:
df = pl.read_csv("data/ch09/google_store_reviews.csv")
df.head(1)

reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,sortOrder,appId
str,str,str,str,i64,i64,str,str,str,str,str,str
"""gp:AOqpTOE…","""Eric Tie""","""https://pl…","""I cannot o…",1,0,"""5.4.0.6""","""2020-10-27…",,,"""newest""","""com.anydo"""


In [4]:
import os
import polars as pl 
os.environ['POLARS_FMT_STR_LEN'] = str(10)
pl.Config.set_fmt_str_lengths(10)

polars.config.Config

In [5]:
df.head(1)

reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,sortOrder,appId
str,str,str,str,i64,i64,str,str,str,str,str,str
"""gp:AOqpTOE…","""Eric Tie""","""https://pl…","""I cannot o…",1,0,"""5.4.0.6""","""2020-10-27…",,,"""newest""","""com.anydo"""


# 레시피 45 : Filtering Strings

In [17]:
# 1. 기본 문자열 포함 여부 필터링
# "app"이라는 단어가 포함된 리뷰 필터링
app_reviews = df.filter(pl.col("content").str.contains("app"))

# 2. 정규식을 사용한 필터링
# 이모지가 포함된 리뷰 필터링 (Unicode 이모지 범위 사용)
emoji_pattern = df.filter(pl.col("content").str.contains(r"[\U0001F600-\U0001F64F]"))

# 3. 문자열 길이 기반 필터링
# 짧은 리뷰 (10자 미만) 필터링
short_reviews = df.filter(pl.col("content").str.len_chars() < 10)

# 4. 복합 조건을 사용한 필터링
# "bad"를 포함하지만 "not bad"는 포함하지 않는 리뷰
bad_reviews = df.filter(
    pl.col("content").str.contains("bad") & 
    ~pl.col("content").str.contains("not bad")
)

# 5. 시작 또는 끝 문자 기반 필터링
starts_with_i = df.filter(pl.col("content").str.starts_with("I"))
ends_with_exclamation = df.filter(pl.col("content").str.ends_with("!"))

# 결과 확인
print("앱 관련 리뷰 수:", app_reviews.shape[0])
print("이모지 포함 리뷰 수:", emoji_pattern.shape[0])
print("짧은 리뷰 수:", short_reviews.shape[0])
print("부정적 리뷰 수:", bad_reviews.shape[0])
print("'I'로 시작하는 리뷰 수:", starts_with_i.shape[0])
print("느낌표로 끝나는 리뷰 수:", ends_with_exclamation.shape[0])


앱 관련 리뷰 수: 5958
이모지 포함 리뷰 수: 327
짧은 리뷰 수: 940
부정적 리뷰 수: 207
'I'로 시작하는 리뷰 수: 2778
느낌표로 끝나는 리뷰 수: 935


# 레시피 46 : Converting Strings into date, datetime, or time

In [18]:
# Convert a string column to a date column 
# 날짜 형식의 문자열을 date 타입으로 변환
date_df = pl.DataFrame({
    "date_str": ["2023-01-15", "2023-02-20", "2023-03-25"]
})
date_df = date_df.with_columns(
    pl.col("date_str").str.to_date().alias("date_column")
)
print("문자열에서 날짜로 변환:")
print(date_df)

# Convert a string column to a time column 
# 시간 형식의 문자열을 time 타입으로 변환
time_df = pl.DataFrame({
    "time_str": ["14:30:00", "08:45:30", "23:15:45"]
})
time_df = time_df.with_columns(
    pl.col("time_str").str.to_time().alias("time_column")
)
print("\n문자열에서 시간으로 변환:")
print(time_df)

# Convert a string column to a datetime column
# 날짜/시간 형식의 문자열을 datetime 타입으로 변환
datetime_df = pl.DataFrame({
    "datetime_str": ["2023-01-15 14:30:00", "2023-02-20 08:45:30", "2023-03-25 23:15:45"]
})
datetime_df = datetime_df.with_columns(
    pl.col("datetime_str").str.to_datetime().alias("datetime_column")
)
print("\n문자열에서 날짜시간으로 변환:")
print(datetime_df)

# Convert a string to date, time, or datetime with .str.strptime()
# 사용자 지정 형식의 문자열을 날짜/시간 타입으로 변환
custom_df = pl.DataFrame({
    "custom_date": ["15/01/2023", "20/02/2023", "25/03/2023"],
    "custom_time": ["14.30.00", "08.45.30", "23.15.45"],
    "custom_datetime": ["15-Jan-2023 14:30", "20-Feb-2023 08:45", "25-Mar-2023 23:15"]
})

custom_df = custom_df.with_columns([
    # 사용자 지정 날짜 형식 변환
    pl.col("custom_date").str.strptime(pl.Date, format="%d/%m/%Y").alias("parsed_date"),
    # 사용자 지정 시간 형식 변환
    pl.col("custom_time").str.strptime(pl.Time, format="%H.%M.%S").alias("parsed_time"),
    # 사용자 지정 날짜시간 형식 변환
    pl.col("custom_datetime").str.strptime(pl.Datetime, format="%d-%b-%Y %H:%M").alias("parsed_datetime")
])
print("\n사용자 지정 형식 변환:")
print(custom_df)


문자열에서 날짜로 변환:
shape: (3, 2)
┌────────────┬─────────────┐
│ date_str   ┆ date_colum… │
│ ---        ┆ ---         │
│ str        ┆ date        │
╞════════════╪═════════════╡
│ 2023-01-15 ┆ 2023-01-15  │
│ 2023-02-20 ┆ 2023-02-20  │
│ 2023-03-25 ┆ 2023-03-25  │
└────────────┴─────────────┘

문자열에서 시간으로 변환:
shape: (3, 2)
┌──────────┬─────────────┐
│ time_str ┆ time_colum… │
│ ---      ┆ ---         │
│ str      ┆ time        │
╞══════════╪═════════════╡
│ 14:30:00 ┆ 14:30:00    │
│ 08:45:30 ┆ 08:45:30    │
│ 23:15:45 ┆ 23:15:45    │
└──────────┴─────────────┘

문자열에서 날짜시간으로 변환:
shape: (3, 2)
┌─────────────┬─────────────┐
│ datetime_s… ┆ datetime_c… │
│ ---         ┆ ---         │
│ str         ┆ datetime[μs │
│             ┆ ]           │
╞═════════════╪═════════════╡
│ 2023-01-15… ┆ 2023-01-15… │
│ 2023-02-20… ┆ 2023-02-20… │
│ 2023-03-25… ┆ 2023-03-25… │
└─────────────┴─────────────┘

사용자 지정 형식 변환:
shape: (3, 6)
┌─────────────┬─────────────┬─────────────┬─────────────┬─────────────┬──────

# 레시피 47 : Extracting substrings

In [22]:
# .str.slice()를 사용하여 위치별로 부분 문자열 추출
slice_df = df.select([
    # content에서 처음 10개 문자 추출
    pl.col("content").str.slice(0, 10).alias("content_preview"),
    # appId에서 앱 이름 추출 (점 이후)
    pl.col("appId").str.slice(4).alias("app_name")
])
print("\n문자열 슬라이싱:")
print(slice_df.head(3))

# str.extract()를 사용하여 정규식으로 패턴 추출
extract_df = df.select([
    # userImage URL에서 도메인 추출
    pl.col("userImage").str.extract(r"https://([^/]+)").alias("image_domain"),
    # appId에서 앱 카테고리 추출
    pl.col("appId").str.extract(r"com\.([^.]+)").alias("app_category")
])
print("\n정규식으로 패턴 추출:")
print(extract_df.head(3))

# str.extract_groups()를 사용하여 정규식에서 여러 그룹 추출
extract_groups_df = df.select([
    # "FirstName LastName" 형식의 사용자 이름 부분 추출
    pl.col("userName").str.extract_groups(r"([A-Za-z]+)\s+([A-Za-z]+)").alias("name_parts"),
    # at 필드에서 날짜 구성 요소 추출
    pl.col("at").str.extract_groups(r"(\d{4})-(\d{2})-(\d{2})").alias("date_parts")
])
print("\n정규식으로 여러 그룹 추출:")
print(extract_groups_df.head(3))



문자열 슬라이싱:
shape: (3, 2)
┌─────────────┬──────────┐
│ content_pr… ┆ app_name │
│ ---         ┆ ---      │
│ str         ┆ str      │
╞═════════════╪══════════╡
│ I cannot o  ┆ anydo    │
│ I have bee  ┆ anydo    │
│ Very costl  ┆ anydo    │
└─────────────┴──────────┘

정규식으로 패턴 추출:
shape: (3, 2)
┌─────────────┬─────────────┐
│ image_doma… ┆ app_catego… │
│ ---         ┆ ---         │
│ str         ┆ str         │
╞═════════════╪═════════════╡
│ play-lh.go… ┆ anydo       │
│ play-lh.go… ┆ anydo       │
│ play-lh.go… ┆ anydo       │
└─────────────┴─────────────┘

정규식으로 여러 그룹 추출:
shape: (3, 2)
┌─────────────┬─────────────┐
│ name_parts  ┆ date_parts  │
│ ---         ┆ ---         │
│ struct[2]   ┆ struct[3]   │
╞═════════════╪═════════════╡
│ {"Eric","T… ┆ {"2020","1… │
│ {"john","a… ┆ {"2020","1… │
│ {null,null… ┆ {"2020","1… │
└─────────────┴─────────────┘


# 레시피 48 : Cleaning strings

In [None]:
# remove leading and trailing whitespace with str.strip_chars() 
clean_df = df.select([
    pl.col("content").str.strip_chars().alias("content_clean"),
    # 특정 문자 제거 (예: 특수문자)
    pl.col("userName").str.strip_chars("!@#$%^&*()").alias("userName_clean")
])
print("\n공백 및 특정 문자 제거:")
print(clean_df.head(2))

# replace matching substrings with str.replace() 
replace_df = df.select([
    # 첫 번째 일치 항목만 대체
    pl.col("content").str.replace("can", "could").alias("content_replaced"),
    # URL에서 http를 https로 변경
    pl.col("userImage").str.replace("http:", "https:").alias("secure_image_url")
])
print("\n부분 문자열 대체:")
print(replace_df.head(2))

# replace all the occurrences of the matched substring 
replace_all_df = df.select([
    # 모든 공백을 밑줄로 대체
    pl.col("userName").str.replace_all(" ", "_").alias("userName_underscore"),
    # 모든 마침표를 제거
    pl.col("appId").str.replace_all(".", "").alias("appId_no_dots")
])
print("\n모든 일치 항목 대체:")
print(replace_all_df.head(2))

# Change the letter case of your strings
case_df = df.select([
    # 첫 글자만 대문자로 변환
    pl.col("userName").str.to_titlecase().alias("userName_title"),
    # 문장의 첫 글자만 대문자로 변환
    pl.col("content").str.to_titlecase().alias("content_title")
])
print("\n첫 글자 대문자 변환:")
print(case_df.head(2))

# Change the letter case to lowercase
lower_df = df.select([
    pl.col("userName").str.to_lowercase().alias("userName_lower"),
    pl.col("appId").str.to_lowercase().alias("appId_lower")
])
print("\n소문자 변환:")
print(lower_df.head(2))

# Change the letter case to uppercase 
upper_df = df.select([
    pl.col("userName").str.to_uppercase().alias("userName_upper"),
    pl.col("sortOrder").str.to_uppercase().alias("sortOrder_upper")
])
print("\n대문자 변환:")
print(upper_df.head(2))

# Add a certain character until the string reaches the specified length 
pad_df = df.select([
    # 왼쪽에 0 추가하여 10자리로 만들기
    pl.col("reviewId").str.pad_start(10, "0").alias("reviewId_padded"),
    # 오른쪽에 * 추가하여 20자리로 만들기
    pl.col("userName").str.pad_end(20, "*").alias("userName_padded")
])
print("\n문자열 패딩:")
print(pad_df.head(2))


# 레시피 49 : Splitting strings into lists and structs

# 레시피 50 : Concatenating and combining strings