# 레시피 31 : 데이터 탐색 (Data Exploration)

In [1]:
import polars as pl 
df = pl.read_csv("data/ch07/customer_shopping_data_no_header.csv", 
                 has_header=False,
                 new_columns=['invoice_id', 'customer_id', 'gender', 'age', 'category', 
                             'quantity', 'price', 'payment_method', 'shopping_date', 'shopping_mall'])

In [2]:
df.head(1)

invoice_id,customer_id,gender,age,category,quantity,price,payment_method,shopping_date,shopping_mall
str,str,str,i64,str,i64,f64,str,str,str
"""I138884""","""C241288""","""Female""",28,"""Clothing""",5,1500.4,"""Credit Card""","""5/8/2022""","""Kanyon"""


In [4]:
df.tail(1)

invoice_id,customer_id,gender,age,category,quantity,price,payment_method,shopping_date,shopping_mall
str,str,str,i64,str,i64,f64,str,str,str
"""I232867""","""C273973""","""Female""",36,"""Souvenir""",3,35.19,"""Credit Card""","""15/10/2022""","""Mall of Istanbul"""


In [5]:
df.glimpse(max_items_per_column=3)

Rows: 99457
Columns: 10
$ invoice_id     <str> 'I138884', 'I317333', 'I127801'
$ customer_id    <str> 'C241288', 'C111565', 'C266599'
$ gender         <str> 'Female', 'Male', 'Male'
$ age            <i64> 28, 21, 20
$ category       <str> 'Clothing', 'Shoes', 'Clothing'
$ quantity       <i64> 5, 3, 1
$ price          <f64> 1500.4, 1800.51, 300.08
$ payment_method <str> 'Credit Card', 'Debit Card', 'Cash'
$ shopping_date  <str> '5/8/2022', '12/12/2021', '9/11/2021'
$ shopping_mall  <str> 'Kanyon', 'Forum Istanbul', 'Metrocity'



In [6]:
df.estimated_size('mb')

7.60965633392334

In [7]:
import polars.selectors as cs 
df.select(cs.numeric()).describe()

statistic,age,quantity,price
str,f64,f64,f64
"""count""",99457.0,99457.0,99457.0
"""null_count""",0.0,0.0,0.0
"""mean""",43.427089,3.003429,689.256321
"""std""",14.990054,1.413025,941.184567
"""min""",18.0,1.0,5.23
"""25%""",30.0,2.0,45.45
"""50%""",43.0,3.0,203.3
"""75%""",56.0,4.0,1200.32
"""max""",69.0,5.0,5250.0


In [3]:
df.null_count()

invoice_id,customer_id,gender,age,category,quantity,price,payment_method,shopping_date,shopping_mall
u32,u32,u32,u32,u32,u32,u32,u32,u32,u32
0,0,0,0,0,0,0,0,0,0


In [9]:
# 임시 데이터 생성 및 확인
null_df = pl.DataFrame({
    'col1': [1, None, None],
    'col2': [2, 3, 4], 
    'col3': [None, 5, 6]
})

null_df.null_count()

col1,col2,col3
u32,u32,u32
2,0,1


# 레시피 32 : 데이터 형변환(Casting Data Types)

In [4]:
import polars as pl

sticker_sales = pl.read_csv('data/ch07/sticker sales train.csv')
sticker_sales.head(1)

id,date,country,store,product,num_sold
i64,str,str,str,str,f64
0,"""2010-01-01""","""Canada""","""Discount Stickers""","""Holographic Goose""",


In [6]:
sticker_sales2 = sticker_sales.with_columns(
    pl.col("date").str.strptime(pl.Date, "%Y-%m-%d")
)

sticker_sales2.head(1)

id,date,country,store,product,num_sold
i64,date,str,str,str,f64
0,2010-01-01,"""Canada""","""Discount Stickers""","""Holographic Goose""",


In [7]:
sticker_sales_scan = pl.scan_csv('data/ch07/sticker sales train.csv')
sticker_sales_scan.head(1).collect()

id,date,country,store,product,num_sold
i64,str,str,str,str,f64
0,"""2010-01-01""","""Canada""","""Discount Stickers""","""Holographic Goose""",


In [8]:
# 날짜 형변환
sticker_sales_scan.with_columns(
    pl.col("date").str.strptime(pl.Date, "%Y-%m-%d")
).head(1).collect()

id,date,country,store,product,num_sold
i64,date,str,str,str,f64
0,2010-01-01,"""Canada""","""Discount Stickers""","""Holographic Goose""",


In [9]:
# 날짜 관련 컬럼 추출
weekday_map = {
    '0': "월요일",
    '1': "화요일",
    '2': "수요일",
    '3': "목요일",
    '4': "금요일",
    '5': "토요일",
    '6': "일요일"
}

sticker_sales2.with_columns([
    pl.col("date").dt.year().alias("year"),
    pl.col("date").dt.month().alias("month"), 
    pl.col("date").dt.day().alias("day"),
    pl.col("date").dt.weekday().cast(pl.Utf8).\
    replace(weekday_map).alias("weekday"), 
    pl.col("date").dt.ordinal_day().alias("day_of_year"),    
    pl.col("date").min().alias("first_date"),
    pl.col("date").max().alias("last_date")
]).head(1)

id,date,country,store,product,num_sold,year,month,day,weekday,day_of_year,first_date,last_date
i64,date,str,str,str,f64,i32,i8,i8,str,i16,date,date
0,2010-01-01,"""Canada""","""Discount Stickers""","""Holographic Goose""",,2010,1,1,"""토요일""",1,2010-01-01,2016-12-31


- 그 외 데이터 형변환 예제

In [10]:
import polars as pl 

# 가상의 데이터 생성
df = pl.DataFrame({
    'col1': [2, 3, 1],
    'col2': ['10', '20', '30'],
    'col3': [1.5, 2.5, 3.5]
})

# 문자 -> 숫자 변환
df_num = df.with_columns([
    pl.col("col2").cast(pl.Int32).alias("col2_to_int"),
    pl.col("col2").cast(pl.Float64).alias("col2_to_float")
])

# 숫자 -> 문자 변환 
df_str = df.with_columns([
    pl.col("col1").cast(pl.Utf8).alias("col1_to_str"),
    pl.col("col3").cast(pl.Utf8).alias("col3_to_str")
])

print("\n문자->숫자 변환:")
print(df_num)
print("\n숫자->문자 변환:")
print(df_str)



문자->숫자 변환:
shape: (3, 5)
┌──────┬──────┬──────┬─────────────┬──────────────┐
│ col1 ┆ col2 ┆ col3 ┆ col2_to_int ┆ col2_to_floa │
│ ---  ┆ ---  ┆ ---  ┆ ---         ┆ t            │
│ i64  ┆ str  ┆ f64  ┆ i32         ┆ ---          │
│      ┆      ┆      ┆             ┆ f64          │
╞══════╪══════╪══════╪═════════════╪══════════════╡
│ 2    ┆ 10   ┆ 1.5  ┆ 10          ┆ 10.0         │
│ 3    ┆ 20   ┆ 2.5  ┆ 20          ┆ 20.0         │
│ 1    ┆ 30   ┆ 3.5  ┆ 30          ┆ 30.0         │
└──────┴──────┴──────┴─────────────┴──────────────┘

숫자->문자 변환:
shape: (3, 5)
┌──────┬──────┬──────┬─────────────┬─────────────┐
│ col1 ┆ col2 ┆ col3 ┆ col1_to_str ┆ col3_to_str │
│ ---  ┆ ---  ┆ ---  ┆ ---         ┆ ---         │
│ i64  ┆ str  ┆ f64  ┆ str         ┆ str         │
╞══════╪══════╪══════╪═════════════╪═════════════╡
│ 2    ┆ 10   ┆ 1.5  ┆ 2           ┆ 1.5         │
│ 3    ┆ 20   ┆ 2.5  ┆ 3           ┆ 2.5         │
│ 1    ┆ 30   ┆ 3.5  ┆ 1           ┆ 3.5         │
└──────┴──────┴─────

# 레시피 33 : 중복값 처리

In [64]:
sticker_sales2.shape

(230130, 6)

In [66]:
sticker_sales2.is_duplicated().sum()

0

In [69]:
# 중복 데이터 생성을 위해 첫 번째 행을 복사하여 추가
sticker_sales_dup = pl.concat([
    sticker_sales2,
    sticker_sales2.slice(95, 1)
])

# 중복된 행 확인
print("데이터 크기:", sticker_sales_dup.shape)
print("중복된 행 수:", sticker_sales_dup.is_duplicated().sum())

# 중복된 행 출력
print("\n중복된 행:")
sticker_sales_dup.filter(sticker_sales_dup.is_duplicated())


데이터 크기: (230131, 6)
중복된 행 수: 2

중복된 행:


id,date,country,store,product,num_sold
i64,date,str,str,str,f64
95,2010-01-02,"""Canada""","""Stickers for Less""","""Holographic Goose""",281.0
95,2010-01-02,"""Canada""","""Stickers for Less""","""Holographic Goose""",281.0


In [70]:
sticker_sales2.is_unique().sum()

230130

In [72]:
sticker_sales2.select(pl.all().n_unique())

id,date,country,store,product,num_sold
u32,u32,u32,u32,u32,u32
230130,2557,6,3,5,4038


In [73]:
sticker_sales2.n_unique(subset=['date', 'num_sold'])

216764

In [75]:
sticker_sales2.is_unique().sum()

230130

In [74]:
sticker_sales2_drop_df = sticker_sales2.select(['date', 'num_sold']).is_unique() 
sticker_sales2_drop_df.sum()

207413

# 레시피 34 : Masking 데이터

In [76]:
def generate_random_ssn():
    """미국식 사회보장번호(SSN)를 무작위로 생성하여 문자열로 반환합니다.
    형식: XXX-XX-XXXX (X는 무작위 숫자)"""
    import random
    
    # SSN의 3개 부분을 생성
    part1 = str(random.randint(100, 999))
    part2 = str(random.randint(10, 99))
    part3 = str(random.randint(1000, 9999))
    
    # 하이픈으로 연결
    ssn = f"{part1}-{part2}-{part3}"
    
    return ssn

# 함수 테스트
print("SSN 예시:", generate_random_ssn())


SSN 예시: 313-30-4118


In [78]:
# 100개의 가짜 SSN 데이터를 포함하는 Polars DataFrame 생성
import polars as pl

fake_data = [generate_random_ssn() for _ in range(100)]
df = pl.DataFrame({
    'ssn': fake_data
})

# 결과 확인
print("DataFrame 정보:")
print(df)
print("\n처음 5개 행:")
print(df.head())

DataFrame 정보:
shape: (100, 1)
┌─────────────┐
│ ssn         │
│ ---         │
│ str         │
╞═════════════╡
│ 104-82-1343 │
│ 555-29-3386 │
│ 925-49-7077 │
│ 489-40-2111 │
│ 569-18-3784 │
│ …           │
│ 598-24-6449 │
│ 521-46-8804 │
│ 603-47-5745 │
│ 209-88-7305 │
│ 841-27-7190 │
└─────────────┘

처음 5개 행:
shape: (5, 1)
┌─────────────┐
│ ssn         │
│ ---         │
│ str         │
╞═════════════╡
│ 104-82-1343 │
│ 555-29-3386 │
│ 925-49-7077 │
│ 489-40-2111 │
│ 569-18-3784 │
└─────────────┘


In [93]:
# 재현성을 위해 랜덤 시드 설정
import random
random.seed(42)

# sticker_sales2에서 id 열을 제외하고 100개의 무작위 행 추출
random_sticker_sales = sticker_sales2.drop('id').sample(n=100, seed=42)

# 데이터프레임을 수평으로 연결하여 결합
combined_df = pl.concat([
    df,
    random_sticker_sales
], how="horizontal")

combined_df.head(1)


ssn,date,country,store,product,num_sold
str,date,str,str,str,f64
"""104-82-1343""",2015-02-06,"""Canada""","""Premium Sticker Mart""","""Kerneler""",617.0


In [94]:
# SSN 마스킹 처리 - 앞자리1과 마지막 2자리만 표시
# SSN masking - show only first digit and last 2 digits
combined_df.with_columns(
    pl.col('ssn').map_elements(
        lambda x: x[0] + '*' * 8 + '-' + '*' * 2 + '-' + x[-2:], 
        return_dtype=pl.Utf8
    ).alias('ssn')
)

# 결과 확인
# Check results
print(combined_df.head())

shape: (5, 6)
┌─────────────┬────────────┬─────────┬──────────────────────┬───────────────────┬──────────┐
│ ssn         ┆ date       ┆ country ┆ store                ┆ product           ┆ num_sold │
│ ---         ┆ ---        ┆ ---     ┆ ---                  ┆ ---               ┆ ---      │
│ str         ┆ date       ┆ str     ┆ str                  ┆ str               ┆ f64      │
╞═════════════╪════════════╪═════════╪══════════════════════╪═══════════════════╪══════════╡
│ 104-82-1343 ┆ 2015-02-06 ┆ Canada  ┆ Premium Sticker Mart ┆ Kerneler          ┆ 617.0    │
│ 555-29-3386 ┆ 2011-07-20 ┆ Italy   ┆ Discount Stickers    ┆ Kerneler          ┆ 261.0    │
│ 925-49-7077 ┆ 2015-12-27 ┆ Norway  ┆ Discount Stickers    ┆ Kaggle Tiers      ┆ 1338.0   │
│ 489-40-2111 ┆ 2011-02-09 ┆ Kenya   ┆ Stickers for Less    ┆ Kerneler          ┆ 9.0      │
│ 569-18-3784 ┆ 2014-09-16 ┆ Italy   ┆ Discount Stickers    ┆ Holographic Goose ┆ 66.0     │
└─────────────┴────────────┴─────────┴──────────────────

In [96]:
# SSN을 해시값으로 변환 
# Convert SSN to hash value
combined_df.with_columns(
    (pl.col('ssn')
     .hash()  # 내장 hash 함수 사용
     .cast(pl.Utf8)  # 문자열로 변환
     .str.slice(0, 12)  # 12자리로 제한
     .alias('ssn'))
).head(1)

ssn,date,country,store,product,num_sold
str,date,str,str,str,f64
"""367729960609""",2015-02-06,"""Canada""","""Premium Sticker Mart""","""Kerneler""",617.0


# 레시피 35 : 이상치

## 이상치 탐색 함수

In [107]:
def detect_outliers(df: pl.DataFrame, columns: list) -> pl.DataFrame:
    """
    이상치 여부를 판정하여 새로운 컬럼을 추가하는 함수
    Function to detect outliers and add a new column indicating outlier status
    
    Args:
        df: 입력 데이터프레임 Input DataFrame
        columns: 이상치를 검사할 컬럼 리스트 List of columns to check for outliers
        
    Returns:
        이상치 여부 컬럼이 추가된 데이터프레임 DataFrame with added outlier status column
    """
    
    # 각 컬럼별 이상치 판정 결과를 저장할 리스트
    # List to store outlier detection results for each column
    outlier_masks = []
    
    for col in columns:
        # 사분위수 계산 Calculate quartiles
        stats = df.select([
            pl.col(col).quantile(0.25).alias('Q1'),
            pl.col(col).quantile(0.75).alias('Q3')
        ])
        
        Q1 = stats[0, 'Q1']
        Q3 = stats[0, 'Q3']
        IQR = Q3 - Q1
        
        # 이상치 경계값 설정 Set outlier boundaries
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        
        # 컬럼별 이상치 마스크 생성 Create outlier mask for each column
        outlier_masks.append(
            (pl.col(col) < lower_bound) | (pl.col(col) > upper_bound)
        )
    
    # 모든 컬럼의 이상치 마스크를 결합 Combine outlier masks for all columns
    final_mask = outlier_masks[0]
    for mask in outlier_masks[1:]:
        final_mask = final_mask | mask
    
    # 이상치 여부를 나타내는 새로운 컬럼 추가
    # Add new column indicating outlier status
    return df.with_columns([
        pl.when(final_mask)
        .then(pl.lit("이상치존재"))
        .otherwise(pl.lit("이상치미존재"))
        .alias("이상치여부")
    ])

# 테스트 Test
test_df = pl.DataFrame({
    "values": [1, 2, 100, 3, 4],
    "species": ["a1", "a2", "a3", "a4", "a5"]
})

result = detect_outliers(test_df, ["values"])
print(result)


shape: (5, 3)
┌────────┬─────────┬──────────────┐
│ values ┆ species ┆ 이상치여부   │
│ ---    ┆ ---     ┆ ---          │
│ i64    ┆ str     ┆ str          │
╞════════╪═════════╪══════════════╡
│ 1      ┆ a1      ┆ 이상치미존재 │
│ 2      ┆ a2      ┆ 이상치미존재 │
│ 100    ┆ a3      ┆ 이상치존재   │
│ 3      ┆ a4      ┆ 이상치미존재 │
│ 4      ┆ a5      ┆ 이상치미존재 │
└────────┴─────────┴──────────────┘


## 이상치 제거 

In [108]:
# seaborn tips 데이터셋 로드 및 Polars DataFrame으로 변환
# Load seaborn tips dataset and convert to Polars DataFrame
import seaborn as sns
tips_df = pl.from_pandas(sns.load_dataset('tips'))

# total_bill 컬럼에 대해 이상치 탐지
# Detect outliers for total_bill column
tips_with_outliers = detect_outliers(tips_df, ["total_bill"])

# 이상치가 없는 데이터만 필터링
# Filter data without outliers
tips_no_outliers = tips_with_outliers.filter(pl.col("이상치여부") == "이상치미존재")

print("원본 데이터 shape:", tips_df.shape)
print("이상치 제거 후 shape:", tips_no_outliers.shape)

# 이상치 제거 전후 기술통계량 비교
# Compare statistics before and after outlier removal
print("\n이상치 제거 전 total_bill 통계량:")
print(tips_df.select("total_bill").describe())
print("\n이상치 제거 후 total_bill 통계량:")
print(tips_no_outliers.select("total_bill").describe())


원본 데이터 shape: (244, 7)
이상치 제거 후 shape: (234, 8)

이상치 제거 전 total_bill 통계량:
shape: (9, 2)
┌────────────┬────────────┐
│ statistic  ┆ total_bill │
│ ---        ┆ ---        │
│ str        ┆ f64        │
╞════════════╪════════════╡
│ count      ┆ 244.0      │
│ null_count ┆ 0.0        │
│ mean       ┆ 19.785943  │
│ std        ┆ 8.902412   │
│ min        ┆ 3.07       │
│ 25%        ┆ 13.37      │
│ 50%        ┆ 17.81      │
│ 75%        ┆ 24.08      │
│ max        ┆ 50.81      │
└────────────┴────────────┘

이상치 제거 후 total_bill 통계량:
shape: (9, 2)
┌────────────┬────────────┐
│ statistic  ┆ total_bill │
│ ---        ┆ ---        │
│ str        ┆ f64        │
╞════════════╪════════════╡
│ count      ┆ 234.0      │
│ null_count ┆ 0.0        │
│ mean       ┆ 18.70735   │
│ std        ┆ 7.32118    │
│ min        ┆ 3.07       │
│ 25%        ┆ 13.16      │
│ 50%        ┆ 17.46      │
│ 75%        ┆ 23.1       │
│ max        ┆ 39.42      │
└────────────┴────────────┘


## 이상치 변환

In [111]:
# 이상치에 해당하는 행 추출
# Extract rows with outliers
outlier_df = tips_with_outliers.filter(pl.col("이상치여부") == "이상치존재")

# total_bill 컬럼의 중간값과 평균값 계산
# Calculate median and mean of total_bill column
median_total_bill = tips_df.select("total_bill").median().item()
mean_total_bill = tips_df.select("total_bill").mean().item()

# 이상치를 중간값으로 대체한 새로운 DataFrame 생성
# Create new DataFrame with outliers replaced by median
tips2_median = tips_df.with_columns([
    pl.when(pl.col("total_bill").is_in(outlier_df.select("total_bill")))
    .then(median_total_bill)
    .otherwise(pl.col("total_bill"))
    .alias("total_bill")
])

# 이상치를 평균값으로 대체한 새로운 DataFrame 생성
# Create new DataFrame with outliers replaced by mean
tips2_mean = tips_df.with_columns([
    pl.when(pl.col("total_bill").is_in(outlier_df.select("total_bill")))
    .then(mean_total_bill)
    .otherwise(pl.col("total_bill"))
    .alias("total_bill")
])

# 네 데이터의 total_bill 평균 비교
# Compare means of total_bill between four DataFrames
print("원본 데이터 total_bill 평균:", tips_df.select("total_bill").mean().item())
print("이상치 데이터 total_bill 평균:", outlier_df.select("total_bill").mean().item())
print("이상치를 중간값으로 변환 후 total_bill 평균:", tips2_median.select("total_bill").mean().item())
print("이상치를 평균값으로 변환 후 total_bill 평균:", tips2_mean.select("total_bill").mean().item())


원본 데이터 total_bill 평균: 19.785942622950813
이상치 데이터 total_bill 평균: 45.025000000000006
이상치를 중간값으로 변환 후 total_bill 평균: 18.66995901639344
이상치를 평균값으로 변환 후 total_bill 평균: 18.75155502553077


# 레시피 36 : z_score 구하기

In [112]:
# z-score 계산: (x - mean) / std
# Calculate z-score: (x - mean) / std
tips_with_zscore = tips_df.with_columns([
    ((pl.col("total_bill") - pl.col("total_bill").mean()) / pl.col("total_bill").std())
    .alias("total_bill_zscore")
])

# z-score 결과 확인
# Check z-score results
print("Z-score 통계량:")
print(tips_with_zscore.select("total_bill_zscore").describe())

# z-score가 ±3 이상인 이상치 확인 
# Check outliers where |z-score| >= 3
outliers_zscore = tips_with_zscore.filter(
    (pl.col("total_bill_zscore").abs() >= 3)
)
print("\nZ-score 기준 이상치 개수:", len(outliers_zscore))
print("\n이상치 데이터:")
print(outliers_zscore.select(["total_bill", "total_bill_zscore"]))


Z-score 통계량:
shape: (9, 2)
┌────────────┬───────────────────┐
│ statistic  ┆ total_bill_zscore │
│ ---        ┆ ---               │
│ str        ┆ f64               │
╞════════════╪═══════════════════╡
│ count      ┆ 244.0             │
│ null_count ┆ 0.0               │
│ mean       ┆ 6.9889e-16        │
│ std        ┆ 1.0               │
│ min        ┆ -1.877687         │
│ 25%        ┆ -0.720697         │
│ 50%        ┆ -0.221956         │
│ 75%        ┆ 0.482348          │
│ max        ┆ 3.484905          │
└────────────┴───────────────────┘

Z-score 기준 이상치 개수: 4

이상치 데이터:
shape: (4, 2)
┌────────────┬───────────────────┐
│ total_bill ┆ total_bill_zscore │
│ ---        ┆ ---               │
│ f64        ┆ f64               │
╞════════════╪═══════════════════╡
│ 48.27      ┆ 3.199589          │
│ 48.17      ┆ 3.188356          │
│ 50.81      ┆ 3.484905          │
│ 48.33      ┆ 3.206329          │
└────────────┴───────────────────┘


# 