# 기본 컬럼 생성, 삭제, 이름 변경

In [1]:
import seaborn as sns
import pandas as pd

# Seaborn의 tips 데이터셋을 불러옵니다.
tips = sns.load_dataset('tips')

# ① 새로운 컬럼 생성: 팁 비율 (팁 금액을 총 지불 금액으로 나눈 백분율)
# 벡터화된 연산으로 모든 행에 대해 한 번에 계산합니다.
tips['tip_pct'] = (tips['tip'] / tips['total_bill'] * 100).round(1)

# ② 컬럼 이름 변경: 'sex' 컬럼을 'Gender'로 변경
# inplace=True를 사용해 원본 DataFrame을 바로 수정합니다.
tips.rename(columns={'sex': 'Gender'}, inplace=True)

# ③ 컬럼 삭제: 'size' 컬럼 제거
# inplace=True를 사용해 원본 DataFrame을 바로 수정합니다.
tips.drop(columns=['size'], inplace=True)

print(tips.head(3))

   total_bill   tip  Gender smoker  day    time  tip_pct
0       16.99  1.01  Female     No  Sun  Dinner      5.9
1       10.34  1.66    Male     No  Sun  Dinner     16.1
2       21.01  3.50    Male     No  Sun  Dinner     16.7


# 조건 기반 컬럼 생성 (조건부 값 할당)

In [3]:
import numpy as np
import seaborn as sns

tips = sns.load_dataset('tips')

# tip이 3달러 이상이면 'Large', 아니면 'Small'로 분류하는 컬럼 생성
tips['tip_size'] = np.where(tips['tip'] >= 3.0, 'Large', 'Small')

print(tips[['total_bill', 'tip', 'tip_size']].head(5))

   total_bill   tip tip_size
0       16.99  1.01    Small
1       10.34  1.66    Small
2       21.01  3.50    Large
3       23.68  3.31    Large
4       24.59  3.61    Large


# 타입 변환 및 dtype 최적화 

In [4]:
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')

# (a) 'sex' 컬럼을 카테고리형으로 변환
print("변환 전:", titanic['sex'].dtype)
titanic['sex'] = titanic['sex'].astype('category')
print("변환 후:", titanic['sex'].dtype)

# (b) 'age' 컬럼을 반올림하여 결측치를 허용하는 정수형으로 변환
titanic['age_int'] = titanic['age'].round().astype('Int64')
print(titanic[['age', 'age_int']].head(6))

변환 전: object
변환 후: category
    age  age_int
0  22.0       22
1  38.0       38
2  26.0       26
3  35.0       35
4  35.0       35
5   NaN     <NA>
