In [1]:
# 라이브러리 불러오기
import seaborn as sns
import pandas as pd

# titanic 데이터셋에서 age, fare 2개 열을 선택하여 데이터프레임 만들기

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]
  
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [2]:
# 각 열에 대해 최대값, 최소값, 평균, 중간값을 계산하는 함수
def calculate_stats(col):
    
    max_val = col.max()
    min_val = col.min()
    mean_val = col.mean()
    median_val = col.median()
    
    # 새로운 시리즈 반환
    return pd.Series([max_val, min_val, mean_val, median_val], index=['Max', 'Min', 'Mean', 'Median'])

# 각 열에 calculate_stats 함수 적용 (데이터프레임을 반환)
result_df = df.apply(calculate_stats, axis=0)

result_df

Unnamed: 0,age,fare
Max,80.0,512.3292
Min,0.42,0.0
Mean,29.699118,32.204208
Median,28.0,14.4542


In [3]:
# 각 열에 람다 함수 적용 (시리즈를 반환)
result_sr = df.apply(lambda x: x.max() - x.min(), axis=0)

result_sr

age      79.5800
fare    512.3292
dtype: float64

In [4]:
# 각 행에 대해 최대값과 최소값의 차이와 평균을 계산하는 함수
def calculate_diff_avg(row):
    diff = row.max() - row.min()
    avg = row.mean()
    # 새로운 시리즈 반환
    return pd.Series([diff, avg], index=['차이', '평균'])

# apply 함수를 사용하여 각 행에 calculate_diff_avg 함수 적용
result_df2 = df.apply(calculate_diff_avg, axis=1)

result_df2

Unnamed: 0,차이,평균
0,14.7500,14.62500
1,33.2833,54.64165
2,18.0750,16.96250
3,18.1000,44.05000
4,26.9500,21.52500
...,...,...
886,14.0000,20.00000
887,11.0000,24.50000
888,0.0000,23.45000
889,4.0000,28.00000


In [5]:
# 람다 함수를 사용하여 각 행에 대해 계산 적용 (multiplier 매개변수를 추가)
result_df3 = df.apply(lambda row, multiplier: pd.Series([(row.max() - row.min()) * multiplier, row.mean()],
                                                        index=['차이', '평균']),
                      multiplier = 2, axis=1)

result_df3

Unnamed: 0,차이,평균
0,29.5000,14.62500
1,66.5666,54.64165
2,36.1500,16.96250
3,36.2000,44.05000
4,53.9000,21.52500
...,...,...
886,28.0000,20.00000
887,22.0000,24.50000
888,0.0000,23.45000
889,8.0000,28.00000


In [6]:
# 평균값이 30을 초과하는 열만 필터링
filtered_columns = df.apply(lambda x: x.mean() > 30)
print(filtered_columns, "\n")

# 필터링된 열을 기반으로 새로운 데이터프레임 생성
filtered_df = df.loc[:, filtered_columns]

filtered_df

age     False
fare     True
dtype: bool 



Unnamed: 0,fare
0,7.2500
1,71.2833
2,7.9250
3,53.1000
4,8.0500
...,...
886,13.0000
887,30.0000
888,23.4500
889,30.0000


In [7]:
# 각 행의 평균값이 50을 초과하는지 여부에 따라 'High' 열 추가
df['High'] = df.apply(lambda row: 'Yes' if row.mean() > 50 else 'No', axis=1)

df

Unnamed: 0,age,fare,High
0,22.0,7.2500,No
1,38.0,71.2833,Yes
2,26.0,7.9250,No
3,35.0,53.1000,No
4,35.0,8.0500,No
...,...,...,...
886,27.0,13.0000,No
887,19.0,30.0000,No
888,,23.4500,No
889,26.0,30.0000,No
