In [10]:
# =============================================================================
# sort_values() 함수 설명
# sort_values() 함수는 특정 컬럼을 기준으로 데이터프레임을 정렬하는 데 사용됩니다.
# 오름차순(ascending=True) 또는 내림차순(ascending=False) 정렬이 가능합니다.

# 기본 문법:
# df.sort_values(by="컬럼명", ascending=True or False)
# =============================================================================

import pandas as pd  # Pandas 라이브러리 불러오기

# 1. Titanic 데이터셋 불러오기 (파일 경로는 사용자 환경에 맞게 변경)
df = pd.read_csv("C:/Users/SSAFY/Desktop/TIL/ds_lectures/101_offline_sh/day1/data_analysis_ws_1_5/data/titanic.csv")  # Titanic 데이터셋을 불러옴

In [11]:
# 2. 데이터프레임 기본 정보 확인
print("데이터프레임 기본 정보:")
df.info()  # 컬럼 정보, 데이터 타입, 결측치 개수 등을 확인

데이터프레임 기본 정보:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [12]:
# 3. 숫자형 데이터의 기본 통계 분석
print("\n숫자형 데이터의 요약 통계:")
df.describe()  # 평균, 표준편차, 최소/최대값 등의 기본 통계 정보 확인


숫자형 데이터의 요약 통계:


Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [13]:
# 4. 승객 데이터를 요금(Fare) 기준으로 내림차순 정렬
df_sorted_fare = df.sort_values(by="Fare", ascending=False)  # Fare 기준으로 내림차순 정렬
print("\n요금(Fare) 기준 내림차순 정렬된 승객 데이터 (상위 5개):")
df_sorted_fare.head()  # 정렬된 데이터 상위 5개 확인


요금(Fare) 기준 내림차순 정렬된 승객 데이터 (상위 5개):


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
679,680,1,1,"Cardeza, Mr. Thomas Drake Martinez",male,36.0,0,1,PC 17755,512.3292,B51 B53 B55,C
258,259,1,1,"Ward, Miss. Anna",female,35.0,0,0,PC 17755,512.3292,,C
737,738,1,1,"Lesurer, Mr. Gustave J",male,35.0,0,0,PC 17755,512.3292,B101,C
88,89,1,1,"Fortune, Miss. Mabel Helen",female,23.0,3,2,19950,263.0,C23 C25 C27,S
438,439,0,1,"Fortune, Mr. Mark",male,64.0,1,4,19950,263.0,C23 C25 C27,S


In [14]:

# 5. 승객 데이터를 나이(Age) 기준으로 오름차순 정렬
df_sorted_age = df.sort_values(by="Age", ascending=True)  # Age 기준으로 오름차순 정렬
print("\n나이(Age) 기준 오름차순 정렬된 승객 데이터 (상위 5개):")
df_sorted_age.head()  # 정렬된 데이터 상위 5개 확인


나이(Age) 기준 오름차순 정렬된 승객 데이터 (상위 5개):


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
803,804,1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,2625,8.5167,,C
755,756,1,2,"Hamalainen, Master. Viljo",male,0.67,1,1,250649,14.5,,S
644,645,1,3,"Baclini, Miss. Eugenie",female,0.75,2,1,2666,19.2583,,C
469,470,1,3,"Baclini, Miss. Helene Barbara",female,0.75,2,1,2666,19.2583,,C
78,79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0,,S


In [15]:

# 6. 가중 평균 요금(Fare) 계산
# 가중 평균을 사용하는 이유:
# - 일반 평균(mean)은 모든 데이터를 동일한 가중치로 다룹니다.
# - 하지만 Pclass(선실 등급)에 따라 요금이 다르고, 1등석 승객이 더 비싼 요금을 지불하는 경향이 있음.
# - 따라서 선실 등급별 가중치를 고려하여 가중 평균을 계산하면, 보다 현실적인 요금의 중심 값을 얻을 수 있음.

# Pclass의 역수를 가중치로 사용 (1등석은 가중치가 가장 큼, 3등석은 가장 작음)
df["Pclass_weight"] = 1 / df["Pclass"]  

# 가중 평균 공식:
# Σ(Fare × 가중치) / Σ(가중치)
weighted_fare_avg = (df["Fare"] * df["Pclass_weight"]).sum() / df["Pclass_weight"].sum()
print(f"\n가중 평균 요금(Fare): {weighted_fare_avg:.2f}")


가중 평균 요금(Fare): 47.31


In [16]:
# 7. 나이를 가중치로 활용한 새로운 가중 평균 계산
# - 어린 승객(어린이, 청소년)과 성인 승객의 요금 기여도가 다를 가능성이 있음.
# - 따라서 나이를 가중치로 활용하여, 연령대가 다른 승객들이 지불한 요금의 가중 평균을 계산.

# 결측치가 있는 Age 컬럼을 먼저 처리
df["Age"] = df["Age"].fillna(df["Age"].median())  # 결측치는 중앙값으로 대체

# 나이를 가중치로 사용하여 가중 평균 요금 계산
weighted_fare_by_age = (df["Fare"] * df["Age"]).sum() / df["Age"].sum()
print(f"\n나이를 가중치로 고려한 가중 평균 요금(Fare): {weighted_fare_by_age:.2f}")


나이를 가중치로 고려한 가중 평균 요금(Fare): 34.33
