In [4]:
# =============================================================================
# value_counts() 함수
# value_counts() 함수는 특정 컬럼에서 고유한 값의 개수를 계산하는 데 사용됩니다.
# 주로 범주형 데이터에서 각 항목이 몇 번 나타났는지 확인할 때 활용됩니다.
# =============================================================================

import pandas as pd  # Pandas 라이브러리 불러오기

# 1. Titanic 데이터셋 불러오기 (파일 경로는 사용자 환경에 맞게 변경)
df = pd.read_csv("C:/Users/SSAFY/Desktop/TIL/ds_lectures/101_offline_sh/day1/data_analysis_ws_1_4/data/titanic.csv")  # Titanic 데이터셋을 불러옴

In [5]:
# 2. 데이터프레임 기본 정보 확인
print("데이터프레임 기본 정보:")
print(df.info())  # 컬럼 정보, 데이터 타입, 결측치 개수 등을 확인

데이터프레임 기본 정보:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None


In [6]:
# 3. 숫자형 데이터의 기본 통계 분석
print("\n숫자형 데이터의 요약 통계:")
print(df.describe())  # 평균, 표준편차, 최소/최대값 등의 기본 통계 정보 확인


숫자형 데이터의 요약 통계:
       PassengerId    Survived      Pclass         Age       SibSp  \
count   891.000000  891.000000  891.000000  714.000000  891.000000   
mean    446.000000    0.383838    2.308642   29.699118    0.523008   
std     257.353842    0.486592    0.836071   14.526497    1.102743   
min       1.000000    0.000000    1.000000    0.420000    0.000000   
25%     223.500000    0.000000    2.000000   20.125000    0.000000   
50%     446.000000    0.000000    3.000000   28.000000    0.000000   
75%     668.500000    1.000000    3.000000   38.000000    1.000000   
max     891.000000    1.000000    3.000000   80.000000    8.000000   

            Parch        Fare  
count  891.000000  891.000000  
mean     0.381594   32.204208  
std      0.806057   49.693429  
min      0.000000    0.000000  
25%      0.000000    7.910400  
50%      0.000000   14.454200  
75%      0.000000   31.000000  
max      6.000000  512.329200  


In [8]:
# 4. Pclass(선실 등급)별 요금 비교
# 각 Pclass별 승객 수 확인
print("\n선실 등급(Pclass)별 승객 수:")
print(df["Pclass"].value_counts())  # Pclass별 승객 수 출력

# Pclass별 요금(Fare) 통계 분석
# (1) 1등석 승객의 평균 및 중앙값 요금 확인
first_class_fare = df.loc[df['Pclass'] == 1, "Fare"]
first_class_fare_mean = first_class_fare.mean()  # 평균 요금 계산
first_class_fare_median = first_class_fare.median()  # 중앙값 요금 계산
print(f"\n1등석 평균 요금: {first_class_fare_mean:.2f}, 중앙값 요금: {first_class_fare_median:.2f}")

# (2) 2등석 승객의 평균 및 중앙값 요금 확인
second_class_fare = df.loc[df['Pclass'] == 2, "Fare"]
second_class_fare_mean = second_class_fare.mean()  # 평균 요금 계산
second_class_fare_median = second_class_fare.median()  # 중앙값 요금 계산
print(f"\n2등석 평균 요금: {second_class_fare_mean:.2f}, 중앙값 요금: {second_class_fare_median:.2f}")

# (3) 3등석 승객의 평균 및 중앙값 요금 확인
third_class_fare = df.loc[df['Pclass'] == 3, "Fare"]
third_class_fare_mean = third_class_fare.mean()  # 평균 요금 계산
third_class_fare_median = third_class_fare.median()  # 중앙값 요금 계산
print(f"\n3등석 평균 요금: {third_class_fare_mean:.2f}, 중앙값 요금: {third_class_fare_median:.2f}")



선실 등급(Pclass)별 승객 수:
Pclass
3    491
1    216
2    184
Name: count, dtype: int64

1등석 평균 요금: 84.15, 중앙값 요금: 60.29

2등석 평균 요금: 20.66, 중앙값 요금: 14.25

3등석 평균 요금: 13.68, 중앙값 요금: 8.05


In [9]:
# 5. Pclass별 생존자 및 사망자 수 확인
# 생존자(Survived == 1) 및 사망자(Survived == 0)의 각 Pclass별 분포 확인
print("\n선실 등급별 생존자 수:")
print(df[df["Survived"] == 1]["Pclass"].value_counts())  # 생존자의 Pclass 분포

print("\n선실 등급별 사망자 수:")
print(df[df["Survived"] == 0]["Pclass"].value_counts())  # 사망자의 Pclass 분포


선실 등급별 생존자 수:
Pclass
1    136
3    119
2     87
Name: count, dtype: int64

선실 등급별 사망자 수:
Pclass
3    372
2     97
1     80
Name: count, dtype: int64
