In [1]:
import pandas as pd  # Pandas 라이브러리 불러오기

In [2]:
# 1. Titanic 데이터셋 불러오기 (파일 경로는 사용자 환경에 맞게 변경)

df = pd.read_csv("../data/titanic.csv")  # Titanic 데이터셋 파일명을 입력하세요.

df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [3]:
# 2. 데이터셋 기본 탐색

# 데이터프레임의 전체적인 정보를 확인 (컬럼, 데이터 타입, 결측치 개수 등)
print("데이터프레임 기본 정보:")
print(df.info())  # 데이터프레임의 전체 구조를 확인하는 함수 

# 데이터프레임의 크기(행, 열 개수) 확인
print("\n데이터프레임 크기:")
print(df.shape)  # 데이터의 행과 열 개수를 확인하는 속성 

# 상위 5개 행 출력
print("\n데이터프레임 상위 5개 행:")
print(df.head())  # 데이터의 처음 몇 개 행을 미리 확인하는 함수

데이터프레임 기본 정보:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None

데이터프레임 크기:
(891, 12)

데이터프레임 상위 5개 행:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4     

In [4]:
# 3. 결측치 확인

# 각 컬럼별 결측치 개수를 확인
print("\n각 컬럼별 결측치 개수:")
print(df.isna().sum())  # 결측치를 확인하는 함수 


각 컬럼별 결측치 개수:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


In [5]:
# 4. 결측치 처리

# (1) Age 컬럼의 결측치를 중앙값(median)으로 대체
age_median = df["Age"].median()  # 중앙값을 구하는 함수 
df["Age"] = df["Age"].fillna(age_median)  # 결측치를 중앙값으로 채우는 함수 

# (2) Embarked 컬럼의 결측치를 최빈값(mode)으로 대체
embarked_mode = df["Embarked"].mode()[0]  # 최빈값을 구하는 함수
df["Age"] = df["Embarked"].fillna(embarked_mode)  # 결측치를 최빈값으로 채우는 함수

- 결측치 처리 (중앙값)
  - 안정적인 대표값
  - 이상치에 강함
  - 비대칭 분포인 경우
  
- 결측치 처리 (최빈값)
  - 일반적인 방식 
  - 범주형 데이터
  - 분석의 왜곡 최소화

In [6]:
# 5. 결측치 처리 후 다시 확인

print("\n결측치 처리 후 각 컬럼별 결측치 개수:")
print(df.isna().sum())  # 결측치가 잘 처리되었는지 확인하는 함수 


결측치 처리 후 각 컬럼별 결측치 개수:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


In [7]:
# 6. 주요 통계 정보 확인

# 숫자형 데이터의 기초 통계 확인 (평균, 표준편차, 최소/최대값 등)
print("\n숫자형 데이터 요약 통계:")
print(df.describe())  # 숫자형 데이터의 통계 요약을 출력하는 함수


숫자형 데이터 요약 통계:
       PassengerId    Survived      Pclass       SibSp       Parch        Fare
count   891.000000  891.000000  891.000000  891.000000  891.000000  891.000000
mean    446.000000    0.383838    2.308642    0.523008    0.381594   32.204208
std     257.353842    0.486592    0.836071    1.102743    0.806057   49.693429
min       1.000000    0.000000    1.000000    0.000000    0.000000    0.000000
25%     223.500000    0.000000    2.000000    0.000000    0.000000    7.910400
50%     446.000000    0.000000    3.000000    0.000000    0.000000   14.454200
75%     668.500000    1.000000    3.000000    1.000000    0.000000   31.000000
max     891.000000    1.000000    3.000000    8.000000    6.000000  512.329200


In [8]:
# 7. 범주형 데이터(객실 등급, 성별, 탑승항) 값 분포 확인
print("\n객실 등급(Pclass)별 승객 수:")
print(df["Pclass"].value_counts())  # Pclass 값 개수를 세는 함수

print("\n성별(Sex)별 승객 수:")
print(df["Sex"].value_counts())  # Sex 값 개수를 세는 함수 

print("\n탑승 항구(Embarked)별 승객 수:")
print(df["Embarked"].value_counts())  # Embarked 값 개수를 세는 함수


객실 등급(Pclass)별 승객 수:
Pclass
3    491
1    216
2    184
Name: count, dtype: int64

성별(Sex)별 승객 수:
Sex
male      577
female    314
Name: count, dtype: int64

탑승 항구(Embarked)별 승객 수:
Embarked
S    644
C    168
Q     77
Name: count, dtype: int64


- 값 분포 확인
  - 데이터 전체 구조 이해
  - 불균형 데이터 여부 파악
  - 결측치 또는 이상치 확인

- 결과: 2등석 < 1등석 < 3등석
- 결과: 여성 < 남성
  - 성별의 불균형
- 결과: S > C > Q
  - 항구별 불균형