## 문제 1: 결측치 처리

결측치(Missing Value)는 데이터 분석 과정에서 처리해야 할 중요한 이슈 중 하나입니다.

결측치를 처리하는 방법은 여러 가지가 있습니다.

가장 간단한 방법은 결측치를 모두 제거하는 것입니다.

하지만, 결측치가 너무 많은 경우 데이터의 손실이 크기 때문에 다른 방법을 사용해야 합니다.

대표적인 방법으로 결측치를 대체하는 방법이 있습니다.

결측치를 대체하는 방법은 다양한 방법이 있습니다.

가장 간단한 방법은 평균값, 중앙값, 최빈값 등으로 대체하는 것입니다.

이번 문제에서는 평균값, 최빈값으로 결측치를 대체하는 방법을 사용합니다.

## 문제

데이터셋을 불러온 후, 다음과 같이 결측치를 처리하세요.

Age 열의 결측치는 평균값으로 대체합니다.

Embarked 열의 결측치는 최빈값(Mode)으로 대체합니다.

Cabin 열은 결측치가 너무 많아서 삭제합니다.

결측치 처리 후, 결측치가 모두 제거되었는지 확인하는 코드를 작성하세요.

In [20]:
import pandas as pd

data = pd.read_csv('train.csv')

In [21]:
# 기본 정보 확인
print(data.head())        # 데이터 상위 5행 확인 
print(data.info())        # 데이터 타입과 결측치 확인
print(data.describe())    # 수치형 데이터의 요약 통계량

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  
<c

In [22]:
# 결측값 확인
print(data.isnull().sum())

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


In [23]:
# Cabin 열 삭제
data.drop(columns=['Cabin'], inplace=True)

In [24]:
# 결측값 확인
print(data.isnull().sum())

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Embarked         2
dtype: int64


In [25]:
# Age 열 결측치 평균값 대체
data['Age'].fillna(data['Age'].mean(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['Age'].fillna(data['Age'].mean(), inplace=True)


In [26]:
# Embarked 결측치 최빈값으로 대체
data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)


In [27]:
# 결측값 확인
print(data.isnull().sum())

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64
