In [6]:
# [오늘의 학습 목표]
# 결측치(Missing Value) 개념 이해하기.

# 오늘 사용할 데이터셋은 '타이타닉(Titanic)' 데이터셋입니다. 

# 타이타닉 데이터셋
# 데이터셋 설명: 타이타닉호 승객들의 생존 여부(survived)를 포함한 다양한 정보를 담고 있습니다.

# --- 1. 데이터 로드 ---
# seaborn 라이브러리를 사용해 내장된 타이타닉 데이터셋을 불러옵니다.

import pandas as pd
import seaborn as sns

df = sns.load_dataset('titanic')

print("--- 1. 타이타닉 데이터셋 로드 완료 ---")
print(df)

--- 1. 타이타닉 데이터셋 로드 완료 ---
     survived  pclass     sex   age  sibsp  parch     fare embarked   class  \
0           0       3    male  22.0      1      0   7.2500        S   Third   
1           1       1  female  38.0      1      0  71.2833        C   First   
2           1       3  female  26.0      0      0   7.9250        S   Third   
3           1       1  female  35.0      1      0  53.1000        S   First   
4           0       3    male  35.0      0      0   8.0500        S   Third   
..        ...     ...     ...   ...    ...    ...      ...      ...     ...   
886         0       2    male  27.0      0      0  13.0000        S  Second   
887         1       1  female  19.0      0      0  30.0000        S   First   
888         0       3  female   NaN      1      2  23.4500        S   Third   
889         1       1    male  26.0      0      0  30.0000        C   First   
890         0       3    male  32.0      0      0   7.7500        Q   Third   

       who  adult_male d

In [7]:
# --- 2. 데이터 탐색 및 전처리 계획 수립 * 실무 워크 플로우 * ---

# 2.1 df.info()를 실행해 결측치와 데이터 타입을 확인

# 2.2 * df.select_dtypes().unique() * 범주형 컬럼을 자동으로 찾아 고유값을 확인
# Pandas의 select_dtypes()라는 활용해 (예: object, category)을 범주형 컬럼 자동으로 선택하기

# 위 결과를 바탕으로 아래와 같은 전처리 계획을 수립:
# - age 컬럼 결측치는 평균값으로 채운다.
# - embarked 컬럼 결측치는 최빈값으로 채운다.
# - sex와 embarked 컬럼을 숫자로 변환한다.

print("---데이터 정보 확인 (결측지 여부) ---")
df.info()

categorical_columns = df.select_dtypes(include=['object', 'category']).columns.to_list()
print("\n--- 2.2 범주형 컬럼 고유값 확인 ---")
for col in categorical_columns:
    print(f"\n[{col}] 컬럼 고유값:")
    print(df[col].unique())

---데이터 정보 확인 (결측지 여부) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB

--- 2.2 범주형 컬럼 고유값 확인 ---

[sex] 컬럼 고유값:
['male' 'fe

In [8]:
# 3.1 결측치 처리
#  빈 값(결측치)들은 모델이 학습할 수 없기 때문에 어떤 방식으로든 채워주거나 없애야 해.

# 'age' 컬럼의 결측치를 평균값으로 채워 넣기
# .fillna(): 비어있는 값을 채워주는 함수
# .mean(): 평균을 계산하는 함수

df['age'] = df['age'].fillna(df['age'].mean())


# 1. df['embarked'].mode(): embarked 컬럼에서 가장 많이 등장한 값(최빈값)을 찾아. 예를 들어 'S'가 가장 많았다고 해보자.
# 2. mode()[0]: 가장 많이 등장한 값을 찾아줘. mode()는 결과를 여러 개 반환할 수 있어서, [0]을 붙여서 그중 첫 번째 값('S')만 골라줘.
# 3. df['embarked'].fillna(...): fillna() 함수가 'S'라는 값으로 embarked 컬럼의 모든 비어있는 칸을 채워.
# 4. df['embarked'] = ...: 마지막으로, 채워진 embarked 컬럼을 원본 데이터에 다시 덮어씌워서 저장해.

df['embarked'] = df['embarked'].fillna(df['embarked'].mode()[0])

print("--- 3.1 'age' 컬럼 결측치 처리 완료 ---")
print("처리 후 'age' 컬럼 정보:")
df.info()

--- 3.1 'age' 컬럼 결측치 처리 완료 ---
처리 후 'age' 컬럼 정보:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          891 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     891 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [9]:
# 3.2 범주형 데이터 변환
df['sex'] = df['sex'].map({'male': 0, 'female': 1})
df['embarked'] = df['embarked'].map({'S': 0, 'C': 1, 'Q': 2})

print("\n--- 3. 전처리 완료 후 데이터 확인 ---")
print(df[['sex', 'embarked']].head())
print("\n전체 데이터 정보:")
df.info()


--- 3. 전처리 완료 후 데이터 확인 ---
   sex  embarked
0    0         0
1    1         1
2    1         0
3    1         0
4    0         0

전체 데이터 정보:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    int64   
 3   age          891 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     891 non-null    int64   
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), categ

In [10]:
# <!-- dtypes: bool(2), category(2), float64(2), int64(4), object(5) 이 출력 값은

# bool(2): bool 타입의 컬럼이 2개
# category(2): category 타입의 컬럼이 2개
# float64(2): float64 타입의 컬럼이 2개
# int64(4): int64 타입의 컬럼이 4개
# object(5): object 타입의 컬럼이 5개

# 이렇게 각 데이터 타입별로 컬럼이 몇 개씩 있는지 숫자로 요약해서 보여주는 거야. 
# df.info()가 데이터에 대한 전반적인 통계를 한눈에 보여주는 아주 유용한 기능이라는 걸 알 수 있지. -->

In [11]:
# <!-- object와 category 타입:
# object: 단순한 텍스트 데이터. 'male', 'female'처럼 글자로 된 값이야.
# category: 텍스트 데이터 중에서도 종류가 한정적일 때, 메모리를 아끼기 위해 쓰는 효율적인 타입이야. 데이터 분석에서는 둘 다 범주형 데이터로 취급하면 돼.

# select_dtypes()의 역할:
# df.select_dtypes(include=['object', 'category']) 코드는 데이터프레임에서 object와 category 타입의 모든 컬럼을 자동으로 선택해 줘.
# 이 방식을 쓰면 컬럼 이름이 바뀌거나 추가되더라도 코드를 수정할 필요가 없어서 매우 효율적이야.

# Categories의 의미:
# Categories (숫자, object)는 해당 컬럼이 category 타입이며, 총 몇 개의 고유한 카테고리(숫자)가 있고, 원래는 object(텍스트) 타입이었음을 알려주는 정보야. -->