In [None]:
import seaborn as sns
import pandas as pd

# 데이터 (사)전처리

## 결측치 (누락데이터) / NaN (Not a Number) 처리

In [None]:
# 데이터 로딩
df = sns.load_dataset('titanic')

df.head()

In [None]:
df.tail()

**[결측치 확인]**

In [None]:
# info() 로 기본 요약 정보 확인
df.info()

In [None]:
# deck 컬럼에 NaN 개수 확인
deck_nan = df['deck'].value_counts(dropna=False)

deck_nan

In [None]:
# 직접 : isnull() / 간접 : notnull()  ==> T/F로 리턴
df.head().isnull()

In [None]:
df.tail().notnull()

In [None]:
df.head().isnull().sum(axis=0)

In [None]:
df.isnull().sum(axis=0)

**[결측치 처리]**

* 누락데이터 삭제

In [None]:
df_tresh = df.dropna(axis=1, thresh=500)   # thresh : NaN 최소 기준치
df_tresh.columns

In [None]:
df_tresh.head()

In [None]:
# age 컬럼에 나이 데이터가 없는 행을 삭제
df_age = df.dropna(subset=['age'], how='any', axis=0)
print(len(df_age))

* 누락데이터 치환(대치)

In [None]:
df.head(10)

In [None]:
df.info()

In [None]:
# age 컬럼 확인
df.age.head(10)

In [None]:
# 평균값으로 대치 : age 컬럼의 NaN값을 나머지 나이데이터의 평균값으로 대치
mean_age = df.age.mean(axis=0)

df.age = df.age.fillna(mean_age)

In [None]:
df.age.head(10)

In [None]:
df.age.isnull().sum(axis=0)

In [None]:
# 최빈값으로 대치
df.embark_town[825:831]

In [None]:
most_freq = df.embark_town.value_counts(dropna=True).idxmax()

most_freq

In [None]:
df.embark_town = df.embark_town.fillna(most_freq)

In [None]:
df.embark_town[825:831]

In [None]:
# 이전값으로 대치
df = sns.load_dataset('titanic')
df.head()

In [None]:
df.embark_town[825:831]

In [None]:
# [실습] embark_town 컬럼의 NaN 값을 바로 이전행의 값으로 치환해 보세요

## 데이터 표준화

* 동일한 대상을 표현하는 방법에 차이가 있으면, 분석의 정확도는 현저히 낮아짐.

**[단위 환산]**

In [None]:
df = pd.read_csv('./auto-mpg-header.csv')
df.head()

In [None]:
# mpg(mile per gallon) 을 kpl(kilometer per liter)로 변환
mpg_to_kpl = 1.60934 / 3.75841

# 데이터셋에 kpl 열을 추가
df['kpl'] = df.mpg * mpg_to_kpl

df.head()

In [None]:
# kpl 열 관측값을 소수점 2자리에 반올림 처리
df.kpl = df.kpl.round(2)
df.head()

**[자료형 변환]**

In [None]:
df.head()

In [None]:
# 전체 컬럼 자료형 확인
df.dtypes

In [None]:
# horsepower 컬럼의 고유값 확인
df.horsepower.unique()

In [None]:
import numpy as np

df.horsepower = df.horsepower.replace('?', np.nan)

df.horsepower.unique()

In [None]:
# object 자료형을 float 으로 변환
df.horsepower = df.horsepower.astype('float')
df.horsepower.dtypes

In [None]:
# NaN 값을 평균값으로 대치
horsepower_mean = df.horsepower.mean(axis=0)

df.horsepower = df.horsepower.fillna(horsepower_mean)

df.horsepower.unique()

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
# origin 컬럼 확인
df.origin.unique()

In [None]:
# 정수형 데이터를 문자형 데이터로 변환
df.origin = df.origin.replace({1 : 'USA', 2 : 'JPN', 3 : 'EU'})
df.origin.unique()

In [None]:
df.head()

In [None]:
df.origin.dtypes

In [None]:
# object to 범주형 데이터형 변환
df.origin = df.origin.astype('category')

df.origin.dtypes

In [None]:
# 범주형을 문자형으로 다시 변환
df.origin = df.origin.astype('str')
df.origin.dtypes

In [None]:
# model year
df['model year'].value_counts()

In [None]:
df['year'] = df['model year'].astype('category')

df['year']

In [None]:
pd.set_option('display.max_rows', None)

df['year']

In [None]:
df['year'].sample(3)