# 데이터 사전 처리

### 1. 누락 데이터 처리

데이터 품질을 높이기 위해서는 누락 데이터, 중복 데이터 등 오류를 수정하고 분석 문적에 맞게 변형하는 과정이 필요하다. 

일반적으로 유요한 데이터값이 존재하지 않는 누락 데이터를 NaN으로 표시한다.

머신러닝 분석 모형에 데이터를 입력하기 전에는 반드시 데이터를 제거하거나 다른 적절한 값으로 대체하는 과정이 필요하다.
### &nbsp;
+ 누락 데이터 확인

`info()` 메소드로 데이터프레임의 요약 정보를 출력하면 각 열에 속하는 데이터 중에서 유효한(NaN이 아닌) 값의 개수를 보여준다. RengeIndex를 통해 각 열에 몇개의 데이터가 있는지 알 수 있으므로 누락 데이터의 개수를 계산할 수 있다.

In [2]:
# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋 가져오기
df = sns.load_dataset('titanic')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


`value_counts()` 메소드를 이용하여 누락 데이터의 개수를 파악할 수 있다. 누락 데이터의 개수를 확인하려면 반드시 dropna=False 옵션을 사용해야한다. 그렇지 않으면 NaN 값을 제외하고 유효한 데이터의 개수만을 구하기 때문이다.

In [4]:
# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋 가져오기
df = sns.load_dataset('titanic')

# deck 열의 NaN 개수 계산하기
nan_deck = df['deck'].value_counts(dropna=False) 
print(nan_deck)

NaN    688
C       59
B       47
D       33
E       32
A       15
F       13
G        4
Name: deck, dtype: int64


+ insul() 과 notnull()

`insull()` : 누락 데이터면 True 반환, 유요한 데이터가 존재하면 False 반환

`notnull()` : 유요한 데이터가 존재하면 True 반환, 누락 데이터면 False 반환

In [7]:
# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋 가져오기
df = sns.load_dataset('titanic')

# isnull() 메서드로 누락 데이터 찾기
print(df.head().isnull())

   survived  pclass    sex    age  sibsp  parch   fare  embarked  class  \
0     False   False  False  False  False  False  False     False  False   
1     False   False  False  False  False  False  False     False  False   
2     False   False  False  False  False  False  False     False  False   
3     False   False  False  False  False  False  False     False  False   
4     False   False  False  False  False  False  False     False  False   

     who  adult_male   deck  embark_town  alive  alone  
0  False       False   True        False  False  False  
1  False       False  False        False  False  False  
2  False       False   True        False  False  False  
3  False       False  False        False  False  False  
4  False       False   True        False  False  False  


In [9]:
# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋 가져오기
df = sns.load_dataset('titanic')

# notnull() 메서드로 누락 데이터 찾기
print(df.head().notnull())

   survived  pclass   sex   age  sibsp  parch  fare  embarked  class   who  \
0      True    True  True  True   True   True  True      True   True  True   
1      True    True  True  True   True   True  True      True   True  True   
2      True    True  True  True   True   True  True      True   True  True   
3      True    True  True  True   True   True  True      True   True  True   
4      True    True  True  True   True   True  True      True   True  True   

   adult_male   deck  embark_town  alive  alone  
0        True  False         True   True   True  
1        True   True         True   True   True  
2        True  False         True   True   True  
3        True   True         True   True   True  
4        True  False         True   True   True  


+ 누락 데이터의 개수 구하기

insull() 메소드의 경우 반환되는 값이 참이면 1 거짓이면 0으로 판별한다. 따라서 sum(axis=0) 메소드를 적용하여 참의 합을 구해 누락데이터의 개수를 계산한다.

In [14]:
# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋 가져오기
df = sns.load_dataset('titanic')

# isnull() 메서드로 누락 데이터 개수 구하기
print(df.isnull().sum(axis=0))

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64


+ 누락 데이터 제거

열을 삭제하면 분석 대상이 갖는 특성(변수)를 제거하고, 행을 삭제하면 분석 대상의 관측값(레코드)를 제거하게 된다.

먼저 'tatinic' 데이터셋의 각 열에 누락 데이터가 몇 개씩 포함되어 있는지 체크한다.

In [12]:
# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋 가져오기
df = sns.load_dataset('titanic')

# for 반복문으로 각 열의 NaN 개수 계산하기
missing_df = df.isnull()
for col in missing_df.columns:
    missing_count = missing_df[col].value_counts()    # 각 열의 NaN 개수 파악

    try: 
        print(col, ': ', missing_count[True])   # NaN 값이 있으면 개수를 출력
    except:
        print(col, ': ', 0)                     # NaN 값이 없으면 0개 출력

survived :  0
pclass :  0
sex :  0
age :  177
sibsp :  0
parch :  0
fare :  0
embarked :  2
class :  0
who :  0
adult_male :  0
deck :  688
embark_town :  2
alive :  0
alone :  0


누락 데이터가 차지하는 비율이 매우 높은 열은 삭제하여 분석에서 제외한다.

dropna() 메소드에 thresh=500 옵션을 적용하여, NaN 값을 500개 이상 갖는 모든 열을 삭제한다.

df.dropna(axis=0 or 1, thresh=n) : 축을 기준으로 n개 미만 입력되면 그 축을 삭제

In [13]:
# NaN 값이 500개 이상인 열을 모두 삭제 - deck 열(891개 중 688개의 NaN 값)
df_thresh = df.dropna(axis=1, thresh=500)  
print(df_thresh.columns)

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'embark_town', 'alive',
       'alone'],
      dtype='object')


또한 891명 중 177명이 age에 대한 데이터가 없다. 

승객의 나이가 데이터 분석의 중요한 변수라면, 나이 데이터가 없는 승객의 레코드를 제거하는 것이 좋다.

dropna(subset='특정 열') : 특정 열의 행 중에서 NaN값이 있는 모든 행(axis=0)을 삭제한다.
    
how='any' (기본값) : NaN 값이 하나라도 존재한다면 삭제

how='all' : 모든 데이터가 NaN 값일 경우에만 삭제

In [15]:
# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋 가져오기
df = sns.load_dataset('titanic')

# for 반복문으로 각 열의 NaN 개수 계산하기
missing_df = df.isnull()
for col in missing_df.columns:
    missing_count = missing_df[col].value_counts()    # 각 열의 NaN 개수 파악

    try: 
        print(col, ': ', missing_count[True])   # NaN 값이 있으면 개수를 출력
    except:
        print(col, ': ', 0)                     # NaN 값이 없으면 0개 출력
        
# NaN 값이 500개 이상인 열을 모두 삭제 - deck 열(891개 중 688개의 NaN 값)
df_thresh = df.dropna(axis=1, thresh=500)  
print(df_thresh.columns)

# age 열에 나이 데이터가 없는 모든 행을 삭제 - age 열(891개 중 177개의 NaN 값)
df_age = df.dropna(subset=['age'], how='any', axis=0)  
print(len(df_age))

survived :  0
pclass :  0
sex :  0
age :  177
sibsp :  0
parch :  0
fare :  0
embarked :  2
class :  0
who :  0
adult_male :  0
deck :  688
embark_town :  2
alive :  0
alone :  0
Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'embark_town', 'alive',
       'alone'],
      dtype='object')
714


+ 누락 데이터 치환

데이터 중에서 일부가 누락되어 있더라도 나머지 데이터를 최대한 살려서 데이터 분석에 활용하는 것이 좋은 결과를 얻는 경우가 많다.

누락 데이터를 바꿔서 대체할 값으로는 데이터의 분포와 특성을 잘 나타낼 수 있는 평균값, 최빈값 등을 활용한다.

판다스의 `fillna()`메소드로 처리할 수 있다. 원본 객체를 변경하려면 inplace=True 옵션을 추가해야한다.

+ 평균, 중간값, 최대값으로 누락 데이터 바꾸기

`fillna()` 메소드에 평균값, 중간값이 계산된 데이터를 인자로 전달하면 NaN값을 찾아서 평균값으로 대체한다.

평균값 계산 : `mean()` 메소드

중간값 계산 : `median()` 메소드

In [19]:
# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋 가져오기
df = sns.load_dataset('titanic')

# age 열의 첫 10개 데이터 출력 (5 행에 NaN 값)
print(df['age'].head(10))
print('\n')

# age 열의 NaN값을 다른 나이 데이터의 평균으로 변경하기
mean_age = df['age'].mean(axis=0)   # age 열의 평균 계산 (NaN 값 제외)
df['age'].fillna(mean_age, inplace=True)

# age 열의 첫 10개 데이터 출력 (5 행에 NaN 값이 평균으로 대체)
print(df['age'].head(10))

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
5     NaN
6    54.0
7     2.0
8    27.0
9    14.0
Name: age, dtype: float64


0    22.000000
1    38.000000
2    26.000000
3    35.000000
4    35.000000
5    29.699118
6    54.000000
7     2.000000
8    27.000000
9    14.000000
Name: age, dtype: float64


+ 가장 많이 나타는 값으로 바꾸기

`value_counts()` 메소드를 사용하여 승선도시별 승객 수를 찾고, `idxmax()` 메소드로 가장 큰 값을 갖는 도시를 찾기

In [20]:
# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋 가져오기
df = sns.load_dataset('titanic')

# embark_town 열의 829행의 NaN 데이터 출력
print(df['embark_town'][825:830])
print('\n')

# embark_town 열의 NaN값을 승선도시 중에서 가장 많이 출현한 값으로 치환하기
most_freq = df['embark_town'].value_counts(dropna=True).idxmax()   
print(most_freq)
print('\n')

df['embark_town'].fillna(most_freq, inplace=True)

# embark_town 열 829행의 NaN 데이터 출력 (NaN 값이 most_freq 값으로 대체)
print(df['embark_town'][825:830])

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829            NaN
Name: embark_town, dtype: object


Southampton


825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829    Southampton
Name: embark_town, dtype: object


> + 누락 데이터가 NaN으로 표시되지 않은 경우
>
>누락 데이터가 숫자 0이나 문자 '-','?' 같은 값으로 입력된 경우 replace() 메소드를 활용하여 NumPy에서 지원하는 np.nan으로 변경해주는 것이 좋다.
>
>ex) '?'을 np.nan으로 치환 : df.replace('?', np.nan, inpalce=True)
>
>np.nan을 사용하기 위해서는 NumPy 라이브러리를 먼저 임포트 해야한다.

서로 이웃하고 있는 데이터끼리 유사성을 가진다면 앞이나 뒤에서 이웃하고 있는 값으로 누락 데이터를 치환해주는 것이 좋다.

fillna() 메소드 옵션 | 기능
---------------------|-------
method='ffill' | NaN을 직전 행에 있는 값으로 치환
method='bfill' | NaN을 바로 다음 행에 있는 값으로 치환

In [21]:
# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋 가져오기
df = sns.load_dataset('titanic')

# embark_town 열의 829행의 NaN 데이터 출력
print(df['embark_town'][825:830])
print('\n')

# embark_town 열의 NaN값을 바로 앞에 있는 828행의 값으로 변경하기
df['embark_town'].fillna(method='ffill', inplace=True)
print(df['embark_town'][825:830])

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829            NaN
Name: embark_town, dtype: object


825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829     Queenstown
Name: embark_town, dtype: object
