# 데이터 전처리

- 데이터 분석의 정확도는 분석 데이터의 품질에 의해 좌우됨
- 데이터 품질을 높이기 위해 누락 데이터, 중복 데이터 등의 오류를 수정하고 분석 목적에 맞게 변형하는 과정이 필요
- 수집한 데이터를 분석에 적합하도록 만드는 과정

In [1]:
# GIGO 쓰래기가 들어가면 쓰래기가 나온다
# 전처리는 끝이 없다

1. 누락데이터
2. 중복데이터
의 처리... 이 전처리를 왜 했는가?
- 생각 : 누락데이터가 있으면 무엇이 문제가 되는지 삭제, 대체 등의 방법등...

# 누락 데이터 처리

- 데이터 프레임에는 여러가지 이유로 원소 데이터 값이 누락되는 경우가 종종 잇음
- 데이터를 파일로 입력할 때 빠트리거나 파일 형식을 변환하는 과정에서 데이터가 소실되는 것이 주요 원인

- 일반적으로 누락 데이터 를 NaN(Not a Number) 으로 표시

- 머신러닝 분석 모형에 데이터를 입력하기 전에 누락 데이터 를 제거하거나 다른 적절한 값으로 대체하는 과정잎 필요

- 누락 데이터가 많아지면 데이터의 품질이 덜어지고, 머신러닝 분석 알고리즘을 왜곡하는 현상이 발생

In [2]:
# 머신러닝을 할때 누락데이터가 있으면 안됨 

- 누락 데이터를 찾는 메소드
    - 누락 데이터를 True 로 반환, 유효한 데이터를 False 로 반환
        - isnull()
        - isna()
    
    - 누락 데이터를 Fasle 로 반환
        - notnull()
        - notna()

## 누락 데이터 확인

In [4]:
import pandas as pd
import seaborn as sns
import numpy as np

In [73]:
df = sns.load_dataset("titanic")
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [6]:
df.dtypes

survived          int64
pclass            int64
sex              object
age             float64
sibsp             int64
parch             int64
fare            float64
embarked         object
class          category
who              object
adult_male         bool
deck           category
embark_town      object
alive            object
alone              bool
dtype: object

In [7]:
df.shape

(891, 15)

In [8]:
df.describe

<bound method NDFrame.describe of      survived  pclass     sex   age  sibsp  parch     fare embarked   class  \
0           0       3    male  22.0      1      0   7.2500        S   Third   
1           1       1  female  38.0      1      0  71.2833        C   First   
2           1       3  female  26.0      0      0   7.9250        S   Third   
3           1       1  female  35.0      1      0  53.1000        S   First   
4           0       3    male  35.0      0      0   8.0500        S   Third   
..        ...     ...     ...   ...    ...    ...      ...      ...     ...   
886         0       2    male  27.0      0      0  13.0000        S  Second   
887         1       1  female  19.0      0      0  30.0000        S   First   
888         0       3  female   NaN      1      2  23.4500        S   Third   
889         1       1    male  26.0      0      0  30.0000        C   First   
890         0       3    male  32.0      0      0   7.7500        Q   Third   

       who  adult

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [11]:
# deck 열의 NaN 개수 계산하기

# dropna = False 옵션을 사용하면 NaN 값을 포함해서 데이터의 개수를 구함
nan_deck = df["deck"].value_counts(dropna = False)

In [12]:
nan_deck

deck
NaN    688
C       59
B       47
D       33
E       32
A       15
F       13
G        4
Name: count, dtype: int64

In [22]:
df.head().isnull() # 이게 누락된 값이니? 결측치니? 라고 묻는것

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False


In [23]:
# notnull 메서드로 누락데이터찾기
df.head().notnull()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True
1,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True
3,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True


In [24]:
# isnull() 메서드로누락데이터 개수 구하기

df.isnull()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
887,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,True,False,False,False,False,False,False,False,True,False,False,False
889,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False


In [27]:
df.isnull().sum() # 각 컬럼별로 누락값을 구할수있다!

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

## 누락 데이터 제거

In [30]:
# 왜 삭제를 하는가? : deck 실질적으로 사용할수있는데이터가 200개 밖에 되지 않아서 소생 불가능이라...
# 기준을 잡아서 삭제하는거임

# Nan 값이 500개 이상인 열을 모두 삭제
df_thresh = df.dropna(axis = 1 ,thresh = 500)

In [31]:
df_thresh.columns

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'embark_town', 'alive',
       'alone'],
      dtype='object')

In [32]:
# 삭제되었다!!!

In [34]:
# age 열에 나이 데이터가 없는 모든 행을 삭제

df_age = df.dropna(subset = ["age"], axis = 0) # age 를 검사할것이고 행을 삭제할것이다

In [37]:
df.shape[0]

891

In [38]:
df_age.shape[0]

714

In [39]:
# age 가 없는 행들을 모두 삭제한 값의 개수는 714 이다

- dropna()
    - subset 옵션 : 특정 열에 NaN 값이 있는 모든 행
      
    - how = "any" : NaN 값이 하나라도 존재하면 삭제
 
      
    - how = "all" : 모든 데이터가 NaN 값일 경우에만 삭제
        - 기본값은 any

In [63]:
df.dropna(subset=["age","fare"], axis = 0, how = "all") # 기본값은 any

TypeError: Series.dropna() got an unexpected keyword argument 'subset'

## 누락 데이터 치환

- 누락 데이터를 무작정 삭제한다면 데이터가 지나치게 줄어들 수 있음
- 분석 정확도는 데이터의 품질 외에도 제공되는 데이터의 양에 상당한 영향을 받음
- 데이터 주엥 일부누락되어있더라도 나머지 활용해얒죵

In [64]:
# 데이터를 골수까지 뽑아내라

- 누락 데이터를 대체할 값

- 데이터의 분포와 특성을 잘 나타낼 수 있는 값
    - 평균값
    - 최빈값

In [65]:
# 키면 남자키의 평균 여자키의 평균을 낸다 
# 왜? 를 생각해보기
# 최빈값 대체

- fillna() 메소드로 처리
- 특정한 값으로 누락 데이터를 대체
- 새로운 객체를 반환

- 데이터셋에서 서로 이웃하고 있는 데이터끼리는 유사성을 가질 가능성이 높음
- 앞이나 뒤에서 이웃하고 있는 값을 치환하는 경우가 많음
- ffill() : NaN이 있는 행의 직전 행에 있는 값으로 치환
- bfill() : NaN이 있는 행의 직후에 있는 값으로 치환

In [66]:
# 도메인 지식 강조 (주관적 견해)
# 뭔가 이유가 있다... 기존에 사용하던 방식을 채택한다...

In [80]:
df["age"].head(10)

0    22.000000
1    38.000000
2    26.000000
3    35.000000
4    35.000000
5    29.699118
6    54.000000
7     2.000000
8    27.000000
9    14.000000
Name: age, dtype: float64

In [81]:
# age 열의 NaN 값을 다른 나이 데이터의 평균으로 변경하기
mean_age = df["age"].mean() # age 열의 평균계산(NaN 값 제외)
mean_age

np.float64(29.69911764705882)

In [82]:
# NaN 값은 제외하고 평균을 구해줍니다

In [74]:
df["age"] = df["age"].fillna(mean_age)

In [75]:
df["age"].head(6)

0    22.000000
1    38.000000
2    26.000000
3    35.000000
4    35.000000
5    29.699118
Name: age, dtype: float64

In [72]:
df

0      22.000000
1      38.000000
2      26.000000
3      35.000000
4      35.000000
         ...    
886    27.000000
887    19.000000
888    29.699118
889    26.000000
890    32.000000
Name: age, Length: 891, dtype: float64

In [78]:
# embark_town 열의 누락 데이터 출력
df["embark_town"][825:830]

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829            NaN
Name: embark_town, dtype: object

In [83]:
# embark_twon 열의 NaN값을 승선도시 중에서 가장 많이 출현한 값으로 치환하기

In [84]:
df["embark_town"].value_counts() # Southampton 가장 많이 탔구나~

embark_town
Southampton    644
Cherbourg      168
Queenstown      77
Name: count, dtype: int64

In [89]:
most_freq = df["embark_town"].value_counts().idxmax() # 가장 많이 나온 친구의 index 를 구한다!!!!

In [90]:
most_freq

'Southampton'

In [95]:
df["embark_town"] = df["embark_town"].fillna(most_freq) # 재할당

In [96]:
df["embark_town"][825:830] # 잘바뀌였는지 확인하면 끝~~~

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829    Southampton
Name: embark_town, dtype: object

### 누락 데이터가 NaN 으로 표시가 안되는 경우

- 누락데이터가 NaN 이 아닌 0이나 "-", "?" 같은 값으로 입려되는 경우도 있다

In [100]:
df = sns.load_dataset("titanic") # 타이타닉 데이터 새로 받아오기

In [101]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [103]:
new_df = df["embark_town"][825:835]

In [104]:
new_df

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829            NaN
830      Cherbourg
831    Southampton
832      Cherbourg
833    Southampton
834    Southampton
Name: embark_town, dtype: object

In [105]:
new_df.ffill() # 앞에 있는 값인 Queenstown 으로 치환됨

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829     Queenstown
830      Cherbourg
831    Southampton
832      Cherbourg
833    Southampton
834    Southampton
Name: embark_town, dtype: object

In [106]:
new_df.bfill() # 뒤에 있는 값인 Cherbourg 으로 치환됨

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829      Cherbourg
830      Cherbourg
831    Southampton
832      Cherbourg
833    Southampton
834    Southampton
Name: embark_town, dtype: object

In [107]:
new_df

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829            NaN
830      Cherbourg
831    Southampton
832      Cherbourg
833    Southampton
834    Southampton
Name: embark_town, dtype: object

In [108]:
df["embark_town"][825:835] = new_df

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df["embark_town"][825:835] = new_df
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["embark_town"][825:835] 

In [109]:
# 없으면 그냥 NaN 이 될 수 있다...!

In [110]:
# 단위변환 이후에 배울것이 있다.

## 중복 데이터 처리

- 데이터 프레임에서 각 행은 분석 대상이 갖고 잇는 모든 속성에 대한 관측값을 뜻함
- 하나의 데이터셋에서 동일한 관측값이 중복되는 경우 분석 결과를 왜곡할 수 있기 때문에 삭제!

## 중복 데이터 확인

- duplicated()
- 행의 레코드가 중복되느느지 여부를 확인
- 전에 나온 행드로가 비교하여 중복되는 행이면 True 를 반환하고 , 처음나오는 행은 False 를 반환

- 데이텉 프레임에 duplicated() 메소드 중복여부를 나타내는 boolean 실즈 반환