# 데이터 전처리(Data Preprocessing)
- 머신러닝 등 데이터 분석의 정확도는 분석 데이터의 품질에 의해 좌우된다.
- **`데이터 품질을 높이기 위해서는 누락 데이터, 중복 데이터 등 오류를 수정하고 분석 목적에 맞게 변형하는 과정이 필요`**하다.
- 수집한 데이터를 분석에 적합하도록 처리하는 과정을 데이터 전처리(Data Preprocessing)이라고 한다.


## 누락 데이터 확인
- 데이터 프레임에는 원소 데이터 값이 종종 누락되는 경우가 있다. 
- 데이터를 파일로 입력할 때 빠뜨리거나 파일 형식을 변환하는 과정에서 데이터가 손실되는 것이 주요 원인이다.
- 일반적으로 **`유효한 데이터 값이 존재하지 않는 누락 데이터를  Nan(Not a Number)로 표시`**한다.
- **`데이터 분석을 하기 전에 반드시 누락 데이터를 제거하거나 다른 적적할 값으로 대체하는 과정이 필요`**하다.

* Seaborn 라이러리의 'titanic' 데이터셋을 사용한다.

![%ED%83%80%EC%9D%B4%ED%83%80%EB%8B%89_%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%85%8B.PNG](attachment:%ED%83%80%EC%9D%B4%ED%83%80%EB%8B%89_%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%85%8B.PNG)

### 누락 데이터 확인하기 - 계산하여 확인

In [1]:
# 판다스, Seaborn 라이브러리 임포트



In [2]:
# Seaborn 라이브러리의 'titanic'데이터셋을 로드(seaborn.load_dataset())한다.
# 로드한 데이터프레임을  df에 대입한다.



In [3]:
# 데이터프레임 df의 앞부분 데이터 확인



Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [4]:
# 데이터프레임 df의 뒷부분 데이터 확인



Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [5]:
# 데이터프레임 df의 행,렬에 대해 확인



(891, 15)

In [6]:
# 데이터프레임 df의 컬럼 확인



Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone'],
      dtype='object')

In [7]:
# 데이터프레임 df의 모든 컬럼의 데이터 타입 확인



survived          int64
pclass            int64
sex              object
age             float64
sibsp             int64
parch             int64
fare            float64
embarked         object
class          category
who              object
adult_male         bool
deck           category
embark_town      object
alive            object
alone              bool
dtype: object

In [8]:
# 데이터프레임 df의 요약정보 확인



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [9]:
# 데이터프레임 각 열의 유효 데이터 개수를 확인한다.



survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [10]:
# 누락 데이터 개수 게산해보기
# 총행수 - 유효데이터수
# df.shape[0] - df.count()



survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

### 누락데이터 확인하기 - 판다스 메소드 이용하여 확인
* DataFrame객체.**`isnull()(isna())`** : 누락데이터이면 True를 반환하고, 유효한 데이터가 존해하면 False를 반환한다.
* DataFrame객체.**`notnull()`** : 유효한 데이터이면 True를 반환하고, 누락 데이터이면 False를 반환한다.

In [11]:
# 데이터프레임 df의 isnull() 메소드로 누락 데이터 찾기



Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
887,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,True,False,False,False,False,False,False,False,True,False,False,False
889,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False


In [12]:
# 데이터프레임 df의 notull() 메소드로 유효 데이터 찾기



Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True
1,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True
3,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True
887,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
888,True,True,True,False,True,True,True,True,True,True,True,False,True,True,True
889,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True


### 누락데이터 개수 구하기
* sum()
* isnull() 메소드와 notnull() 메소드를 활용하여 누락데이터 개수를 구할 수 있다.
* isnull() 메소드의 경우 반환되는 값이 참이면 1이고, 거짓이면 0으로 판별한다.
* 따라서 **`isnull() 메소드를 실행하고 sum(0) 메소드를 적용하면 참(1)의 합을 구할 수 있다`**.

In [13]:
# True는 1과 같다



True

In [14]:
# False는 0과 같다.



True

In [15]:
# True + True + False ???



2

In [16]:
# 첫번째 컬럼=> 이름: 'a', 데이터: 1, 2, 3
# 두번째 컬럼=> 이름: 'b', 데이터: 11, 22, 33
# 세번째 컬럼=> 이름: 'c', 데이터: 111, 222, 333 인 데이터프레임 df_sum 을 생성하고 확인한다.



In [17]:
# df_sum확인



Unnamed: 0,a,b,c
0,1,11,111
1,2,22,222
2,3,33,333


In [18]:
# df_sum의 각열의 데이터를 합함



a      6
b     66
c    666
dtype: int64

* titanic 데이터셋의 데이터프레임  df에 적용해본다.

In [19]:
# 데이터프레임 df의 isnull()메소드와  sum()메소들 이용하여 누락 데이터 개수 구하기



survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

In [20]:
# 데이터프레임 df의 유효 데이터 개수 구하기



survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

# 필터링
- **`시리즈 또는 데이터프레임의 데이터 중에서 특정 조건식을 만족하는 원소만 따로 추출`**하는 개념이다.

## 불린 인덱싱

데이터프레임의 불린 인덱싱: <b>`데이터프레임객체[불린시리즈]`</b>

- 시리즈 객체에 어떤 조건식을 적용하면 각 원소에 대해 참/거짓을 판별하여 불린(참,거짓) 값으로 구성된 시리즈를 반환한다.
- 이때 참에 해당하는 데이터 값을 따로 선택할 수 있는데, 많은 데이터 중에서 어떤 조건을 만족하는 데이터만을 추출하는 필터링 기법의 한 유형이다.
- 데이터프레임의 각 열은 시리즈 객체이므로, 조건식(>, <, ==, ..)을 적용하면 각 원소가 조건을 만족하는지 여부를 참과 거짓 값으로 표시하여 불린시리즈를 만들 수 있다.
- 이 **`불린시리즈를 데이터프레임에 대입하면 조건을 만족하는 행들만 선택`**할 수 있다.

* seaborn의 'titanic'데이터셋을 이용하여 불린인덱싱 해본다.

In [21]:
# df확인



Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [22]:
# 데이터프레임 df를 복사하여 titanic데이터프레임을 만든다.



* 나이가 10대(10~19세)인 승객만 따로 선택


In [23]:
# titanic 데이터프레임의 각 행의 age가 10대인지 여부를 True, False값으로 가지는 불린시리즈 mask1 생성



In [24]:
# mask1 확인



0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887     True
888    False
889    False
890    False
Name: age, Length: 891, dtype: bool

In [25]:
# mask1의 타입 확인


# mask1은 불린시리즈이다.

pandas.core.series.Series

In [26]:
# titanic 데이터프레임의 행 인덱스 위치에 불린시리즈 mask1을 대입하면
# 해당조건을 만족하는(즉 True인행만) 행만 남게 된다.
# 결과른 df_teenage에 대입



In [27]:
# df_teenage 확인



Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
14,0,3,female,14.0,0,0,7.8542,S,Third,child,False,,Southampton,no,True
22,1,3,female,15.0,0,0,8.0292,Q,Third,child,False,,Queenstown,yes,True
27,0,1,male,19.0,3,2,263.0000,S,First,man,True,C,Southampton,no,False
38,0,3,female,18.0,2,0,18.0000,S,Third,woman,False,,Southampton,no,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
853,1,1,female,16.0,0,1,39.4000,S,First,woman,False,D,Southampton,yes,False
855,1,3,female,18.0,0,1,9.3500,S,Third,woman,False,,Southampton,yes,False
875,1,3,female,15.0,0,0,7.2250,C,Third,child,False,,Cherbourg,yes,True
877,0,3,male,19.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True


In [28]:
# 나이가 10대(10~19세)인 승객만 따로 선택



Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
14,0,3,female,14.0,0,0,7.8542,S,Third,child,False,,Southampton,no,True
22,1,3,female,15.0,0,0,8.0292,Q,Third,child,False,,Queenstown,yes,True
27,0,1,male,19.0,3,2,263.0000,S,First,man,True,C,Southampton,no,False
38,0,3,female,18.0,2,0,18.0000,S,Third,woman,False,,Southampton,no,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
853,1,1,female,16.0,0,1,39.4000,S,First,woman,False,D,Southampton,yes,False
855,1,3,female,18.0,0,1,9.3500,S,Third,woman,False,,Southampton,yes,False
875,1,3,female,15.0,0,0,7.2250,C,Third,child,False,,Cherbourg,yes,True
877,0,3,male,19.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True


* 나이가 10세 미만(0~9세)이고 여성인 승객만 따로 선택

In [29]:
# titanic 데이터프레임의 각 행의 age가 10세 미만이고 성별이 여성인지 여부를 True, False값으로 가지는 불린시리즈 mask2 생성



In [30]:
# mask2 확인, mssk2는 불린 시리즈임



0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Length: 891, dtype: bool

In [31]:
# titanic 데이터프레임의 행 인덱스 위치에 불린시리즈 mask2를 대입하면
# 해당조건을 만족하는(즉 True인행만) 행만 남게 된다.
# 결과를 df_female_under10에 대입



In [32]:
# df_female_under10 확인



Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
43,1,2,female,3.0,1,2,41.5792,C,Second,child,False,,Cherbourg,yes,False
58,1,2,female,5.0,1,2,27.75,S,Second,child,False,,Southampton,yes,False
119,0,3,female,2.0,4,2,31.275,S,Third,child,False,,Southampton,no,False
147,0,3,female,9.0,2,2,34.375,S,Third,child,False,,Southampton,no,False
172,1,3,female,1.0,1,1,11.1333,S,Third,child,False,,Southampton,yes,False
184,1,3,female,4.0,0,2,22.025,S,Third,child,False,,Southampton,yes,False
205,0,3,female,2.0,0,1,10.4625,S,Third,child,False,G,Southampton,no,False
233,1,3,female,5.0,4,2,31.3875,S,Third,child,False,,Southampton,yes,False


In [33]:
# 나이가 10세 미만(0~9세)이고 여성인 승객만 따로 선택



Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
43,1,2,female,3.0,1,2,41.5792,C,Second,child,False,,Cherbourg,yes,False
58,1,2,female,5.0,1,2,27.75,S,Second,child,False,,Southampton,yes,False
119,0,3,female,2.0,4,2,31.275,S,Third,child,False,,Southampton,no,False
147,0,3,female,9.0,2,2,34.375,S,Third,child,False,,Southampton,no,False
172,1,3,female,1.0,1,1,11.1333,S,Third,child,False,,Southampton,yes,False
184,1,3,female,4.0,0,2,22.025,S,Third,child,False,,Southampton,yes,False
205,0,3,female,2.0,0,1,10.4625,S,Third,child,False,G,Southampton,no,False
233,1,3,female,5.0,4,2,31.3875,S,Third,child,False,,Southampton,yes,False


* 나이가 10세 미만(0~9세)이거나 또는 60세 이상인 승객의 age, sex, alone 열만 선택

In [34]:
# titanic 데이터프레임의 각 행의 age가 10세 미만이거나 age가 60세 이상인지 여부를 True, False값으로 가지는 불린시리즈 mask3 생성



In [35]:
# mask3 확인



0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: age, Length: 891, dtype: bool

In [36]:
# titanic 데이터프레임의 행 인덱스 위치에 불린시리즈 mask3을 대입하면
# 해당조건을 만족하는(즉 True인행만) 행만 남게 된다.
# 열 인덱스에 '['age', 'sex', 'alone']' 대입해 원하는 열만을 선택했기 때문에 나이가 10세 미만이거나 60세 이상인 
# 탑승객의 나이, 성별, 혼자탑승여부를 선택할 수 있다.
# 결과를 df_under10_morethan60에 대입



In [37]:
# df_under10_morethan60 확인



Unnamed: 0,age,sex,alone
7,2.00,male,False
10,4.00,female,False
16,2.00,male,False
24,8.00,female,False
33,66.00,male,True
...,...,...,...
831,0.83,male,False
850,4.00,male,False
851,74.00,male,True
852,9.00,female,False


In [38]:
# 나이가 10세 미만(0~9세)이거나 또는 60세 이상인 승객의 age, sex, alone 열만 선택



Unnamed: 0,age,sex,alone
7,2.00,male,False
10,4.00,female,False
16,2.00,male,False
24,8.00,female,False
33,66.00,male,True
...,...,...,...
831,0.83,male,False
850,4.00,male,False
851,74.00,male,True
852,9.00,female,False


* 혼자온 사람이 아닌 데이터만 필터링

In [39]:
# 혼자온 사람이 아닌 데이터만 필터링



Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
7,0,3,male,2.0,3,1,21.0750,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
874,1,2,female,28.0,1,0,24.0000,C,Second,woman,False,,Cherbourg,yes,False
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False
880,1,2,female,25.0,0,1,26.0000,S,Second,woman,False,,Southampton,yes,False
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,no,False


In [40]:
# 혼자온 사람이 아닌 데이터만 필터링



Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
7,0,3,male,2.0,3,1,21.0750,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
874,1,2,female,28.0,1,0,24.0000,C,Second,woman,False,,Cherbourg,yes,False
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False
880,1,2,female,25.0,0,1,26.0000,S,Second,woman,False,,Southampton,yes,False
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,no,False
