# 11. 데이터 전처리
---
## 결측값 처리
- 데이터 분석에서 결측값은 종종 문제를 발생시킬 수 있으므로 미리 처리해야한다.
- pandas는 결측값을 처리하기 위한 여러 방법을 제공한다.

In [1]:
import pandas as pd
df = pd.read_csv('data/customers3.csv', index_col='고객ID')
df

Unnamed: 0_level_0,고객명,나이,거주도시,주요관심사,최근1년_방문빈도,평균구매액(만원),고객만족도(점),재구매의사(점)
고객ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
C001,박태근,35,시흥,Electronics,75,70,78,92
C002,이영희,30,안양,fashion,85,92,88,85
C003,박지성,35,울산,,95,110,91,88
C004,최민아,40,창원,Fashion,92,105,82,96
C005,정수빈,28,구로,Fashion,82,88,94,79
C006,윤태영,27,시흥,Electronics,88,95,85,91
C007,한유진,31,파주,,68,65,77,83
C008,강민호,29,일산,Sports,98,125,96,90


**결측값 제거 `dropna()`**
- 결측치(NaN, Not a Number)를 행또는 열 기준으로 제거해주는 기능
- 원본에는 영향을 끼치지 않고, 새로운 DataFrame이 반환된다.

**how**
- 행이나 열의 값들이 얼마나 결측치여야 제거할지 결정
- 행기준(axis=0)이 기본값으로 조건에 부합시 그행을 제거함.
    - any : 하나라도 NaN이면 제거 (기본값)
    - all : 전부 NaN이어야 제거

**subset**
- 결측치를 검사할 특정 열을 지정한다. 지정된 열에 결측치가 있을때만 행을 제거한다.''

In [2]:
df.dropna(subset='주요관심사')

Unnamed: 0_level_0,고객명,나이,거주도시,주요관심사,최근1년_방문빈도,평균구매액(만원),고객만족도(점),재구매의사(점)
고객ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
C001,박태근,35,시흥,Electronics,75,70,78,92
C002,이영희,30,안양,fashion,85,92,88,85
C004,최민아,40,창원,Fashion,92,105,82,96
C005,정수빈,28,구로,Fashion,82,88,94,79
C006,윤태영,27,시흥,Electronics,88,95,85,91
C008,강민호,29,일산,Sports,98,125,96,90


**결측값 대체 `fillna()`**
- 결측치(NaN, Not a Number)를 특정 값이나 방식으로 채워주는 기능
- 원본에는 영향을 끼치지 않고, 새로운 Data Frame이 반환된다.

In [3]:
df.fillna('')

Unnamed: 0_level_0,고객명,나이,거주도시,주요관심사,최근1년_방문빈도,평균구매액(만원),고객만족도(점),재구매의사(점)
고객ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
C001,박태근,35,시흥,Electronics,75,70,78,92
C002,이영희,30,안양,fashion,85,92,88,85
C003,박지성,35,울산,,95,110,91,88
C004,최민아,40,창원,Fashion,92,105,82,96
C005,정수빈,28,구로,Fashion,82,88,94,79
C006,윤태영,27,시흥,Electronics,88,95,85,91
C007,한유진,31,파주,,68,65,77,83
C008,강민호,29,일산,Sports,98,125,96,90


### 중복 데이터 처리
**중복값 확인 `duplicated()`**

In [8]:
data = {
    'Name' : ['Alice','Bob','Alice','David'],
    'Age' : [25,30,25,40]
}

df = pd.DataFrame(data)

df

Unnamed: 0,Name,Age
0,Alice,25
1,Bob,30
2,Alice,25
3,David,40


**중복값 제거 `drop_duplicates()`**

In [9]:
df = df.drop_duplicates()

df

Unnamed: 0,Name,Age
0,Alice,25
1,Bob,30
3,David,40


### 데이터 정렬

**값을 기준으로 정렬 `sort_values()`**
- 특정 열의 값을 기준으로 데이터를 정렬할 수 있다.
- 기본적으로 오름차순으로 정렬되며, 내림차순은 accending=False 옵션을 사용한다.

In [10]:
import pandas as pd
df = pd.read_csv('data/customers3.csv', index_col='고객ID')
df

Unnamed: 0_level_0,고객명,나이,거주도시,주요관심사,최근1년_방문빈도,평균구매액(만원),고객만족도(점),재구매의사(점)
고객ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
C001,박태근,35,시흥,Electronics,75,70,78,92
C002,이영희,30,안양,fashion,85,92,88,85
C003,박지성,35,울산,,95,110,91,88
C004,최민아,40,창원,Fashion,92,105,82,96
C005,정수빈,28,구로,Fashion,82,88,94,79
C006,윤태영,27,시흥,Electronics,88,95,85,91
C007,한유진,31,파주,,68,65,77,83
C008,강민호,29,일산,Sports,98,125,96,90


In [11]:
df.sort_values(by='나이', ascending=False)

Unnamed: 0_level_0,고객명,나이,거주도시,주요관심사,최근1년_방문빈도,평균구매액(만원),고객만족도(점),재구매의사(점)
고객ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
C004,최민아,40,창원,Fashion,92,105,82,96
C001,박태근,35,시흥,Electronics,75,70,78,92
C003,박지성,35,울산,,95,110,91,88
C007,한유진,31,파주,,68,65,77,83
C002,이영희,30,안양,fashion,85,92,88,85
C008,강민호,29,일산,Sports,98,125,96,90
C005,정수빈,28,구로,Fashion,82,88,94,79
C006,윤태영,27,시흥,Electronics,88,95,85,91


**인덱스를 기준으로 정렬 `sort_index()`**