# 데이터 전처리
## 결측값 처리

In [1]:
import pandas as pd
import numpy as np

In [2]:
data = {
    "group": ['A', 'B', 'A', 'A', 'B', 'C', 'C', 'B'],
    "score": [10, 9, 10, 20, 7, 8, 10, 6],
    "age": [27, 28, 30, 36, 24, 27, 33, 25]
}
df = pd.DataFrame(data =data,
    index = [f"x{i}" for i in range(8)]
)

In [4]:
df.loc['x1', 'age'] = np.nan
df.loc['x3', ['score', 'age']] = np.nan
df.loc['x8', :] = np.nan
df

Unnamed: 0,group,score,age
x0,A,10.0,27.0
x1,B,9.0,
x2,A,10.0,30.0
x3,A,,
x4,B,7.0,24.0
x5,C,8.0,27.0
x6,C,10.0,33.0
x7,B,6.0,25.0
x8,,,


- 결측값 확인

In [5]:
df.isnull()#결측치 = True, 아닌건 False

Unnamed: 0,group,score,age
x0,False,False,False
x1,False,False,True
x2,False,False,False
x3,False,True,True
x4,False,False,False
x5,False,False,False
x6,False,False,False
x7,False,False,False
x8,True,True,True


In [8]:
#print(df.isnull().sum())
#print(df.isnull().sum(0))
print(df.isnull().sum(axis=0))## sum의 첫 parameter는 axis며 default값은 0

x0    0
x1    1
x2    0
x3    2
x4    0
x5    0
x6    0
x7    0
x8    3
dtype: int64


# 결측치 삭제
- 데이터명.dropna(): NaN이라고 표기한 값 제거
- dropna(how=, axis=)
- how: any, all 결측치 처리 방식
    - any: 목록 삭제, NaN이 하나라도 있으면 삭제
    - all: 단일 삭제, 전체가 NaN인 경우 삭제
- axis:0, 1 행,열 기준
    - 0: 행 기준
    - 1: 열 기준

In [9]:
#행(axis=0)을 기준으로 모두 NaN인 행 제거
df.dropna(how='all', axis=0)

Unnamed: 0,group,score,age
x0,A,10.0,27.0
x1,B,9.0,
x2,A,10.0,30.0
x3,A,,
x4,B,7.0,24.0
x5,C,8.0,27.0
x6,C,10.0,33.0
x7,B,6.0,25.0


In [10]:
#열(axis=1)을 기준으로 모두 NaN인 행 제거
df.dropna(how='all', axis=1)

Unnamed: 0,group,score,age
x0,A,10.0,27.0
x1,B,9.0,
x2,A,10.0,30.0
x3,A,,
x4,B,7.0,24.0
x5,C,8.0,27.0
x6,C,10.0,33.0
x7,B,6.0,25.0
x8,,,


In [11]:
# 행 기준으로 NaN이 하나라도 있는 경우 행 삭제
df.dropna(how='any', axis=0)

Unnamed: 0,group,score,age
x0,A,10.0,27.0
x2,A,10.0,30.0
x4,B,7.0,24.0
x5,C,8.0,27.0
x6,C,10.0,33.0
x7,B,6.0,25.0


In [12]:
# 열 기준으로 NaN이 하나라도 있는 경우 행 삭제
df.dropna(how='any', axis=1)

x0
x1
x2
x3
x4
x5
x6
x7
x8


- 임계치 삭제
    - thresh = n: n개 이상 값(결측값이 아닌 값)이 있는 행/열만 선택

In [15]:
df.dropna(thresh=2, axis=0)
# 2개 이상 값이 있는 행만 삭제

Unnamed: 0,group,score,age
x0,A,10.0,27.0
x1,B,9.0,
x2,A,10.0,30.0
x4,B,7.0,24.0
x5,C,8.0,27.0
x6,C,10.0,33.0
x7,B,6.0,25.0


In [16]:
df.dropna(thresh=7, axis=1)
# 7개 이상 값이 있는 열만 삭제

Unnamed: 0,group,score
x0,A,10.0
x1,B,9.0
x2,A,10.0
x3,A,
x4,B,7.0
x5,C,8.0
x6,C,10.0
x7,B,6.0
x8,,


In [33]:
df = df.dropna(how='all', axis=0)
df

Unnamed: 0,group,score,age
x0,A,10.0,27.0
x1,B,9.0,
x2,A,10.0,30.0
x3,A,,
x4,B,7.0,24.0
x5,C,8.0,27.0
x6,C,10.0,33.0
x7,B,6.0,25.0


#결측값 대치
- 결측값 대치
    -  fillna(value=0)

In [34]:
df.fillna(value=0)

Unnamed: 0,group,score,age
x0,A,10.0,27.0
x1,B,9.0,0.0
x2,A,10.0,30.0
x3,A,0.0,0.0
x4,B,7.0,24.0
x5,C,8.0,27.0
x6,C,10.0,33.0
x7,B,6.0,25.0


In [37]:
print(df.mean(numeric_only=True))#평균값
# print(df.mode(numeric_only=True))#최빈값
# print(df.median(numeric_only=True))#중앙값
# df[['score', 'age']].mean()
# 만약,

score     8.571429
age      27.666667
dtype: float64


In [38]:
df.fillna(value=df.mean(numeric_only=True))

Unnamed: 0,group,score,age
x0,A,10.0,27.0
x1,B,9.0,27.666667
x2,A,10.0,30.0
x3,A,8.571429,27.666667
x4,B,7.0,24.0
x5,C,8.0,27.0
x6,C,10.0,33.0
x7,B,6.0,25.0


In [39]:
df_new = df.fillna(value=df.mean(numeric_only=True))
df_new

Unnamed: 0,group,score,age
x0,A,10.0,27.0
x1,B,9.0,27.666667
x2,A,10.0,30.0
x3,A,8.571429,27.666667
x4,B,7.0,24.0
x5,C,8.0,27.0
x6,C,10.0,33.0
x7,B,6.0,25.0


In [41]:
df_new['score'] = df['score'].fillna(value=df['score'].mean())
df_new

Unnamed: 0,group,score,age
x0,A,10.0,27.0
x1,B,9.0,27.666667
x2,A,10.0,30.0
x3,A,8.571429,27.666667
x4,B,7.0,24.0
x5,C,8.0,27.0
x6,C,10.0,33.0
x7,B,6.0,25.0
