# 결측치 관련

## 결측치 확인

### 1) 결측치 여부 확인 : `df.isnull()`

### 2) 칼럼별 결측치 갯수 확인 : `df.isnull().sum()`

```python
df.isnull().sum() # 이대로 실행하면 df.isnull().sum(axis=0)와 동일
```

### 3) 행 기준 결측치 갯수 확인 : `df.isnull().sum(axis=1)`
- axis=1 옵션을 기준으로 혼동 주의, 헷갈리면 직접 옵션 넣어서 확인해보기

### Example 
두 개 이상의 컬럼이 동시에 결측인 레코드의 행번호들을 확인하려면?

- 문제 참고 : [데이터 에듀 빅데이터 분석기사 실기 with Python]

In [11]:
# 임의로 데이터 생성

import pandas as pd
df = pd.DataFrame({"col1":[None,None,60, None], "col2":[None,66,43,20], "col3":[98,32,15,None]})
df

Unnamed: 0,col1,col2,col3
0,,,98.0
1,,66.0,32.0
2,60.0,43.0,15.0
3,,20.0,


In [14]:
df.isnull() # 결측치 여부 확인

Unnamed: 0,col1,col2,col3
0,True,True,False
1,True,False,False
2,False,False,False
3,True,False,True


In [13]:
df[df.isnull().sum(axis=1) >= 2].index # 한 행에 결측치가 2개 이상인 인덱스 확인

Int64Index([0, 3], dtype='int64')

## 결측치 제거 : `df.dropna()`

### 1) 결측치가 있는 '행' 기준 제거 : `df.dropna(axis=0)`
- 그냥 dropna() 하면 axis=0가 디폴트
- 결측치가 하나라도 있는 행을 모두 제거

### 2) 결측치가 있는 '열' 기준 제거 : `df.dropna(axis=1)`
- 결측치가 하나라도 있는 행을 모두 제거

### 3) '특정 행 또는 열'을 대상으로 결측값 제거 : `df["칼럼"].dropna()`

### Example : 빅분기 기출 3회 2번 (캐글)
결측치 데이터(행)을 제거하고, 앞에서부터 60% 데이터만 활용해, 'f1' 컬럼 3사분위 값을 구하시오
- 60%가 소수점일 경우 절사(예: 36.6 일때 36으로 계산)
- data: t1-data1.csv

[캐글 빅분기 기출 3회 2번 링크](https://www.kaggle.com/code/agileteam/3rd-type1-2-3-1-2)

In [2]:
import pandas as pd
df = pd.read_csv("../Data/t1-data1.csv")
df.head()

Unnamed: 0,id,age,city,f1,f2,f4,f5
0,id01,2.0,서울,,0,ENFJ,91.297791
1,id02,9.0,서울,70.0,1,ENFJ,60.339826
2,id03,27.0,서울,61.0,1,ISTJ,17.252986
3,id04,75.0,서울,,2,INFP,52.667078
4,id05,24.0,서울,85.0,2,ISFJ,29.269869


In [3]:
# print(df.shape) # (90, 7)

df = df.dropna().reset_index(drop=True)
# print(df.shape) # (61, 7)

df = df.iloc[:int(len(df)*0.6)]
result = int(df["f1"].quantile(0.75)) # 소수점 절사
print(result)

77


## 결측치 대체 : `df.fillna()`

### 평균(mean())이나 중앙값(median) 대체

In [None]:
# 평균
df.fillna(df.mean())
df["col"] = df["col"].fillna(df["col"].mean())

# 중앙값
df.fillna(df.median())
df["col"] = df["col"].fillna(df["col"].median())

### 이전행 기준으로 결측치 대체 : `df.fillna(method = "ffill")`
- forward fill

### 이후행 기준으로 결측치 대체 : `df.fillna(method= "bfill")`
- backward fill

### Example
모든 결측치는 컬럼기준 직전의 값으로 대체하고 첫번째 행에 결측치가 있을경우 뒤에있는 값으로 대체하라

[데이터 마님 데이터 전처리 예제 - Time Series](https://www.datamanim.com/dataset/99_pandas/pandasMain.html#time-series)

In [6]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/pandas/main/timeTest.csv')
df.head()

Unnamed: 0,Yr_Mo_Dy,RPT,VAL,ROS,KIL,SHA,BIR,DUB,CLA,MUL,CLO,BEL,MAL
0,2061-01-01,15.04,14.96,13.17,9.29,,9.87,13.67,10.25,10.83,12.58,18.5,15.04
1,2061-01-02,14.71,,10.83,6.5,12.62,7.67,11.5,10.04,9.79,9.67,17.54,13.83
2,2061-01-03,18.5,16.88,12.33,10.13,11.17,6.17,11.25,,8.5,7.67,12.75,12.71
3,2061-01-04,10.58,6.63,11.75,4.58,4.54,2.88,8.63,1.79,5.83,5.88,5.46,10.88
4,2061-01-05,13.33,13.25,11.42,6.17,10.71,8.21,11.92,6.54,10.92,10.34,12.92,11.83


In [7]:
df = df.fillna(method="ffill").fillna(method="bfill")
df.head()

Unnamed: 0,Yr_Mo_Dy,RPT,VAL,ROS,KIL,SHA,BIR,DUB,CLA,MUL,CLO,BEL,MAL
0,2061-01-01,15.04,14.96,13.17,9.29,12.62,9.87,13.67,10.25,10.83,12.58,18.5,15.04
1,2061-01-02,14.71,14.96,10.83,6.5,12.62,7.67,11.5,10.04,9.79,9.67,17.54,13.83
2,2061-01-03,18.5,16.88,12.33,10.13,11.17,6.17,11.25,10.04,8.5,7.67,12.75,12.71
3,2061-01-04,10.58,6.63,11.75,4.58,4.54,2.88,8.63,1.79,5.83,5.88,5.46,10.88
4,2061-01-05,13.33,13.25,11.42,6.17,10.71,8.21,11.92,6.54,10.92,10.34,12.92,11.83
