# 누적합과 결측치 리리
### 주어진 데이터 셋에서 'f2' 컬럼이 1인 조건에 해당하는 데이터의 'f1'컬럼 누적합을 계산한다. 
### 이때 발생하는 누적합 결측치는 바로 뒤의 값을 채우고, 누적합의 평균값을 출력한다.
### (단, 결측치 바로 뒤의 값이 없으면 다음에 나오는 값을 채워넣는다)

- 데이터셋 : basic1.csv
- 오른쪽 상단 copy&edit 클릭 -> 예상문제 풀이 시작

In [1]:
# 라이브러리 및 데이터 
import pandas as pd
import numpy as np
data = pd.read_csv("/kaggle/input/bigdatacertificationkr/basic1.csv")
data.head(5)

Unnamed: 0,id,age,city,f1,f2,f3,f4,f5
0,id01,2.0,서울,,0,,ENFJ,91.297791
1,id02,9.0,서울,70.0,1,,ENFJ,60.339826
2,id03,27.0,서울,61.0,1,,ISTJ,17.252986
3,id04,75.0,서울,,2,,INFP,52.667078
4,id05,24.0,서울,85.0,2,,ISFJ,29.269869


In [2]:
# 'f2' 컬럼이 1인 조건에 해당하는 데이터 필터링
cond = data['f2'] == 1
filtered_data = data[cond]
filtered_data

Unnamed: 0,id,age,city,f1,f2,f3,f4,f5
1,id02,9.0,서울,70.0,1,,ENFJ,60.339826
2,id03,27.0,서울,61.0,1,,ISTJ,17.252986
6,id07,36.3,서울,60.0,1,,ISFJ,9.796378
7,id08,38.0,서울,101.0,1,,INFJ,83.68538
9,id10,95.0,서울,74.0,1,,ISFP,98.429899
13,id14,77.0,서울,50.0,1,,ENTJ,67.886373
14,id15,22.0,서울,67.0,1,,ENTP,9.796378
16,id17,74.0,서울,,1,,ISTP,67.886373
19,id20,11.0,서울,51.0,1,,INTJ,91.297791
20,id21,90.0,부산,,1,,ISFP,29.269869


In [3]:
# 필터링한 데이터의 'f1'컬럼 누적합 (누적합: cumsum())
f1_cumsum = filtered_data['f1'].cumsum()
f1_cumsum

1       70.0
2      131.0
6      191.0
7      292.0
9      366.0
13     416.0
14     483.0
16       NaN
19     534.0
20       NaN
21     606.0
22     681.0
25     738.0
27     772.0
33       NaN
35     849.0
37       NaN
46     924.0
49    1002.0
51    1084.0
53       NaN
55       NaN
58       NaN
62    1170.0
65       NaN
66    1222.0
69    1318.0
72       NaN
77    1414.0
80    1464.0
82    1514.0
86       NaN
88    1580.0
91    1658.0
93       NaN
94    1701.0
95    1754.0
Name: f1, dtype: float64

In [4]:
# 누적합 데이터의 결측치 처리 (뒤에 나오는 값으로 채움)
f1_cumsum_imputation = f1_cumsum.fillna(method = 'bfill')
f1_cumsum_imputation

1       70.0
2      131.0
6      191.0
7      292.0
9      366.0
13     416.0
14     483.0
16     534.0
19     534.0
20     606.0
21     606.0
22     681.0
25     738.0
27     772.0
33     849.0
35     849.0
37     924.0
46     924.0
49    1002.0
51    1084.0
53    1170.0
55    1170.0
58    1170.0
62    1170.0
65    1222.0
66    1222.0
69    1318.0
72    1414.0
77    1414.0
80    1464.0
82    1514.0
86    1580.0
88    1580.0
91    1658.0
93    1701.0
94    1701.0
95    1754.0
Name: f1, dtype: float64

In [5]:
# 평균 출력
mean = f1_cumsum_imputation.mean()
print(round(mean,2))

980.38


## Hint

In [6]:
import pandas as pd
import numpy as np

# 뒷값으로 결측치 채우기
s = pd.Series([np.nan, "퇴근후", np.nan,"딴짓", np.nan, 22, np.nan,45, np.nan, np.nan, 60])
print(s)

s.fillna(method='bfill') # 바로 뒤값으로 채워넣는 방법
# s.fillna(method='pad') # 이전값으로 채워넣는 방법

# 누적합 함수: cumsum()

0     NaN
1     퇴근후
2     NaN
3      딴짓
4     NaN
5      22
6     NaN
7      45
8     NaN
9     NaN
10     60
dtype: object


0     퇴근후
1     퇴근후
2      딴짓
3      딴짓
4      22
5      22
6      45
7      45
8      60
9      60
10     60
dtype: object

## 풀이

In [7]:
# 라이브러리 및 데이터 불러오기
import pandas as pd
import numpy as np

df = pd.read_csv('../input/bigdatacertificationkr/basic1.csv')
df.head(2)

Unnamed: 0,id,age,city,f1,f2,f3,f4,f5
0,id01,2.0,서울,,0,,ENFJ,91.297791
1,id02,9.0,서울,70.0,1,,ENFJ,60.339826


In [8]:
# 조건에 따른 누적합
df2 = df[df['f2']==1]['f1'].cumsum()
df2

1       70.0
2      131.0
6      191.0
7      292.0
9      366.0
13     416.0
14     483.0
16       NaN
19     534.0
20       NaN
21     606.0
22     681.0
25     738.0
27     772.0
33       NaN
35     849.0
37       NaN
46     924.0
49    1002.0
51    1084.0
53       NaN
55       NaN
58       NaN
62    1170.0
65       NaN
66    1222.0
69    1318.0
72       NaN
77    1414.0
80    1464.0
82    1514.0
86       NaN
88    1580.0
91    1658.0
93       NaN
94    1701.0
95    1754.0
Name: f1, dtype: float64

In [9]:
# 결측치 처리 (뒤에 나오는 값으로 채움)
df2 = df2.fillna(method = 'bfill')
df2

1       70.0
2      131.0
6      191.0
7      292.0
9      366.0
13     416.0
14     483.0
16     534.0
19     534.0
20     606.0
21     606.0
22     681.0
25     738.0
27     772.0
33     849.0
35     849.0
37     924.0
46     924.0
49    1002.0
51    1084.0
53    1170.0
55    1170.0
58    1170.0
62    1170.0
65    1222.0
66    1222.0
69    1318.0
72    1414.0
77    1414.0
80    1464.0
82    1514.0
86    1580.0
88    1580.0
91    1658.0
93    1701.0
94    1701.0
95    1754.0
Name: f1, dtype: float64

In [10]:
# 평균 출력
print(round(df2.mean(),2))

980.38
