# 판다스 입문 _06

- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html

---

## 누락값 처리하기 

### 누락값 확인 
- NaN, NaN, nan 

---

### 넘파이에서 비교
---

In [2]:
from numpy import NaN, NAN, nan

In [3]:
# 알수 없는 값 
# 불린으로 구분이 안되 => 더미 값 
print(NaN == True)

False


In [4]:
print(NaN == False)

False


In [5]:
print(NaN == 0)

False


In [6]:
print(NaN == '')

False


---

### 판다스에서 비교 
---

In [7]:
import pandas as pd 

In [8]:
print(pd.isnull(NaN))

True


In [9]:
print(pd.isnull(nan))

True


In [10]:
print(pd.isnull(NAN))

True


In [11]:
print(pd.notnull(NaN))

False


In [12]:
print(pd.notnull(42))

True


In [13]:
print(pd.notnull('missing'))

True


### 명확한 구분이 필요 
판다스에서는 NaN을 null처럼 사용 

---

## 누락값이 생기는 이유 

### 누락값이 있는 데이터 집합을 연결할 때 누락값이 생기는 경우
- 누락 + 누락 = 더~ 많은 누락

In [14]:
# 데이터 불러오기 
visited = pd.read_csv('../data/survey_visited.csv')
survey  = pd.read_csv('../data/survey_survey.csv')

In [15]:
# visited
print(visited)

   ident   site       dated
0    619   DR-1  1927-02-08
1    622   DR-1  1927-02-10
2    734   DR-3  1939-01-07
3    735   DR-3  1930-01-12
4    751   DR-3  1930-02-26
5    752   DR-3         NaN
6    837  MSK-4  1932-01-14
7    844   DR-1  1932-03-22


In [16]:
# survey
print(survey)

    taken person quant  reading
0     619   dyer   rad     9.82
1     619   dyer   sal     0.13
2     622   dyer   rad     7.80
3     622   dyer   sal     0.09
4     734     pb   rad     8.41
5     734   lake   sal     0.05
6     734     pb  temp   -21.50
7     735     pb   rad     7.22
8     735    NaN   sal     0.06
9     735    NaN  temp   -26.00
10    751     pb   rad     4.35
11    751     pb  temp   -18.50
12    751   lake   sal     0.10
13    752   lake   rad     2.19
14    752   lake   sal     0.09
15    752   lake  temp   -16.00
16    752    roe   sal    41.60
17    837   lake   rad     1.46
18    837   lake   sal     0.21
19    837    roe   sal    22.50
20    844    roe   rad    11.25


In [18]:
# 데이터 두 집합의 연결
vs = visited.merge(survey, left_on='ident', right_on='taken')
print(vs)

    ident   site       dated  taken person quant  reading
0     619   DR-1  1927-02-08    619   dyer   rad     9.82
1     619   DR-1  1927-02-08    619   dyer   sal     0.13
2     622   DR-1  1927-02-10    622   dyer   rad     7.80
3     622   DR-1  1927-02-10    622   dyer   sal     0.09
4     734   DR-3  1939-01-07    734     pb   rad     8.41
5     734   DR-3  1939-01-07    734   lake   sal     0.05
6     734   DR-3  1939-01-07    734     pb  temp   -21.50
7     735   DR-3  1930-01-12    735     pb   rad     7.22
8     735   DR-3  1930-01-12    735    NaN   sal     0.06
9     735   DR-3  1930-01-12    735    NaN  temp   -26.00
10    751   DR-3  1930-02-26    751     pb   rad     4.35
11    751   DR-3  1930-02-26    751     pb  temp   -18.50
12    751   DR-3  1930-02-26    751   lake   sal     0.10
13    752   DR-3         NaN    752   lake   rad     2.19
14    752   DR-3         NaN    752   lake   sal     0.09
15    752   DR-3         NaN    752   lake  temp   -16.00
16    752   DR

### 데이터를 입력할 때 누락값이 생기는 경우
- 데이터를 잘못해도 누락값이 발생 

In [19]:
# 시리즈를 생성할때 데이터 프레임에 없는 열과 행데이터를 입력
# 그로 인해서 누락 발생 
num_legs = pd.Series({'goat':4,'amoeba':nan})
print(num_legs)
print(type(num_legs))

goat      4.0
amoeba    NaN
dtype: float64
<class 'pandas.core.series.Series'>


In [20]:
# 
scientists = pd.DataFrame({ 
    'Name': ['Rosaline Franklin', 'William Gosset'], 
    'Occupation': ['Chemist', 'Statistician'], 
    'Born': ['1920-07-25', '1876-06-13'], 
    'Died': ['1958-04-16', '1937-10-16'], 
    'missing': [NaN, nan]}) 

print(scientists)
print(type(scientists))

                Name    Occupation        Born        Died  missing
0  Rosaline Franklin       Chemist  1920-07-25  1958-04-16      NaN
1     William Gosset  Statistician  1876-06-13  1937-10-16      NaN
<class 'pandas.core.frame.DataFrame'>


### 범위를 지정하여 데이터를 추출할 때 누락값이 생기는 경우
- 존재하지않는 데이터를 추출하면 누락값이 발생

In [22]:
# 갭마인더 불러오기
gapminder = pd.read_csv('../data/gapminder.tsv', sep='\t')

In [23]:
# 연도별로 그룹화해서 lifeExp열의 평균 구하기
life_exp = gapminder.groupby(['year'])['lifeExp'].mean() 
print(life_exp)

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64


In [24]:
# 누락 확인 (2000~2009)
print(life_exp.loc[range(2000,2010),])
# 누락 발생 이유 => 누락된값은 처음부터 lifeExp열에 없던 연도라서
# 아래의 에러는 누락으로 인해서 문제가 발생할 수도 있다는 작은 경고

year
2000          NaN
2001          NaN
2002    65.694923
2003          NaN
2004          NaN
2005          NaN
2006          NaN
2007    67.007423
2008          NaN
2009          NaN
Name: lifeExp, dtype: float64


Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate-loc-reindex-listlike
  


In [None]:
# 위의 문제를 해결하기위해서 불린 추출이용
y2000 = life_exp[life_exp.index > 2000]
print(y2000)

---

## 누락값의 개수
- 누락값 개수 구하기 

In [25]:
# 데이터 불러오기
ebola = pd.read_csv('../data/country_timeseries.csv')

In [26]:
# 누락 값이 아닌 값의 개수 구하기 
print(ebola.count())

Date                   122
Day                    122
Cases_Guinea            93
Cases_Liberia           83
Cases_SierraLeone       87
Cases_Nigeria           38
Cases_Senegal           25
Cases_UnitedStates      18
Cases_Spain             16
Cases_Mali              12
Deaths_Guinea           92
Deaths_Liberia          81
Deaths_SierraLeone      87
Deaths_Nigeria          38
Deaths_Senegal          22
Deaths_UnitedStates     18
Deaths_Spain            16
Deaths_Mali             12
dtype: int64


In [27]:
# 전체 행의 데이터 개수를 확인 한다는 점!! 
# 이를 이용해서 누락값을 구할 수 있음 
ebola.shape[0]

122

In [28]:
num_rows = ebola.shape[0] # 전체 행의 게이터 개수 =>  122
num_missing = num_rows - ebola.count()
print(num_missing) # 누락 값의 개수 

Date                     0
Day                      0
Cases_Guinea            29
Cases_Liberia           39
Cases_SierraLeone       35
Cases_Nigeria           84
Cases_Senegal           97
Cases_UnitedStates     104
Cases_Spain            106
Cases_Mali             110
Deaths_Guinea           30
Deaths_Liberia          41
Deaths_SierraLeone      35
Deaths_Nigeria          84
Deaths_Senegal         100
Deaths_UnitedStates    104
Deaths_Spain           106
Deaths_Mali            110
dtype: int64


In [29]:
# 넘파이 잠깐만~ 
import numpy as np

In [30]:
# 누락 값 구하기 - 1
print(np.count_nonzero(ebola.isnull()))

1214


In [31]:
# 누락 값 구하기 - 2
print(np.count_nonzero(ebola['Cases_Guinea'].isnull()))

29


In [32]:
print(ebola.Cases_Guinea)

0      2776.0
1      2775.0
2      2769.0
3         NaN
4      2730.0
5      2706.0
6      2695.0
7      2630.0
8      2597.0
9      2571.0
10        NaN
11     2416.0
12        NaN
13     2292.0
14        NaN
15     2164.0
16        NaN
17     2134.0
18        NaN
19     2047.0
20     1971.0
21        NaN
22     1919.0
23        NaN
24     1878.0
25        NaN
26        NaN
27     1760.0
28     1731.0
29        NaN
        ...  
92      258.0
93      248.0
94      233.0
95      236.0
96      235.0
97      231.0
98      226.0
99      224.0
100       NaN
101     218.0
102       NaN
103       NaN
104     208.0
105     203.0
106     197.0
107       NaN
108     168.0
109     159.0
110     158.0
111     151.0
112     143.0
113     127.0
114     122.0
115     112.0
116     112.0
117     103.0
118      86.0
119      86.0
120      86.0
121      49.0
Name: Cases_Guinea, Length: 122, dtype: float64


In [33]:
print(ebola.Cases_Guinea.value_counts)

<bound method IndexOpsMixin.value_counts of 0      2776.0
1      2775.0
2      2769.0
3         NaN
4      2730.0
5      2706.0
6      2695.0
7      2630.0
8      2597.0
9      2571.0
10        NaN
11     2416.0
12        NaN
13     2292.0
14        NaN
15     2164.0
16        NaN
17     2134.0
18        NaN
19     2047.0
20     1971.0
21        NaN
22     1919.0
23        NaN
24     1878.0
25        NaN
26        NaN
27     1760.0
28     1731.0
29        NaN
        ...  
92      258.0
93      248.0
94      233.0
95      236.0
96      235.0
97      231.0
98      226.0
99      224.0
100       NaN
101     218.0
102       NaN
103       NaN
104     208.0
105     203.0
106     197.0
107       NaN
108     168.0
109     159.0
110     158.0
111     151.0
112     143.0
113     127.0
114     122.0
115     112.0
116     112.0
117     103.0
118      86.0
119      86.0
120      86.0
121      49.0
Name: Cases_Guinea, Length: 122, dtype: float64>


In [34]:
# value_counts 빈도수를 구하는 메서드 
# Cases_Guinea의 누락 개수를 구할수 있다. 
print(ebola.Cases_Guinea.value_counts(dropna=False).head())

NaN       29
 86.0      3
 495.0     2
 112.0     2
 390.0     2
Name: Cases_Guinea, dtype: int64


---

## 누락값 처리하기 ― 변경, 삭제
- 보통 이미 있는 값으로 대신 값을 대신 채우는 방법 
- 임의의 값으로 변경하는 방법 존재

- fillna() 처리 해야하는 데이터가 커 **메모리를 효율적으로 다뤄야할때** 사용 

### 누락값 변경하기 

In [35]:
# 시계열성의 데이터를 이방법을 통해 채울수 있다. 

In [36]:
# 0을 넣으면 누락 값을 0으로 변경 
# fillna 처리해야하는 데이터가 커 메모리를 효율적으로 다뤄야할때 사용 
print(ebola.fillna(0))

           Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone  \
0      1/5/2015  289        2776.0            0.0            10030.0   
1      1/4/2015  288        2775.0            0.0             9780.0   
2      1/3/2015  287        2769.0         8166.0             9722.0   
3      1/2/2015  286           0.0         8157.0                0.0   
4    12/31/2014  284        2730.0         8115.0             9633.0   
5    12/28/2014  281        2706.0         8018.0             9446.0   
6    12/27/2014  280        2695.0            0.0             9409.0   
7    12/24/2014  277        2630.0         7977.0             9203.0   
8    12/21/2014  273        2597.0            0.0             9004.0   
9    12/20/2014  272        2571.0         7862.0             8939.0   
10   12/18/2014  271           0.0         7830.0                0.0   
11   12/14/2014  267        2416.0            0.0             8356.0   
12    12/9/2014  262           0.0         7797.0               

In [37]:
# print(ebola.fillna(0).iloc[0:10, : ])
print(ebola.fillna(0).iloc[0:10, 0:5])

         Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone
0    1/5/2015  289        2776.0            0.0            10030.0
1    1/4/2015  288        2775.0            0.0             9780.0
2    1/3/2015  287        2769.0         8166.0             9722.0
3    1/2/2015  286           0.0         8157.0                0.0
4  12/31/2014  284        2730.0         8115.0             9633.0
5  12/28/2014  281        2706.0         8018.0             9446.0
6  12/27/2014  280        2695.0            0.0             9409.0
7  12/24/2014  277        2630.0         7977.0             9203.0
8  12/21/2014  273        2597.0            0.0             9004.0
9  12/20/2014  272        2571.0         7862.0             8939.0


In [None]:
# method='ffill' => 누락 값이 나타나기전의 값으로 누락값이 변경 
print(ebola.fillna(method='ffill').iloc[0:10, 0:5])

In [None]:
# 누락 값이 나타난 이후의 첫번째 값으로 앞쪽의 누락 값이 모두 변경 
# ffill(front) 과 반대인 bfill(back)
print(ebola.fillna(method='bfill').iloc[0:10, 0:5])
# 마지막 값이 누락인경우는 불가능...;;;

In [None]:
# interpolate
# => 누락값 양쪽에 있는 값을 이용하여 중간값을 구한 다음 누락값을 처리 
print(ebola.interpolate().iloc[0:10, 0:5])

### 누락값 삭제 
- 누락 값이 필요 없는경우 누락값을 삭제해도 무방 
- 데이터를 무작정 삭제 => 데이터 가 편향되거나 데이터 개수가 너무 적어질 수 있음 

In [38]:
# 데이터 구조 확인
print(ebola.shape)

(122, 18)


In [39]:
# 메소드 삭제 dropna()
ebola_dropna = ebola.dropna()
print(ebola_dropna.shape)

(1, 18)


In [40]:
print(ebola_dropna)

          Date  Day  Cases_Guinea  Cases_Liberia  Cases_SierraLeone  \
19  11/18/2014  241        2047.0         7082.0             6190.0   

    Cases_Nigeria  Cases_Senegal  Cases_UnitedStates  Cases_Spain  Cases_Mali  \
19           20.0            1.0                 4.0          1.0         6.0   

    Deaths_Guinea  Deaths_Liberia  Deaths_SierraLeone  Deaths_Nigeria  \
19         1214.0          2963.0              1267.0             8.0   

    Deaths_Senegal  Deaths_UnitedStates  Deaths_Spain  Deaths_Mali  
19             0.0                  1.0           0.0          6.0  


---

## 누락값이 포함된 데이터 계산하기

In [41]:
# 데이터 확인 
ebola['Cases_Liberia']

0         NaN
1         NaN
2      8166.0
3      8157.0
4      8115.0
5      8018.0
6         NaN
7      7977.0
8         NaN
9      7862.0
10     7830.0
11        NaN
12     7797.0
13        NaN
14     7719.0
15        NaN
16     7635.0
17        NaN
18     7168.0
19     7082.0
20        NaN
21     7069.0
22        NaN
23     6878.0
24        NaN
25     6822.0
26     6619.0
27        NaN
28        NaN
29     6525.0
        ...  
92       12.0
93       12.0
94       12.0
95       13.0
96       13.0
97       13.0
98       13.0
99        NaN
100      35.0
101       NaN
102       NaN
103      34.0
104       NaN
105      27.0
106      27.0
107       NaN
108       NaN
109      26.0
110      25.0
111      21.0
112      18.0
113       8.0
114       8.0
115       7.0
116       3.0
117       8.0
118       NaN
119       NaN
120       NaN
121       NaN
Name: Cases_Liberia, Length: 122, dtype: float64

In [42]:
# 열을 새로 만들기 
# 열을 더해서 발병 수의 합을 구함
# 어떤 데이터가 존재하는지 확인
ebola['Cases_multiple'] = ebola['Cases_Guinea'] + ebola['Cases_Liberia'] + ebola['Cases_SierraLeone']

In [43]:
# 누락이 하나라도 있는 행이 연산후 누락이 됨을 확인 
# 계산 후 더 많은 누락 발생 
ebola_subset = ebola.loc[:,['Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone', 'Cases_multiple']]
print(ebola_subset.head(n=10))

   Cases_Guinea  Cases_Liberia  Cases_SierraLeone  Cases_multiple
0        2776.0            NaN            10030.0             NaN
1        2775.0            NaN             9780.0             NaN
2        2769.0         8166.0             9722.0         20657.0
3           NaN         8157.0                NaN             NaN
4        2730.0         8115.0             9633.0         20478.0
5        2706.0         8018.0             9446.0         20170.0
6        2695.0            NaN             9409.0             NaN
7        2630.0         7977.0             9203.0         19810.0
8        2597.0            NaN             9004.0             NaN
9        2571.0         7862.0             8939.0         19372.0


#### 누락값 무시하고 계산=>   skipna = True 

In [44]:
# sum  
# sum을 그냥 사용하면 누락값을 포함해서 계산 
# 누락값 무시하고 계산 하려면  skipna 인자에 True 
print(ebola.Cases_Guinea.sum(skipna = True))

84729.0


In [45]:
print(ebola.Cases_Guinea.sum(skipna = False))

nan


- 누락값 처리능력은 중요 
- 의사결정 추론을 하려면 반드시 필요 

---