## Pandas

판다스 모듈이 제공한는 데이터프레임이 데이터 분석에서 자주사용된다. 데이터프레임은 테이블 구조로 데이터를 담고 처리할 수 있는 기능을 제공한다.

### 데이터프레임

- 표 같은 스프레드시트 형식의 자료 구조를 제공한다.
- 각 컬럼은 서로 임의의 데이터  형식(숫자, 문자열, 불리언)을 담을 수 있다
- R의 data.frame과 유사하게 사용된다.

In [2]:
import pandas as pd
import numpy as np

- 사전으로부터 데이터프레임을 만들 수 있으며 DataFrame() 생성자를 사용하면 된다.

In [3]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [4]:
frame = pd.DataFrame(data)

In [5]:
print(frame)
# 데이터프레임을 만들면 인덱싱 번호가 자동으로 부여된다

   pop   state  year
0  1.5    Ohio  2000
1  1.7    Ohio  2001
2  3.6    Ohio  2002
3  2.4  Nevada  2001
4  2.9  Nevada  2002


In [6]:
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


- 컬럼의 배치는 알파벳순으로 보이는데, 컬럼의 순서를 원하는대로 바꾸려면 컬럼명을 리스트로 만들어서 column이라는 인자 값으로 주면 된다.
- 인덱스는 디폴트값인 0,1,2, .. 대신 임의의 값을 지정할 수 있다.

In [20]:
frame = pd.DataFrame(data, columns=['year', 'state', 'pop'],
                     index=['a', 'b', 'c', 'd', 'e'])

In [18]:
#데이터프레임의 칼럼값을 보여준다.
frame.columns

Index(['year', 'state', 'pop'], dtype='object')

In [19]:
frame

Unnamed: 0,year,state,pop
a,2000,Ohio,1.5
b,2001,Ohio,1.7
c,2002,Ohio,3.6
d,2001,Nevada,2.4
e,2002,Nevada,2.9


#### 컬럼(열) 접근 방법

- 컬럼명으로 접근(frame['state'])
- 속성값으로 접근(frame.state)

In [11]:
# 컬럼(열) 명으로 접근
frame['state']

a      Ohio
b      Ohio
c      Ohio
d    Nevada
e    Nevada
Name: state, dtype: object

In [12]:
# 속성 값으로 접근
frame.state

a      Ohio
b      Ohio
c      Ohio
d    Nevada
e    Nevada
Name: state, dtype: object

In [13]:
frame.year

a    2000
b    2001
c    2002
d    2001
e    2002
Name: year, dtype: int64

#### 로우는 위치나 인덱스로 접근

In [22]:
frame.loc['b']

year     2001
state    Ohio
pop       1.7
Name: b, dtype: object

In [24]:
frame.iloc[2]

year     2002
state    Ohio
pop       3.6
Name: c, dtype: object

In [25]:
frame.iloc[1:3]

Unnamed: 0,year,state,pop
b,2001,Ohio,1.7
c,2002,Ohio,3.6


.loc 는 인덱스로 지정

.iloc는 위에서부터 행의 위치로 지정

#### 컬럼 추가 및 값 지정

- 현재 없는 컬럼명을 인자로 주면 새로운 컬럼이 생성된다. 초기 값을 줄 수 있다.

In [30]:
frame['debt'] = 16.5

In [31]:
frame

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,16.5
1,2001,Ohio,1.7,16.5
2,2002,Ohio,3.6,16.5
3,2001,Nevada,2.4,16.5
4,2002,Nevada,2.9,16.5


In [32]:
# 리스트를 사용하여 컬럼 값 입력
d_value = [10,20,300,400,5000]
frame['debt'] = d_value
frame

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,10
1,2001,Ohio,1.7,20
2,2002,Ohio,3.6,300
3,2001,Nevada,2.4,400
4,2002,Nevada,2.9,5000


In [34]:
#frame에 eastern 칼럼을 만들고 frame.state가 Ohio면 True값을 넣고 아닐경우 False를 넣는다.
frame['eastern'] = frame.state == 'Ohio'

In [50]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


In [35]:
# 컬럼을 삭제하는 명령으로 del이 있다.
# 참고로 복사본을 만들지 않고 원본을 바로 수정하므로 주의해야 한다.
del frame['eastern']

In [38]:
frame

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,10
1,2001,Ohio,1.7,20
2,2002,Ohio,3.6,300
3,2001,Nevada,2.4,400
4,2002,Nevada,2.9,5000


#### 로우, 컬럼 변경

In [39]:
# 행과 열을 바꿀 수 있다 (transpose)
frame.T

Unnamed: 0,0,1,2,3,4
year,2000,2001,2002,2001,2002
state,Ohio,Ohio,Ohio,Nevada,Nevada
pop,1.5,1.7,3.6,2.4,2.9
debt,10,20,300,400,5000


In [41]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])

In [42]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [43]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [44]:
# 컬럼(열) 삭제
data.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [45]:
# list로 drop 할 목록 넘길 수도 있다
data.drop(['two', 'four'], axis=1)

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [46]:
# 2까지 로(행)을 가져온다.
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [47]:
# 칼럼 'three'의 값이 5 초과인 값들을 가져온다.
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [48]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [50]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [51]:
#5이하의 값을 0으로 대체해준다.
data[data < 5] = 0

In [52]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [54]:
# 컬럼 three의 값이 5 초과인 값의 컬럼 3번째 까지 값을 가져온다
data.ix[data.three > 5, :3]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


In [55]:
# ,를 기준으로 앞은 행. 뒤로는 열을 나타낸다.
data.ix[data.three > 5, :2]

Unnamed: 0,one,two
Colorado,0,5
Utah,8,9
New York,12,13


### 함수 적용과 매핑

- pandas 객체에도 NumPy의 유니버셜 함수(배열의 각 원소에 적용되는 메서드)를 적용 가능

In [57]:
frame = pd.DataFrame(np.arange(12).reshape(4, 3), columns=['b', 'd', 'e'],
                  index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [58]:
frame

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


- DataFrame의 apply 메서드를 통해 수행

In [59]:
# (최대값-최소값)을 계산하는 함수 정의
f = lambda x: x.max() - x.min()

In [61]:
frame.apply(f)

b    9
d    9
e    9
dtype: int64

In [62]:
frame.apply(f, axis=0)
# 열의 방향 즉, 위에서 아래로 내려오면서 수행 (디폴트값이다)

b    9
d    9
e    9
dtype: int64

In [63]:
# 행에 대해서 수행 (즉, 좌에서 우로 수행)
frame.apply(f, axis=1)

Utah      2
Ohio      2
Texas     2
Oregon    2
dtype: int64

In [64]:
frame

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


- apply 메서드에 반환값은 Series를 사용하여 여러 개의 값을 반환할 수 있다.
- Series는 데이터프레임의 특수한 케이스로 컬럼이 하나인 데이터프레임이다.

In [191]:
#시리즈 데이터셋을 구성한다.
s = pd.Series(['kim', 'lee', 'park'])
print(s)
s.values

0     kim
1     lee
2    park
dtype: object


array(['kim', 'lee', 'park'], dtype=object)

In [70]:
def f(x):
    # 시리즈를 반환한다.
    return pd.Series([x.min(), x.max()], index=['min', 'max'])

In [71]:
frame.apply(f)
# 결과가 테이블로 보여딘다

Unnamed: 0,b,d,e
min,0,1,2
max,9,10,11


In [72]:
type(frame.apply(f))

pandas.core.frame.DataFrame

### 정렬

In [75]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])

In [76]:
# index를 정렬한다.
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [78]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'],
                  columns=['d', 'a', 'b', 'c'])

In [79]:
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [80]:
# 인덱스정렬(로우기준)
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [81]:
# 칼럼을 기준으로 정렬.
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [82]:
frame.sort_index(axis=0, ascending=True)

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [84]:
obj = pd.Series([4, 7, -3, 2])

In [85]:
# 값에 따라 정렬
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [87]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])

In [88]:
obj.sort_values()
#정렬시 NaN은 가장 마지막에 위치

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [90]:
frame = pd.DataFrame({'b': [4, 7, -3, 2],
                   'a': [0, 1, 0, 1]})

In [91]:
frame

Unnamed: 0,a,b
0,0,4
1,1,7
2,0,-3
3,1,2


In [92]:
# 'b'칼럼의 값을 기준으로 인덱스를 정렬한다.
frame.sort_values(by='b')

Unnamed: 0,a,b
2,0,-3
3,1,2
0,0,4
1,1,7


In [93]:
frame.sort_values(by=['a', 'b'])

Unnamed: 0,a,b
2,0,-3
0,0,4
3,1,2
1,1,7


### 통계 계산

- pandas 객체는 일반적인 수학 메서드와 통계 메서드 존재
- 이 메서드는 대부분 Series나 DataFrame 하나의 칼럼이나 로우에서 단일 값(합이나 평균 같은)을 구하는 축소 혹은 요약통계 범주에 속함
- 처음부터 누락된 데이터를 제외하도록 설계

In [94]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                [np.nan, np.nan], [0.75, -1.3]],
               index=['a', 'b', 'c', 'd'],
               columns=['one', 'two'])

In [95]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [96]:
# NaN은 계산 안됨
df.sum()

one    9.25
two   -5.80
dtype: float64

In [97]:
# 각 로우의 합 반환
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [98]:
# 평균을 구해주는데 NaN값을 스킵하지 않는다.
df.mean(axis=1, skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [100]:
df.idxmax()

one    b
two    d
dtype: object

In [101]:
# cumulative. 아래로 갈수록 누산 됨
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [102]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [103]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


#### 기술통계와 요약통계

메서드 | 설명
--- | ---
count | NA 값을 제외한 값의 수를 반환한다.
describe | Series나 DataFrame의 각 칼럼에 대한 요약통계를 계산한다.
min, max | 최소, 최대값을 계산한다.
argmin, argmax | 각각 최소, 최대값을 갖고 있는 색인의 위치(정수)를 반환한다.
idxmin, idxmax | 각각 최소, 최대 값을 갖고 있는 색인의 값을 반환한다.
quantile | 0부터 1까지의 분위수를 계산한다.
sum | 합을 계산한다.
mean | 평균을 계산한다.
median | 중간 값(50% 분위)을 반환한다.
mad | 평균 값에서 절대 평균편차를 구한다.
var | 표본 분산의 값을 구한다.
std | 표본 정규 분산의 값을 구한다.
skew | 표본 비대칭도(3차 적률)의 값을 구한다.
cumsum | 누적 합을 구한다.
cummin, cummax | 각각 누적 최소 값과 누적 최대 값을 계산한다.
cumprod | 누적 곱을 구한다.
diff | 1차 산술 차를 구한다(시게열 데이터 처리시 유용하다).
pct_change | 퍼센트 변화율을 계산한다.

###  유일 값

In [105]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [106]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [107]:
# Series에서 중복되는 값을 제거하고 유일값만 담고 있는 Series를 반환한다.
uniques = obj.unique()

In [108]:
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [109]:
# Series에서 도수를 계산하여 반환한다.
obj.value_counts()

a    3
c    3
b    2
d    1
dtype: int64

In [110]:
# 담고 있는 값으로 내림차순 정렬한다.
obj.value_counts(sort=False, ascending=False)

d    1
c    3
b    2
a    3
dtype: int64

In [111]:
obj.values

array(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'], dtype=object)

In [112]:
pd.value_counts(obj.values)

a    3
c    3
b    2
d    1
dtype: int64

In [113]:
pd.value_counts(obj.values, sort=False)

d    1
c    3
b    2
a    3
dtype: int64

In [114]:
pd.value_counts(obj.values, sort=True)

a    3
c    3
b    2
d    1
dtype: int64

In [115]:
obj2 = pd.Series(['c', 'c', 'd', 'd', 'c', 'd'])
pd.value_counts(obj2.values, sort=True)

d    3
c    3
dtype: int64

In [116]:
obj2 = pd.Series(['d', 'c', 'c', 'd', 'c', 'd'])
pd.value_counts(obj2.values, sort=False)

c    3
d    3
dtype: int64

In [117]:
# 어떤 값이 Series에 있는지 나타내는 불리언 벡터를 반환해줌.
mask = obj.isin(['b', 'c'])

In [118]:
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [119]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

#### 유일 값, 값 세기, 버리기 메서드

메서드 | 설명
--- | ---
isin | Series의 각 원소가 넘겨받은 연속된 값에 속하는지를 나타내는 불리언 배열을 반환한다.
unique | Series에서 중복되는 값을 제거하고 유일한 값만 포함하는 배열을 반환한다. 결과는 Series에서 발견된 순서대로 반환된다.
value_counts | Series에서 유일 값에 대한 색인 값과 도수를 계산한다. 결과는 도수 값의 내림차순으로 정렬된다.

### 누락된 데이터 처리

- 누락된 데이터를 처리하는 일은 데이터 분석 애플리케이션에서 흔이 있는 일
- 누락 데이터를 가능한 쉽게 처리
- 모든 기술통계는 누락된 데이터를 배제하고 처리
- 누락된 데이터를 실수든 아니든 모두 NaN(Not a Number)으로 취급
- 누락된 값을 쉽게 찾을 수 있는 파수병 역할

In [150]:
string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])

In [151]:
string_data

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [152]:
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [153]:
# Python 내장 None 또한 null 취급함.
string_data[0] = None

In [154]:
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

#### NA 처리 메서드

인자 | 설명
--- | ---
dropna | 누락된 데이터가 있는 축(로우, 칼럼)을 제외시킨다. 어느 정도의 누락 데이터까지 용인할 것인지 지정할 수 있다.
fillna | 누락된 데이터를 대신할 값을 채우거나 'ffill' 또는 'bfill' 같은 보간 메서드를 적용한다.
isnull | 누락되거나 NA인 값을 알려주는 불리언 값이 저장된, 같은 형의 객체를 반환한다.
notnull | isnull과 반대되는 메서드다.

### 누락된 데이터 골라내기

In [27]:
from numpy import nan as NA

In [28]:
data = pd.Series([1, NA, 3.5, NA, 7])

In [29]:
data

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

In [30]:
# dropna메서드는 실제 데이터가 들어있는 색인 값과 데이터를 Series값으로 반환한다.
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

In [31]:
# 불리언 색인을 이용 직접 계산.
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

In [32]:
data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA],
                  [NA, NA, NA], [NA, 6.5, 3]])

In [33]:
cleaned = data.dropna()

In [34]:
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [35]:
# NA가 하나라도 있으면 기본적으로 제외해서 보여줌
cleaned

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


In [36]:
# how='all'옵션을 주면 모든 값이 NA인 로우만 제외시킴.
data.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [37]:
data[4] = NA

In [38]:
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [39]:
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [40]:
# axis=0는 로우를 나타낸다
data.dropna(axis=0, how='all')

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
3,,6.5,3.0,


In [41]:
data.dropna(axis=1, how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [42]:
data.dropna(axis=1)

0
1
2
3


In [58]:
df = pd.DataFrame(np.random.randn(7, 3))

In [59]:
df

Unnamed: 0,0,1,2
0,-0.868895,-0.411496,-0.368171
1,-1.034094,0.440776,1.381045
2,0.793182,-0.862542,0.376973
3,-1.921772,1.547074,0.527081
4,-0.549284,-1.065526,0.450405
5,0.541626,-0.803839,1.32147
6,0.054892,1.366993,0.389889


In [60]:
df

Unnamed: 0,0,1,2
0,-0.868895,-0.411496,-0.368171
1,-1.034094,0.440776,1.381045
2,0.793182,-0.862542,0.376973
3,-1.921772,1.547074,0.527081
4,-0.549284,-1.065526,0.450405
5,0.541626,-0.803839,1.32147
6,0.054892,1.366993,0.389889


In [61]:
df.loc[2]

0    0.793182
1   -0.862542
2    0.376973
Name: 2, dtype: float64

In [62]:
df[2]

0   -0.368171
1    1.381045
2    0.376973
3    0.527081
4    0.450405
5    1.321470
6    0.389889
Name: 2, dtype: float64

In [63]:
df[2][2]

0.37697322529685257

In [64]:
df[2][2] = np.nan

In [65]:
df

Unnamed: 0,0,1,2
0,-0.868895,-0.411496,-0.368171
1,-1.034094,0.440776,1.381045
2,0.793182,-0.862542,
3,-1.921772,1.547074,0.527081
4,-0.549284,-1.065526,0.450405
5,0.541626,-0.803839,1.32147
6,0.054892,1.366993,0.389889


### 누락된 값 채우기

- 누락된 값을 제외시키지 않고(잠재적으로 다른 데이터도 함께 버려질 가능성이 있다) 데이터상의 '구멍'을 어떻게든 메우고 싶은 경우 fillna 메서드 활용

In [77]:
df.fillna(0)

Unnamed: 0,0,1,2
0,-0.868895,-0.411496,-0.368171
1,-1.034094,0.440776,1.381045
2,0.793182,-0.862542,0.0
3,-1.921772,1.547074,0.527081
4,-0.549284,-1.065526,0.450405
5,0.541626,-0.803839,1.32147
6,0.054892,1.366993,0.389889


In [78]:
df[2][2] = np.nan

In [79]:
df.fillna(method='ffill')

Unnamed: 0,0,1,2
0,-0.868895,-0.411496,-0.368171
1,-1.034094,0.440776,1.381045
2,0.793182,-0.862542,1.381045
3,-1.921772,1.547074,0.527081
4,-0.549284,-1.065526,0.450405
5,0.541626,-0.803839,1.32147
6,0.054892,1.366993,0.389889


In [91]:
df[2][2] = np.nan
df[pd.isnull(df)] = 10
df

Unnamed: 0,0,1,2
0,-0.868895,-0.411496,-0.368171
1,-1.034094,0.440776,1.381045
2,0.793182,-0.862542,10.0
3,-1.921772,1.547074,0.527081
4,-0.549284,-1.065526,0.450405
5,0.541626,-0.803839,1.32147
6,0.054892,1.366993,0.389889


In [93]:
df[2][2] = np.nan
df[pd.notnull(df)] = 100
df

Unnamed: 0,0,1,2
0,100.0,100.0,100.0
1,100.0,100.0,100.0
2,100.0,100.0,
3,100.0,100.0,100.0
4,100.0,100.0,100.0
5,100.0,100.0,100.0
6,100.0,100.0,100.0


In [84]:
data = pd.Series([1., NA, 3., NA, 5])

In [85]:
data

0    1.0
1    NaN
2    3.0
3    NaN
4    5.0
dtype: float64

- fillna에 평균값이나 중간값을 전달해서 데이터의 높낮이를 줄일 수 있다.

In [88]:
# Series의 평균 값이나 중간 값으로 전달한다.
data2 = data.fillna(data.mean())

In [89]:
data

0    1.0
1    NaN
2    3.0
3    NaN
4    5.0
dtype: float64

In [90]:
data2

0    1.0
1    3.0
2    3.0
3    3.0
4    5.0
dtype: float64