- 기술 통계 계산
  - pandas는 일반적인 수학/통계 메서드를 가지고 있다.
  - pandas의 메서드는 처음부터 누락된 데이터를 제외하도록 설계되어 있다.

In [1]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

In [4]:
df = DataFrame([
    [1.4, np.nan],
    [7.1, -4.5],
    [np.nan, np.nan],
    [0.75, -1.3]
], index = ['a', 'b', 'c', 'd'], columns = ['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [9]:
# sum() 메서드는 각 컬럼의 합을 더해서 Series 객체를 반환한다.
df.sum()

one    9.25
two   -5.80
dtype: float64

In [13]:
df.sum(axis = 1) # 각 행의 합을 반환한다.

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

- 전체 행이나 칼럼의 값이 NA가 아니라면 NA 값은 제외시키고 계산한다.
- skipna 옵션은 전체 행이나 칼럼의 값이 NA가 아니라도 제외시키지 않을 수 있다.
- skipna의 기본값은 True

In [14]:
df.sum(axis = 1, skipna = False)

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

- idxmin, idxmax와 같은 메서드는 최소, 최대값을 가지고 있는 색인 값 같은 간접 통계르 반환한다.

In [15]:
df.idxmax()

one    b
two    d
dtype: object

- 누산 메서드 : cumsum()

In [16]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


- 유일한 값, 도수 메서드

In [4]:
s1 = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
unique = s1.unique() # 중복값을 없애는 메서드
unique

array(['c', 'a', 'd', 'b'], dtype=object)

In [6]:
unique.sort()
unique

array(['a', 'b', 'c', 'd'], dtype=object)

In [11]:
cnt = s1.value_counts() # 값의 수를 계산(도수), 반환값은 Series 객체
cnt # 내림차순으로 정렬된다.

a    3
c    3
b    2
d    1
dtype: int64

- isin 메서드는 어떤 값이 Series에 있는지 나타내는 메서드
  - boolean 값을 반환한다.
  - DataFrame, Series에서 원하는 값을 골라내고 싶을때 사용

In [12]:
mask = s1.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [13]:
s1[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

In [16]:
data = DataFrame({'Q1' : [1,3,4,3,4],
                  'Q2' : [2,3,1,2,3],
                  'Q3' : [1,5,2,4,4]})
data

Unnamed: 0,Q1,Q2,Q3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [21]:
res = data.apply(pd.value_counts)
res

Unnamed: 0,Q1,Q2,Q3
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [22]:
res = data.apply(pd.value_counts).fillna(0)
res

Unnamed: 0,Q1,Q2,Q3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


- 누락된 데이터 처리(pandas의 설계 목표 중 하나는 누락된 데이터를 쉽게 처리하는 것)
  - panda에서는 누락된 데이터를 실수든 아니든 모두 NaN으로 취급

In [23]:
stringData = Series(['aaa', 'bbb', np.nan, 'ccc'])
stringData

0    aaa
1    bbb
2    NaN
3    ccc
dtype: object

- 이러한 NaN의 값은 파이썬의 None값 NA와 같은값으로 취급한다.

In [24]:
stringData.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [25]:
stringData[0] = None
stringData.isnull()

0     True
1    False
2     True
3    False
dtype: bool

In [26]:
stringData

0    None
1     bbb
2     NaN
3     ccc
dtype: object