### __통계 계산과 요약__

- pandas 객체는 일반적인 수학 메서드와 통계 메서드 존재
- 이 메서드는 대부분 Series나 DataFrame 하나의 칼럼이나 로우에서 단일 값(합이나 평균 같은)을 구하는 축소 혹은 요약통계 범주에 속함
- 처음부터 누락된 데이터를 제외하도록 설계

#### 통계 메서드

메서드 | 설명
--- | ---
count | NA 값을 제외한 값의 수를 반환한다
describe | Series나 DataFrame의 각 칼럼에 대한 요약통계를 계산한다
min, max | 최소, 최대값을 계산한다
idxmin, idxmax | 각각 최소, 최대 값을 갖고 있는 색인의 값을 반환한다
quantile | 0부터 1까지의 분위수를 계산한다
sum | 합을 계산한다
mean | 평균을 계산한다
median | 중간 값(50% 분위)을 반환한다
mad | 평균 값에서 절대 평균편차를 구한다
var | 표본 분산의 값을 구한다
std | 표본 정규 분산의 값을 구한다
skew | 표본 비대칭도(3차 적률)의 값을 구한다
cumsum | 누적 합을 구한다
cummin, cummax | 각각 누적 최소 값과 누적 최대 값을 계산한다
cumprod | 누적 곱을 구한다
diff | 1차 산술 차를 구한다(시게열 데이터 처리시 유용하다)
pct_change | 퍼센트 변화율을 계산한다


#### 메서드 인자

옵션 | 설명
--- | ---
axis | 연산을 수행할 축. DataFrame에서 0은 로우고 1은 칼럼이다.
skipna | 누락된 값을 제외할 것인지 정하는 옵션. 기본값은 True다.
level | 계산하려는 축이 계층적 색인(다중 색인)이라면 레벨에 따라 묶어서 계산한다.

In [2]:
from pandas import DataFrame, Series
import pandas as pd
import numpy as np

In [3]:
df = DataFrame([[1, np.nan], [7, -4],
                [np.nan, np.nan], [0, -1]],
               index=['a', 'b', 'c', 'd'],
               columns=['one', 'two'])

In [None]:
df

In [None]:
# NaN은 계산 안됨
df.sum()

In [None]:
# 각 로우의 합 반환
df.sum(axis=1)

In [None]:
df.mean(axis=1, skipna=False)

max값의 인덱스와 값 반환하기

In [None]:
df

In [None]:
print(df.idxmax())
print("---------")
print(df.max())

In [None]:
# cumulative. 아래로 갈수록 누산 됨
df.cumsum()

In [None]:
df.describe()

__Series에 적용하기__

In [None]:
obj = Series(['a', 'a', 'b', 'c'] * 4)

In [None]:
obj

In [None]:
obj.describe()

### __유용한 메서드__

#### 유일 값, 값 세기, 버리기 메서드

메서드 | 설명
--- | ---
isin | Series의 각 원소가 넘겨받은 연속된 값에 속하는지를 나타내는 불리언 배열을 반환한다.
unique | Series에서 중복되는 값을 제거하고 유일한 값만 포함하는 배열을 반환한다. 결과는 Series에서 발견된 순서대로 반환된다.
value_counts | Series에서 유일 값에 대한 인덱스와 값의 count 결과를 반환한다. 

In [None]:
obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [None]:
obj

In [None]:
uniques = obj.unique()

In [None]:
uniques

In [None]:
obj.value_counts()

In [None]:
obj.value_counts(sort=False, ascending=False)

In [None]:
obj.values

__기본적으로 value_counts()의 sort 파라미터는 True 값을 가진다__
- 이 경우에 값을 기준으로 정렬을 진행한다
- sort=False를 명시적으로 입력할 경우 index를 기준으로 sort를 진행한다

In [None]:
pd.value_counts(obj.values)

In [None]:
pd.value_counts(obj.values, sort=False)

In [None]:
pd.value_counts(obj.values, sort=True)

In [None]:
obj

In [None]:
mask = obj.isin(['b', 'c'])

In [None]:
mask

In [None]:
obj[mask]

__dataframe에서 count하기__

-dataframe.apply(function)은 dataframe에 function을 적용하겠다는 의미

In [4]:
df = DataFrame({'Qu1': [1, 3, 4, 3, 4],
                  'Qu2': [2, 3, 1, 2, 3],
                  'Qu3': [1, 5, 2, 4, 4]})

In [5]:
df

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [10]:
# 열 기준 value count
result = df.apply(pd.value_counts)

In [7]:
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0



- 1열에 1이 1개 있고 2는 없고 3은 2개, 4도 2개
- 2열에 1은 1개, 2가 2개, 3이 2개, 4가 0개
- 3열에 1이 1개, 2가 1개, 4가 2개, 5가 1개

In [8]:
result = df.apply(pd.value_counts).fillna(0)

In [11]:
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [17]:
# lambda 함수 적용하기
result = df.apply(lambda x: x + 10)
result

Unnamed: 0,Qu1,Qu2,Qu3
0,11,12,11
1,13,13,15
2,14,11,12
3,13,12,14
4,14,13,14


### __누락된 데이터 처리하기__

- 현실 데이터에서 데이터 누락은 흔하디 흔한 일
- 누락 데이터를 가능한 쉽게 처리
- 모든 기술통계는 누락된 데이터를 배제하고 처리
- 누락된 데이터를 실수든 아니든 모두 NaN(Not a Number)으로 취급

#### NA 처리 메서드

인자 | 설명
--- | ---
dropna | 누락된 데이터가 있는 축(로우, 칼럼)을 제외시킨다. 어느 정도의 누락 데이터까지 용인할 것인지 지정할 수 있다.
fillna | 누락된 데이터를 대신할 값을 채우거나 'ffill' 또는 'bfill' 같은 보간 메서드를 적용한다.
isnull | 누락되거나 NA인 값을 알려주는 불리언 값이 저장된, 같은 형의 객체를 반환한다.
notnull | isnull과 반대되는 메서드다.

In [None]:
string_data = Series(['aardvark', 'artichoke', np.nan, 'avocado'])

In [None]:
string_data

In [None]:
string_data.isnull()

In [None]:
# Python 내장 None 또한 null 취급
string_data[0] = None

In [None]:
string_data.isnull()

__누락된 데이터 골라내기__

In [None]:
from numpy import nan as NA

In [None]:
data = Series([1, NA, 3.5, NA, 7])

In [None]:
data.dropna()

In [None]:
data[data.notnull()]

In [None]:
df = DataFrame([[1., 6.5, 3.], [1., NA, NA],
                  [NA, NA, NA], [NA, 6.5, 3]])
df

In [None]:
cleaned = df.dropna()

In [None]:
cleaned

#### dataframe.dropna()의 how 파라미터는 all과 any를 가질 수 있다 <br>
- all : 모든 값이 NA인 행과 열을 drop
- any : 하나의 값이라도 NA인 행과 열을 drop

In [None]:
df.dropna(how='all')

In [None]:
df.dropna(how='any')

#### dataframe.dropna()의 는 축을 지정할 수 있다 <br>
- 0 : 행만 고려
- 1 : 열만 고려

In [None]:
# axis=0 is row.
df.dropna(axis=0, how='all')

In [None]:
df.dropna(axis=1, how='all')

#### dataframe.dropna()는 thresh 인자를 통하여 NA가 아닌 값의 임계치를 지정할 수 있다
- axis를 지정할 수 있으며 기본값은 0(행 기준) 이다

In [None]:
df.dropna(thresh=3)

In [None]:
df.dropna(thresh=2)

In [None]:
df.dropna(thresh=2, axis=1)

In [None]:
df.dropna(thresh=2, axis=0)

### __누락된 값 채우기__

In [None]:
df

In [None]:
df.fillna(0)

#### 사전 형태로 받으면 key가 열의 인덱스를 의미하며 value가 NA를 채울 값을 의미한다

In [None]:
df.fillna({1: 0.5, 2: -1})

In [None]:
df.fillna({2:0.5, 1:-1})

In [None]:
df

## __계층적 색인__

- **계층적 색인**은 pandas의 중요한 기능
- 축에 대해 다중(둘 이상) 인덱스를 가질수 있다

In [None]:
data = Series(np.random.randn(10),
              index = [['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'],
                       [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])

In [None]:
data

In [None]:
data.index

In [None]:
data['b']

In [None]:
data['b':'d']

In [None]:
data.loc[['b', 'd']]

In [None]:
# Failed!
data['b', 'c']

In [None]:
data[:, 2]

In [None]:
data['a',]

In [None]:
data['a',2]

In [None]:
# 없는 키니까 당연히 에러. c는 2번째 index가 1,2 밖에 없음
data['c',3]

In [None]:
data['c', 2]

- 계층적 색인은 데이터를 재형성하고 피벗 테이블 생성같은 그룹 기반의 작업을 할 때 중요하게 사용
- unstack 메서드를 사용해서 데이터를 새롭게 배열 가능

In [None]:
data.unstack()

In [None]:
# 당연히 unstack 후에 다시 stack 하니 다시 돌아가겠지
data.unstack().stack()