### 중복 색인

In [3]:
import pandas as pd
import numpy as np

In [7]:
obj = pd.Series(range(5), index=['a','a','b','c','c'])

obj

a    0
a    1
b    2
c    3
c    4
dtype: int64

#### 해당값이 유일한지 확인하는 방법

In [8]:
obj.index.is_unique

False

- 중복되는 색인값이 있다면 색인을 이용해서 데이터에 접근했을 때 다르게 동작한다.
- 중복되는 색인값이 없을 때는 색인을 이용해서 데이터에 접근하면 스칼라값을 반환한다.
- 중복되는 색인값이 있을 때는 하나의 Series 객체를 반환한다.

In [9]:
obj['a']

a    0
a    1
dtype: int64

In [10]:
obj['c']

c    3
c    4
dtype: int64

- 이는 라벨이 반복되는지 여부에 따라 색인을 이용해서 선택한 결과가 다를 수 있기 때문에 클린 코드를 만드는데 어려움이 생길 수 있다.
- DataFrame에서 raw를 선택하는 것도 동일하다.

In [11]:
df = pd.DataFrame(np.random.randn(4, 3), index=['a','a','b','b'])

df

Unnamed: 0,0,1,2
a,0.272961,-1.200957,-0.03423
a,0.080201,-0.191606,1.416896
b,0.298108,0.584475,0.846407
b,1.627171,0.302274,-0.380673


### 기술 통계 계산과 요약
- pandas 객체는 일반적인 수학 method와 통계 method를 가지고 있다.
- 이 method의 대부분은 하나의 Series나 DataFrame의 raw나 column에서 단일 값(합, 평균 같은)을 구축하는 축소 혹은 *요약 통계 범주* 속한다.
- 순수 Numpy 배열에서 제공하는 동일한 method와 비교하여 pandas의 method는 처음부터 누락된 데이터를 제외하도록 설계되었다.

In [26]:
df = pd.DataFrame([[1.2, np.nan], [7.1, -4.5],
                  [np.nan, np.nan], [0.75, -1.3]],
                 index=['a','b','c','d'],
                 columns = ['one','two'])

df

Unnamed: 0,one,two
a,1.2,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [27]:
df.sum()

one    9.05
two   -5.80
dtype: float64

In [28]:
df.sum(axis=1)

a    1.20
b    2.60
c    0.00
d   -0.55
dtype: float64

- 전체 raw나 column 값이 NA가 아니라면 NA 값은 제외되고 계산된다. 이는 skipna옵션으로 조정할 수 있다.

In [29]:
df.mean(axis='columns', skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [30]:
색인 = pd.DataFrame([['연산을 수행할 축, DataFrame에서 0은 raw고 1은 column이다'],
                   ['누락된 값을 제외할 것인지 정하는 옵션, 기본값은 True이다.'],
                   ['계산하려는 축이 계층적인 색인(다중 색인)이라면 레벨에 따라 묶어서 계산한다.']],
                 index=['axis','skipna','level'],
                 columns = ['색인'])

색인.index.name='옵션'

색인

Unnamed: 0_level_0,색인
옵션,Unnamed: 1_level_1
axis,"연산을 수행할 축, DataFrame에서 0은 raw고 1은 column이다"
skipna,"누락된 값을 제외할 것인지 정하는 옵션, 기본값은 True이다."
level,계산하려는 축이 계층적인 색인(다중 색인)이라면 레벨에 따라 묶어서 계산한다.


- idxmin이나 idxmax 같은 method는 최솟값 혹은 최댓값을 가지고 있는 색인값과 같은 간접 통계를 반환한다.

In [31]:
df.idxmax()

one    b
two    d
dtype: object

In [32]:
df.idxmin()

one    d
two    b
dtype: object

- 또 다른 메서드로 accumulation(누적합산)이 있다.

In [33]:
df.cumsum()

Unnamed: 0,one,two
a,1.2,
b,8.3,-4.5
c,,
d,9.05,-5.8


- 한번에 여러 개의 통계 결과를 만드는 describe method도 있다.

In [34]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.016667,-2.9
std,3.543421,2.262742
min,0.75,-4.5
25%,0.975,-3.7
50%,1.2,-2.9
75%,4.15,-2.1
max,7.1,-1.3


- 수치 데이터가 아닐 경우 describe는 다른 요약 통계를 생성한다.

In [35]:
obj = pd.Series(['a','a','b','c']* 4)

obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

In [37]:
 # 요약 통계 관련 method
method = pd.DataFrame([['NA 값을 제외한 값의 수를 반환한다.'],
                       ['Series나 DataFrame의 각 column에 대한 요약 통계를 계산한다.'],
                       ['최솟값과 최댓값을 계산한다.'],
                       ['각각 최솟값과 최댓값을 담고 있는 색인의 위치(정수)를 반환한다.'],
                       ['각각 최솟값과 최댓값을 담고 있는 색인의 값을 반환한다.'],
                       ['0부터 1까지의 분위수를 계산한다.'],
                       ['합을 계산한다.'],
                       ['평균을 계산한다.'],
                       ['중간값(50% 분위)을 반환한다.'],
                       ['평균값에서 평균절대편차를 계산한다.'],
                       ['모든 값의 곱'],
                       ['표본분산의 값을 계산한다.'],
                       ['표본표준편차의 값을 계산한다.'],
                       ['표본대칭도(3차 적률)의 값을 계산한다.'],
                       ['표본첨도(4차 적률)의 값을 계산한다.'],
                       ['누적합을 계산한다.'],
                       ['각각 누적 최솟값과 누적 최댓값을 계산한다.'],
                       ['누적곱을 계산한다.'],
                       ['1차 산술차를 계산한다(시계열 데이터 처리 시 유용하다.)'],
                       ['퍼센트 변화율을 계산한다.']],
                        index=['count','describe','min, max','argmin, argmax', 'idxmin, idxmax', 'quantile','sum','mean',
                              'median','mad','prod','var','std','skew','kurt','cumsum','cummin, cummax','sumprod','diff','pct_change'],
                         columns = ['설명'])

method.index.name='method'

method

Unnamed: 0_level_0,설명
method,Unnamed: 1_level_1
count,NA 값을 제외한 값의 수를 반환한다.
describe,Series나 DataFrame의 각 column에 대한 요약 통계를 계산한다.
"min, max",최솟값과 최댓값을 계산한다.
"argmin, argmax",각각 최솟값과 최댓값을 담고 있는 색인의 위치(정수)를 반환한다.
"idxmin, idxmax",각각 최솟값과 최댓값을 담고 있는 색인의 값을 반환한다.
quantile,0부터 1까지의 분위수를 계산한다.
sum,합을 계산한다.
mean,평균을 계산한다.
median,중간값(50% 분위)을 반환한다.
mad,평균값에서 평균절대편차를 계산한다.
