# 요약

- df['age'].count()
- df['age'].mean() / df['age'].mean(skipna=False)
- df.loc[condition, 'age'].mean()
- df['age'].median()
- df['fare'].sum()
- df['age'].cumsum()
- df['age'].cumprod()
- df['fare'].var()
- df['fare'].std()
- df['age'].min()
- df['age'].max()
- df['age'].agg(['min', 'max','count', 'mean'])
- df['age'].quantile(0.1)
- df['who'].unique()
- df['who'].nunique()
- df['who'].mode()
- df.corr()['survived']

## 모듈 import

In [1]:
from IPython.display import Image
import numpy as np
import pandas as pd
import seaborn as sns

## 데이터셋 로드

In [2]:
df = sns.load_dataset('titanic')
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


## 통계

**통계**는 데이터 분석에서 굉장히 **중요한 요소**입니다.

데이터에 대한 통계 계산식을 Pandas 함수로 제공하기 때문에 어렵지 않게 통계 값을 산출할 수 있습니다.

### count() - 개수

In [3]:
df.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [5]:
df['age'].count()

714

### mean() - 평균

In [6]:
df.mean()

  df.mean()


survived       0.383838
pclass         2.308642
age           29.699118
sibsp          0.523008
parch          0.381594
fare          32.204208
adult_male     0.602694
alone          0.602694
dtype: float64

In [7]:
df['age'].mean()

29.69911764705882

### Mean - 조건별 평균
성인 남성의 나이의 평균 구하기

In [8]:
condition = (df['adult_male'] == True)
df.loc[condition, 'age'].mean()

33.17312348668281

### 연습문제
다음 조건을 만족하는 승객의 **나이 평균**과 조건을 만족하는 **데이터의 개수**를 구하세요.
- `fare`를 30 이상 40 미만 지불한 승객
- `pclass`는 1등급

In [10]:
df.loc[(df['fare'] >= 30) & (df['fare'] < 40) & (df['pclass'] == 1), 'age'].count()

21

In [9]:
df.loc[(df['fare'] >= 30) & (df['fare'] < 40) & (df['pclass'] == 1), 'age'].mean()

44.095238095238095

### `skipna=True` 옵션

기술 통계 함수에서는 `skipna=True`가 **기본으로 설정** 되어 있습니다.

만약, `skipna=False`로 설정하게 된다면, **NaN 값이 있는 column은 NaN 값으로 출력** 됩니다.

In [11]:
# skipna=False를 지정한 경우
df.mean(skipna=False)

  df.mean(skipna=False)


survived       0.383838
pclass         2.308642
age                 NaN
sibsp          0.523008
parch          0.381594
fare          32.204208
adult_male     0.602694
alone          0.602694
dtype: float64

In [12]:
# skipna=True를 지정한 경우
df.mean(skipna=True)

  df.mean(skipna=True)


survived       0.383838
pclass         2.308642
age           29.699118
sibsp          0.523008
parch          0.381594
fare          32.204208
adult_male     0.602694
alone          0.602694
dtype: float64

### median() - 중앙값
데이터의 중앙값을 출력합니다. 데이터를 **오름차순 정렬하여 중앙에 위치한 값**입니다.

이상치(outlier)가 존재하는 경우, `mean()`보다 `median()`을 대표값으로 더 **선호**합니다.

In [13]:
pd.Series([1, 2, 3, 4, 5]).median()

3.0

In [14]:
pd.Series([4, 5, 1, 2, 3]).median()

3.0

**짝수**개의 데이터가 있는 경우에는 **가운데 2개 중앙 데이터의 평균 값을 출력**합니다.

In [15]:
pd.Series([1, 2, 3, 4, 5, 6]).median()

3.5

나이의 평균과 중앙값은 약간의 **차이가 있음**을 확인할 수 있습니다.

In [18]:
print(f"나이 평균: {df['age'].mean():.5f}\n나이 중앙값: {df['age'].median()}\n차이: {df['age'].mean() - df['age'].median():.5f}")

나이 평균: 29.69912
나이 중앙값: 28.0
차이: 1.69912


### sum() - 합계

In [19]:
df.sum()

  df.sum()


survived                                                    342
pclass                                                     2057
sex           malefemalefemalefemalemalemalemalemalefemalefe...
age                                                    21205.17
sibsp                                                       466
parch                                                       340
fare                                                 28693.9493
who           manwomanwomanwomanmanmanmanchildwomanchildchil...
adult_male                                                  537
alive         noyesyesyesnonononoyesyesyesyesnononoyesnoyesn...
alone                                                       537
dtype: object

In [20]:
df['fare'].sum()

28693.9493

### cumsum() - 누적합, cumprod() - 누적곱

In [21]:
df['age'].cumsum()

0         22.00
1         60.00
2         86.00
3        121.00
4        156.00
         ...   
886    21128.17
887    21147.17
888         NaN
889    21173.17
890    21205.17
Name: age, Length: 891, dtype: float64

누적되는 곱도 구할 수 있으나, 일반적으로 값이 너무 커지므로 잘 활용 X

In [22]:
df['age'].cumprod()

0            22.0
1           836.0
2         21736.0
3        760760.0
4      26626600.0
          ...    
886           inf
887           inf
888           NaN
889           inf
890           inf
Name: age, Length: 891, dtype: float64

### var() - 분산

In [26]:
# 평균
fare_mean = df['fare'].values.mean()

# 분산
my_var = ((df['fare'].values - fare_mean) ** 2).sum() / (df['fare'].count() - 1)
my_var

2469.436845743116

In [27]:
df['fare'].var()

2469.436845743116

### std() - 표준편차

In [28]:
np.sqrt(df['fare'].var())

49.6934285971809

In [29]:
df['fare'].std()

49.6934285971809

### min() - 최소값, max() - 최대값

In [30]:
# 최소값
df['age'].min()

0.42

In [31]:
# 최대값
df['age'].max()

80.0

### agg - aggregation: 통합 통계 적용 (복수의 통계 함수 적용)

In [32]:
df['age'].agg(['min', 'max', 'count', 'mean'])

min        0.420000
max       80.000000
count    714.000000
mean      29.699118
Name: age, dtype: float64

In [33]:
df[['age', 'fare']].agg(['min', 'max', 'count', 'mean'])

Unnamed: 0,age,fare
min,0.42,0.0
max,80.0,512.3292
count,714.0,891.0
mean,29.699118,32.204208


In [34]:
df[['age', 'fare']].agg(['min', np.max, np.median, 'mean'])

Unnamed: 0,age,fare
min,0.42,0.0
amax,80.0,512.3292
median,28.0,14.4542
mean,29.699118,32.204208


### quantile() - 분위
**Quantile이란 주어진 데이터를 동등한 크기로 분할하는 지점**을 말합니다.

10%의 경우 0.1을, 80%의 경우 0.8을 대입하여 값을 구합니다.

In [35]:
# 10% quantile
df['age'].quantile(0.1)

14.0

In [36]:
# 80% quantile
df['age'].quantile(0.8)

41.0

### unique() - 고유값, nunique() - 고유값 개수
고유값과 고유값의 개수를 구하고자 할 때 사용합니다.

In [37]:
df['who'].unique()

array(['man', 'woman', 'child'], dtype=object)

In [38]:
df['who'].nunique()

3

### mode() - 최빈값

In [39]:
df['who'].mode()

0    man
Name: who, dtype: object

In [40]:
df['deck'].mode()

0    C
Name: deck, dtype: category
Categories (7, object): ['A', 'B', 'C', 'D', 'E', 'F', 'G']

### corr() - 상관관계
`corr()`로 컬럼(column)별 **상관관계**를 확인할 수 있습니다.
- **-1~1 사이의 범위**를 가집니다.
- **-1에 가까울수록 반비례**관계, **1에 가까울수록 정비례** 관계를 의미합니다.

In [41]:
df.corr()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare,adult_male,alone
survived,1.0,-0.338481,-0.077221,-0.035322,0.081629,0.257307,-0.55708,-0.203367
pclass,-0.338481,1.0,-0.369226,0.083081,0.018443,-0.5495,0.094035,0.135207
age,-0.077221,-0.369226,1.0,-0.308247,-0.189119,0.096067,0.280328,0.19827
sibsp,-0.035322,0.083081,-0.308247,1.0,0.414838,0.159651,-0.253586,-0.584471
parch,0.081629,0.018443,-0.189119,0.414838,1.0,0.216225,-0.349943,-0.583398
fare,0.257307,-0.5495,0.096067,0.159651,0.216225,1.0,-0.182024,-0.271832
adult_male,-0.55708,0.094035,0.280328,-0.253586,-0.349943,-0.182024,1.0,0.404744
alone,-0.203367,0.135207,0.19827,-0.584471,-0.583398,-0.271832,0.404744,1.0


In [42]:
df.corr()['survived']

survived      1.000000
pclass       -0.338481
age          -0.077221
sibsp        -0.035322
parch         0.081629
fare          0.257307
adult_male   -0.557080
alone        -0.203367
Name: survived, dtype: float64