## 모듈 import

In [None]:
from IPython.display import Image
import numpy as np
import pandas as pd
import seaborn as sns
import warnings

warnings.filterwarnings('ignore')

## 데이터셋 로드

In [None]:
df = sns.load_dataset('titanic')
df.head()

**컬럼(columns) 설명**

- survivied: 생존여부 (1: 생존, 0: 사망)
- pclass: 좌석 등급 (1등급, 2등급, 3등급)
- sex: 성별
- age: 나이
- sibsp: 형제 + 배우자 수
- parch: 부모 + 자녀 수
- fare: 좌석 요금
- embarked: 탑승 항구 (S, C, Q)
- class: pclass와 동일
- who: 남자(man), 여자(woman), 아이(child)
- adult_male: 성인 남자 여부
- deck: 데크 번호 (알파벳 + 숫자 혼용)
- embark_town: 탑승 항구 이름
- alive: 생존여부 (yes, no)
- alone: 혼자 탑승 여부

# 통계

**통계**는 데이터 분석에서 굉장히 **중요한 요소**입니다.

데이터에 대한 통계 계산식을 Pandas 함수로 제공하기 때문에 어렵지 않게 통계 값을 산출할 수 있습니다.

## describe() - 요약통계

전반적인 주요 통계를 확인할 수 있습니다.

기본 값으로 **수치형(Numerical) 컬럼**에 대한 통계표를 보여줍니다.

- **count**: 데이터 개수
- **mean**: 평균
- **std**: 표준편차
- **min**: 최솟값
- **max**: 최대값

In [None]:
df.describe()

**문자열 컬럼에 대한 통계표**도 확인할 수 있습니다.

- **count**: 데이터 개수
- **unique**: 고유 데이터의 값 개수
- **top**: 가장 많이 출현한 데이터 개수
- **freq**: 가장 많이 출현한 데이터의 빈도수

In [None]:
df.describe(include='object')

## count() - 개수

데이터의 개수

DataFrame 전체의 개수를 구하는 경우

In [None]:
df.count()

단일 column의 데이터 개수를 구하는 경우

In [None]:
df['age'].count()

## mean() - 평균

데이터의 **평균**

DataFrame 평균

In [None]:
df.mean()

`age` 컬럼에 대한 평균

In [None]:
df['age'].mean()

### Mean - 조건별 평균

성인 남성의 나이의 평균 구하기

In [None]:
condition = (df['adult_male'] == True)
df.loc[condition, 'age'].mean()

### 연습문제

다음 조건을 만족하는 승객의 **나이 평균**과 조건을 만족하는 **데이터의 개수**를 구하세요.

- `fare`를 30 이상 40 미만 지불한 승객
- `pclass`는 1등급

In [None]:
df.head()

`age` 컬럼의 데이터 개수 구하기

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>21</pre>

`age`컬럼의 평균 구하기

In [None]:
# 코드를 입력해 주세요 


<p><strong>[출력 결과]</strong></p><pre>44.095238095238095</pre>

### `skipna=True` 옵션

기술 통계 함수에서는 `skipna=True`가 **기본으로 설정** 되어 있습니다.

만약, `skipna=False`로 설정하게 된다면, **NaN 값이 있는 column은 NaN 값으로 출력** 됩니다.

In [None]:
# skipna=False를 지정한 경우
df.mean(skipna=False)

In [None]:
# skipna=True를 지정한 경우
df.mean(skipna=True)

## median() - 중앙값

데이터의 중앙 값을 출력 합니다. 데이터를 **오름차순 정렬하여 중앙에 위치한 값**입니다.

이상치(outlier)가 존재하는 경우, `mean()`보다 `median()`을 대표값으로 더 **선호**합니다.

In [None]:
pd.Series([1, 2, 3, 4, 5]).median()

In [None]:
pd.Series([4, 5, 1, 2, 3]).median()

**짝수**개의 데이터가 있는 경우에는 **가운데 2개 중앙 데이터의 평균 값을 출력** 합니다.

In [None]:
pd.Series([1, 2, 3, 4, 5, 6]).median()

나이의 평균(mean)과 중앙값(median)은 약간의 **차이가 있음**을 확인할 수 있습니다.

In [None]:
print(f"나이 평균: {df['age'].mean():.5f}\n나이 중앙값: {df['age'].median()}\n차이: {df['age'].mean() - df['age'].median():.5f}")

## sum() - 합계

데이터의 **합계**입니다. 문자열 column은 모든 데이터가 붙어서 출력될 수 있습니다.

In [None]:
df.loc[:, ['age', 'fare']].sum()

단일 column에 대한 **합계 출력**

In [None]:
df['fare'].sum()

## cumsum() - 누적합, cumprod() - 누적곱

누적되는 합계를 구할 수 있습니다.

In [None]:
df['age'].cumsum()

누적되는 곱도 구할 수 있으나, 일반적으로 **값이 너무 커지므로 잘 활용하지는 않습니다.**

In [None]:
df['age'].cumprod()

## var() - 분산

$\large 분산 = \Huge\frac{\sum_{i=1}^{n}(X_{i} - \bar{X})^{2}}{n-1}$

$\large 평균 = \huge \bar{x}$

In [None]:
# 평균
fare_mean = df['fare'].values.mean()

# 분산
my_var = ((df['fare'].values - fare_mean) ** 2).sum() / (df['fare'].count() - 1)
my_var

In [None]:
df['fare'].var()

## std() - 표준편차

$\large 표준편차 =\huge \sqrt{분산} = \sqrt{\frac{{}\sum_{i=1}^{n}(X_{i} - \bar{X})^{2}}{n-1}}$

분산(var)의 제곱근

In [None]:
np.sqrt(df['fare'].var())

In [None]:
df['fare'].std()

## min() - 최소값, max() - 최대값

In [None]:
# 최소값
df['age'].min()

In [None]:
# 최대값
df['age'].max()

## agg - aggregation: 통합 통계 적용 (복수의 통계 함수 적용)

단일 컬럼에 agg 적용

In [None]:
df['age'].agg(['min', 'max', 'count', 'mean'])

복수의 컬럼에 agg 적용

In [None]:
df[['age', 'fare']].agg(['min', 'max', 'count', 'mean'])

### 연습문제

다이아몬드 데이터를 활용하여 다음의 문제를 풀어주세요

In [None]:
diamond = sns.load_dataset('diamonds')
diamond

depth의 **최소값**을 구하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>43.0</pre>

`carat`에 대한 **평균**과 **분산**을 동시에 출력하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>mean    0.797940
var     0.224687
Name: carat, dtype: float64</pre>

x, y에 대한 **합계**와 **표준편차**를 출력하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><div>
<style scoped>
    .dataframe tbody tr th:only-of-type {
        vertical-align: middle;
    }

    .dataframe tbody tr th {
        vertical-align: top;
    }

    .dataframe thead th {
        text-align: right;
    }
</style>
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>x</th>
      <th>y</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>sum</th>
      <td>309138.620000</td>
      <td>309320.330000</td>
    </tr>
    <tr>
      <th>std</th>
      <td>1.121761</td>
      <td>1.142135</td>
    </tr>
  </tbody>
</table>
</div>

## quantile() - 분위

**Quantile이란 주어진 데이터를 동등한 크기로 분할하는 지점**을 말합니다

10%의 경우 0.1을, 80%의 경우 0.8을 대입하여 값을 구합니다.

In [None]:
# 10% quantile
df['age'].quantile(0.1)

In [None]:
# 80% quantile
df['age'].quantile(0.8)

## unique() - 고유값, nunique() - 고유값 개수

고유값과 고유값의 개수를 구하고자 할 때 사용합니다.

**unique()**

In [None]:
df['who'].unique()

**nunique()**: 고유값의 개수를 출력합니다.

In [None]:
df['who'].nunique()

## mode() - 최빈값

최빈값은 **가장 많이 출현한 데이터**를 의미합니다.

In [None]:
df['who'].mode()

카테고리형 데이터에도 적용 가능합니다.

In [None]:
df['deck'].mode()

### 연습문제

펭귄 데이터를 활용하여 다음의 문제를 풀어주세요

In [None]:
penguin = sns.load_dataset('penguins')
penguin

`species` 컬럼의 **고유값**을 출력해 주세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>array(['Adelie', 'Chinstrap', 'Gentoo'], dtype=object)</pre>

`island` 컬럼의 **최빈값**을 출력해 주세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>0    Biscoe
dtype: object</pre>

`body_mass_g` 컬럼의 10% 분위수 값(하위 10%)을 출력해 주세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>3300.0</pre>

`body_mass_g` 컬럼의 80% 분위수 값(상위 20%)을 출력해 주세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>4950.0</pre>

## corr() - 상관관계 

`corr()`로 컬럼(column)별 **상관관계**를 확인할 수 있습니다.

- **-1~1 사이의 범위**를 가집니다.
- **-1에 가까울 수록 반비례** 관계, **1에 가까울수록 정비례** 관계를 의미합니다.

In [None]:
df.corr()

**특정 컬럼에 대한 상관관계**를 확인할 수 있습니다.

In [None]:
df.corr()['survived']