# 패키지 설치

In [1]:
!pip install mySUNI

zsh:1: command not found: pip


## 모듈 import

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
from mySUNI import cds
from IPython.display import Image

## 데이터셋 로드

In [3]:
df = sns.load_dataset('titanic')
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


**컬럼(columns) 설명**

- survivied: 생존여부 (1: 생존, 0: 사망)
- pclass: 좌석 등급 (1등급, 2등급, 3등급)
- sex: 성별
- age: 나이
- sibsp: 형제 + 배우자 수
- parch: 부모 + 자녀 수
- fare: 좌석 요금
- embarked: 탑승 항구 (S, C, Q)
- class: pclass와 동일
- who: 성별과 동일
- adult_male: 성인 남자 여부
- deck: 데크 번호 (알파벳 + 숫자 혼용)
- embark_town: 탑승 항구 이름
- alive: 생존여부 (yes, no)
- alone: 혼자 탑승 여부

# 통계

**통계**는 데이터 분석에서 굉장히 **중요한 요소**입니다.

데이터에 대한 통계 계산식을 Pandas 함수로 제공하기 때문에 어렵지 않게 통계 값을 산출할 수 있습니다.

## describe() - 요약통계

전반적인 주요 통계를 확인할 수 있습니다.

기본 값으로 **수치형(Numerical) 컬럼**에 대한 통계표를 보여줍니다.

- **count**: 데이터 개수
- **mean**: 평균
- **std**: 표준편차
- **min**: 최솟값
- **max**: 최대값

In [4]:
df.describe()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


**문자열 컬럼에 대한 통계표**도 확인할 수 있습니다.

- **count**: 데이터 개수
- **unique**: 고유 데이터의 값 개수
- **top**: 가장 많이 출현한 데이터
- **freq**: 가장 많이 출현한 데이터의 빈도수

In [5]:
df.describe(include='object')

Unnamed: 0,sex,embarked,who,embark_town,alive
count,891,889,891,889,891
unique,2,3,3,3,2
top,male,S,man,Southampton,no
freq,577,644,537,644,549


## count() - 개수

데이터의 개수

In [6]:
# DataFrame 전체의 개수를 구하는 경우
df.count() 
# axis=0
# axis=1

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [7]:
# 단일 column의 데이터 개수를 구하는 경우
df['age'].count()

714

## mean() - 평균

데이터의 **평균**

In [8]:
# DataFrame 평균
df.mean()

  df.mean()


survived       0.383838
pclass         2.308642
age           29.699118
sibsp          0.523008
parch          0.381594
fare          32.204208
adult_male     0.602694
alone          0.602694
dtype: float64

In [9]:
# Column 평균
df['age'].mean()

29.69911764705882

In [10]:
df.mean(skipna=False)

  df.mean(skipna=False)


survived       0.383838
pclass         2.308642
age                 NaN
sibsp          0.523008
parch          0.381594
fare          32.204208
adult_male     0.602694
alone          0.602694
dtype: float64

### Mean - 조건별 평균

성인 남성의 나이의 평균 구하기

In [11]:
condition = (df['adult_male'] == True)
df.loc[condition, 'age'].mean()
# 데이터 프레임에서 adult_male 컬럼의 값이 True인 행을 선택 -> 해당 결과에서 'age' 컬럼의 평균

33.17312348668281

### 연습문제

다음 조건을 만족하는 승객의 **나이 평균**과 조건을 만족하는 **데이터의 개수**를 구하세요.

- `fare`를 30 이상 40 미만 지불한 승객
- `pclass`는 1등급

In [12]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [13]:
# 코드를 입력해 주세요 (데이터 개수 구하기)
con1 = (df['fare'] >= 30) & (df['fare'] < 40)
con2 = df['pclass'] == 1
df[con1 & con2].shape

(28, 15)

In [17]:

df[con1 & con2]['age'].mean()

44.095238095238095

### `skipna=True` 옵션

기술 통계 함수에서는 `skipna=True`가 **기본으로 설정** 되어 있습니다.

만약, `skipna=False`로 설정하게 된다면, **NaN 값이 있는 column은 NaN 값으로 출력** 됩니다.

In [None]:
# skipna=False를 지정한 경우
df.mean(skipna=False)

In [None]:
# skipna=True를 지정한 경우
df.mean(skipna=True)

## median() - 중앙값

데이터의 중앙 값을 출력 합니다. 데이터를 **오름차순 정렬하여 중앙에 위치한 값**입니다.

이상치(outlier)가 존재하는 경우, `mean()`보다 `median()`을 대표값으로 더 **선호**합니다.

In [None]:
pd.Series([1, 2, 3, 4, 5]).median()

In [None]:
pd.Series([4, 5, 1, 2, 3]).median()

**짝수**개의 데이터가 있는 경우에는 **가운데 2개 중앙 데이터의 평균 값을 출력** 합니다.

In [None]:
pd.Series([1, 2, 3, 4, 5, 6]).median()

나이의 평균(mean)과 중앙값(median)은 약간의 **차이가 있음**을 확인할 수 있습니다.

In [None]:
print(f"나이 평균: {df['age'].mean():.5f}\n나이 중앙값: {df['age'].median()}\n차이: {df['age'].mean() - df['age'].median():.5f}")

## sum() - 합계

데이터의 **합계**입니다. 문자열 column은 모든 데이터가 붙어서 출력될 수 있습니다.

In [None]:
df.sum()

단일 column에 대한 **합계 출력**

In [None]:
df['fare'].sum()

## cumsum() - 누적합, cumprod() - 누적곱

누적되는 합계를 구할 수 있습니다.

In [None]:
df['age'].cumsum()

누적되는 곱도 구할 수 있으나, 일반적으로 **값이 너무 커지므로 잘 활용하지는 않습니다.**

In [None]:
df['age'].cumprod()

## var() - 분산

$\large 분산 = \Huge\frac{{}\sum_{i=1}^{n}(X_{i} - \bar{X})^{2}}{n-1}$

$\large 평균 = \huge \bar{x}$

In [15]:
# 평균
fare_mean = df['fare'].values.mean()

# 분산
my_var = ((df['fare'].values - fare_mean) ** 2).sum() / (df['fare'].count() - 1)
my_var

2469.436845743116

In [None]:
df['fare'].var()

## std() - 표준편차

$\large 표준편차 =\huge \sqrt{분산} = \sqrt{\frac{{}\sum_{i=1}^{n}(X_{i} - \bar{X})^{2}}{n-1}}$

분산(var)의 제곱근

In [None]:
np.sqrt(df['fare'].var())

In [None]:
np.sqrt(my_var)

In [None]:
df['fare'].std()

## min() - 최소값, max() - 최대값

In [None]:
# 최소값
df['age'].min()

In [None]:
# 최대값
df['age'].max()

## quantile() - 분위

**Quantile이란 주어진 데이터를 동등한 크기로 분할하는 지점**을 말합니다

10%의 경우 0.1을, 80%의 경우 0.8을 대입하여 값을 구합니다.

In [None]:
# 10% quantile
df['age'].quantile(0.1) # 하위 10%

In [None]:
# 60% quantile
df['age'].quantile(0.8) # 상위 20%

## unique() - 고유값, nunique() - 고유값 개수

고유값과 고유값의 개수를 구하고자 할 때 사용합니다.

**unique()**

In [None]:
df['who'].unique()

**nunique()**: 고유값의 개수를 출력합니다.

In [None]:
df['who'].nunique()

## mode() - 최빈값

최빈값은 **가장 많이 출현한 데이터**를 의미합니다.

In [None]:
df['who'].mode()

카테고리형 데이터에도 적용 가능합니다.

In [None]:
df['deck'].mode()

## corr() - 상관관계 

`corr()`로 컬럼(column)별 **상관관계**를 확인할 수 있습니다.

- **-1~1 사이의 범위**를 가집니다.
- **-1에 가까울 수록 반비례** 관계, **1에 가까울수록 정비례** 관계를 의미합니다.

In [24]:
df['age'].corr()
df

TypeError: Series.corr() missing 1 required positional argument: 'other'

In [18]:
df_corr = df.corr()
df_corr['age'] #나이가 많을수록 생존율이 내려간다.

survived     -0.077221
pclass       -0.369226
age           1.000000
sibsp        -0.308247
parch        -0.189119
fare          0.096067
adult_male    0.280328
alone         0.198270
Name: age, dtype: float64

**특정 컬럼에 대한 상관관계**를 확인할 수 있습니다.

In [None]:
df.corr()['survived']