## 모듈 import

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns 

## 데이터셋 로드

In [2]:
df = sns.load_dataset('titanic')
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


**컬럼(columns) 설명**

- survivied: 생존여부 (1: 생존, 0: 사망)
- pclass: 좌석 등급 (1등급, 2등급, 3등급)
- sex: 성별
- age: 나이
- sibsp: 형제 + 배우자 수
- parch: 부모 + 자녀 수
- fare: 좌석 요금
- embarked: 탑승 항구 (S, C, Q)
- class: pclass와 동일
- who: 성별과 동일
- adult_male: 성인 남자 여부
- deck: 데크 번호 (알파벳 + 숫자 혼용)
- embark_town: 탑승 항구 이름
- alive: 생존여부 (yes, no)
- alone: 혼자 탑승 여부

# 통계

**통계**는 데이터 분석에서 굉장히 **중요한 요소**입니다.

데이터에 대한 통계 계산식을 Pandas 함수로 제공하기 때문에 어렵지 않게 통계 값을 산출할 수 있습니다.

## describe() - 요약통계

전반적인 주요 통계를 확인할 수 있습니다.

기본 값으로 **수치형(Numerical) 컬럼**에 대한 통계표를 보여줍니다.

- **count**: 데이터 개수
- **mean**: 평균
- **std**: 표준편차
- **min**: 최솟값
- **max**: 최대값

In [3]:
df.describe()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


**문자열 컬럼에 대한 통계표**도 확인할 수 있습니다.

- **count**: 데이터 개수
- **unique**: 고유 데이터의 값 개수
- **top**: 가장 많이 출현한 데이터
- **freq**: 가장 많이 출현한 데이터의 빈도수

In [4]:
df.describe(include='object')

Unnamed: 0,sex,embarked,who,embark_town,alive
count,891,889,891,889,891
unique,2,3,3,3,2
top,male,S,man,Southampton,no
freq,577,644,537,644,549


## count() - 개수

데이터의 개수

In [5]:
# DataFrame 전체의 개수를 구하는 경우
df.count() 
# axis=0 (기본, 행방향) > 의미 : 각 컬럼별 ~~~~
# axis=1 (열방향)       > 의미 : 각 행별 ~~~~

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [6]:
# 단일 column의 데이터 개수를 구하는 경우
df['age'].count()

714

## mean() - 평균

데이터의 **평균**

In [6]:
# DataFrame 평균
df.mean()

survived       0.383838
pclass         2.308642
age           29.699118
sibsp          0.523008
parch          0.381594
fare          32.204208
adult_male     0.602694
alone          0.602694
dtype: float64

In [10]:
# Column 평균
df['age'].mean()

29.69911764705882

### Mean - 조건별 평균

성인 남성의 나이의 평균 구하기

In [11]:
condition = (df['adult_male'] == True)
df.loc[condition, 'age'].mean()
# 데이터 프레임에서 adult_male 컬럼의 값이 True인 행을 선택 -> 해당 결과에서 'age' 컬럼의 평균

33.17312348668281

### 연습문제

다음 조건을 만족하는 승객의 **나이 평균**과 조건을 만족하는 **데이터의 개수**를 구하세요.

- `fare`를 30 이상 40 미만 지불한 승객
- `pclass`는 1등급

In [12]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [13]:
sub = df.loc[(df['fare'] >= 30) & (df['fare'] < 40) & (df['pclass'] == 1), :]
sub

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
23,1,1,male,28.0,0,0,35.5,S,First,man,True,A,Southampton,yes,True
55,1,1,male,,0,0,35.5,S,First,man,True,C,Southampton,yes,True
96,0,1,male,71.0,0,0,34.6542,C,First,man,True,A,Cherbourg,no,True
170,0,1,male,61.0,0,0,33.5,S,First,man,True,B,Southampton,no,True
174,0,1,male,56.0,0,0,30.6958,C,First,man,True,A,Cherbourg,no,True
209,1,1,male,40.0,0,0,31.0,C,First,man,True,A,Cherbourg,yes,True
270,0,1,male,,0,0,31.0,S,First,man,True,,Southampton,no,True
298,1,1,male,,0,0,30.5,S,First,man,True,C,Southampton,yes,True
339,0,1,male,45.0,0,0,35.5,S,First,man,True,,Southampton,no,True
351,0,1,male,,0,0,35.0,S,First,man,True,C,Southampton,no,True


In [14]:
# 코드를 입력해 주세요 (데이터 개수 구하기)
sub.count()

survived       28
pclass         28
sex            28
age            21
sibsp          28
parch          28
fare           28
embarked       28
class          28
who            28
adult_male     28
deck           22
embark_town    28
alive          28
alone          28
dtype: int64

In [15]:
# # 코드를 입력해 주세요 (나이 평균 구하기)
sub['age'].mean()

44.095238095238095

## median() - 중앙값

데이터의 중앙 값을 출력 합니다. 데이터를 **오름차순 정렬하여 중앙에 위치한 값**입니다.

이상치(outlier)가 존재하는 경우, `mean()`보다 `median()`을 대표값으로 더 **선호**합니다.

In [16]:
pd.Series([1, 2, 3, 4, 100]).median()

3.0

In [17]:
pd.Series([4, 100, 1, 2, 3]).median()

3.0

**짝수**개의 데이터가 있는 경우에는 **가운데 2개 중앙 데이터의 평균 값을 출력** 합니다.

In [18]:
pd.Series([1, 2, 3, 4, 5, 100]).median()

3.5

나이의 평균(mean)과 중앙값(median)은 약간의 **차이가 있음**을 확인할 수 있습니다.

In [19]:
print(f"나이 평균: {df['age'].mean():.5f}\n나이 중앙값: {df['age'].median()}\n차이: {df['age'].mean() - df['age'].median():.5f}")

나이 평균: 29.69912
나이 중앙값: 28.0
차이: 1.69912


## sum() - 합계

데이터의 **합계**입니다. 문자열 column은 모든 데이터가 붙어서 출력될 수 있습니다.

In [3]:
df.sum()

  df.sum()


survived                                                    342
pclass                                                     2057
sex           malefemalefemalefemalemalemalemalemalefemalefe...
age                                                    21205.17
sibsp                                                       466
parch                                                       340
fare                                                 28693.9493
who           manwomanwomanwomanmanmanmanchildwomanchildchil...
adult_male                                                  537
alive         noyesyesyesnonononoyesyesyesyesnononoyesnoyesn...
alone                                                       537
dtype: object

단일 column에 대한 **합계 출력**

In [21]:
df['fare'].sum()

28693.9493

## var() - 분산

$\large 분산 = \Huge\frac{{}\sum_{i=1}^{n}(X_{i} - \bar{X})^{2}}{n-1}$

$\large 평균 = \huge \bar{x}$

In [22]:
# 평균
fare_mean = df['fare'].values.mean()

# 분산
my_var = ((df['fare'].values - fare_mean) ** 2).sum() / (df['fare'].count() - 1)
my_var

2469.436845743116

In [23]:
df['fare'].var()

2469.436845743116

## std() - 표준편차

$\large 표준편차 =\huge \sqrt{분산} = \sqrt{\frac{{}\sum_{i=1}^{n}(X_{i} - \bar{X})^{2}}{n-1}}$

분산(var)의 제곱근

In [24]:
np.sqrt(df['fare'].var())

49.6934285971809

In [25]:
np.sqrt(my_var)

49.6934285971809

In [26]:
df['fare'].std()

49.6934285971809

## min() - 최소값, max() - 최대값

In [27]:
# 최소값
df['age'].min()

0.42

In [28]:
# 최대값
df['age'].max()

80.0

## unique() - 고유값, nunique() - 고유값 개수

고유값과 고유값의 개수를 구하고자 할 때 사용합니다.

**unique()**

In [29]:
df['who'].unique()

array(['man', 'woman', 'child'], dtype=object)

**nunique()**: 고유값의 개수를 출력합니다.

In [30]:
df['who'].nunique()

3

## 
mode() - 최빈값

최빈값은 **가장 많이 출현한 데이터**를 의미합니다.

In [31]:
df['who'].mode()

0    man
Name: who, dtype: object

## corr() - 상관관계 

`corr()`로 컬럼(column)별 **상관관계**를 확인할 수 있습니다.

- **-1~1 사이의 범위**를 가집니다.
- **-1에 가까울 수록 반비례** 관계, **1에 가까울수록 정비례** 관계를 의미합니다.

In [47]:
df.corr()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare,adult_male,alone
survived,1.0,-0.338481,-0.077221,-0.035322,0.081629,0.257307,-0.55708,-0.203367
pclass,-0.338481,1.0,-0.369226,0.083081,0.018443,-0.5495,0.094035,0.135207
age,-0.077221,-0.369226,1.0,-0.308247,-0.189119,0.096067,0.280328,0.19827
sibsp,-0.035322,0.083081,-0.308247,1.0,0.414838,0.159651,-0.253586,-0.584471
parch,0.081629,0.018443,-0.189119,0.414838,1.0,0.216225,-0.349943,-0.583398
fare,0.257307,-0.5495,0.096067,0.159651,0.216225,1.0,-0.182024,-0.271832
adult_male,-0.55708,0.094035,0.280328,-0.253586,-0.349943,-0.182024,1.0,0.404744
alone,-0.203367,0.135207,0.19827,-0.584471,-0.583398,-0.271832,0.404744,1.0


**특정 컬럼에 대한 상관관계**를 확인할 수 있습니다.

In [4]:
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)


In [5]:
df.corr()['survived']

survived      1.000000
pclass       -0.338481
age          -0.077221
sibsp        -0.035322
parch         0.081629
fare          0.257307
adult_male   -0.557080
alone        -0.203367
Name: survived, dtype: float64

In [50]:
import pandas as pd
df = pd.DataFrame({
    '공부시간' : [1,2,3,4,5,6,7,8,9],
    '성적' : [30,20,50,50,70,80,100,90,100],
    '유튜브시청시간' : [7,9,6,6,5,1,3,2,1]
})
df

Unnamed: 0,공부시간,성적,유튜브시청시간
0,1,30,7
1,2,20,9
2,3,50,6
3,4,50,6
4,5,70,5
5,6,80,1
6,7,100,3
7,8,90,2
8,9,100,1


In [51]:
df.corr()

Unnamed: 0,공부시간,성적,유튜브시청시간
공부시간,1.0,0.955166,-0.902131
성적,0.955166,1.0,-0.926543
유튜브시청시간,-0.902131,-0.926543,1.0
