# 📍 통계함수
### ✅ 엑셀로 열기
: ```pd.read_excel('파일명.xlsx', index_col='column')```

In [1]:
import pandas as pd

df = pd.read_excel('score.xlsx', index_col='지원번호') # index 설정
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


### ✅ min()
: 행/열에 대한 최솟값

In [2]:
df['키'].min()

168

### ✅ max()
: 행/열에 대한 최댓값

In [3]:
df['키'].max()

202

### ✅ median()
: 오름차순으로 정렬했을 때 중앙값\
  짝수개의 데이터가 있을 때 가운데 2개 중앙 데이터의 평균값

In [4]:
df['키'].median()

188.0

### ✅ nlargest(n)
: 상위 n개의 데이터 출력

In [5]:
df['키'].nlargest(3) # 키 큰 사람 순서대로 3명 데이터

지원번호
6번    202
1번    197
8번    190
Name: 키, dtype: int64

### ✅ mean()
: 행/열에 대한 평균값

In [6]:
df['키'].mean()

188.0

: ```df.mean(skipna=True/False)```
- skipna = True(default값)
- skipna = False로 설정되어 있다면, NaN값이 있는 columns NaN으로 출력

In [7]:
import numpy as np

df.loc['2번', '국어'] = np.nan
df.mean(skipna=True, numeric_only = True)

키     188.000000
국어     65.714286
영어     65.625000
수학     66.250000
과학     70.000000
사회     60.625000
dtype: float64

In [8]:
df.mean(skipna=False, numeric_only = True)

키     188.000
국어        NaN
영어     65.625
수학     66.250
과학     70.000
사회     60.625
dtype: float64

### ✅ var()
: 분산
$$ \text{분산} (\text{Var}) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 $$
- n 데이터의 개수
- x_i 각 데이터
- bar_x 데이터의 평균

In [9]:
df = pd.read_excel('score.xlsx', index_col='지원번호')
# 평균
math_mean = df['수학'].mean()

# 분산
math_var = ((df['수학'] - math_mean) ** 2).sum() / (df['수학'].count() - 1)
print(math_var)

print(df['수학'].var())

919.6428571428571
919.6428571428571


### ✅ std()
: 표준편차
$$ \text{표준 편차} (\text{SD}) = \sqrt{\text{분산} (\text{Var})} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2} $$

- n 데이터의 개수
- x_i 각 데이터
- bar_x 데이터의 평균

In [10]:
print(np.sqrt(df['수학'].var()))
print(df['수학'].std())

30.325613879076826
30.325613879076826


### ✅ sum()
: 합계

In [11]:
df.sum(numeric_only = True)

키     1504
국어     500
영어     525
수학     530
과학     560
사회     485
dtype: int64

### ✅ cumsum()
: 누적합

In [12]:
df['키'].cumsum()

지원번호
1번     197
2번     381
3번     549
4번     736
5번     924
6번    1126
7번    1314
8번    1504
Name: 키, dtype: int64

### ✅ cumprod()
: 누적곱

In [13]:
df['국어'].cumprod()

지원번호
1번                90
2번              3600
3번            288000
4번          11520000
5번         172800000
6번       13824000000
7번      760320000000
8번    76032000000000
Name: 국어, dtype: int64

### ✅ count()
: Nan값을 제외한 데이터 갯수

In [14]:
df['SW특기'].count()

6

### ✅ mode()
: 최빈값

In [15]:
df['학교'].mode()

0    북산고
Name: 학교, dtype: object

### ✅ quantile()
: 분위(주어진 데이터를 동등한 크기로 분할하는 지점)

In [16]:
# 하위 10%
df['과학'].quantile(0.1)

38.5

### ✅ unique()
: 데이터의 고유값 종류

In [17]:
df['학교'].unique()

array(['북산고', '능남고'], dtype=object)

### ✅ nunique()
: 데이터의 고유값 갯수\
  unique값 갯수

In [18]:
df['학교'].nunique()

2

### ✅ agg (aggregation) 
: 복수 통계 함수 적용\
  ```df[['column_list']].agg([statistics_list])```

In [19]:
df[['국어', '수학']].agg(['min', 'max', 'count', 'mean'])

Unnamed: 0,국어,수학
min,15.0,10.0
max,100.0,100.0
count,8.0,8.0
mean,62.5,66.25


### ✅ corr()
: 상관관계
- -1 ~ 1 사이의 범위
- -1에 가까울수록 반비례 관계, 1에 가까울수록 정비례 관계

In [20]:
import seaborn as sns
df = sns.load_dataset('titanic')
df.corr(numeric_only=True)

Unnamed: 0,survived,pclass,age,sibsp,parch,fare,adult_male,alone
survived,1.0,-0.338481,-0.077221,-0.035322,0.081629,0.257307,-0.55708,-0.203367
pclass,-0.338481,1.0,-0.369226,0.083081,0.018443,-0.5495,0.094035,0.135207
age,-0.077221,-0.369226,1.0,-0.308247,-0.189119,0.096067,0.280328,0.19827
sibsp,-0.035322,0.083081,-0.308247,1.0,0.414838,0.159651,-0.253586,-0.584471
parch,0.081629,0.018443,-0.189119,0.414838,1.0,0.216225,-0.349943,-0.583398
fare,0.257307,-0.5495,0.096067,0.159651,0.216225,1.0,-0.182024,-0.271832
adult_male,-0.55708,0.094035,0.280328,-0.253586,-0.349943,-0.182024,1.0,0.404744
alone,-0.203367,0.135207,0.19827,-0.584471,-0.583398,-0.271832,0.404744,1.0
