In [1]:
import numpy as mp
import pandas as pd

In [2]:
df1 = pd.read_csv('data/data/grade.csv', encoding = 'euc-kr')
df1.set_index('이름', inplace = True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


### 요약 통계 정보

In [3]:
# 범위형 데이터에 대한 요약 통계 정보

df1[['국어', '영어', '수학', '과학']].describe()

Unnamed: 0,국어,영어,수학,과학
count,5.0,4.0,3.0,4.0
mean,92.2,67.5,60.333333,73.5
std,20.474374,17.078251,28.536526,10.246951
min,63.0,50.0,31.0,64.0
25%,88.0,57.5,46.5,68.5
50%,92.0,65.0,62.0,71.0
75%,98.0,75.0,75.0,76.0
max,120.0,90.0,88.0,88.0


- count : 결측치를 제외한 데이터의 개수
- mean : 결측치를 제외한 평균
- min : 결측치를 제외한 최소값
- std : 결측치를 제외한 표준편차
- 25% : 결측치를 제외한 25% 위치와 가까운 값
- 50% : 결측치를 제외한 50% 위치와 가까운 값
- 75% : 결측치를 제외한 75% 위치와 가까운 값
- max : 결측치를 제외한 최대 값
- min, max와 위치의 수 보다 값이 부족하면 실제 값이 아닌 해당 위치의 값으로 나온다.

In [4]:
# 25%, 75% 부분을 수정할 수 있다
# 0 ~ 1 사이의 값을 넣어주며 50% 위치의 값은 무조건 나오기 때문에 0.5는 생략해도 된다.
a1 = [0.1, 0.2, 0.3, 0.4, 0.6, 0.7, 0.8, 0.9]

df1[['국어', '영어', '수학', '과학']].describe(percentiles=a1)

Unnamed: 0,국어,영어,수학,과학
count,5.0,4.0,3.0,4.0
mean,92.2,67.5,60.333333,73.5
std,20.474374,17.078251,28.536526,10.246951
min,63.0,50.0,31.0,64.0
10%,73.0,53.0,37.2,65.8
20%,83.0,56.0,43.4,67.6
30%,88.8,59.0,49.6,69.4
40%,90.4,62.0,55.8,70.4
50%,92.0,65.0,62.0,71.0
60%,94.4,68.0,67.2,71.6


In [5]:
# 범주형 데이터에 대한 요약 통계 정보
# 범주형 데이터 중에 숫자 컬럼이 있다면 숫자 컬럼만 모아서 범위형 데이터의 요약 통계 정보를 
# 보여준다.
# 따라서 문자열로 다 변환된 데이터 프레임을 구한 다음 그것을 통해 확인한다.
df1[['학년', '성별']].astype('str').describe()

Unnamed: 0,학년,성별
count,5,5
unique,4,2
top,1,남자
freq,2,3


- count : 결측치를 제외한 데이터의 개수
- unique : 결측치를 제외한 데이터의 가지수
- top : 결측치를 제외한 가장 많이 나온 데이터
- freq : top 에 해당하는 값이 몇 개가 있는지

### pandas 통계 함수 목록

# pandas 통계 함수 목록

### 1. 기초 통계 함수

| 함수        | 설명                                  |
|-------------|---------------------------------------|
| `count()`   | 결측값을 제외한 데이터 개수             |
| `sum()`     | 합계                                   |
| `mean()`    | 평균                                   |
| `median()`  | 중앙값                                 |
| `mode()`    | 최빈값                                 |
| `min()` / `max()` | 최소 / 최대값                   |
| `std()`     | 표준편차 (Standard Deviation)          |
| `var()`     | 분산 (Variance)                        |
| `abs()`     | 절댓값                                 |
| `prod()`    | 누적 곱                                |

---

### 2. 누적 및 순위 관련 함수

| 함수         | 설명                                 |
|--------------|--------------------------------------|
| `cumsum()`   | 누적 합                              |
| `cumprod()`  | 누적 곱                              |
| `cummax()`   | 누적 최대값                          |
| `cummin()`   | 누적 최소값                          |
| `rank()`     | 순위 매기기                           |

---

### 3. 상관관계 및 공분산

| 함수            | 설명                               |
|-----------------|------------------------------------|
| `corr()`        | 피어슨 상관계수                    |
| `cov()`         | 공분산                             |
| `corrwith()`    | 두 DataFrame 간 상관계수 계산      |

---

### 4. 기타 통계 도우미

| 함수         | 설명                                |
|--------------|-------------------------------------|
| `describe()` | 주요 통계량 요약 (count, mean, std, min, 25%, 50%, 75%, max) |
| `quantile(q)`| 분위수 (예: `0.25`, `0.5` 등)       |
| `skew()`     | 왜도 (Skewness)                     |
| `kurt()`     | 첨도 (Kurtosis)                     |

- 결측치를 제외하고 값을 계산한다.

In [6]:
df1 = pd.read_csv('data/data/grade.csv', encoding = 'euc-kr')
df1.set_index('이름', inplace = True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [20]:
# 결측치를 제외한 데이터의 개수
a1 = df1.count()
print(f'결측치를 제외한 데이터의 개수 : {a1}')
print('-' * 30)

display(a1)
print('-' * 30)

print('결측치를 제외한 평균')
# 평균을 구하고자 하는 숫자 컬럼만 모아서 해주세요.
# 통계량 계산을 위해 범위형 데이터 컬럼만 모아준다. 
df2 = df1[['국어', '영어', '수학', '과학']]
a2 = df2.mean()
display(a2)
print('-' * 30)

print('결측치를 제외한 최대값')
a3 = df2.max()
display(a3)
print()
print('-' * 30)

print('결측치를 제외한 최소값')
a4 = df2.min()
display(a4)
print()
print('-' * 30)

print('결측치를 제외한 표준편차')
a5 = df2.std()
display(a5)
print()
# ddof=0 : 표본분산, ddof = 1 : 불편분산 (pandas 기본값)
print('-' * 30)

print('결측치를 제외한 분산')
a6 = df2.var()
display(a6)
print()
print('-' * 30)

print('결측치를 제외한 50% 위치값')
a7 = df2.quantile()
display(a7)
print()
print('-' * 30)

print('결측치를 제외한 중앙값')
a8 = df2.median()
display(a8)
print()
print('-' * 30)

print('결측치를 제외한 10% 위치의 값')
a9 = df2.quantile(q = 0.1)
display(a9)
print()
print('-' * 30)

print('결측치를 제외한 10%, 20%, 30% 위치값')
a10 = df2.quantile(q =[0.1, 0.2, 0.3])
display(a10)
print()


결측치를 제외한 데이터의 개수 : 학년    5
성별    5
국어    5
영어    4
수학    3
과학    4
dtype: int64
------------------------------


학년    5
성별    5
국어    5
영어    4
수학    3
과학    4
dtype: int64

------------------------------
결측치를 제외한 평균


국어    92.200000
영어    67.500000
수학    60.333333
과학    73.500000
dtype: float64

------------------------------
결측치를 제외한 최대값


국어    120.0
영어     90.0
수학     88.0
과학     88.0
dtype: float64


------------------------------
결측치를 제외한 최소값


국어    63.0
영어    50.0
수학    31.0
과학    64.0
dtype: float64


------------------------------
결측치를 제외한 표준편차


국어    20.474374
영어    17.078251
수학    28.536526
과학    10.246951
dtype: float64


------------------------------
결측치를 제외한 분산


국어    419.200000
영어    291.666667
수학    814.333333
과학    105.000000
dtype: float64


------------------------------
결측치를 제외한 50% 위치값


국어    92.0
영어    65.0
수학    62.0
과학    71.0
Name: 0.5, dtype: float64


------------------------------
결측치를 제외한 중앙값


국어    92.0
영어    65.0
수학    62.0
과학    71.0
dtype: float64


------------------------------
결측치를 제외한 10% 위치의 값


국어    73.0
영어    53.0
수학    37.2
과학    65.8
Name: 0.1, dtype: float64


------------------------------
결측치를 제외한 10%, 20%, 30% 위치값


Unnamed: 0,국어,영어,수학,과학
0.1,73.0,53.0,37.2,65.8
0.2,83.0,56.0,43.4,67.6
0.3,88.8,59.0,49.6,69.4





In [21]:
# 동시에 여러 통계값을 구한다.
# 각 컬럼들이 동일한 통계값을 구하고 싶을 때
# 구할 통계값에 대한 함수의 이름을 문자열로 넣어준다. 
df2.agg(['min', 'max', 'count'])

Unnamed: 0,국어,영어,수학,과학
min,63,50.0,31.0,64.0
max,120,90.0,88.0,88.0
count,5,4.0,3.0,4.0


In [24]:
# 각 컬럼별로 다른 값을 구하고 싶을 때 
d1 = {
    '국어' : ['min', 'max'],
    '영어' : ['sum', 'mean']
}
df1[['국어', '영어']].agg(d1)

Unnamed: 0,국어,영어
min,63.0,
max,120.0,
sum,,270.0
mean,,67.5
