In [31]:
import numpy as np
import pandas as pd

In [32]:
df1=pd.read_csv('data/grade.csv', encoding='euc-kr')
df1.set_index('이름', inplace=True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


### 요약 통계 정보

In [33]:
# 숫자 컬럼만 모아서 확인함
# 이때 카테고리형 컬럼은 제외함
df2 = df1[['국어', '영어', '수학', '과학']]
df2.describe()

Unnamed: 0,국어,영어,수학,과학
count,5.0,4.0,3.0,4.0
mean,92.2,67.5,60.333333,73.5
std,20.474374,17.078251,28.536526,10.246951
min,63.0,50.0,31.0,64.0
25%,88.0,57.5,46.5,68.5
50%,92.0,65.0,62.0,71.0
75%,98.0,75.0,75.0,76.0
max,120.0,90.0,88.0,88.0


- count: 결측치를 제외한 데이터 개수
- mean: 결측치를 제외한 평균
- min: 결측치를 제외한 최소값
- std: 결측치를 제외한 표준편차
- 25%: 결측치를 제외한 25% 위치와 가장 가까운 값
- 50%: 결측치를 제외한 50% 위치와 가장 가까운 값
- 75%: 결측치를 제외한 75% 위치와 가장 가까운 값
- max: 결측치를 제외한 최대값

In [34]:
# 25%, 75%를 설정할 수 있음
# 50% 위치값은 무조건 나오므로 생략해도 됨
df2.describe(percentiles=[0.1, 0.2, 0.3, 0.4, 0.6, 0.7, 0.8, 0.9])

Unnamed: 0,국어,영어,수학,과학
count,5.0,4.0,3.0,4.0
mean,92.2,67.5,60.333333,73.5
std,20.474374,17.078251,28.536526,10.246951
min,63.0,50.0,31.0,64.0
10%,73.0,53.0,37.2,65.8
20%,83.0,56.0,43.4,67.6
30%,88.8,59.0,49.6,69.4
40%,90.4,62.0,55.8,70.4
50%,92.0,65.0,62.0,71.0
60%,94.4,68.0,67.2,71.6


In [35]:
# 카테고리형 데이터의 요약 통계 정보
df2 = df1[['학년', '성별']]

# 숫자 컬럼이 있다면 숫자 컬럼만 모아 요약 통계 정보를 보여주므로
# 모든 컬럼을 문자열로 바꿔줘야 함
df2.astype('str').describe()

Unnamed: 0,학년,성별
count,5,5
unique,4,2
top,1,남자
freq,2,3


- count: 결측치를 제외한 행의 개수
- unique: 중복을 제외한 데이터의 개수(데이터의 가지수)
- top: 가장 많이 있는 값
- freq: 가장 많이 있는 값의 개수

### 통계함수
- 모든 통계값은 결측치를 제외함
- 일부 함수는 문자열이 저장되어 있는 컬럼을 제외함

In [36]:
# 결측치를 제외한 데이터의 개수
df1.count()

학년    5
성별    5
국어    5
영어    4
수학    3
과학    4
dtype: int64

In [37]:
# 통계함수들은 Series도 지원
df1['영어'].count()

4

In [38]:
# 컬럼에 저장되어 있는 값 확인
# Series도 지원함
df1['성별'].unique()

array(['남자', '여자'], dtype=object)

In [39]:
# unique 함수는 결측치를 포함함
df1['영어'].unique()

array([nan, 90., 70., 60., 50.])

In [40]:
# 만약 결측치를 제외하고 확인하려면, value_counts 함수를 사용함.
a1 = df1['영어'].value_counts()

display(a1)
display(a1.index)

90.0    1
70.0    1
60.0    1
50.0    1
Name: 영어, dtype: int64

Float64Index([90.0, 70.0, 60.0, 50.0], dtype='float64')

In [41]:
# 결측치를 제외한 평균
df1.mean()

  df1.mean()


학년     2.200000
국어    92.200000
영어    67.500000
수학    60.333333
과학    73.500000
dtype: float64

In [42]:
# 결측치를 제외한 최대값
a1 = df1.max()

# 결측치를 제외한 최소값
a2 = df1.min()

# 결측치를 제외한 표준편차
a3 = df1.std()

# 결측치를 제외한 분산
a4 = df1.var()

# 25% 위치 위치값
a5 = df1.quantile()

# 중앙값
a6 = df1.median()

# 10% 위치의 값(0~1)
a7 = df1.quantile(q=0.1)

  a3 = df1.std()
  a4 = df1.var()
  a6 = df1.median()


In [43]:
display(a1)
display(a2)
display(a3)
display(a4)
display(a5)
display(a6)
display(a7)

학년       4
성별      여자
국어     120
영어    90.0
수학    88.0
과학    88.0
dtype: object

학년       1
성별      남자
국어      63
영어    50.0
수학    31.0
과학    64.0
dtype: object

학년     1.303840
국어    20.474374
영어    17.078251
수학    28.536526
과학    10.246951
dtype: float64

학년      1.700000
국어    419.200000
영어    291.666667
수학    814.333333
과학    105.000000
dtype: float64

학년     2.0
국어    92.0
영어    65.0
수학    62.0
과학    71.0
Name: 0.5, dtype: float64

학년     2.0
국어    92.0
영어    65.0
수학    62.0
과학    71.0
dtype: float64

학년     1.0
국어    73.0
영어    53.0
수학    37.2
과학    65.8
Name: 0.1, dtype: float64