# Pandas로 통계 구하기

In [4]:
import pandas as pd
import numpy as np

## 1. DataFrame 선언

**index** : index를 직접 지정 (데이터 개수랑 맞아야 함)  
**name** : index 이름 지정

In [None]:
df = pd.read_csv("../data/ch2_scores_em.csv",
                 index_col="student number")	# student number를 index로 사용.

scores = np.array(df["english"])[:10]			# english열의 10개의 행을 Series로 반환
scores_df = pd.DataFrame({"score": scores},		# score : 컬럼명      scores Series를 데이터로 설정
                         index=pd.Index(['A','B','C','D','E','F','G','H','I','J'],
                                        name="student"))

## 2. 평균

In [25]:
print(sum(scores)/len(scores))
print(np.mean(scores))
print(scores_df.mean())
print()

# DataFrame은 각 열에 대해 연산을 수행하여 Series을 반환
print(df.mean())
print()

# axis=1 : 가로(행별)로 연산 수행
print(df.mean(axis=1))

55.0
55.0
score    55.0
dtype: float64

english        58.38
mathematics    78.88
dtype: float64

student number
1     53.5
2     74.5
3     59.5
4     52.0
5     66.5
6     54.0
7     73.0
8     57.5
9     71.5
10    70.0
11    82.0
12    61.0
13    60.5
14    70.5
15    73.0
16    77.0
17    76.5
18    76.5
19    81.5
20    53.5
21    71.5
22    79.0
23    69.0
24    70.0
25    69.5
26    66.5
27    81.0
28    72.5
29    62.0
30    68.0
31    78.5
32    64.5
33    65.0
34    60.0
35    47.0
36    84.0
37    69.5
38    65.5
39    74.0
40    68.0
41    72.0
42    68.5
43    68.0
44    77.0
45    69.5
46    58.0
47    73.0
48    66.0
49    73.5
50    77.0
dtype: float64


## 3. 중앙값

In [26]:
print(np.median(scores))
print(scores_df.median())

56.5
score    56.5
dtype: float64


## 4. 최빈값

In [None]:
series1 = pd.Series([1,1,1,2,2,3])
print(series1.mode())

# 최빈값이 여러 개일 경우 모두 반환
series2 = pd.Series([1,2,3,4,5])
print(series2.mode())

0    1
dtype: int64
0    1
1    2
2    3
3    4
4    5
dtype: int64


## 5. 편차

In [9]:
mean = np.mean(scores)
deviation = scores - mean
print(deviation)

[-13.  14.   1. -14.   2.  -7.  10.  -6.  10.   3.]


## 6. 분산

### 6-1. 모집단분산

In [None]:
print(np.mean(deviation**2))
print(np.var(scores))
print(scores_df.var(ddof=0))	# ddof=0 : 모집단분산

86.0
86.0
score    86.0
dtype: float64


### 6-2. 불편분산

In [None]:
print(scores_df.var())	# ddof=1 : 불편분산(기본값)

score    95.555556
dtype: float64


## 7. 데이터 지표 정리

count : 개수   
mean : 평균  
std : 표준편차  
min : 최소값  
25% : 제1사분위수(Q1)  
50% : 중앙값(median)  
70% : 제3사분위수(Q3)  
max : 최댓값  

In [28]:
# 편차와 분산을 dataframe에 추가
summary_df = scores_df.copy()
summary_df["deviation"] = summary_df - summary_df.mean()
summary_df["square of deviation"] = np.square(summary_df['deviation'])

print(summary_df)
print()

# 데이터 지표 정리
print(scores_df.describe())

         score  deviation  square of deviation
student                                       
A           42      -13.0                169.0
B           69       14.0                196.0
C           56        1.0                  1.0
D           41      -14.0                196.0
E           57        2.0                  4.0
F           48       -7.0                 49.0
G           65       10.0                100.0
H           49       -6.0                 36.0
I           65       10.0                100.0
J           58        3.0                  9.0

           score
count  10.000000
mean   55.000000
std     9.775252
min    41.000000
25%    48.250000
50%    56.500000
75%    63.250000
max    69.000000
