### Pandas를 이용한 기술 통계, 날짜의 처리

In [1]:
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc

font_name = font_manager.FontProperties(fname="C:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)           # 맑은 고딕 폰트 지정
plt.rcParams["font.size"] = 12         # 글자 크기
plt.rcParams["figure.figsize"] = (10, 4) # 10:4의 그래프 비율
plt.rcParams['axes.unicode_minus'] = False  # minus 부호는 unicode 적용시 한글이 깨짐으로 설정

# Jupyter에게 matplotlib 그래프를 출력 영역에 표시할 것을 지시하는 명령
%matplotlib inline

### numpy 난수 생성

In [68]:
# np.random.randint(5) # 0 부터 4 사이의 정수
np.random.randint(2, 5) # 2,부터 4 사이의 정수

4

In [86]:
# 1부터 4사이의 난수 10개 생성
np.random.seed(0) # 난수가 동일하게 만들어짐, 다른 컴퓨터에서도 결과가 같다 # 난수 생성 알고리즘에 의해
np.random.randint(1, 5, size=10)

array([1, 4, 2, 1, 4, 4, 4, 4, 2, 4])

In [96]:
# 0부터 9까지의 정수, 10은 출력되지 않음
np.random.seed(1) 
data = np.random.randint(1, 10, size=(5,3))
data

array([[6, 9, 6],
       [1, 1, 2],
       [8, 7, 3],
       [5, 6, 3],
       [5, 3, 5]])

In [97]:
# 랜덤 배열을 만들어서 DataFrame을 생성
df = pd.DataFrame(data, columns=['python', 'crawling', 'analysis'])
df

Unnamed: 0,python,crawling,analysis
0,6,9,6
1,1,1,2
2,8,7,3
3,5,6,3
4,5,3,5


In [107]:
print(df.index >= 1)
print(df.index <= 3)

[False  True  True  True  True]
[ True  True  True  True False]


In [114]:
# index filtering
# df2 = df[df.index >= 1 and df.index <= 3] # 에러 발생
df2 = df[(df.index >= 1) & (df.index <= 3)] # and 연산자 사용 불가, 연산자 우선순위 문제? ()사용으로 해결
df2

Unnamed: 0,python,crawling,analysis
1,1,1,2
2,8,7,3
3,5,6,3


In [121]:
# 칼럼 이름 출력
df.columns

Index(['python', 'crawling', 'analysis'], dtype='object')

In [122]:
# row 인덱스 출력
df.index

RangeIndex(start=0, stop=5, step=1)

In [124]:
# describe 기술통계
df2 = df.describe()
df2
# count: 데이터 개수
# mean: 칼럼별 평균'
# std: 표준편차, 평균 0, 분산(표준편차) = 1
# min: 최소값
# 25%: 25% 위치의 값
# 50%: 50% 위치의 값
# 75%: 75% 위치의 값
# max: 최대값

Unnamed: 0,python,crawling,analysis
count,5.0,5.0,5.0
mean,5.0,5.2,3.8
std,2.54951,3.193744,1.643168
min,1.0,1.0,2.0
25%,5.0,3.0,3.0
50%,5.0,6.0,3.0
75%,6.0,7.0,5.0
max,8.0,9.0,6.0


In [133]:
df.iloc[0, 0] = -1000
df.iloc[4, 0] = 2000
df.iloc[0, 1] = np.nan
df

Unnamed: 0,python,crawling,analysis
0,-1000,,6
1,1,1.0,2
2,8,7.0,3
3,5,6.0,3
4,2000,3.0,5


In [134]:
# describe 기술통계
df2 = round(df.describe(),1)
df2
# count: 데이터 개수
# mean: 칼럼별 평균'
# std: 표준편차, 평균 0, 분산(표준편차) = 1
# min: 최소값
# 25%: 25% 위치의 값
# 50%: 50% 위치의 값
# 75%: 75% 위치의 값
# max: 최대값

Unnamed: 0,python,crawling,analysis
count,5.0,4.0,5.0
mean,202.8,4.2,3.8
std,1094.8,2.8,1.6
min,-1000.0,1.0,2.0
25%,1.0,2.5,3.0
50%,5.0,4.5,3.0
75%,8.0,6.2,5.0
max,2000.0,7.0,6.0


In [171]:
# python 변수의 합
# sum(df['python'])
tot = df['python'].sum() # python 변수의 합
print('total:', tot)
mean = tot / len(df['python']) # python 변수의 평균
print('mean: ', mean)
# 편차: 평균과의 차이
deviation = mean - df['python']
print("deviation(편차): ", deviation.sum()) # 컴퓨터는 실수를 정확하게 표현하지 못함
print("deviation(편차): {0:.15f}".format(sum(deviation)))

total: 1014
mean:  202.8
deviation(편차):  -2.2737367544323206e-13
deviation(편차): -0.000000000000227


In [178]:
# 편차의 합이 0이지만 편차는 존재한다. ->  어떻게 표현할 것인가?
# 평균 제곱 오차:MSE

# 모분산
variation = ((df['python'] - mean)**2).sum()/len(df['python'])
print('모분산 σ²: ', var)

# 모표준편차
std = np.sqrt(variation) # math.sqrt 가능, np.sqrt 가능
print('모표준편차 σ: ', std)

# 표본 분산
variation = ((df['python'] - mean)**2).sum()/(len(df['python'])-1)
print('표본 분산 σ²: ', var)

# 표본 표준편차
std = np.sqrt(variation) # math.sqrt 가능, np.sqrt 가능
print('표본 표준편차 σ: ', std)

모분산 σ²:  1198612.7000000002
모표준편차 σ:  979.2293704745586
표본 분산 σ²:  1198612.7000000002
표본 표준편차 σ:  1094.811718972719


In [None]:
# 왜 분산을 구할 때 편차 제곱에 n-1로 나누어주는가?
# 인문학적 비밀(거리, 공간, 기하학의 개념)? 모집단(모든 데이터)과 표본에 대한 관계 때문

In [184]:
# 표준편차 산출 실습

np.random.seed(5) 
data = np.random.randint(0, 101, size=(5))
data
df = pd.DataFrame(data, columns=['python'])
df

Unnamed: 0,python
0,99
1,78
2,61
3,16
4,73


In [199]:
# 평균, 편차, 편차의 제곱, 모분산, 모표준편차를 산출하시오
mean = df['python'].sum()/len(df['python'])
print("평균: ", mean)

deviation = mean-df['python']
print("편차: ", deviation)

deviation = (mean-df['python'])**2
print("편차 제곱: ", deviation)

variation = sum(deviation)/len(df['python'])
print("모분산: ", variation)

std = np.sqrt(variation)
print("모표준편차: ", std)

평균:  65.4
편차:  0   -33.6
1   -12.6
2     4.4
3    49.4
4    -7.6
Name: python, dtype: float64
편차 제곱:  0    1128.96
1     158.76
2      19.36
3    2440.36
4      57.76
Name: python, dtype: float64
모분산:  761.04
모표준편차:  27.58695343817436


In [197]:
df['python'].std()

30.8431515899397