In [1]:
L = [175, 177, 179, 181, 183]

In [2]:
import pandas as pd
import numpy as np

In [3]:
s = pd.Series(L)
s

0    175
1    177
2    179
3    181
4    183
dtype: int64

In [4]:
# s의 평균, 합, 편차, 분산, 표준편차

In [5]:
d = s.to_frame()
d

Unnamed: 0,0
0,175
1,177
2,179
3,181
4,183


In [6]:
suma = d.sum()
suma

0    895
dtype: int64

In [7]:
mean_val = suma/len(d)
mean_val

0    179.0
dtype: float64

In [8]:
d['평균'] = mean_val[0]
d['편차'] = d[0] - mean_val[0]
d

Unnamed: 0,0,평균,편차
0,175,179.0,-4.0
1,177,179.0,-2.0
2,179,179.0,0.0
3,181,179.0,2.0
4,183,179.0,4.0


In [9]:
# 편차제곱 합
d['편차제곱'] = d['편차'].apply(lambda x: x**2)
d

Unnamed: 0,0,평균,편차,편차제곱
0,175,179.0,-4.0,16.0
1,177,179.0,-2.0,4.0
2,179,179.0,0.0,0.0
3,181,179.0,2.0,4.0
4,183,179.0,4.0,16.0


In [10]:
# 분산
d['분산'] = d['편차제곱'].mean()
d

Unnamed: 0,0,평균,편차,편차제곱,분산
0,175,179.0,-4.0,16.0,8.0
1,177,179.0,-2.0,4.0,8.0
2,179,179.0,0.0,0.0,8.0
3,181,179.0,2.0,4.0,8.0
4,183,179.0,4.0,16.0,8.0


In [11]:
# 표준편차 - 데이터가 중심에서 얼마나 흩어져있는가 (떨어져 있는 정도)
d['표준편차'] = d['분산'].apply(lambda x: np.sqrt(x))
d

Unnamed: 0,0,평균,편차,편차제곱,분산,표준편차
0,175,179.0,-4.0,16.0,8.0,2.828427
1,177,179.0,-2.0,4.0,8.0,2.828427
2,179,179.0,0.0,0.0,8.0,2.828427
3,181,179.0,2.0,4.0,8.0,2.828427
4,183,179.0,4.0,16.0,8.0,2.828427


In [12]:
# 상관분석 - 데이터가 어느정도 같은 방향으로 움직이는가 => 상관계수
# * 공분산
# * 상관계수

In [13]:
# L1과 L2의 상관관계를 분석
L1 = [2,5,4,7,9,5]
L2 = [12,54,86,32,54,72]

In [14]:
d = {
    'L1': [2,5,4,7,9,5],
    'L2': [12,54,86,32,54,72]
}

In [15]:
df = pd.DataFrame(d)
df

Unnamed: 0,L1,L2
0,2,12
1,5,54
2,4,86
3,7,32
4,9,54
5,5,72


In [16]:
df['L1'].corr(df['L2'])

0.1690883395455955

In [17]:
# 평균계산
df['L1_mean'] = df['L1'].mean()
df['L2_mean'] = df['L2'].mean()
df

Unnamed: 0,L1,L2,L1_mean,L2_mean
0,2,12,5.333333,51.666667
1,5,54,5.333333,51.666667
2,4,86,5.333333,51.666667
3,7,32,5.333333,51.666667
4,9,54,5.333333,51.666667
5,5,72,5.333333,51.666667


In [18]:
# 편차계산
df['L1의 편차'] = df['L1'] - df['L1_mean']
df['L2의 편차'] = df['L2'] - df['L2_mean']
df

Unnamed: 0,L1,L2,L1_mean,L2_mean,L1의 편차,L2의 편차
0,2,12,5.333333,51.666667,-3.333333,-39.666667
1,5,54,5.333333,51.666667,-0.333333,2.333333
2,4,86,5.333333,51.666667,-1.333333,34.333333
3,7,32,5.333333,51.666667,1.666667,-19.666667
4,9,54,5.333333,51.666667,3.666667,2.333333
5,5,72,5.333333,51.666667,-0.333333,20.333333


In [19]:
# 각 편차의 곱
df['L1_L2_편차곱'] = df['L1의 편차'] * df['L2의 편차']
df

Unnamed: 0,L1,L2,L1_mean,L2_mean,L1의 편차,L2의 편차,L1_L2_편차곱
0,2,12,5.333333,51.666667,-3.333333,-39.666667,132.222222
1,5,54,5.333333,51.666667,-0.333333,2.333333,-0.777778
2,4,86,5.333333,51.666667,-1.333333,34.333333,-45.777778
3,7,32,5.333333,51.666667,1.666667,-19.666667,-32.777778
4,9,54,5.333333,51.666667,3.666667,2.333333,8.555556
5,5,72,5.333333,51.666667,-0.333333,20.333333,-6.777778


In [20]:
# 편차곱의 합 => 값이 '+' => L1과 L2과 동일한 방향으로 움직인 경향이 더 컸다.
df['L1_L2_편차곱'].sum()

54.66666666666667

In [21]:
# 공분산: 편차곱의 합의 평균 => 함께 움직이는 방향은 알 수 있지만 절대수치값이므로 정도를 파악할 수 없다.
# 상관계수 => 공분산/(L1표준편차*L2표준편차)
df['공분산'] = df['L1_L2_편차곱'].sum()/len(df)
df

Unnamed: 0,L1,L2,L1_mean,L2_mean,L1의 편차,L2의 편차,L1_L2_편차곱,공분산
0,2,12,5.333333,51.666667,-3.333333,-39.666667,132.222222,9.111111
1,5,54,5.333333,51.666667,-0.333333,2.333333,-0.777778,9.111111
2,4,86,5.333333,51.666667,-1.333333,34.333333,-45.777778,9.111111
3,7,32,5.333333,51.666667,1.666667,-19.666667,-32.777778,9.111111
4,9,54,5.333333,51.666667,3.666667,2.333333,8.555556,9.111111
5,5,72,5.333333,51.666667,-0.333333,20.333333,-6.777778,9.111111


In [22]:
# 상관계수 -> 두 array가 함께 움직이는 정도
df['L1_std'] = df['L1'].std()
df['L2_std'] = df['L2'].std()
df

Unnamed: 0,L1,L2,L1_mean,L2_mean,L1의 편차,L2의 편차,L1_L2_편차곱,공분산,L1_std,L2_std
0,2,12,5.333333,51.666667,-3.333333,-39.666667,132.222222,9.111111,2.42212,26.695817
1,5,54,5.333333,51.666667,-0.333333,2.333333,-0.777778,9.111111,2.42212,26.695817
2,4,86,5.333333,51.666667,-1.333333,34.333333,-45.777778,9.111111,2.42212,26.695817
3,7,32,5.333333,51.666667,1.666667,-19.666667,-32.777778,9.111111,2.42212,26.695817
4,9,54,5.333333,51.666667,3.666667,2.333333,8.555556,9.111111,2.42212,26.695817
5,5,72,5.333333,51.666667,-0.333333,20.333333,-6.777778,9.111111,2.42212,26.695817


In [23]:
df['coef'] = df['공분산'] / (df['L1_std']*df['L2_std'])
df

Unnamed: 0,L1,L2,L1_mean,L2_mean,L1의 편차,L2의 편차,L1_L2_편차곱,공분산,L1_std,L2_std,coef
0,2,12,5.333333,51.666667,-3.333333,-39.666667,132.222222,9.111111,2.42212,26.695817,0.140907
1,5,54,5.333333,51.666667,-0.333333,2.333333,-0.777778,9.111111,2.42212,26.695817,0.140907
2,4,86,5.333333,51.666667,-1.333333,34.333333,-45.777778,9.111111,2.42212,26.695817,0.140907
3,7,32,5.333333,51.666667,1.666667,-19.666667,-32.777778,9.111111,2.42212,26.695817,0.140907
4,9,54,5.333333,51.666667,3.666667,2.333333,8.555556,9.111111,2.42212,26.695817,0.140907
5,5,72,5.333333,51.666667,-0.333333,20.333333,-6.777778,9.111111,2.42212,26.695817,0.140907


In [21]:
d={
    '광고비': [13, 8, 10, 15, 12, 14, 15, 17],
    '매출액': [94, 70, 90, 100, 95, 100, 85, 95]
}
d

{'광고비': [13, 8, 10, 15, 12, 14, 15, 17],
 '매출액': [94, 70, 90, 100, 95, 100, 85, 95]}

In [22]:
df = pd.DataFrame(d)
df

Unnamed: 0,광고비,매출액
0,13,94
1,8,70
2,10,90
3,15,100
4,12,95
5,14,100
6,15,85
7,17,95


In [23]:
# 1. 광고비와 매출액의 평균, 분산, 표준편차를 각각 구하시오
# 2. 광고비와 매출액의 공분산과 상관계수를 구하시오

In [28]:
# 1. 광고비와 매출액의 평균, 분산, 표준편차를 각각 구하시오
# 평균
df['광고비 평균'] = df['광고비'].sum()/len(df['광고비'])
df['매출액 평균'] = df['매출액'].sum()/len(df['매출액'])
df

Unnamed: 0,광고비,매출액,광고비 평균,매출액 평균
0,13,94,13.0,91.125
1,8,70,13.0,91.125
2,10,90,13.0,91.125
3,15,100,13.0,91.125
4,12,95,13.0,91.125
5,14,100,13.0,91.125
6,15,85,13.0,91.125
7,17,95,13.0,91.125


In [37]:
# 분산
df['광고비 편차'] = df['광고비'] - df['광고비 평균']
df['매출액 편차'] = df['매출액'] - df['매출액 평균']

df['광고비 편차제곱'] = df['광고비 편차']**2
df['매출액 편차제곱'] = df['매출액 편차']**2

df['광고비 분산'] = df['광고비 편차제곱'].sum()/len(df['광고비 편차제곱'])
df['매출액 분산'] = df['매출액 편차제곱'].sum()/len(df['매출액 편차제곱'])
df

Unnamed: 0,광고비,매출액,광고비 평균,매출액 평균,광고비 편차,매출액 편차,광고비 편차제곱,매출액 편차제곱,광고비 분산,매출액 분산
0,13,94,13.0,91.125,0.0,2.875,0.0,8.265625,7.5,85.109375
1,8,70,13.0,91.125,-5.0,-21.125,25.0,446.265625,7.5,85.109375
2,10,90,13.0,91.125,-3.0,-1.125,9.0,1.265625,7.5,85.109375
3,15,100,13.0,91.125,2.0,8.875,4.0,78.765625,7.5,85.109375
4,12,95,13.0,91.125,-1.0,3.875,1.0,15.015625,7.5,85.109375
5,14,100,13.0,91.125,1.0,8.875,1.0,78.765625,7.5,85.109375
6,15,85,13.0,91.125,2.0,-6.125,4.0,37.515625,7.5,85.109375
7,17,95,13.0,91.125,4.0,3.875,16.0,15.015625,7.5,85.109375


In [38]:
# 표준편차
df['광고비 표준편차'] = np.sqrt(df['광고비 분산'])
df['매출액 표준편차'] = np.sqrt(df['매출액 분산'])
df

Unnamed: 0,광고비,매출액,광고비 평균,매출액 평균,광고비 편차,매출액 편차,광고비 편차제곱,매출액 편차제곱,광고비 분산,매출액 분산,광고비 표준편차,매출액 표준편차
0,13,94,13.0,91.125,0.0,2.875,0.0,8.265625,7.5,85.109375,2.738613,9.225474
1,8,70,13.0,91.125,-5.0,-21.125,25.0,446.265625,7.5,85.109375,2.738613,9.225474
2,10,90,13.0,91.125,-3.0,-1.125,9.0,1.265625,7.5,85.109375,2.738613,9.225474
3,15,100,13.0,91.125,2.0,8.875,4.0,78.765625,7.5,85.109375,2.738613,9.225474
4,12,95,13.0,91.125,-1.0,3.875,1.0,15.015625,7.5,85.109375,2.738613,9.225474
5,14,100,13.0,91.125,1.0,8.875,1.0,78.765625,7.5,85.109375,2.738613,9.225474
6,15,85,13.0,91.125,2.0,-6.125,4.0,37.515625,7.5,85.109375,2.738613,9.225474
7,17,95,13.0,91.125,4.0,3.875,16.0,15.015625,7.5,85.109375,2.738613,9.225474


In [39]:
# 2. 광고비와 매출액의 공분산과 상관계수를 구하시오

In [41]:
# 공분산
df['광고비_매출액 편차의 곱'] = df['광고비 편차']*df['매출액 편차']
df['공분산'] = df['광고비_매출액 편차의 곱'].sum()/len(df['광고비_매출액 편차의 곱'])
df

Unnamed: 0,광고비,매출액,광고비 평균,매출액 평균,광고비 편차,매출액 편차,광고비 편차제곱,매출액 편차제곱,광고비 분산,매출액 분산,광고비 표준편차,매출액 표준편차,광고비_매출액 편차의 곱,공분산
0,13,94,13.0,91.125,0.0,2.875,0.0,8.265625,7.5,85.109375,2.738613,9.225474,0.0,16.875
1,8,70,13.0,91.125,-5.0,-21.125,25.0,446.265625,7.5,85.109375,2.738613,9.225474,105.625,16.875
2,10,90,13.0,91.125,-3.0,-1.125,9.0,1.265625,7.5,85.109375,2.738613,9.225474,3.375,16.875
3,15,100,13.0,91.125,2.0,8.875,4.0,78.765625,7.5,85.109375,2.738613,9.225474,17.75,16.875
4,12,95,13.0,91.125,-1.0,3.875,1.0,15.015625,7.5,85.109375,2.738613,9.225474,-3.875,16.875
5,14,100,13.0,91.125,1.0,8.875,1.0,78.765625,7.5,85.109375,2.738613,9.225474,8.875,16.875
6,15,85,13.0,91.125,2.0,-6.125,4.0,37.515625,7.5,85.109375,2.738613,9.225474,-12.25,16.875
7,17,95,13.0,91.125,4.0,3.875,16.0,15.015625,7.5,85.109375,2.738613,9.225474,15.5,16.875


In [43]:
# 상관계수
df['상관계수'] = df['공분산']/(df['광고비 표준편차']*df['매출액 표준편차'])
df

Unnamed: 0,광고비,매출액,광고비 평균,매출액 평균,광고비 편차,매출액 편차,광고비 편차제곱,매출액 편차제곱,광고비 분산,매출액 분산,광고비 표준편차,매출액 표준편차,광고비_매출액 편차의 곱,공분산,상관계수
0,13,94,13.0,91.125,0.0,2.875,0.0,8.265625,7.5,85.109375,2.738613,9.225474,0.0,16.875,0.66792
1,8,70,13.0,91.125,-5.0,-21.125,25.0,446.265625,7.5,85.109375,2.738613,9.225474,105.625,16.875,0.66792
2,10,90,13.0,91.125,-3.0,-1.125,9.0,1.265625,7.5,85.109375,2.738613,9.225474,3.375,16.875,0.66792
3,15,100,13.0,91.125,2.0,8.875,4.0,78.765625,7.5,85.109375,2.738613,9.225474,17.75,16.875,0.66792
4,12,95,13.0,91.125,-1.0,3.875,1.0,15.015625,7.5,85.109375,2.738613,9.225474,-3.875,16.875,0.66792
5,14,100,13.0,91.125,1.0,8.875,1.0,78.765625,7.5,85.109375,2.738613,9.225474,8.875,16.875,0.66792
6,15,85,13.0,91.125,2.0,-6.125,4.0,37.515625,7.5,85.109375,2.738613,9.225474,-12.25,16.875,0.66792
7,17,95,13.0,91.125,4.0,3.875,16.0,15.015625,7.5,85.109375,2.738613,9.225474,15.5,16.875,0.66792


In [49]:
print(df['광고비'].std())
print(df['광고비'].var())
print(df['매출액'].corr(df['광고비']))

2.9277002188455996
8.571428571428571
0.6679200017177912
