# 7장 기초 통계

데이터의 성격을 감안할 때 가설에는 다음과 같은 세 가지 옵션만 있다.
- 온라인 친구들의 수와 행복 사이에 긍정적인 연관성이 있다. (하나가 올라갈 때 다른 하나도 올라간다)
- 그들 사이에 부정적인 연관성이 있다. (친구의 수가 늘어나면 행복이 줄어든다.)
- 변수 간에 연관성이 없다 (하나가 변경될 때 다른 하나는 실제로 그렇게 많이 변경되지 않는다.)

`상관 계수` correlation coefficients 는 두 변수 간 연관성/관계의 강도를 설명하는 양적 측정이다.

In [2]:
friends = [109, 1017, 1127, 418, 625, 957, 89, 950, 946, 797, 981, 125, 455, 731, 1640, 485, 1309, 472, 1132, 1773, 906, 531, 742, 621]
happiness = [.8, .6, .3, .6, .6, .4, .8, .5, .4, .3, .3, .6, .2, .8, 1, .6, .2, .7, .5, .3, .1, 0, .3, 1]

import pandas as pd

df = pd.DataFrame({'friends':friends, 'happiness':happiness})
df.head()

Unnamed: 0,friends,happiness
0,109,0.8
1,1017,0.6
2,1127,0.3
3,418,0.6
4,625,0.6


In [3]:
# 변수들 사이의 상관관계
df.corr()

Unnamed: 0,friends,happiness
friends,1.0,-0.216199
happiness,-0.216199,1.0


In [5]:
from sklearn import preprocessing
df_scaled = pd.DataFrame(preprocessing.scale(df), columns=['friends_scaled', 'happiness_scaled'])
df_scaled.head()

Unnamed: 0,friends_scaled,happiness_scaled
0,-1.599495,1.153223
1,0.53604,0.394939
2,0.79475,-0.742486
3,-0.872755,0.394939
4,-0.385909,0.394939


In [17]:
# 평균의 표준 편차 1 이내의 사람들의 비율 찾기
within_1_std = df_scaled[(df_scaled['friends_scaled'] <= 1) & (df_scaled['friends_scaled'] >= -1)].shape[0]
within_1_std / float(df_scaled.shape[0])

0.75

In [18]:
# 평균의 표준 편차 2 이내의 사람들의 비율 찾기
within_2_std = df_scaled[(df_scaled['friends_scaled'] <= 2) & (df_scaled['friends_scaled'] >= -2)].shape[0]
within_2_std / float(df_scaled.shape[0])

0.9166666666666666

In [19]:
# 평균의 표준 편차 3 이내의 사람들의 비율 찾기
within_3_std = df_scaled[(df_scaled['friends_scaled'] <= 3) & (df_scaled['friends_scaled'] >= -3)].shape[0]
within_3_std / float(df_scaled.shape[0])

1.0