In [53]:
# 상관계수(r): 관계의 강도와 방향
# - r이 1에 가까울수록: 강한 양의 상관관계(하나가 증가하면, 다른 하나도 증가)
# - r이 -1에 가까울수록: 강한 음의 상관관계(하나가 증가하면, 다른 하나는 감소)
# - r이 0에 가까울수록: 선형 관계가 없음

# p-value(유의확률): 두 변수 사이에 아무 관계가 없다는 가정 하에, 우리가 현재 가진 데이터와 같은 관계가 우연히 나타날 확률을 의미함
# - p-value가 낮다 (일반적으로 0.05 미만): 우연히 나타날 확률이 매우 낮음으로, 이건 우연이 아닐 것.
# - p-value가 높다 (일반적으로 0.05 이상): 우연히 나타날 수 있음으로, 진짜 관계가 있다고 확신하기 어려움.

from scipy.stats import pearsonr
import numpy as np

# 데이터 준비: 공부 시간과 시험 점수
study_hours = [2, 3, 5, 6, 8]
exam_scores = [65, 70, 80, 85, 95]

# 피어슨 상관계수와 p-value 계산
correlation, p_value = pearsonr(study_hours, exam_scores)

print(f"상관 계수 (r): {correlation:.4f}")
print(f"p-value: {p_value:.4f}")

if p_value < 0.05:
    print("결론: 공부 시간과 시험 점수 사이에는 통계적으로 유의미한 상관관계가 있습니다.")
else:
    print("결론: 상관관계가 통계적으로 유의미하지 않습니다 (우연일 수 있습니다).")

상관 계수 (r): 1.0000
p-value: 0.0000
결론: 공부 시간과 시험 점수 사이에는 통계적으로 유의미한 상관관계가 있습니다.


In [57]:
import pandas as pd
from scipy.stats import pearsonr

# 선수 데이터
# Usage_Rate: 팀의 100번의 공격 중 해당 선수가 마무리에 관여한 횟수 (%)
# PER (Player Efficiency Rating): 선수의 분당 생산성을 측정한 종합적인 효율성 지수
data = {
    'Player': ['Player A', 'Player B', 'Player C', 'Player D', 'Player E', 'Player F', 'Player G', 'Player H'],
    'Usage_Rate': [18.2, 20.5, 22.1, 24.8, 26.3, 28.9, 31.5, 33.1],
    'PER': [17.5, 19.1, 20.3, 22.5, 21.8, 24.5, 26.1, 25.5]
}
df_players = pd.DataFrame(data)

# 피어슨 상관계수와 p-value 계산
correlation, p_value = pearsonr(df_players["Usage_Rate"], df_players["PER"])

print(f"상관 계수 (r): {correlation:.4f}")
print(f"p-value: {p_value:.4f}")

if p_value < 0.05:
    print("결론: 선수의 공격 중 마무리에 관여한 횟수가 많을수록, 효율성도 증가할 수 있음.")
else:
    print("결론: 상관관계가 통계적으로 유의미하지 않음 (우연일 수 있다).")

상관 계수 (r): 0.9785
p-value: 0.0000
결론: 선수의 공격 중 마무리에 관여한 횟수가 많을수록, 효율성도 증가할 수 있음.


In [60]:
# T-test(두 그룹 평균 비교): A팀과 B팀의 평균 점수는 정말 다를까, 아니면 그냥 우연히 차이가 나 보이는 걸까?와 같은 질문에 답을 해줌
# - p-value가 낮다 (일반적으로 0.05미만): 두 그룹의 평균이 실제로는 같다고 가정할 때, 이런 차이가 우연히 나타날 확률이 매우 낮다. 이건 우연이 아닐 것이다.
# - p-value가 높다 (일반적으로 0.05이상): 두 그룹의 평균이 실제로는 같더라도, 이 정도의 차이는 우연히 발생할 수 있다.

from scipy.stats import ttest_ind

# 데이터 준비: 두 팀의 최근 5경기 득점
team_A_scores = [110, 115, 120, 112, 118] # 새로운 훈련 방식 (평균: 115)
team_B_scores = [105, 108, 102, 110, 105] # 기존 훈련 방식 (평균: 106)

# 독립 표본 t-test 실행
t_statistic, p_value = ttest_ind(team_A_scores, team_B_scores)

print(f"T-statistic: {t_statistic:.4f}")  # -2 ~ +2 사이일 떼: 작은 값
print(f"p-value: {p_value:.4f}")

if p_value < 0.05:
    print("결론: 두 팀의 평균 득점 차이는 통계적으로 유의미하다. 새로운 훈련 방식이 효과가 있다.")
else:
    print("결론: 두 팀의 평균 득점 차이는 통계적으로 유의미하지 않습니다 (우연일 수 있다).")

T-statistic: 3.9094
p-value: 0.0045
결론: 두 팀의 평균 득점 차이는 통계적으로 유의미하다. 새로운 훈련 방식이 효과가 있다.


In [1]:
from scipy.stats import ttest_ind

# A 그룹 선수들의 3점 슛 성공 개수 (50개 중)
group_A_success = [35, 38, 32, 39, 36]

# B 그룹 선수들의 3점 슛 성공 개수 (50개 중)
group_B_success = [28, 31, 25, 33, 29]

t_statistic, p_value = ttest_ind(group_A_success, group_B_success)

print(f"T-statistic: {t_statistic:.4f}")
print(f"p-value: {p_value:.4f}")

if p_value < 0.05:
    print("결론: 두 팀의 3점 슛 성공률 차이는 통계적으로 유의미하므로, 새로운 훈련법이 효과 있음.")
else:
    print("결론: 두 팀의 3점 슛 성공률 차이는 통계적으로 유의미하지 않으므로, 새로운 훈련법이 효과 없음.")

T-statistic: 3.7208
p-value: 0.0059
결론: 두 팀의 3점 슛 성공률 차이는 통계적으로 유의미하므로, 새로운 훈련법이 효과 있음.


In [4]:
# 카이제곱 검정 (연관성 분석): 두 개의 카테고리형 변수 사이에 연관성이 있는지를 통계적으로 검증하는 방법.
# ex) "성별과 선호하는 SNS플랫폼 사이에 관계가 있을까?", "흡연 여부와 폐암 발병 여부 사이에 연관성이 있을까?"

# - p-value가 낮다 (0.05미만): 기대와 현실의 차이가 너무 커서 우연이라고 보기 어려움
# - p-value가 높다 (0.05이상): 기대와 현실의 차이가 우연히 발생할 수 있는 범위 안에 있음

import pandas as pd
from scipy.stats import chi2_contingency

data = {
    'Gender': ['Male', 'Female', 'Male', 'Female', 'Male', 'Female', 'Male', 'Female', 'Male', 'Female'],
    'Platform': ['Instagram', 'Facebook', 'Instagram', 'Instagram', 'Facebook', 'Facebook', 'Instagram', 'Instagram', 'Instagram', 'Facebook']
}
df_sns = pd.DataFrame(data)

# 1. 분할표(Contingency Table) 생성
contingency_table = pd.crosstab(df_sns['Gender'], df_sns['Platform'])
print("--- 분할표 ---")
print(contingency_table)
print("-" * 20)

# 2. 카이제곱 검정 실행
chi2, p_value, _, _ = chi2_contingency(contingency_table)

print(f"Chi-squared statistic: {chi2:.4f}")
print(f"p-value: {p_value:.4f}")

if p_value < 0.05:
    print("결론: 성별과 선호하는 SNS 플랫폼 사이에는 통계적으로 유의미한 연관성이 있습니다.")
else:
    print("결론: 두 변수 사이에 연관성이 있다고 말하기 어렵습니다 (우연일 수 있습니다).")

--- 분할표 ---
Platform  Facebook  Instagram
Gender                       
Female           3          2
Male             1          4
--------------------
Chi-squared statistic: 0.4167
p-value: 0.5186
결론: 두 변수 사이에 연관성이 있다고 말하기 어렵습니다 (우연일 수 있습니다).


In [5]:
import pandas as pd
from scipy.stats import chi2_contingency

# 선수들의 슛 시도 기록
data = {
    'Player_ID': range(1, 16),
    'Position': ['Guard', 'Center', 'Forward', 'Guard', 'Center', 'Forward', 'Guard', 'Center', 'Forward', 'Guard', 'Center', 'Forward', 'Guard', 'Center', 'Guard'],
    'Shot_Type': ['3-Pointer', '2-Pointer', '2-Pointer', '3-Pointer', '2-Pointer', '3-Pointer', '3-Pointer', '2-Pointer', '2-Pointer', '3-Pointer', '2-Pointer', '2-Pointer', '3-Pointer', '2-Pointer', '3-Pointer']
}
df_shots = pd.DataFrame(data)

contingency_table = pd.crosstab(df_shots['Position'], df_shots['Shot_Type'])
print("--- contingency table ---")
print(contingency_table)
print("-" * 30)

chi2, p_value, _, _ = chi2_contingency(contingency_table)

print(f"Chi_squared statistic: {chi2:.4f}")
print(f"p-value: {p_value:.4f}")

if p_value < 0.05:
    print("결론: 선수의 포지션과 슛 타입 선호도 사이에는 통계적으로 유의미한 연관성이 있음.")
else:
    print("결론: 두 변수 사이에 연관성이 있다고 말하기 어려움 (우연일 수 있음).")

--- contingency table ---
Shot_Type  2-Pointer  3-Pointer
Position                       
Center             5          0
Forward            3          1
Guard              0          6
------------------------------
Chi_squared statistic: 11.9866
p-value: 0.0025
결론: 선수의 포지션과 슛 타입 선호도 사이에는 통계적으로 유의미한 연관성이 있음.
