In [65]:
# Numpy 배열 (Array): 모든 요소가 동일한 데이터 타입을 가지는, 행과 열로 이루어진 숫자 격자이다.
# 핵심: 벡터화 연산 - for 반복문 없이 배열의 모든 요소에 대해 한 번에 연산을 적용하는 기능

import numpy as np

# 선수들의 경기별 득점 기록 (Python 리스트)
scores_list = [25, 31, 18, 22, 28, 35]

scores_array = np.array(scores_list) + 5

print(scores_array)

[30 36 23 27 33 40]


In [66]:
# SciPy 통계 함수: NumPy를 확장하여 통계, 최적화, 신호 처리 등 더 복잡한 과학 및 공학 계산을 위한 함수들
# 1. 상관 분석: scipy.stats.pearsanr() - 두 숫자 변수 사이의 상관계수와 p-value를 계산
# 2. T-test: scipy.stats.ttest_ind() - 두 독립된 그룹의 평균값에 통계적으로 유의미한 차이가 있는지 검증
# 3. 카이제곱 검정: scipy.stats.chi2_contingency() - 두 카테고리 변수 사이에 연관성이 있는지 검증

In [83]:
from scipy.stats import pearsonr

# 선수의 키 (cm)
heights = [190, 195, 200, 205, 210, 215]

# 경기당 평균 리바운드 개수
rebounds_per_game = [5.5, 6.1, 7.2, 7.8, 8.5, 9.1]

correlation, p_value = pearsonr(heights, rebounds_per_game)

print(f"상관 계수 (r): {correlation:.4f}")
print(f"p-value: {p_value:.4f}")
print("-" * 30)

if p_value < 0.05:
    print("결론: 선수의 키와 경기당 평균 리바운드 개수는 유의미한 관계가 있음.")
else:
    print("우연일 가능성이 큼")

상관 계수 (r): 0.9956
p-value: 0.0000
------------------------------
결론: 선수의 키와 경기당 평균 리바운드 개수는 유의미한 관계가 있음.


In [82]:
from scipy.stats import ttest_ind

# A 브랜드 농구화를 신은 선수들의 수직 점프 높이 (cm)
brand_A_jumps = [75, 78, 81, 79, 82]

# B 브랜드 농구화를 신은 선수들의 수직 점프 높이 (cm)brand_B_jumps = [72, 74, 75, 76, 73]

t_statistic, p_value = ttest_ind(brand_A_jumps, brand_B_jumps)

print(f"t-test: {t_statistic:.4f}")
print(f"p-value: {p_value:.4f}")
print("-" * 30)

if p_value < 0.05:
    print("결론: 브랜드별 농구화와 선수들의 수직 점프 높이는 유의미한 관계가 있음.")
else:
    print("결론: 두 변수 사이에 유의미한 관계가 없음. 즉, 우연일 수 있음.")  

t-test: 3.5355
p-value: 0.0077
------------------------------
결론: 브랜드별 농구화와 선수들의 수직 점프 높이는 유의미한 관계가 있음.


In [84]:
from scipy.stats import chi2_contingency
import pandas as pd

data = {
    'Position': ['Guard', 'Guard', 'Guard', 'Guard', 'Forward', 'Forward', 'Forward', 'Forward', 'Forward', 'Guard'],
    'Dominant_Hand': ['Right', 'Right', 'Left', 'Right', 'Right', 'Right', 'Right', 'Left', 'Right', 'Right']
}
df_players = pd.DataFrame(data)

contingency_table = pd.crosstab(df_players["Position"], df_players["Dominant_Hand"])
print("--- 분할표 ---")
print(contingency_table)
print("-" * 30)

chi2, p_value, _, _ = chi2_contingency(contingency_table)

print(f"Chi-squared statistic: {chi2:.4f}")
print(f"p-value: {p_value:.4f}")

if p_value < 0.05:
    print("결론: 포지션과 주로 사용하는 손 사이에 통계적으로 유의미한 관계가 있음")
else:
    print("결론: 두 변수 사이에 유의미한 관계가 없음. 즉, 우연일 수 있음")

--- 분할표 ---
Dominant_Hand  Left  Right
Position                  
Forward           1      4
Guard             1      4
------------------------------
Chi-squared statistic: 0.0000
p-value: 1.0000
결론: 두 변수 사이에 유의미한 관계가 없음. 즉, 우연일 수 있음
