교호작용(interaction)은 통계학, 연구, 실험설계 등에서 주로 사용되는 개념으로, 두 개 이상의 변수가 서로 상호 작용하여 결과에 미치는 영향을 설명합니다. 이를 이해하기 쉽게 만드는 예제는 다음과 같습니다:

### 자외선(UV)과 피부 보호제의 예:

**문제 상황**: 여름 해변에서 햇빛을 많이 받을 때 피부에 자외선 차단제를 바르지 않으면 피부 화상이 생길 수 있습니다. 자외선 차단제를 바르면 화상을 예방할 수 있을까요?

**변수**:
1. 자외선(UV) 노출: 노출/비노출
2. 피부 보호제: 사용/미사용

**교호작용의 설명**: 
- UV 노출 없이 피부 보호제를 사용하면 피부 화상의 위험은 매우 낮습니다.
- UV 노출과 함께 피부 보호제를 사용하지 않으면 피부 화상의 위험은 매우 높습니다.
- 하지만, UV 노출과 함께 피부 보호제를 사용하면 피부 화상의 위험은 중간 정도입니다.

여기서 중요한 점은, 피부 보호제의 효과가 UV 노출 여부에 따라 달라진다는 것입니다. 즉, 두 변수(자외선 노출과 피부 보호제 사용)의 결합 효과가 각 변수의 단독 효과와는 다르다는 것을 의미합니다. 이것이 교호작용의 핵심 개념입니다.

이 예제를 통해, 교호작용이 결과에 미치는 영향이 어떻게 서로 다른 변수의 조합에 따라 달라질 수 있는지를 잘 보여줄 수 있습니다.

In [19]:
import pandas as pd
import numpy as np

# 데이터 크기 설정
n = 1000

# 무작위로 UV 노출 여부와 피부 보호제 사용 여부를 생성
np.random.seed(42)
uv_exposure = np.random.choice([True, False], n)
sunscreen_use = np.random.choice([True, False], n)

# 화상 위험을 계산
burn_risk = np.where(~uv_exposure & sunscreen_use, np.random.binomial(1, 0.05, n),
                     np.where(uv_exposure & ~sunscreen_use, np.random.binomial(1, 0.90, n),
                              np.random.binomial(1, 0.35, n)))

# 데이터프레임 생성
df = pd.DataFrame({
    'UV Exposure': uv_exposure,
    'Sunscreen Use': sunscreen_use,
    'Burn Risk': burn_risk
})


In [20]:
df.columns

Index(['UV Exposure', 'Sunscreen Use', 'Burn Risk'], dtype='object')

In [21]:
import matplotlib.pyplot as plt 

In [23]:
df.pivot_table(index = 'UV Exposure', columns='Sunscreen Use', values='Burn Risk')

Sunscreen Use,False,True
UV Exposure,Unnamed: 1_level_1,Unnamed: 2_level_1
False,0.37037,0.052434
True,0.887446,0.305019
