# 확률

## 은행원 린다

> 린다는 31살이고, 싱글이며, 솔직하고 매우 영리하다. 그녀는 철학을 전공했다. 학생 시절, 그녀는 차별과 사회 정의 문제에 깊이 관심을 가졌으며, 반핵 시위에도 참여했다. 다음 중 어느 것이 더 가능성이 높은가?
> 1. 린다는 은행원이다.
> 2. 린다는 은행원이며 페미니스트 운동에 적극적으로 참여하고 있다.


In [1]:
import pandas as pd

gss = pd.read_csv('gss_bayes.csv')
gss

Unnamed: 0,caseid,year,age,sex,polviews,partyid,indus10
0,1,1974,21.0,1,4.0,2.0,4970.0
1,2,1974,41.0,1,5.0,0.0,9160.0
2,5,1974,58.0,2,6.0,1.0,2670.0
3,6,1974,30.0,1,5.0,4.0,6870.0
4,7,1974,48.0,1,5.0,4.0,7860.0
...,...,...,...,...,...,...,...
49285,2863,2016,57.0,2,1.0,0.0,7490.0
49286,2864,2016,77.0,1,6.0,7.0,3590.0
49287,2865,2016,87.0,2,4.0,5.0,770.0
49288,2866,2016,55.0,2,5.0,5.0,8680.0


In [2]:
gss.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49290 entries, 0 to 49289
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   caseid    49290 non-null  int64  
 1   year      49290 non-null  int64  
 2   age       49290 non-null  float64
 3   sex       49290 non-null  int64  
 4   polviews  49290 non-null  float64
 5   partyid   49290 non-null  float64
 6   indus10   49290 non-null  float64
dtypes: float64(4), int64(3)
memory usage: 2.6 MB


In [3]:
banker = (gss['indus10'] == 6870)
banker

0        False
1        False
2        False
3         True
4        False
         ...  
49285    False
49286    False
49287    False
49288    False
49289    False
Name: indus10, Length: 49290, dtype: bool

In [4]:
banker.sum()

728

은행원 비율을 계산하기 위해 mean() 함수 사용

In [5]:
banker.mean()

0.014769730168391155

## The Probability Function

In [6]:
def prob(A):
    '''Compuite the probability of a proposition A.'''
    return A.mean()

In [7]:
prob(banker)

0.014769730168391155

In [8]:
female = (gss['sex'] == 2)

In [9]:
prob(female)

0.5378575776019476

## Political Views and Parties

  1. Extremely liberal
  2. Liberal
  3. Slightly liberal
  4. Moderate 
  5. Slightly conservative 
  6. Conservative 
  7. Extremely conservative

* Liberal(자유주의자) : 사회 정의, 시민 자유, 인권을 지지하는 정책을 옹호
* Conservative(보수주의자) : 현상 유지나 전통적 가치와 규범으로의 회귀를 옹호

In [10]:
liberal = (gss['polviews'] <= 3)

In [11]:
prob(liberal)

0.27374721038750255

0. Strong democrat
1. Not strong democrat
2. Independent, near democrat
3. Independent
4. Independent, near republican
5. Not strong republican
6. Strong republican
7. Other party

* democrat : 민주당원
* Independent : 무소속
* republican : 공화당원

In [12]:
democrat = (gss['partyid'] <= 1)

In [13]:
prob(democrat)

0.3662609048488537

## Conjunciton

In [14]:
prob(banker)

0.014769730168391155

In [15]:
prob(democrat)

0.3662609048488537

In [16]:
prob(banker & democrat)

0.004686548995739501

In [17]:
prob(democrat & banker)

0.004686548995739501

In [18]:
prob(banker & democrat) == prob(democrat & banker)

True

## 조건부 확률

In [19]:
selected = democrat[liberal]

In [20]:
prob(selected)

0.5206403320240125

In [21]:
selected = female[banker]

In [22]:
prob(selected)

0.7706043956043956

In [23]:
def conditional(proposition, given):
    '''Compute the conditional probability of A given B.'''
    return prob(proposition[given])

In [24]:
conditional(liberal, given=female)

0.27581004111500884

## 조건부 확률은 교환법칙이 성립하지 않는다

In [25]:
conditional(female, given=banker) # 은행원 중 여성의 확률

0.7706043956043956

In [26]:
conditional(banker, given=female) # 여성 중 은행원의 확률

0.02116102749801969

In [27]:
conditional(female, given=banker) != conditional(banker, given=female)

True

## 조건부 확률과 결합 확률


### 1. **조건부 확률 (Condition)**
조건부 확률은 "만약 어떤 일이 이미 일어났다면, 또 다른 일이 일어날 가능성은 얼마나 될까?"를 묻는 거야.

#### 예시:
너가 빨간색 사탕을 뽑았어! 그러면 그 사탕이 딸기 맛일 가능성은 얼마나 될까? 빨간색 사탕이라는 조건을 이미 알고 있으니, 딸기 맛일 확률을 계산하는 거야!

### 2. **결합 확률 (Conjunction)**
결합 확률은 "두 가지 일이 동시에 일어날 가능성은 얼마나 될까?"를 묻는 거야.

#### 예시:
만약 네가 동전을 던져서 앞면이 나오고, 주사위를 던져서 6이 나오는 걸 동시에 하고 싶어! 동전이 앞면이 나올 확률과 주사위에서 6이 나올 확률을 함께 계산해서 그 두 가지가 같이 일어날 가능성을 구하는 거야!

### 간단히 정리:
- **조건부 확률**: "이 일이 일어났다면, 다른 일이 일어날 가능성은 얼마나 될까?"
- **결합 확률**: "두 가지 일이 같이 일어날 가능성은 얼마나 될까?"


In [28]:
conditional(female, given=liberal & democrat) # 자유주의자이면서 민주당원 중 여성의 확률

0.576085409252669

57% of liberal Democrats are female

In [29]:
conditional(liberal & female, given=banker) # 은행원 중 여성이면서 자유주의자의 확률

0.17307692307692307

17% of bankers are liberal women.

## Laws of Probability

* $ P(A) $ : A의 확률
* $ P(A~\mathrm{and}~B) $ : A & B의 확률
* $ P(A|B) $ : A given B의 조건부 확률, B가 참일때 A의 확률, B중에 A의 확률

### Theorem 1

$$P(A|B) = \frac{P(A~\mathrm{and}~B)}{P(B)}$$

전체 중 A and B의 확률을 B중의 확률로 보정한 것

In [30]:
prob(female & banker) / prob(banker)

0.7706043956043956

In [31]:
prob(female & banker) / prob(banker) == conditional(female, given=banker)

True

### Theorem 2

$$ P(A~\mathrm{and}~B) = P(B) \cdot P(A|B) $$

In [32]:
prob(liberal & democrat)

0.1425238385067965

In [33]:
prob(democrat) * conditional(liberal, given=democrat)

0.1425238385067965

In [34]:
prob(liberal & democrat) == prob(democrat) * conditional(liberal, given=democrat)

True

### Theorem 3

$$ P(A~\mathrm{and}~B) = P(B~\mathrm{and}~A) $$
$$ P(B) \cdot P(A|B) = P(A) \cdot P(B|A) $$

* B의 확룔을 먼저 그 다음 B중에 A의 조건부 확률 
* A의 확률을 먼저 그 다음 A중의 B의 조건부 확률

$$P(A|B) = \frac{P(A) P(B|A)}{P(B)}$$
베이즈 공식

In [35]:
conditional(liberal, given=banker)

0.2239010989010989

In [36]:
prob(liberal) * conditional(banker, given=liberal) / prob(banker)

0.2239010989010989

In [37]:
conditional(liberal, given=banker) == prob(liberal) * conditional(banker, given=liberal) / prob(banker)

True

### The Law of Total Probability

$$ P(A) = P(B_1~\mathrm{and}~A) + P(B_2~\mathrm{and}~A) $$

$B_1$과 $B_2$는 상호배타적이고 완전한 사건들의 집합임. mutually exclusive and collectively exhaustive (MECE)

복잡한 문제를 개별적인 문제로 단순화

In [38]:
prob(banker)

0.014769730168391155

In [39]:
male = (gss['sex'] == 1)

In [40]:
prob(male & banker) + prob(female & banker)

0.014769730168391155

$$ P(A) = P(B_1)P(A|B_1) + P(B_2)P(A|B_2) $$

In [41]:
(prob(male) * conditional(banker, given=male) + 
 prob(female) * conditional(banker, given=female)) 

0.014769730168391153

$$P(A) = \sum_i P(B_i) P(A|B_i)$$
$B_i$는 MECE

In [42]:
B = gss['polviews']
B.value_counts().sort_index()

polviews
1.0     1442
2.0     5808
3.0     6243
4.0    18943
5.0     7940
6.0     7319
7.0     1595
Name: count, dtype: int64

In [43]:
i = 4
prob(B == i) * conditional(banker, B == i)

0.005822682085615744

In [44]:
sum(prob(B == i) * conditional(banker, B == i) for i in range(1, 8))

0.014769730168391157

In [45]:
prob(banker)

0.014769730168391155

## 연습문제


**연습 문제:** `conditional`을 사용하여 다음 확률을 계산하세요:

- 응답자가 민주당원(democrat)일 때, 그들이 진보적(liberal)일 확률은 얼마인가?
- 응답자가 진보적(liberal)일 때, 그들이 민주당원(democrat)일 확률은 얼마인가?

`conditional`에 전달할 인수의 순서를 신중히 생각해보세요.


In [47]:
democrat = (gss['partyid'] <= 1)
liberal = (gss['polviews'] <= 3)


In [48]:
conditional(liberal, given=democrat)

0.3891320002215698

In [49]:
conditional(democrat, given=liberal)

0.5206403320240125

**연습 문제**: 이 챕터의 도구를 사용해 Linda 문제의 변형을 풀어 봅시다.

Linda는 31세이고, 독신이며, 외향적이고 매우 똑똑합니다. 그녀는 철학을 전공했으며, 학생 시절 차별과 사회 정의 문제에 깊이 관심을 가졌고, 반핵 시위에도 참여했습니다. 어느 것이 더 가능성이 높을까요?

1. Linda는 은행원이다.
2. Linda는 은행원이며 자신을 진보적인 민주당원이라고 생각한다.

이 질문에 답하기 위해 다음을 계산하십시오:

- Linda가 여성이라는 조건하에 그녀가 은행원일 확률
- Linda가 여성이라는 조건하에 그녀가 은행원이며 진보적인 민주당원일 확률

In [50]:
banker = (gss['indus10'] == 6870)
female = (gss['sex'] == 2)

In [51]:
conditional(banker, given=female)

0.02116102749801969

In [52]:
conditional(banker & liberal & democrat, given=female)

0.0023009316887329786

**연습 문제:** 젊은 사람들, 나이 든 사람들, 진보주의자, 그리고 보수주의자들에 관한 [유명한 인용문](https://quoteinvestigator.com/2014/02/24/heart-head/)이 있습니다. 이 인용문은 다음과 같이 말합니다:

> 25살에 진보적이지 않으면 마음이 없는 것이고, 35살에 보수적이지 않으면 머리가 없는 것이다.

이 의견에 동의하든 동의하지 않든, 이 인용문은 우리가 연습 문제로서 계산할 수 있는 몇 가지 확률을 제시합니다.  
25세와 35세라는 특정한 나이를 사용하는 대신, 여기서 ‘젊음’과 ‘늙음’을 각각 30세 이하와 65세 이상으로 정의하겠습니다.


In [59]:
young = (gss['age'] < 30)
prob(young) # 전체 중에 30세 미만의 확률

0.19435991073240008

In [62]:
old = (gss['age'] >= 65)
prob(old) # 전체 중에 65세 이상의 확률

0.17328058429701765


이 기준을 위해 20번째와 80번째 퍼센타일에 가까운 반올림된 숫자를 선택했습니다. 당신의 나이에 따라, 이러한 '젊음'과 '늙음'의 정의에 동의하지 않을 수도 있습니다.

저는 ‘보수적’이라는 것을 정치적 견해가 "보수적", "약간 보수적", 또는 "극도로 보수적"인 사람으로 정의하겠습니다.


In [63]:
liberal = (gss['polviews'] <= 3)
prob(liberal) # 전체 중에 자유주의자의 확률

0.27374721038750255

In [64]:
conservative = (gss['polviews'] >= 5)
prob(conservative) # 전체 중에 보수주의자의 확률

0.3419354838709677


`prob`와 `conditional`을 사용하여 다음 확률을 계산하세요.

- 무작위로 선택된 응답자가 젊은 진보주의자일 확률은 얼마인가?
- 젊은 사람이 진보적일 확률은 얼마인가?
- 응답자 중 나이 든 보수주의자의 비율은 얼마인가?
- 보수주의자 중 나이 든 사람의 비율은 얼마인가?

각 문장이 결합 확률, 조건부 확률, 또는 둘 다를 표현하고 있는지 생각해보세요.

조건부 확률의 경우, 인수의 순서에 주의하세요.  
마지막 질문에 대한 답이 30% 이상이면, 계산을 거꾸로 한 것입니다!


In [65]:
prob(young & liberal) # 전체 중에 30세 미만이면서 자유주의자의 확률

0.06579427875836884

In [66]:
prob(old & conservative) # 전체 중에 65세 이상이면서 보수주의자의 확률

0.06701156421180766

In [67]:
conditional(liberal, given=young) # 30세 미만 중 자유주의자의 확률

0.338517745302714

In [68]:
conditional(conservative, given=old) # 65세 이상 중 보수주의자의 확률

0.38672286617492097