# Capítulo 1 - Introdução à Probabilidade
## Leonardo Yves de Souza Melo
### (21)971771433 | prof.leoyves@gmail.com
## Fonte:
### 1) Think Bayes, Bayesian Statistics in Python - Allen B. Downey; Capítulo 1 

# Bibliotecas

In [1]:
import pandas as pd

## Definição do espaço amostral $\Omega$

In [2]:
gss = pd.read_csv('gss_bayes.csv',index_col=0)
display(gss.head())
print("\n")
display(gss.info())

Unnamed: 0_level_0,year,age,sex,polviews,partyid,indus10
caseid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,1974,21.0,1,4.0,2.0,4970.0
2,1974,41.0,1,5.0,0.0,9160.0
5,1974,58.0,2,6.0,1.0,2670.0
6,1974,30.0,1,5.0,4.0,6870.0
7,1974,48.0,1,5.0,4.0,7860.0




<class 'pandas.core.frame.DataFrame'>
Int64Index: 49290 entries, 1 to 2867
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   year      49290 non-null  int64  
 1   age       49290 non-null  float64
 2   sex       49290 non-null  int64  
 3   polviews  49290 non-null  float64
 4   partyid   49290 non-null  float64
 5   indus10   49290 non-null  float64
dtypes: float64(4), int64(2)
memory usage: 2.6 MB


None

O `DataFrame` tem uma linha para cada pessoa e cada coluna representa uma variável.

As colunas são

* `caseid`: Respondent id (which is the index of the table).

* `year`: Year when the respondent was surveyed.

* `age`: Respondent's age when surveyed.

* `sex`: Male or female.

* `polviews`: Political views on a range from liberal to conservative.

* `partyid`: Political party affiliation, Democrat, Independent, or Republican.

* `indus10`: [Code](https://www.census.gov/cgi-bin/sssd/naics/naicsrch?chart=2007) for the industry the respondent works in.

### O método para construção da representação das proposições lógicas a partir do dataset, foram feitas por meio da utilização da indexação booleana nos DataFrames

O objeto Series, banker, separa os indivíduos entre bancários ou não, por meio da indexação booleana

6870: código da profissão de bancário

In [3]:
banker = (gss['indus10'] == 6870)
banker

caseid
1       False
2       False
5       False
6        True
7       False
        ...  
2863    False
2864    False
2865    False
2866    False
2867    False
Name: indus10, Length: 49290, dtype: bool

True=1; False=0

banker.sum() soma essa série obedecendo a quantificação acima, o resultado indica o total de bancários no universo total

In [4]:
banker.sum()

728

Calcula a média do objeto Series, considerando novamente True=1; False=0

In [5]:
banker.mean()

0.014769730168391155

A expressão, ``(gss['indus10'] == 6870)`` que define o objeto Series associado à verificação de quais elementos são bancários ou não, se trata de uma proposição que para cada linha do DataFrame verifica se a proposição ``(gss['indus10'] == 6870)`` é verdadeira ou não.
Para finalizar e aumentar o grau de abstração, a proposição foi associada à variável banker, para ser manuseada mais facilmente.

In [6]:
def prob(A):
    """
    Calcula a probabilidade da proposição A.
    Utiliza o mesmo método anterior, ao utilizar o objeto Series como espaço
    amostral e o Booleano como definição da ocorrência do evento que
    a proposição representa.
    O float A.mean() representa a proporção de elementos do espaço amostral 
    que satisfazem as condições declaradas na proposição, ou, associadas
    ao evento.
    A: evento associado à proposição A
    A.sum(): quantidade de vezes que o evento ocorre no espaço amostral
    A.mean(): calcula a probabilidade frequentista do evento A no espaço amostral
    representado pelo DataFrame.
    """
    return A.mean()

Utilização da definição generalizada para o cálculo da probabilidade de uma pessoa ser bancária dada a amostra total (espaço amostral)

In [7]:
prob(banker)

0.014769730168391155

Proposição que define a variável aleatória indicadora da presença de mulheres
no espaço amostral. A coluna `sex`é codificada da seguinte forma:

```
1    Male
2    Female
```

In [8]:
female = (gss['sex'] == 2)
prob(female)

0.5378575776019476

Proposição que define a variável aleatória indicadora da presença de liberais
no espaço amostral. A codificação da coluna `polviews` que contem o posicionamento político das pessoas presentes no dataset:

```
1	Extremely liberal
2	Liberal
3	Slightly liberal
4	Moderate
5	Slightly conservative
6	Conservative
7	Extremely conservative
```

In [9]:
liberal = (gss['polviews'] <= 3)
prob(liberal)

0.27374721038750255

Proposição que define a variável aleatória indicadora de  democratas 
no espaço amostral. A codificação da coluna `partyid` que contem as afiliações políticas de cada pessoa:

```
0	Strong democrat
1	Not strong democrat
2	Independent, near democrat
3	Independent
4	Independent, near republican
5	Not strong republican
6	Strong republican
7	Other party
```

In [10]:
democrat = (gss['partyid'] <= 1)
prob(democrat)

0.3662609048488537

É possível calcular a probabilidade da interseção entre os dois conjuntos.
* `prob(banker & democrat)`: indica a probabilidade de ser bancário e democrata simultaneamente

In [11]:
prob(banker & democrat)

0.004686548995739501

A função `prob`definida anteriormente respeita comutatividade da interseção. Observe no exemplo abaixo:

In [12]:
prob(democrat & banker) == prob(banker & democrat)

True

Vamos analisar a expressão `selected = democrat[liberal]`.

`liberal` e `democrat`são objetos `Series` definidos a partir do mesmo `DataFrame`. Dadas as propriedades operatórias desses objetos, a expressão `democrat[liberal]`, representa indexação booleana utilizando apenas os elementos em que a proposição associada à `liberal`seja verdadeira.

Resumindo `democrat[liberal]` verifica a validade da proposição `democrat` apenas nas linhas em que o objeto `Series` (`liberal`) é `True`. Ou seja, reduz o espaço amostral, que antes era de todas as linhas do `DataFrame`, para as linhas que possuem valor menor ou igual a 3 na coluna `polviews`.

Nesse espaço amostral reduzido, verificamos que a probabilidade de ser democrata sobe para 0.52 em relação ao valor em todo espaço amostral que é igual a 0.27

$P$(`democrat`|`liberal`) = `prob(democrat[liberal])`

In [13]:
selected = democrat[liberal]
prob(selected)

0.5206403320240125

No presente caso verificamos a proporção de ser mulher dado que a profissão é ser bancário.

$P$(`female`|`banker`) = `prob(female[banker])`

In [14]:
selected = female[banker]
prob(selected)

0.7706043956043956

In [15]:
def conditional(proposition,given):
    """Calcula a probabilidade condicional
    P(A|B)
    argumento 1: A
    argumento 2: B"""
    return prob(proposition[given])

A diferença da probabilidade condicional para a probabilidade da interseção, está em que a probabilidade condicional renormaliza o espaço amostral, considerando apenas a fração do espaço amostral ocupada pela nova informação que foi dada, que restringe parte do espaço amostral.

In [16]:
# Calcula a proporção de liberais no universo de mulheres
conditional(liberal,female)

0.27581004111500884

In [17]:
# Calcula a proporção de mulheres dado o universo dos liberais 
conditional(female,liberal)

0.5419106203216483

In [18]:
# Calcula a proporção de mulheres dado o universo dos bancários 
conditional(female,banker)

0.7706043956043956

In [19]:
# Calcula a proporção de bancárias dado o universo das mulheres 
conditional(banker,female)

0.02116102749801969

In [20]:
"""Calcula a proporção de mulheres dado o universo das pessoas que são
liberais e democratas simultaneamente"""

conditional(female,liberal & democrat)

0.576085409252669

In [21]:
"""Calcula a proporção de pessoas que são mulheres e liberais simultaneamente,
dado o universo das pesssoas que são bancárias."""
conditional(liberal & female, banker)

0.17307692307692307

# Laws of Probability

1) Usar a interseção para calcular a probabilidade condicional

## $P(A|B) = \frac{P(A \cap B)}{P(B)}$

2) Usar a probabilidade condicional para calcular a interseção 

## $P(A \cap B) = P(A|B) \cdot P(B)$

3) Usar P(A|B) para calcular P(B|A) (teorema de Bayes)

## $P(A|B) = \frac{P(A)}{P(B)} \cdot P(B|A)$

## Exemplo 1 

Como calcular a proporção de bancários que são mulheres?

1) Usa a operação `x[y]` para aplicar a VA `x` no espaço amostral reduzido dado 
pela VA `y` <br>
2) Cada VA tem como característica ser uma simples função indicadora, portanto com as seguintes definições podemos interpretar a expressão

`female[banker]`: indica dentre os elementos do objeto `Series` `banker`, cujo valor é `True`, quais deles também possuem o valor `True` para a proposição representada pela variável `female`. Lembrando que todos os dados são oriundos do `DataFrame` `gss`, que nesse caso se trata do espaço amostral

In [22]:
print(f"""female[banker].mean() =  {female[banker].mean()}
conditional(female,banker) = {conditional(female,banker)}
prob(female & banker)/prob(banker) = {prob(female & banker)/prob(banker)}""")

female[banker].mean() =  0.7706043956043956
conditional(female,banker) = 0.7706043956043956
prob(female & banker)/prob(banker) = 0.7706043956043956


In [23]:
(conditional(female,banker) == female[banker].mean(),
conditional(female,banker) == prob(female & banker)/prob(banker),
prob(female & banker)/prob(banker) == female[banker].mean())

(True, True, True)

## Exemplo 2

Como calcular a quantidade de pessoas que são liberais e democratas simultaneamente?

In [24]:
# cálculo da probabilidade da interseção
prob(liberal & democrat)

0.1425238385067965

In [25]:
# manipulação da fórmula da probabilidade condicional (equação 2)
conditional(liberal,democrat)*prob(democrat)

0.1425238385067965

In [26]:
prob(liberal & democrat) == conditional(liberal,democrat)*prob(democrat)

True

## Exemplo 3

Como calcular a proporção de liberais no universo das pessoas que são bancários?

In [27]:
# uso direto da fórmula da probabilidade condicional
conditional(liberal,banker)

0.2239010989010989

In [28]:
# manipulação da fórmula da probabilidade condicional (equação 3)
(prob(liberal)/prob(banker))*conditional(banker,liberal)

0.22390109890109894

# Lei da probabilidade total
## Partição do conjunto A

Condições necessárias e suficientes para a verificação da partição 

### $ B_1 \neq \emptyset $  e  $ A \cap B_1 \neq \emptyset $

### $ B_2 \neq \emptyset $  e  $ A \cap B_2 \neq \emptyset $

### $ B_1 \cap B_2 = \emptyset $

### $ (A \cap B_1) \cup (A \cap B_2) = A $

## Probabilidade da união de conjuntos disjuntos 

### $ P(A) = P((A \cap B_1) \cup (A \cap B_2)) $

### $ P((A \cap B_1) \cup (A \cap B_2)) = P(A \cap B_1) + P(A \cap B_2) [1] $

### $ P(A \cap B_1) = P(A|B_1)\cdot P(B_1) $

### $ P(A \cap B_2) = P(A|B_2)\cdot P(B_2) $

### $ P((A \cap B_1) \cup (A \cap B_2)) = P(A|B_1)\cdot P(B_1) + P(A|B_2)\cdot P(B_2) [2] $

Como calcular a proporção de bancários em toda amostra?

Sabendo que a divisão da amostra por sexo, implica numa partição, pois não há como ser homem e mulher simultaneamente, então essa partição será utilizada

In [29]:
prob(banker)

0.014769730168391155

In [30]:
# uso da equação 1
male = (gss['sex'] == 1)
total_prob_intersec = prob(banker & male) + prob(banker & female)
total_prob_intersec

0.014769730168391155

In [31]:
# uso da equação 2
total_prob_cond = (conditional(banker,male)*prob(male) + 
              conditional(banker,female)*prob(female))
total_prob_cond

0.014769730168391153

Agora será utilizada a generalização da partição de um conjunto A por $n$ conjuntos

## $ P(A) = \sum_{i=1}^{n} P(A|B_i)P(B_i) $

A probabilidade de ser bancário será obtida por meio da soma de sete probabilidades que formam a partição da população devido a sua posição política

In [32]:
B = gss['polviews']

In [33]:
print('''Conta a quantidade de elementos associado à cada valor da variável qualitativa
polviews''')
display(B.value_counts())

print('''\nOrdena os dados que foram agrupados após a contagem''')
display(B.value_counts().sort_index())

Conta a quantidade de elementos associado à cada valor da variável qualitativa
polviews


4.0    18943
5.0     7940
6.0     7319
3.0     6243
2.0     5808
7.0     1595
1.0     1442
Name: polviews, dtype: int64


Ordena os dados que foram agrupados após a contagem


1.0     1442
2.0     5808
3.0     6243
4.0    18943
5.0     7940
6.0     7319
7.0     1595
Name: polviews, dtype: int64

Calculando a probabilidade de um bancário ser moderado $(i=4)$:

In [34]:
i = 4
prob(B==i)*conditional(banker,B==i)

0.005822682085615744

Utilizando a probabilidade total por meio da função soma em conjunto com o iterador for. O iterador percorre o conjunto, que se trata de um objeto Series com a posição política de cada item da amostra, e a função sum, soma cada valor percorrido com a soma parcial até o presente momento.

In [35]:
sum(prob(B==i) * conditional(banker, B==i) for i in range(1, 8))

0.014769730168391157