# Exercício: Titanic - Tomando decisão com Teorema de Bayes
**Objetivo:** Ao fim desta aula, o aluno será capaz de usar o Teorema de Bayes para construir um classificador automático

<div id="indice"></div>

## Índice

- [Titanic](#titanic)
- [Objetivo](#obj)
- [Classificador sem considerar qualquer característica do passageiro](#apriori)
- [Classificador Naive-Bayes com a variável `Sex`](#naivebayes)
- [Classificando os passageiros](#class)
- [Análise de sentimento](#sentimento)
- [Para casa: Estudo Complementar](#casa)
- [Classificador Naive-Bayes com a variável `Pclass`](#classPclass)
- [Separando conjunto de dados em Treinamento (train)  e Teste (test)](#testtrain)
___

<div id="titanic"></div>

## Titanic

Entre as muitas competições disponíveis na plataforma Kaggle, encontra-se a de *Machine Learning* do Titanic conforme apresentado neste [link](https://www.kaggle.com/c/titanic/data).

A base de dados apresentada no arquivo `titanic.xlsx` contém informação de 891 passageiros para os quais foram mensurados as seguintes informações (as categorias serão mantidas em inglês assim como os nomes das variáveis):
 
 * `Survived`: indica se passageiro sobreviveu ou não.
    - 0 = No,
    - 1 = Yes.
 * `Pclass`: indica a classe da passagem (*ticket*).
    - 1 = 1st, 
    - 2 = 2nd, 
    - 3 = 3rd.
 * `Sex`: sexo do passageiro. 
    - female,
    - male.
 * `Age`: idade em anos.
 * `Sibsp`: número de irmãos e/ou cônjuges a bordo do Titanic.
 * `Parch`: número de pais e/ou filhos a bordo do Titanic.
 * `Ticket`: número do *ticket*.
 * `Fare`: tarifa do passageiro.
 * `Cabin`: número da cabine.
 * `Embarked`: portão de embarque.
    - C = Cherbourg, 
    - Q = Queenstown, 
    - S = Southampton.


**Notas:**
A variável `Pclass` pode ser considerada uma *proxy* da situação socioeconômico do passageiro, ou seja, 
1st = Upper, 2nd = Middle,  3rd = Lower.


___

<div id="obj"></div>

## Objetivo

Imagine que você com as suas características estivesse no Titanic no dia no naufrágio. Será que você teria sido um sobrevivente ou não??

Assim, o objetivo dessa atividade é classificar um "novo" passageiro do Titanic como Sobrevivente ou não Sobrevivente levando em considerando (ou seja, aprendendo) o perfil dos sobreviventes e não sobreviventes que de fato estavam no Titanic.

___
Carregando algumas bibliotecas:

In [1]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import os

In [2]:
print('Esperamos trabalhar no diretório')
print(os.getcwd())

Esperamos trabalhar no diretório
c:\Users\tiago\Development\analise_exploratoria


# Exercício 1
*Objetivo: analisar e entender o significado de dados*

O código abaixo carrega e mostra algumas características dos dados de passageiros do Titanic.

1. Na tabela, o que cada linha representa?
2. Quantos passageiros eram da primeira classe? Quantos eram da segunda classe? E quantos eram da terceira?

In [8]:
dados = pd.read_excel('dados/UCLA/titanic.xlsx')

In [16]:
print(dados.shape)
print(len(dados))

(891, 12)
891


In [10]:
dados.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [11]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


# Exercício 2
*Objetivo: calcular probabilidades a priori de sobrevivência*

Lembrando que uma probabilidade é o número de resultados favoráveis dividido pelo número de resultados possíveis ($P(x) = \frac{\text{\# resultados favoráveis}}{\text{\# total de experimentos}}$), calcule a probabilidade de, ao escolhermos um passageiro aleatório do Titanic, este ter sobrevivido, ou: $P(S)$.

In [15]:
# Faça sua resposta aqui

# Exercício 3
*Objetivo: tomar uma decisão com base em uma probabilidade a priori*

Com base na probabilidade que você calculou no exercício anterior, seria mais seguro assumir que um passageiro escolhido aleatoriamente seria um sobrevivente que este passageiro seria um não-sobrevivente?


# Exercício 4
*Objetivo: calcular uma probabilidade a posteriori*

Uma das frases famosas rem relação ao Titanic foi "mulheres e crianças primeiro".

Calcule a probabilidade de, se escolhermos aleatoriamente uma passageira mulher, esta ter sobrevivido ao acidente, ou: $P(S | M)$. Aconteceu, de fato, um "mulheres e crianças primeiro"?


In [46]:
# Faça sua resposta aqui
filtro_fem = df['Sex'] == 'female'
df_ = df[filtro_fem]
filtro_survived = df_['Survived'] == 1
df_fs = df_[filtro_survived]
len(df_fs)/len(df_)

0.7217741935483871

# Exercício 5
*Objetivo: verificar o Teorema de Bayes*

Um importante resultado da estatística é o Teorema de Bayes, que permite inverter uma condicional:

$$
P(A|B) = \frac{P(B|A)P(A)}{P(B)}
$$

No nosso problema, calculamos $P(\text{sobreviver} | \text{mulher})$. Vamos usar esses dados para verificar o Teorema de Bayes.

1. Calcule $P(\text{sobreviver})$ à partir dos dados
2. Calcule $P(\text{mulher})$ à partir dos dados
3. Usando o Teorema de Bayes, use as probabilidades que você já estimou para calcular $P(\text{mulher} | \text{sobreviver})$.
4. Use os dados para confirmar o resultado que você encontrou no ítem 3.
5. Faça o mesmo experimento para o caso dos passageiros homens.

In [47]:
# Resolva o exercício aqui

# Exercício 6
*Objetivo: dividir o conjunto de dados entre "treino" e "teste"*

Em um processo de classificação automática, o cenário usualmente é o seguinte:
* Sabemos os dados e rótulos sobre um certo conjunto controlado de dados - que são exatamente os dados que temos na tabela do Titanic.
* Não sabemos, mas desejamos predizer, os dados sobre um outro conjunto de dados: por exemplo, se entrasse um novo passageiro no Titanic, diríamos que ele sobreviveria ou não?

É evidente que não podemos antever como o sistema se comporta com dados desconhecidos. Porém, podemos escolher uma pequena parcela dos nossos dados para testar nosso classificador. Nesse caso, nós conhecemos os rótulos, mas o classificador não tem acesso a eles, e usamos os rótulos "verdadeiros" para avaliar as respostas do classificador.

1. O código abaixo divide nosso conjunto de dados entre "treino" e "teste". Nele, qual é o significado da variável `split`?
2. Calcule $P(\text{sobreviver} | \text{mulher})$ para o conjunto de treino e para o conjunto de teste. Eles são iguais? São próximos? Como se comparam com o resultado que você calculou no exercício 4?

In [49]:
split = 0.8
divisao = np.random.random(len(dados))
filtro_treino = divisao < split
filtro_teste = divisao >= split
df_treino = dados[filtro_treino]
df_teste = dados[filtro_teste]
print(len(df_treino), len(df_teste))

723 168


In [50]:
# Resolva o exercício aqui

# Exercício 7
*Objetivo: construir um classificador Bayesiano*

Usando apenas o conjunto de *treino*, estime:
1. $P(\text{sobreviver} | \text{mulher})$
2. $P(\text{não sobreviver} | \text{mulher})$
3. $P(\text{sobreviver} | \text{homem})$
4. $P(\text{não sobreviver} | \text{mulher})$.

In [51]:
# Resolva o exercício aqui

# Exercício 8
*Objetivo: avaliar o classificador Bayesiano*

Vamos usar nosso classificador para determinar se passageiros do conjunto de teste sobreviveram ou não, e depois vamos comparar nosso resultado

1. Usando as probabilidades que você estimou no exercício anterior, faça uma função (que será nosso classificador) que recebe como parâmetro o sexo do passageiro (homem ou mulher) e retorna 1 caso seja mais provável que ele sobreviva, e 0 caso seja mais provável que ele não sobreviva.
2. Execute sua função para cada passageiro do conjunto de *teste*. Para quantos passageiros a predição do classificador corresponde à informação real? Qual é a acurácia (probabilidade de acerto) de nosso classificador?

In [52]:
# Resolva o exercício aqui

# Exercício 9
*Objetivo: desenvolver e avaliar um classificador Bayesiano*

Embora falemos muito sobre "mulheres e crianças primeiro", nos depoimentos e nos filmes sobre o Titanic também vemos relatos sobre como passageiros de primeira classe foram deliberadamente escolhidos para entrar nos botes salva-vidas. Outras pessoas, porém, dizem que isso é somente uma história interessante para dar emoção aos filmes de Hollywood.

Replique o experimento que fizemos até o momento, mas usando a classe da passagem, ao invés do sexo, como entrada para o preditor.

In [53]:
# Resolva o exercício aqui

___
**Definindo as variáveis qualitativas como categóricas:**

O pandas não tem como saber quais variáveis são qualitativas ao carregar os dados. Então precisamos modificar as colunas explicitamente.

Já deixamos isso pronto para você nesta avaliação:

In [None]:
dados['Survived'] = dados['Survived'].astype('category')
dados['Pclass'] = dados['Pclass'].astype('category')
dados['Sex'] = dados['Sex'].astype('category')
dados['Cabin'] = dados['Cabin'].astype('category')
dados['Embarked'] = dados['Embarked'].astype('category')

Agora vamos renomear os rótulos das variáveis qualitativas `Survived` e `Pclass` com comando `.cat.categories`:

In [None]:
dados.Sex.cat.categories = ['female','male']
dados.Pclass.cat.categories = ['1st','2nd','3rd']
dados.Survived.cat.categories = ['No', 'Yes']

In [None]:
dados.Sex = pd.Categorical(dados.Sex, categories=['female','male'], ordered=False)
dados.Pclass = pd.Categorical(dados.Pclass, categories=['1st','2nd','3rd'], ordered=True)
dados.Survived = pd.Categorical(dados.Survived, categories=['No', 'Yes'], ordered=False)

___
***DataFrame* `dados` que deve considerar nos passos a seguir:**

In [None]:
dados.head(3)

<div id="apriori"></div>

___
## Classificador sem considerar qualquer característica do passageiro

Como você poderia dar um "chute" inicial para avaliar se um novo passageiro seria ou não sobrevivente no Titanic?

Podemos usar uma probabilidade conhecida como **a priori** que não leva em consideração qualquer característica do passageiro. Essa probabilidade é dada por:

$$\qquad P(sobrevivente)\qquad \text{e} \qquad P(não\hspace{1mm}sobrevivente).$$

Assuma $S$ como evento ser sobrevivente e $S^c$ como evento não ser sobrevivente.

Agora, calcule essas probabilidades a partir da base de dados. Lembra que você aqui pode usar o comando `value_counts()`.

In [None]:
# Tabela de frequências relativas => Probabilidades marginais
dados.Survived.value_counts(True, sort=False).round(4)

E aí? Se chegasse alguém agora para ser um passageiro do Titanic, esse seria classificado como sobrevivente ou não sobrevivente?

E se chegassem 1.000 passageiros?

In [None]:
# Coloque sua resposta aqui

<div id="naivebayes"></div>

___
## Classificador Naive-Bayes

Um Classificador Naive-Bayes permite que seja feito uma classificação, aqui, como sobrevivente ou não sobrevivente, porém levando em considerando **alguma(s) característica(s)** do passageiro. 

Vale ressaltar a importância de utilizar características (variáveis ou *features*) do passageiro que sejam associadas (dependentes) da variável *target* `Survived` que fornece a classificação.

Vamos entender o **Teorema de Bayes** utilizando a característica do passageiro descrita na variável `Sex`. Ainda, vamos utilizar os eventos $S$ para sobrevivente, $F$ para feminino e $M$ para masculino.

A probabilidade de **ser sobrevivente** dado cada categoria da variável `Sex` pode ser escrita como:

$$P(S|F)=\frac{P(S \cap F)}{P(F)}=\frac{P(F|S)P(S)}{P(F)}\hspace{3cm}\mbox{(I)}$$

e

$$P(S|M)=\frac{P(S \cap M)}{P(M)}=\frac{P(M|S)P(S)}{P(M)}\hspace{2.5cm}\mbox{(II)}$$


Por consequência, a probabilidade de **não ser sobrevivente** dado cada categoria da variável `Sex` pode ser escrita como:

$$P(S^c|F)=1-P(S|F)$$

e

$$P(S^c|M)=1-P(S|M)$$


Agora, vamos obter todas as probabilidade envolvidas do lado direito das equações $\mbox{(I)}$ e $\mbox{(II)}$ acima descritas utilizando os resultados amostrais.

### Probabilidades que devemos calcular a partir da base de dados:

Para facilitar, vamos obter tais probabilidades nos seguintes passos:

 1. Calcular as probabilides $P(S)$, $P(S^c)$, $P(F)$ e $P(M)$. Lembra que aqui você pode usar o comando `value_counts()`.
 1. Construir um conjunto de dados apenas com os sobreviventes e um outro apenas com os não sobreviventes.
 1. Em cada conjunto de dados, calcular a probabilidade de ser cada categoria da variável `Sex`, ou seja, 
     * Entre os sobreviventes: calcular $𝑃(F|S)$ e $𝑃(M|S)$ a partir da base de dados. Aqui pode usar o comando `value_counts()`.
     * Entre os não sobreviventes: calcular $𝑃(F|S^c)$ e $𝑃(M|S^c)$ a partir da base de dados. Aqui pode usar o comando `value_counts()`.
          
 1. Com todas essas probabilidades, calcular $P(S|F)$, $P(S^c|F)$, $P(S|M)$ e $P(S^c|M)$.

Vamos lá! **Passo-a-passo**:

 1. Calcule as probabilidades $P(S)$, $P(S^c)$, $P(F)$ e $P(M)$. Lembra que aqui você pode usar o comando `value_counts()`.

 OBS.: Guarde essas probabilidades nas respectivas variáveis do python `P_S`, `P_Sc`, `P_F` e `P_M`.

In [None]:
# Item resolvido a seguir. Use como referência para demais itens!

In [None]:
prob_surv = dados.Survived.value_counts(True, sort=False)
P_Sc = prob_surv[0]
P_S = prob_surv[1]

print(f'Probabilidade a priori de não sobreviver: {P_Sc:0.5g}')
print(f'Probabilidade a priori de sobreviver: {P_S:0.5g}')

In [None]:
prob_sex = dados.Sex.value_counts(True, sort=False)
P_F = prob_sex[0]
P_M = prob_sex[1]

print(f'Probabilidade de ser do sexo feminino: {P_F:0.5g}')
print(f'Probabilidade de ser do sexo masculino: {P_M:0.5g}')

 2. Construa um conjunto de dados apenas com os sobreviventes e um outro apenas com os não sobreviventes.
 
 OBS.: Guarde esses conjuntos de dados nas respectivas variáveis do python `dados_S` e `dados_Sc`.

In [None]:
# Coloque seu código aqui

 3. Entre os sobreviventes: calcule $𝑃(F|S)$ e $𝑃(M|S)$ a partir da base de dado `dados_S`. Aqui pode usar o comando `value_counts()`.
  
 OBS.: Guarde essas probabilidades nas respectivas variáveis do python `P_F_dado_S` e `P_M_dados_S`.
 
 <br> 
 
*Respostas esperadas:*
 
*Probabilidade de ser do sexo feminino entre os sobreviventes: 0.68129*
 
*Probabilidade de ser do sexo masculino entre os sobreviventes: 0.31871*

In [None]:
# Coloque seu código aqui.

 3. Entre os não sobreviventes: calcule $𝑃(F|S^c)$ e $𝑃(M|S^c)$ a partir da base de dados `dados_Sc`. Aqui pode usar o comando `value_counts()`.
          
  OBS.: Guarde essas probabilidades nas respectivas variáveis do python `P_F_dado_Sc` e `P_M_dados_Sc`.
  
<br> 
 
*Respostas esperadas:*
 
*Probabilidade de ser do sexo feminino entre os não sobreviventes: 0.14754*

*Probabilidade de ser do sexo masculino entre os não sobreviventes: 0.85246*

In [None]:
# Coloque seu código aqui.

 4. Com todas essas probabilidades, calcule $P(S|F)$, $P(S^c|F)$, $P(S|M)$ e $P(S^c|M)$ seguindo as equações (I) e (II).
 
 OBS.: Guarde essas probabilidades nas respectivas variáveis do python `P_S_dado_F`, `P_Sc_dado_F`, `P_S_dado_F` e `P_Sc_dado_M`.
 
<br> 
 
*Respostas esperadas:*
 
*Probabilidade de ser sobreviventdo se feminino: 0.74204*

*Probabilidade de ser não sobrevivente se feminino: 0.25796*

*Probabilidade de ser sobreviventdo se masculino: 0.18891*

*Probabilidade de ser não sobrevivente se masculino: 0.81109*

In [None]:
# Coloque seu código aqui.

<div id="class"></div>

___
## Classificando os passageiros 

Considerando seu **Classificador Naive-Bayes**, classifique cada passageiro do *DataFrame* `dados`como `No` ou `Yes` considerando apenas a variável `Sex`.

Conforme apresentado na Seção Classification descrita neste [link](https://sebastianraschka.com/Articles/2014_naive_bayes_1.html), a classificação considerando a variável `Sex` dará da seguinte forma:

$$\begin{array}{lll} 
    \mbox{Se } P(S|F)>P(S^c|F) & \mbox{então } & \mbox{Classificar como Sobrevivente} \\
                                               & \mbox{caso contrário } & \mbox{Classificar como Não Sobrevivente} 
   \end{array}$$

No dataframe `dados`, guarde essas classificações em uma nova variável chamada `ClassBySex`. 

In [None]:
# Classificando as mulheres
if (P_S_dado_F > P_Sc_dado_F):
    dados.loc[(dados.Sex=='female'),'ClassBySex'] = 'Yes'
else:
    dados.loc[(dados.Sex=='female'),'ClassBySex'] = 'No'
    

In [None]:
# Classificando os homens
if (P_S_dado_M > P_Sc_dado_M):
    dados.loc[(dados.Sex=='male'),'ClassBySex'] = 'Yes'
else:
    dados.loc[(dados.Sex=='male'),'ClassBySex'] = 'No'

In [None]:
dados.head(3)

<div id="sentimento"></div>

___
## Análise de sentimento

Faça uma análise de sentimento cruzando a variável `ClassBySex` com a real classificação `Survived` utilizando a função `pd.crosstab`.

Analise os resultados.

*Resposta esperada:*

 
Survived        | ClassBySex=No  | ClassBySex=Yes
--------------- | -------------- | --------------------
Survived=No     |0.525253        | 0.090909
Survived=Yes    |0.122334        | 0.261504

In [None]:
# Coloque seu código aqui