___
# Exerc√≠cio: Titanic - Tomando decis√£o com Teorema de Bayes
___

## Aula 07

<div id="indice"></div>

## √çndice

- [Titanic](#titanic)
- [Objetivo](#obj)
- [Classificador sem considerar qualquer caracter√≠stica do passageiro](#apriori)
- [Classificador Naive-Bayes com a vari√°vel `Sex`](#naivebayes)
- [Classificando os passageiros](#class)
- [An√°lise de sentimento](#sentimento)
- [Para casa: Estudo Complementar](#casa)
- [Classificador Naive-Bayes com a vari√°vel `Pclass`](#classPclass)
- [Separando conjunto de dados em Treinamento (train)  e Teste (test)](#testtrain)
___

<div id="titanic"></div>

## Titanic

Entre as muitas competi√ß√µes dispon√≠veis na plataforma Kaggle, encontra-se a de *Machine Learning* do Titanic conforme apresentado neste [link](https://www.kaggle.com/c/titanic/data).

A base de dados apresentada no arquivo `titanic.xlsx` cont√©m informa√ß√£o de 891 passageiros para os quais foram mensurados as seguintes informa√ß√µes (as categorias ser√£o mantidas em ingl√™s assim como os nomes das vari√°veis):
 
 * `Survived`: indica se passageiro sobreviveu ou n√£o.
    - 0 = No,
    - 1 = Yes.
 * `Pclass`: indica a classe da passagem (*ticket*).
    - 1 = 1st, 
    - 2 = 2nd, 
    - 3 = 3rd.
 * `Sex`: sexo do passageiro. 
    - female,
    - male.
 * `Age`: idade em anos.
 * `Sibsp`: n√∫mero de irm√£os e/ou c√¥njuges a bordo do Titanic.
 * `Parch`: n√∫mero de pais e/ou filhos a bordo do Titanic.
 * `Ticket`: n√∫mero do *ticket*.
 * `Fare`: tarifa do passageiro.
 * `Cabin`: n√∫mero da cabine.
 * `Embarked`: port√£o de embarque.
    - C = Cherbourg, 
    - Q = Queenstown, 
    - S = Southampton.


**Notas:**
A vari√°vel `Pclass` pode ser considerada uma *proxy* da situa√ß√£o socioecon√¥mico do passageiro, ou seja, 
1st = Upper, 2nd = Middle,  3rd = Lower.


___

<div id="obj"></div>

## Objetivo

Imagine que voc√™ com as suas caracter√≠sticas estivesse no Titanic no dia no naufr√°gio. Ser√° que voc√™ teria sido um sobrevivente ou n√£o??

Assim, o objetivo dessa atividade √© classificar um "novo" passageiro do Titanic como Sobrevivente ou n√£o Sobrevivente levando em considerando (ou seja, aprendendo) o perfil dos sobreviventes e n√£o sobreviventes que de fato estavam no Titanic.

___
Carregando algumas bibliotecas:

In [None]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import os

In [None]:
print('Esperamos trabalhar no diret√≥rio')
print(os.getcwd())

Carregando os dados do arquivo `titanic.xlsx`:

In [None]:
dados = pd.read_excel('titanic.xlsx')

Para saber quantas linhas (passageiros) e colunas (vari√°veis) h√° no *DataFrame* nomeado `dados`:

In [None]:
dados.shape

___
**Definindo as vari√°veis qualitativas como categ√≥ricas:**

O pandas n√£o tem como saber quais vari√°veis s√£o qualitativas ao carregar os dados. Ent√£o precisamos modificar as colunas explicitamente.

J√° deixamos isso pronto para voc√™ nesta avalia√ß√£o:

In [None]:
dados['Survived'] = dados['Survived'].astype('category')
dados['Pclass'] = dados['Pclass'].astype('category')
dados['Sex'] = dados['Sex'].astype('category')
dados['Cabin'] = dados['Cabin'].astype('category')
dados['Embarked'] = dados['Embarked'].astype('category')

Agora vamos renomear os r√≥tulos das vari√°veis qualitativas `Survived` e `Pclass` com comando `.cat.categories`:

In [None]:
dados.Sex.cat.categories = ['female','male']
dados.Pclass.cat.categories = ['1st','2nd','3rd']
dados.Survived.cat.categories = ['No', 'Yes']

In [None]:
dados.Sex = pd.Categorical(dados.Sex, categories=['female','male'], ordered=False)
dados.Pclass = pd.Categorical(dados.Pclass, categories=['1st','2nd','3rd'], ordered=True)
dados.Survived = pd.Categorical(dados.Survived, categories=['No', 'Yes'], ordered=False)

___
***DataFrame* `dados` que deve considerar nos passos a seguir:**

In [None]:
dados.head(3)

<div id="apriori"></div>

___
## Classificador sem considerar qualquer caracter√≠stica do passageiro

Como voc√™ poderia dar um "chute" inicial para avaliar se um novo passageiro seria ou n√£o sobrevivente no Titanic?

Podemos usar uma probabilidade conhecida como **a priori** que n√£o leva em considera√ß√£o qualquer caracter√≠stica do passageiro. Essa probabilidade √© dada por:

P(sobrevivente) e P(n√£o sobrevivente).

Assuma $S$ como evento ser sobrevivente e $S^c$ como evento n√£o ser sobrevivente.

Agora, calcule essas probabilidades a partir da base de dados. Lembra que voc√™ aqui pode usar o comando `value_counts()`.

In [None]:
# Tabela de frequ√™ncias relativas => Probabilidades marginais
dados.Survived.value_counts(True, sort=False).round(4)

E a√≠? Se chegasse algu√©m agora para ser um passageiro do Titanic, esse seria classificado como sobrevivente ou n√£o sobrevivente?

E se chegassem 1.000 passageiros?

In [None]:
# Coloque sua resposta aqui

<div id="naivebayes"></div>

___
## Classificador Naive-Bayes

Um Classificador Naive-Bayes permite que seja feito uma classifica√ß√£o, aqui, como sobrevivente ou n√£o sobrevivente, por√©m levando em considerando **alguma(s) caracter√≠stica(s)** do passageiro. 

Vale ressaltar a import√¢ncia de utilizar caracter√≠sticas (vari√°veis ou *features*) do passageiro que sejam associadas (dependentes) da vari√°vel *target* `Survived` que fornece a classifica√ß√£o.

Vamos entender o **Teorema de Bayes** utilizando a caracter√≠stica do passageiro descrita na vari√°vel `Sex`. Ainda, vamos utilizar os eventos $S$ para sobrevivente, $F$ para feminino e $M$ para masculino.

A probabilidade de **ser sobrevivente** dado cada categoria da vari√°vel `Sex` pode ser escrita como:

$$P(S|F)=\frac{P(S \cap F)}{P(F)}=\frac{P(F|S)P(S)}{P(F)}\hspace{3cm}\mbox{(I)}$$

e

$$P(S|M)=\frac{P(S \cap M)}{P(M)}=\frac{P(M|S)P(S)}{P(M)}\hspace{2.5cm}\mbox{(II)}$$


Por consequ√™ncia, a probabilidade de **n√£o ser sobrevivente** dado cada categoria da vari√°vel `Sex` pode ser escrita como:

$$P(S^c|F)=1-P(S|F)$$

e

$$P(S^c|M)=1-P(S|M)$$


Agora, vamos obter todas as probabilidade envolvidas do lado direito das equa√ß√µes $\mbox{(I)}$ e $\mbox{(II)}$ acima descritas utilizando os resultados amostrais.

### Probabilidades que devemos calcular a partir da base de dados:

Para facilitar, vamos obter tais probabilidades nos seguintes passos:

 1. Calcular as probabilides $P(S)$, $P(S^c)$, $P(F)$ e $P(M)$. Lembra que aqui voc√™ pode usar o comando `value_counts()`.
 1. Construir um conjunto de dados apenas com os sobreviventes e um outro apenas com os n√£o sobreviventes.
 1. Em cada conjunto de dados, calcular a probabilidade de ser cada categoria da vari√°vel `Sex`, ou seja, 
     * Entre os sobreviventes: calcular $ùëÉ(F|S)$ e $ùëÉ(M|S)$ a partir da base de dados. Aqui pode usar o comando `value_counts()`.
     * Entre os n√£o sobreviventes: calcular $ùëÉ(F|S^c)$ e $ùëÉ(M|S^c)$ a partir da base de dados. Aqui pode usar o comando `value_counts()`.
          
 1. Com todas essas probabilidades, calcular $P(S|F)$, $P(S^c|F)$, $P(S|M)$ e $P(S^c|M)$.

Vamos l√°! **Passo-a-passo**:

 1. Calcule as probabilidades $P(S)$, $P(S^c)$, $P(F)$ e $P(M)$. Lembra que aqui voc√™ pode usar o comando `value_counts()`.

 OBS.: Guarde essas probabilidades nas respectivas vari√°veis do python `P_S`, `P_Sc`, `P_F` e `P_M`.

In [None]:
# Item resolvido a seguir. Use como refer√™ncia para demais itens!

In [None]:
prob_surv = dados.Survived.value_counts(True, sort=False)
P_Sc = prob_surv[0]
P_S = prob_surv[1]

print(f'Probabilidade a priori de n√£o sobreviver: {P_Sc:0.5f}')
print(f'Probabilidade a priori de sobreviver: {P_S:0.5f}')

In [None]:
prob_surv

In [None]:
prob_sex = dados.Sex.value_counts(True, sort=False)
P_F = prob_sex[0]
P_M = prob_sex[1]

print(f'Probabilidade de ser do sexo feminino: {P_F:0.5g}')
print(f'Probabilidade de ser do sexo masculino: {P_M:0.5g}')

 2. Construa um conjunto de dados apenas com os sobreviventes e um outro apenas com os n√£o sobreviventes.
 
 OBS.: Guarde esses conjuntos de dados nas respectivas vari√°veis do python `dados_S` e `dados_Sc`.

In [None]:
# Coloque seu c√≥digo aqui.

 3. Entre os sobreviventes: calcule $ùëÉ(F|S)$ e $ùëÉ(M|S)$ a partir da base de dado `dados_S`. Aqui pode usar o comando `value_counts()`.
  
 OBS.: Guarde essas probabilidades nas respectivas vari√°veis do python `P_F_dado_S` e `P_M_dados_S`.
 
 <br> 
 
*Respostas esperadas:*
 
*Probabilidade de ser do sexo feminino entre os sobreviventes: 0.68129*
 
*Probabilidade de ser do sexo masculino entre os sobreviventes: 0.31871*

In [None]:
# Coloque seu c√≥digo aqui.

 3. Entre os n√£o sobreviventes: calcule $ùëÉ(F|S^c)$ e $ùëÉ(M|S^c)$ a partir da base de dados `dados_Sc`. Aqui pode usar o comando `value_counts()`.
          
  OBS.: Guarde essas probabilidades nas respectivas vari√°veis do python `P_F_dado_Sc` e `P_M_dados_Sc`.
  
<br> 
 
*Respostas esperadas:*
 
*Probabilidade de ser do sexo feminino entre os n√£o sobreviventes: 0.14754*

*Probabilidade de ser do sexo masculino entre os n√£o sobreviventes: 0.85246*

In [None]:
# Coloque seu c√≥digo aqui.

 4. Com todas essas probabilidades, calcule $P(S|F)$, $P(S^c|F)$, $P(S|M)$ e $P(S^c|M)$ seguindo as equa√ß√µes (I) e (II).
 
 OBS.: Guarde essas probabilidades nas respectivas vari√°veis do python `P_S_dado_F`, `P_Sc_dado_F`, `P_S_dado_F` e `P_Sc_dado_M`.
 
<br> 
 
*Respostas esperadas:*
 
*Probabilidade de ser sobreviventdo se feminino: 0.74204*

*Probabilidade de ser n√£o sobrevivente se feminino: 0.25796*

*Probabilidade de ser sobreviventdo se masculino: 0.18891*

*Probabilidade de ser n√£o sobrevivente se masculino: 0.81109*

In [None]:
# Coloque seu c√≥digo aqui.

<div id="class"></div>

___
## Classificando os passageiros 

Considerando seu **Classificador Naive-Bayes**, classifique cada passageiro do *DataFrame* `dados`como `No` ou `Yes` considerando apenas a vari√°vel `Sex`.

Conforme apresentado na Se√ß√£o Classification descrita neste [link](https://sebastianraschka.com/Articles/2014_naive_bayes_1.html), a classifica√ß√£o considerando a vari√°vel `Sex` dar√° da seguinte forma:

$$\begin{array}{lll} 
    \mbox{Se } P(S|F)>P(S^c|F) & \mbox{ent√£o } & \mbox{Classificar como Sobrevivente} \\
                                               & \mbox{caso contr√°rio } & \mbox{Classificar como N√£o Sobrevivente} 
   \end{array}$$

No dataframe `dados`, guarde essas classifica√ß√µes em uma nova vari√°vel chamada `ClassBySex`. 

In [None]:
# Classificando as mulheres
if (P_S_dado_F > P_Sc_dado_F):
    dados.loc[(dados.Sex=='female'),'ClassBySex'] = 'Yes'
else:
    dados.loc[(dados.Sex=='female'),'ClassBySex'] = 'No'
    

In [None]:
# Classificando os homens
if (P_S_dado_M > P_Sc_dado_M):
    dados.loc[(dados.Sex=='male'),'ClassBySex'] = 'Yes'
else:
    dados.loc[(dados.Sex=='male'),'ClassBySex'] = 'No'

In [None]:
dados.head(3)

<div id="sentimento"></div>

___
## An√°lise de sentimento

Fa√ßa uma an√°lise de sentimento cruzando a vari√°vel `ClassBySex` com a real classifica√ß√£o `Survived` utilizando a fun√ß√£o `pd.crosstab`.

Analise os resultados.

*Resposta esperada:*

 
Survived        | ClassBySex=No  | ClassBySex=Yes
--------------- | -------------- | --------------------
Survived=No     |0.525253        | 0.090909
Survived=Yes    |0.122334        | 0.261504

In [None]:
# Coloque seu c√≥digo aqui