<a href="https://colab.research.google.com/github/thuthu-c/C-digos-HTML-CSS-e-JS/blob/main/roteiro_de_atividades_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Roteiro de atividades 2 - Introdução à Probabilidade/Probabilidade Condicional/Teorema de Bayes

Material elaborado por Rute Abreu (2020.5), adaptado por Elvis Melo (2020.6)

# Objetivo

Trabalhar com a base de dados **PoliceKillings** com ajuda da ferramenta Google Colab e utilização da linguagem de programação *Python*, de maneira a fixar os conteúdos das seguintes aulas: 

*   Introdução à Probabilidade
*   Probabilidade condicional
*   Teorema de Bayes

#Expectativa

Finalização do roteiro de atividades, compreensão dos assuntos abordados e desenvolvimento de habilidades para resolução de problemas probabilísticos na linguagem *Python*.


# 1 Obtendo a base de dados

Neste roteiro vamos seguir um caminho um pouco diferente para obter a base de dados. Ao ínves de usar uma base nova, usaremos a mesma base do **roteiro 1**. Como vocês devem lembrar, nós já realizamos as etapas de tratamento de dados nessa base, por isso você não precisará refazer esta etapa da análise. 

Para obter a base já com os devidos tratamentos, acesse esse [link](https://drive.google.com/file/d/1LVEwJNUi-G3Il1wS8U_sh7vk1kSrC5-E/view?usp=sharing) do google drive e faça o download do arquivo.

## 1.1 - Subindo a base de dados para o Colab

Para subir a nossa base de dados para o Colab, você deve clicar no icone com formato de pasta (files) no menu lateral esquerdo e em seguida na opção upload. Após isto, navegue até a base de dados descompactada e escolha o arquivo polliceKillings.csv.


# 2 - Leitura dos dados e importação das bibliotecas iniciais

Para realizar a leitura da nossa base de dados, iremos novamente fazer a inclusão da biblioteca `Pandas` e utilizar o comando `read_cvs("seuArquivo.csv", index_col = 0)`. 

Além da **Pandas**, iremos incluir a biblioteca **numpy** para lidar com futuras operações matematicas e manipulação de vetores e matrizes.

Complete o código do exércício #1 utilizando o método  `read_csv()` para armazenar a base dados na variável policeKillingsDF.

Lembre-se que no pandas chamamos essa representaçao de Dataframe.

In [8]:
# Exercício 1

import pandas as pd
import numpy as np

policeKillingsDF = pd.read_csv("/content/PoliceKillingsUS.csv", encoding = "latin1")
policeKillingsDF.reset_index(drop=True, inplace=True)


Adendos da seção: Apesar da descrição do dataset ser a mesma do roteiro #1, vou deixar disponível aqui pra você consultarem mais rápido, caso precisem entender o que cada variável representa.

# 3 - Descrição do dataset

Este dataset trata de mortes de civís executadas por policíais nos Estados Unidos. Se trata de uma base de dados construída pelo Wahsington Post entre os meses de Janeiro de 2015 à dezembro de 2017. 

Essa base começou a ser  montada após o assassinato de Michael Brown na cidade de Ferguson, estado do Missouri, evento que deu inicio ao movimento **Black Lives Matter**. 

Você pode ver uma breve descrição de cada coluna na lista abaixo:

* name - O nome da pessoa assassinada
* date - A data do acontecimento
* manner_of_death - A maneira pela qual o assassinato se deu.
* armed - O tipo de arma utilizada pelo civíl.
* age - A idade da civíl
* gender - O gênero biológico.
* race - A raça
* city - A cidade onde aconteceu o evento
* state - O estado onde aconteceu o evento
* signs_of_mental_illness - Se a vítima estava passando por alguma crise de saúde mental
* threat_level - O nível de ameaça que individuo apresentava
* flee - Se a pessoa estava em fuga
* body_camera - Se a pessoa usava alguma camera.


No exercício #2 visualize as cinco primeiras linhas do seu *dataset* usando o comando ` meuDataset.head()`. Isso te ajudará a entender melhor como são os seus dados, visualizando, por exemplo, se são catégoricos ou continuos.

In [5]:
#Exercício 2 


policeKillingsDF.head()

Unnamed: 0,id,name,date,manner_of_death,armed,age,gender,race,city,state,signs_of_mental_illness,threat_level,flee,body_camera
0,3,Tim Elliot,02/01/15,shot,gun,53.0,M,A,Shelton,WA,True,attack,Not fleeing,False
1,4,Lewis Lee Lembke,02/01/15,shot,gun,47.0,M,W,Aloha,OR,False,attack,Not fleeing,False
2,5,John Paul Quintero,03/01/15,shot and Tasered,unarmed,23.0,M,H,Wichita,KS,False,other,Not fleeing,False
3,8,Matthew Hoffman,04/01/15,shot,toy weapon,32.0,M,W,San Francisco,CA,True,attack,Not fleeing,False
4,9,Michael Rodriguez,04/01/15,shot,nail gun,39.0,M,H,Evans,CO,False,attack,Not fleeing,False


# 4 - Introdução a probabilidade

A probabilidade nos diz qual é a chance de um determinado evento ocorrer. Sua definição matemática é dada pela equação abaixo:

### <center> $ P(x) = \frac{nº\ de\ casos\ em\ que\ x\ pode \ ocorrer}{numero\ total\ de\ casos}$ </center>

O número total de casos quem compõe  é chamado de espaço amostral: $\Omega$. <br>
O valor de uma probabiliadade varia sempre de 0 a 1 (0% - 100%). Portanto, $  0 \leq P(x) \leq 1$. Quando a probabilidade de um evento é 1, chamamos esse evento de **evento certo**. Já quando é ela 0, chamamos de **evento impossível**.

Formalmente, a probabilidade de um evento A, ocorrer em um espaço amostral $\Omega$ obedece algumas propriedades:

* $P(A) \geq 0$
* $P(\Omega) = 1$
* $ Se A_1, A_2, A_3,...A_N$ são eventos multuamente exclusivos então $P(\cup_i^{n} A_i) =  \sum_i^n P(A_i)$

Além disso, a partir dessas propriedades fundamentais, derivamos as seguintes:

Se $A^c$ é o evento complementar de $A$, então:

* $ A\cup A^c = \Omega$
* $A \cap A^c = \emptyset $
* $ P(A^c) = 1 - P(A) $






## 4.1 Exploração do dataset através do cáculo de probabilidades marginais

Nos próximos exercícios vamos extrair algumas informações dos nossos dados através do cálculo de probabiidade. Para isso, vamos escolher alguns aspectos que queremos investigar e usar a definição formal de probabilidade.

### 4.1.1 Probabilidade dos individuos assassinados serem do sexo masculino e feminino

Você tem alguma ideia de qual sexo tem maior probabilidade de ocorrência dentre os dados de assassinatos coletados?

Bem, sabemos que a nossa base de dados é composta por assassinatos de pessoas por policiais americanos. Assim, cada entrada (linha) representa a morte de civíl que pode ser do sexo Masculino (M) ou Feminino (F).

Então, vamos as definções. Precisamos saber quais eventos estamos interessados em calcular a probabilidade e quem é o nosso universo, o nosso espaço amostral.

É razoável definir como espaço amostral o conjunto de todos os assassinatos declarados na base de dados.

E o evento? O que queremos saber é: qual é a probabilidade do indivíduo asssassinado ser do sexo masculino e qual a probabilidade de ele ser do sexo feminino. Então temos dois eventos: 


*   A pessoa morta é do sexo feminino
*   A pessoa morte é do sexo masculino

Contudo, sabemos que na base de dados, o evento "ser do sexo feminino" é complementar ao evento "ser do sexo masculino", não levando em consideração as pessoas com ambos os sexos ou interssexuais.

Portanto, só precisamos calcular uma dessas probabilidades e usar a propriedade evento complementar.

Então vamos ao exercício:

Para realizar a contagem dos eventos por sexo, iremos utilizar novamente o método `groupby()` da bilioteca Pandas. Como você viu nos roteiros passados, sempre que usamos um metodo de agrupamento é necessário dizer como será feita de agregação dos dados. No nosso caso, vamos utilizar o metodo `size()` para realizar a contagem.

No exercício 3 utilize o comando **`meuDataset.groupby("colunaQueQueroAGrupar").size()`** para realizar o agrupamento das pessoas por sexo. Armazene esse resultado na variável **` mortes_por_sexo`**.

Após fazer essa operação, complete as demais etapas código para separar o valor de cada contagem. Utilize a definição formal de probabilidade para calcular a probabilidade $P(M)$ e a propriedade do complementar para descobrir a probablidade $P(F)$.


In [7]:
#Exercício 3

mortes_por_sexo = policeKillingsDF.groupby("gender").size()
print("Mortes por sexo\n\n ", mortes_por_sexo)

numero_casos_feminino = mortes_por_sexo[0]
numero_casos_masculino = mortes_por_sexo[1]

numeroTotalDeCasos = numero_casos_feminino + numero_casos_masculino

probabilidade_masculino = numero_casos_masculino/numeroTotalDeCasos
probabilidade_feminino = numero_casos_feminino/numeroTotalDeCasos

print("Probabilidade da pessoa morta ser do sexo masculino ", probabilidade_masculino)
print("Probabilidade da pessoa morta ser do sexo feminino ", probabilidade_feminino)

Mortes por sexo

  gender
F     107
M    2428
dtype: int64
Probabilidade da pessoa morta ser do sexo masculino  0.9577909270216962
Probabilidade da pessoa morta ser do sexo feminino  0.04220907297830375


### 4.1.2 Probabilidade do individuo assassinado ter mais de 20 anos.

Para calcular probabilidade do indivíduo ter mais de 20 anos, teremos que novamente fazer a contagem desse evento. Dessa vez faremos, digamos, mais artesanalmente. 

Primeiro você precisará contar todas as entradas do *dataset* em que a idade da pessoa é maior que 20 anos. Após isso, contabilize o número total de entradas e use a definição de probabilidade para obter o resultado.

Complete o código do exercício #4 para realizar essas operações.



In [12]:
#Exercício 4

#Extração de um subdataset contendo apenas as colunas de idade.
subDFIdade = policeKillingsDF[['age']]

countMascMaiorQue20 = 0
countTotal = len(subDFIdade)

for indice, linha in subDFIdade.iterrows():
    if linha['age'] > 20:
      countMascMaiorQue20 = countMascMaiorQue20 + 1
 

print("Número de eventos em que o individuo tinha mais de 20 anos: ",countMascMaiorQue20)

probabilidadeMaisDe20 = countMascMaiorQue20/ countTotal 
print("A probabilidade do indivíduo assassinado ter mais de 20 anos é: ", probabilidadeMaisDe20)


Número de eventos em que o individuo tinha mais de 20 anos:  2271
A probabilidade do indivíduo assassinado ter mais de 20 anos é:  0.8958579881656805


#5 - Probabilidade condicional

Probabilidade condicional é um conceito estatístico que estuda a probabilidade de um evento ocorrer dado que outro evento já ocorreu. Desse modo, dado dois eventos A e B, a P(A|B) (lê-se probabilidade de A dado B), é a probabilidade do evento A ocorrer, sabendo que o evento B já ocorreu. 

A sua definição é dada pela equação abaixo:
#### <center> $P(A|B) = \frac{P(A \cap B)}{P(B)}$ <br> </center>

Se o evento A é independente do evento B, então $P(A \cap B) = P(A) \cdot P(B)$, e a equação da probabilidade condicional pode ser reescrita da seguite maneira:

#### <center> $P(A|B) = \frac{P(A) \cdot P(B)}{P(B)}$

Nos próximos exercícios, você vai exercitar esse conceito para obter algumas informações da nossa base de dados.

## 5.1 Probabilidade de um indíviduo do sexo masculino ter sido assasinado no estado do Texas.

Para descobrir essa informação, nós vamos usar o conceito de probabilidade condicional. Mas antes de iniciar o cálculo desta probabilidade, precisamos definir quem são os nossos eventos. 

Vamos chamar de **M** o evento que já sabemos que ocorreu, ou seja, a pessoa assassinada era do sexo masculino, e de **T** o evento relativo a pessoa ter sido assassinada no estado do Texas. 

Para sumarizar o nosso problema, seguem as definições:

* $M $- A pessoa assassinada é do sexo masculino.
* $T$ - A pessoa foi assassinada no estado do Texas.
* $P(T | M)$  - Probabilidade da pessoa ter sido assassinada no estado do Texas, dado que era do sexo masculino.

Desse modo a probabilidade que queremos calcular é:

### <center>$P(T | M) = \frac{P(T \cap M)}{P(M)}$ </center>

Quando estamos trabalhando com dados reais, nem sempre sabemos sobre sua natureza ou como variáveis se relacionam umas com  as outras.  Por isso, é perigoso fazer afirmações sobre os dados antes de explorá-los bem. 

Por exemplo, inicialmente parece ser razoável afirmar que  estado onde individuo morreu independe ele do ser sexo masculino, não é? Mas será que isso é mesmo verdade?

Para descobrir isso vamos calcular a probabilidade condicional de duas maneiras:

* 1ª - Utilizando o princípio da contagem
* 2ª - Considerando que as eventos são independentes, o que implica que: $P(T \cap M) = P(T) \cdot P(M)$





### 5.1.1 - Cálculo utilizando principio da contagem

Incialmente, nós precisamos extrair um subconjunto do dataset contendo apenas as nossas variáveis de interesse, nesse caso ***gender*** e ***state***.

Armazene na variável **`subDFSexoEstado`** um subconjunto do nosso dataset apenas com as variáveis ***gender*** e ***state***, para isso utilize o comando **`meuDataset[['variavel_1, variavel_2']]`.**

In [25]:
#Exercício 5

#Extração de um subdataset contendo apenas as colunas de sexo e estado.
subDFSexoEstado = policeKillingsDF[['gender', 'state']]

Agora que já temos o nosso conjunto, vamos fazer a contagem dos eventos em que o individuo é do sexo masculino e morreu no estado texas, ou seja a contagem da interseção M $\cap$ T.

A definição de probabilidade condicional exige a obtenção da probabilidade marginal do evento que temos certeza (no nosso caso, o gênero da pessoa). Por isso, você também precisará fazer a contagem de todos os eventos em que o indivíduo é do sexo masculino.

Complete o código da célula abaixo, para calcular o valor das variaveis de contagem `countMasculino` e `countMasculinoETexas`.


In [30]:
#Exercício 6

#Probabilidade utilizando o principio da contagem.
countMasculinoETexas = 0
countMasculino = 0

#total de eventos possíveis
countTotal = len(subDFSexoEstado)

#Contagem de eventos pertecentes a interseção
for indice, linha in subDFSexoEstado.iterrows():
    if linha['gender'] == 'M':
        countMasculino +=1
        if linha['state'] == 'TX':  
          countMasculinoETexas += 1       

          

Agora que você já tem as contagens, calcule as probabilidades P(M) e P(M $\cap$ T) , utilizando a definição formal de probabilidade.

Por fim, calcule a probabilidade condicional utilizando sua definição e os resultados obtidos.

In [33]:
#Exercício 7

#Probabilidade de ser do sexo masculino
probMasculino = countMasculino/countTotal

#probablidade de ser do sexo masculino e ter sido assassinado no texas.
probMasculinoTexas = countMasculinoETexas/countTotal

probCondicional =  probMasculinoTexas/probMasculino
print("A probabilidade ser do texas dado que é do sexo masculino: ", probCondicional)

A probabilidade ser do texas dado que é do sexo masculino:  0.08813838550247118


### 5.1.2 - Cálculo assumindo independência
Agora você já sabe qual é o valor da probabilidade $P(T | M)$ utilizando o principio da contagem. Mas será que essas variáveis são independentes? Vamos descobrir isso calculando novamente a probabilidade condicional, mas agora assumindo independência das variáveis. 

Complete o código da célula abaixo para realizar essa operação. 

* Dica: Utilize a definição da probabilidade da interção para eventos independentes.

In [35]:
#Exercício 8
#Probabilidade assumindo independência entre os eventos
countMasculino = 0
countTexas = 0
countTotal = len(subDFSexoEstado)

for indice, linha in subDFSexoEstado.iterrows():
    if linha['gender'] == 'M':
      countMasculino+=1
    if linha['state'] == 'TX':
      countTexas +=1

probMasculino = countMasculino/countTotal
probTexas = countTexas/countTotal

probInterseção = probMasculino*probTexas
probCondicionalInd = probInterseção/probMasculino

print('A probabilidade condicional considerando independência é: ', probCondicionalInd)

A probabilidade condicional considerando independência é:  0.08875739644970414


In [None]:
# Exercício 9
Agora que você calculou das duas maneiras, os eventos são ou não independentes? Mais pra sim do que pra não 

#6 - Teorema de Bayes

Outra forma de calcular a probabilidade condicional é utilizando o teorema de Bayes. Ele costuma ser utilizado em situações em que se precisa quantificar a veracidade de um evento que já ocorreu, dado que já conhecemos algumas evidências. 

Sua definição é dada pela equação abaixo:

#### <center> $P(B|A) = \frac{P(A|B) \cdot P(B)}{P(A)}$


## 6.1 Probabilidade de um individuo assassinado no texas ser do sexo masculino.
No exercício #10, vamos calcular a probabilidade reversa do exercício anterior, isto é vamos calcular a probabilidade do individuo assassinado ser do sexo masculino dado que morreu no estado do Texas.

Vamos nomear os eventos da mesma maneira:

* $M $- A pessoa assassinada é do sexo masculino.
* $T$ - A pessoa foi assassinada no estado do Texas.
* $P(M | T)$  - Probabilidade da pessoa ser do sexo masculino, dado que o assassinato ocorreu no estado do Texas.


Portanto,

#### <center> $P(M|T) = \frac{P(T|M) \cdot P(M)}{P(T)}$

Complete o código do exercício #10 , utilizando a definição acima e os resultados armazendos dos 2 últimos exercícios para calcular P(M|T).


In [36]:
#Exercício 10
probCondicionalBayers = (probCondicional*probMasculino)/probTexas
print("A probabilidade condicional P(M|T) é: ", probCondicionalBayers)

A probabilidade condicional P(M|T) é:  0.9511111111111112
