# Resolvendo problemas com Probabilidade

![title](img/capa.jpg)



## Eventos Condicionais

É considerado eventos condicionais quando a ocorrência de prévia de um evento aumenta ou diminui a ocorrência do outro.

__Exemplo:__

Suponhamos que uma pessoa que está saindo para trabalhar de manhã tem uma dúvida se leva ou não o guarda-chuva. Ao olhar  pela janela e observar o tempo e se o tempo estiver 'ruim' a probabilidade de sair com o guarda-chuva aumenta, dessa forma, podemos concluir que o evento 'tempo rum' e 'pegar guarda-chuva são condicionados'.



### Calculando Probabilidade Condiconada

Baseando-se nesta definição intuitiva da probabilidade, podemos calcular a probabilidade condicionada de B já que A, já ocorreu pela formula:

$$P(B | A) = \frac{P(B \cap A)}{P(A)}$$


__Exemplo:__
Julia tirou férias por 10 dias e anotou a frequência que foi à para a praia

In [176]:
df_praia = pd.read_csv('../data/praia.csv', encoding='ISO-8859-1')
df_praia


Unnamed: 0,Dia,Foi a praia,Fez sol
0,1,N,N
1,2,S,S
2,3,N,N
3,4,S,S
4,5,S,N
5,6,N,S
6,7,S,S
7,8,N,N
8,9,S,S
9,10,S,S


![title](img/draio.png)

Observando o dataset, responda as seguintes perguntas:

 - a) Qual é a probabilidade de Júlia ir à praia?
 - b) Dado que fez sol, qual é a probabilidade da Júlia ir à praia?

In [189]:
# Qual é a probabilidade de Júlia ir à praia?

# Intersercção de A e B 
n = len(df_praia)
n_praia = len(df_praia[(df_praia['Foi a praia'] == "S")])
p_praia_sol = n_praia / n
p_praia_sol

0.6

In [196]:
# Dado que fez sol, qual é a probabilidade da Júlia ir à praia?
n_praia_sol = len(df_praia[(df_praia['Foi a praia'] == "S") & (df_praia['Fez sol'] == "S")])

# A -> Fez sol
# B -> Ir a Praia

# União -> + / OU
# Intersecção -> * / E 


n_fez_sol = len(df_praia[(df_praia['Foi a praia'] == "S")])

#P(A | B) => P(A) e B / P(B)

print(n_praia_sol / n_fez_sol)

5
0.8333333333333334


## Teorema de Bayes

![title](img/draio1.png)

$$P(A | B) = \frac{P(A \cap  B)}{P(B)}$$


In [198]:
import pandas as pd
import numpy as np

# Importando o dataset
df = pd.read_csv('../data/spam.csv', encoding='ISO-8859-1')

df['sms'] = df['v2']
df['spam'] = np.where(df['v1'] == 'spam', 1, 0)
df = df[['sms','spam']]

df.head()

Unnamed: 0,v1,v2,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,ham,"Go until jurong point, crazy.. Available only ...",,,
1,ham,Ok lar... Joking wif u oni...,,,
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,,,
3,ham,U dun say so early hor... U c already then say...,,,
4,ham,"Nah I don't think he goes to usf, he lives aro...",,,


In [208]:

df['sms'] = df['v2']
df['spam'] = np.where(df['v1'] == 'spam', 1, 0)
df = df[['sms','spam']]
df.head()

Unnamed: 0,sms,spam
0,"Go until jurong point, crazy.. Available only ...",0
1,Ok lar... Joking wif u oni...,0
2,Free entry in 2 a wkly comp to win FA Cup fina...,1
3,U dun say so early hor... U c already then say...,0
4,"Nah I don't think he goes to usf, he lives aro...",0


In [209]:
spam_df = df.loc[df['spam'] == 1]
legitimo_df = df.loc[df['spam'] == 0]

qtd_span = len(spam_df)
qtd_legitimo = len(legitimo_df)



In [227]:
vectorizer_spam = CountVectorizer(stop_words='english', max_features=30)
vectorizer_spam.fit(df['sms'])
#vectorizer_spam.vocabulary_
vectorizer_spam.vocabulary_

{'got': 8,
 'ok': 19,
 'free': 5,
 'text': 24,
 'txt': 27,
 'don': 3,
 'like': 13,
 'send': 21,
 'home': 10,
 'want': 29,
 'today': 26,
 'day': 2,
 'reply': 20,
 'dont': 4,
 'ur': 28,
 'going': 6,
 'da': 1,
 'lor': 15,
 'just': 11,
 'love': 16,
 'll': 14,
 'know': 12,
 'need': 18,
 'lt': 17,
 'gt': 9,
 'time': 25,
 'sorry': 22,
 'good': 7,
 'come': 0,
 'stop': 23}

In [None]:
# Produto é muito bom bom bom -> documento
# 

In [210]:
def prob_palavra_dado_spam(palavra):
    # 
    qtd_spam_com_a_palavra = len([row for idx,row in spam_df.iterrows() if palavra in row.sms])
    
    qtd_span = spam_df.spam.count()
    
    return qtd_spam_com_a_palavra/ qtd_span  if qtd_spam_com_a_palavra > 0 else 0 

prob_palavra_dado_spam('win')
    

0.08701472556894244

In [211]:
def probabilidade_spam():
    return len(spam_df) / (len(df))

def probabilidade_legitimo():
    return len(legitimo_df) / (len(df))

In [216]:
def prob_palavra(palavra):
    qtd_palavra_no_sms = len([row for idx,row in df.iterrows() if palavra in row.sms])
    qtd_sms = len(df)
    
    return qtd_palavra_no_sms / qtd_sms if qtd_palavra_no_sms > 0 else 0 

prob_palavra('click')

0.0007178750897343862

In [220]:
def prob_spam_dado_palavra(palavra):
    ''' Retorna a Probabilidade '''
    p_palavra_dado_spam = prob_palavra_dado_spam(palavra)
    p_spam = probabilidade_spam()    
    p_palavra = prob_palavra(palavra)
    return (p_palavra_dado_spam * p_spam) / p_palavra


In [224]:
prob_spam_dado_palavra('think')



0.07741935483870968