## IA&ML - Conceitos Estatísticos para IA
### Trabalho prático usando o Python
### Noções de probabilidade

### Definição 1

“A probabilidade simplesmente determina qual é a chance de algo acontecer.”

“Toda vez que não temos certeza sobre o resultado de algum evento, estamos tratando da probabilidade de certos resultados acontecerem—ou quais as chances de eles acontecerem.”

Fonte:https://pt.khanacademy.org/math/probability/probability-geometry/probability-basics/a/probability-the-basics


### Definição 2

“As frequências relativas são estimativas de probabilidade de ocorrência de certos eventos de interesse. 
Com suposições adequadas, e sem observamos diretamente o fenômeno aleatório de interesse, podemos criar 
um modelo teórico que reproduza de maneira razoável a distribuição das frequências, quando o fenômeno é 
observado diretamente. Tais modelos são chamados de modelos probabilísticos.”

(Bussab, WO e Morettin, PA, Estatística Básica. 5 ed. São Paulo: Saraiva, 2002, página 103).


![exemplo2_prob_freq.png](attachment:exemplo2_prob_freq.png)

### Propriedades

    (1) Para cada experiência define-se um espaço amostral
    (2) Probabilidade de um evento E:  0 ≤ P(E) ≤ 1
    (3) P(S) = Soma das probabilidades dos eventos simples = 1


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb

In [None]:
A= [4,5,5,6,6,7,7,8,8,8,9,9,9,10,10,10,10,10,11,11,11,11,11,12,12,12,13,13,13,14,14,15,15,16,16,17]
B= [4,4,4,4,4,4,5,5,5,5,5,5,6,6,7,7,7,14,14,14,15,15,15,16,16,16,16,16,17,17,17,17,17,17]
C= [8,8,8,8,9,9,9,9,10,10,10,10,10,10,11,11,11,11,11,11,12,12,12,12,13,13,13,13]


In [None]:
# Distribuição da variável A

sb.histplot(data=A);

In [None]:
# Distribuição da variável B

sb.histplot(data=B);

In [None]:
# Distribuição da variável C

sb.histplot(data=C);

In [None]:
# Médias
print ('Média', '\n  A:', np.mean(A),'\n  B:', np.mean(B), '\n  C:', np.mean(C))

In [None]:
# Médias
print ('Mediana: ', '\n  A:', np.median(A),'\n  B:', np.median(B), '\n  C:', np.median(C))



In [None]:
# Desvios
print ('Desvio Padrão: ', '\n  A:', np.std(A),'\n  B:', np.std(B), '\n  C:', np.std(C))


### Exemplo 1: Qual a probabilidade de ganhar o prêmio máximo da Mega Sena com um único jogo de seis dezenas?

![megasena.png](attachment:megasena.png)


#### Espaço amostral

omega = {(1,2,3,4,5,6), (1,2,3,4,5,7), (1,2,3,4,5,8) .... (????)}

### Método para resolver problema relacionado a contagem

![analise_combinatoria.png](attachment:analise_combinatoria.png)

Exemplificar, encontre todas as combinações possíveis do conjunto {A, B, C, D} com dois elementos:

Listando as combinações com dois elementos, são elas: {A,B}, {A,C}, {A,D}, {B,C}, {B,D} e {C,D}.

Nesse caso é possível ver que há 6 combinações possíveis (só lembrando que os subconjuntos {A,B} e {B,A} são iguais, pois, na combinação, a ordem não é importante)

C(4,2) = 4! /(4-2)!*2! 

#### Fatorial
0! = 1
1! = 1
2! = 2 x 1 = 2
3! = 3 x 2 x 1 = 6

In [None]:
# Solução
print('3!=',np.math.factorial(3))



In [None]:
n = 60
p= 6
difnp = n - p
print('n!=',np.math.factorial(n))
print('p!=',np.math.factorial(p))      
print('difnp!=',np.math.factorial(difnp))
print('combinacoes=',np.math.factorial(n)/(np.math.factorial(difnp)*np.math.factorial(p)))


In [None]:
# Cálculo da probabilidade de ganhar com um único jogo da Mega Sena

prob = 1/np.math.factorial(n)/(np.math.factorial(difnp)*np.math.factorial(p))
print(prob)

## Distribuição de probabilidade
### Variável discreta




![distr_poisson.png](attachment:distr_poisson.png)

#### Construir o modelo preditivo a fim de prever o resultado de partidas do campeonato brasileiro.

Considerando que a quantidade de gols marcados (K) em uma partida de futebol do Campeonato Brasileiro de Futebol (Brasileirão) em 2018 seja uma variável aleatória que segue a distribuição de Poisson com média de gols igual a 𝜆. A frequência média ou esperada de ocorrências num determinado intervalo de tempo é dada por 𝜆.

 Calcule a probabilidade de ocorrer k = 0, 1, 2, 3, 4, 5, 6 e 7
   

In [None]:
# Importar os dados do Cartola FC de 2018 para estimar a média de gols.

cartolafc = pd.read_excel(r'C:/Users/AdelaideAlvesdeOlive/OneDrive - SD&W/1-Material/IAeML/Probabilidade/cartola_fc_2018.xlsx')

In [None]:
cartolafc.head()

In [None]:
cartolafc.info()

In [None]:
cartolafc.describe().round(2)

In [None]:
media_gols = cartolafc['gols'].mean()
print(media_gols)

In [None]:
# Gráfico da variável gols
sn.countplot(x='gols', data=cartolafc)

In [None]:
# Calcular a média de gols

media_gols = cartolafc['gols'].mean()
print(media_gols)

In [None]:
# Qual a probabilidade de ocorrer 0 gol?
# P(K=0) = 0.113413528037031
lamb = media_gols
euler = 2.71828
k=0
numerador = (euler**(-lamb))*lamb**k
denominador = np.math.factorial(k)
prob_k = numerador/denominador
print('prob=', prob_k)

In [None]:
# Qual a probabilidade de ocorrer 1 gol?
# P(K=1) = 0.24682365180690696
lamb = media_gols
euler = 2.71828
k=1
numerador = (euler**(-lamb))*lamb**k
denominador = np.math.factorial(k)
prob_k = numerador/denominador
print('prob=', prob_k)

In [None]:
# Qual a probabilidade de ocorrer 2 gol?
# P(K=2) = 0.26858310532146323
lamb = media_gols
euler = 2.71828
k=2
numerador = (euler**(-lamb))*lamb**k
denominador = np.math.factorial(k)
prob_k = numerador/denominador
print('prob=', prob_k)

In [None]:
# Qual a probabilidade de ocorrer 3 gol?
# P(K=3) = 0.19484055096565803
lamb = media_gols
euler = 2.71828
k=3
numerador = (euler**(-lamb))*lamb**k
denominador = np.math.factorial(k)
prob_k = numerador/denominador
print('prob=', prob_k)

In [None]:
#instalar: pip install empiricaldist
!pip install empiricaldist
from empiricaldist import Pmf

def poisson_pmf (lam,qs):
    ps = poisson(lam).pmf(qs)
    pmf = Pmf(ps,qs)
    return pmf
    


In [None]:
from scipy.stats import poisson

# Probanility Mass Function
from empiricaldist import Pmf
def poisson_pmf(lam, qs):
    ps=poisson(lam).pmf(qs)
    pmf=Pmf(ps,qs)
    return pmf

In [None]:
lam = media_gols
goals=np.arange(10)
pmf_goals = poisson_pmf(lam,goals)
print(pmf_goals)

In [None]:
# Probanility Mass Function
lam = 2
goals=np.arange(10)
pmf_goals = poisson_pmf(lam,goals)
print(pmf_goals)

https://docs.python.org/pt-br/3/library/statistics.html

## Distribuição de probabilidade
### Variável contínua

![distr_normal.png](attachment:distr_normal.png)

## Distribuição Normal Padrão ou Normal Reduzida

![dist_norm_padr.png](attachment:dist_norm_padr.png)

In [None]:
# Use a Tabela Normal Padrão para encontrar a probabilidade:

1) P(Z > 0) = 0.50

2) P(Z < 0) = 0.50

3) P(Z > 1.96) = 0.50 -0.475 = 0.025

4) P(Z < -1.96) = 0.50 - 0.475 = 0.025

5) P(-1.96 < Z < +1.96) = 0.475 + 0.475 = 0.95

## Normalização dos dados

![padr_variaveis.png](attachment:padr_variaveis.png)


In [None]:
# Importar os dados de ingestão de sal da Pesquisa Nacional de Saúde (PNS) 2013 do IBGE

sal = pd.read_excel(r'C:/Users/AdelaideAlvesdeOlive/OneDrive - SD&W/1-Material/IAeML/Probabilidade/sal_lab1.xlsx')

In [None]:
sal.head()

In [None]:
sal.info()

In [None]:
sal.isna().sum()

In [None]:
sal.describe()

In [None]:
# Histograma da Ingestão de Sal

plt.hist(sal['Ingestao_Sal'])

In [None]:
# Análise descritiva da Ingestão de sal

In [None]:
# Ingestão de Sal tem média 9,14g/dia e desvio padrão de 2.32g/dia

# Criar a variável z_score_sal com média 0 e variância igual a 1
sal['zscore_sal'] = (sal['Ingestao_Sal'] - 9.14)/2.32

In [None]:
sal.head()

In [None]:
sal.describe().round(2)

In [None]:
# Gráfico histograma da Ingestão de Sal e Z_score_sal
plt.subplot(1,2,1)
plt.hist(sal['Ingestao_Sal'], bins=10)
plt.subplot(1,2,2)
plt.hist(sal['zscore_sal'], bins=10)

In [None]:
# Criar a variável padronizada da Ingestão de Sal usando o critério do Máximo e Mínimo

sal['sal_normalizado'] = (sal['Ingestao_Sal'] -  1.13)/(28.28 - 1.13)

In [None]:
sal.describe().round(2)

In [None]:
# Fazer o gráfico histograma da Ingestão de Sal e sal_normalizada
plt.subplot(1,3,1)
plt.hist(sal['Ingestao_Sal'], bins=10)
plt.subplot(1,3,2)
plt.hist(sal['zscore_sal'], bins=10)
plt.subplot(1,3,3)
plt.hist(sal['sal_normalizado'], bins=10)


https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.norm.html

![image.png](attachment:image.png)

Method	Meaning
cdf	Cumulative distribution function
sf	Survival function = complementary CDF

# Qual a probabilidade da ingestão de sal ser maior que 8.56 g/dia?


![image.png](attachment:image.png)

In [None]:
from scipy.stats import norm

# Qual a probabilidade da ingestão de sal ser maior que 8.56 g/dia?

# sf(x, loc=0, scale=1)  Survival function (also defined as 1 - cdf, but sf is sometimes more accurate).

norm.sf(8.56,9.14,2.32)

In [None]:
# Qual a probabilidade da ingestão de sal ser menor que 8.56g/dia
# cdf(x, loc=0, scale=1) Cumulative distribution function.

norm.cdf(8.56,9.14,2.32)

In [None]:
# Qual a probabilidade da ingestão de sal ser entre 8g/dia e 10g/dia?
# Probabilidade da ingestão de sal ser  é menor que 10 e maior que 8 
norm.cdf(10,9.14,2.32)-norm.cdf(8,9.14,2.32)


In [None]:
# Qual a probabilidade da ingestão de sal é menor que 6g/dia ou maior que 10g/dia
norm.cdf(6,9.14,2.32) + norm.sf(10,9.14,2.32)

