# Análise Básica em Python

## Estatística descritiva
### Fundamentos de estatística

# Tutorial em Python
- Criado por Flávio Araujo

# Chi quadrado

In [1]:
from scipy.stats import chisquare

tabela = [
[40, 16, 12],
[32, 24, 16],
[24, 32,  4]
]

# Calcula a soma das linhas
soma_linha = [sum(t) for t in tabela]

# calcula a soma das colunas
soma_coluna = []
for i in range(len(tabela[0])):
    n = 0
    for j in range(len(tabela[i])):
        n += tabela[j][i]
    soma_coluna.append(n)

# Cria a tabela de frequencias esperadas
esperada = []
for c in soma_linha:
    linha = []
    for l in soma_coluna:
        linha.append(l*c/sum(soma_coluna))
    esperada.append(linha)

# calcula os graus de liberdade)
ddof = (len(tabela)-1) * (len(tabela[0])-1)

valor_chi2, p = chisquare(f_obs=tabela, f_exp=esperada, ddof=ddof, axis=None)


# imprime a tabela
for i, l in enumerate(tabela):
    print("", end=" | ")
    for j, c in enumerate(l):
        print(f"{c: 6,.0f}", end=" | ")
    print(f"{soma_linha[i]: 6,.0f}")
print("", end=" | ")
for i, l in enumerate(soma_coluna):
    print(f"{l: 6,.0f}", end=" | ")
print(f"{sum(soma_linha): 6,.0f}")

# interpret p-value
alpha = 0.05
print("p value is " + str(p))
if p <= alpha:
    print('Dependent (reject H0)')
else:
    print('Independent (H0 holds true)')

 |     40 |     16 |     12 |     68
 |     32 |     24 |     16 |     72
 |     24 |     32 |      4 |     60
 |     96 |     72 |     32 |    200
p value is 0.003212084698153722
Dependent (reject H0)


# Correlação de Pearson

In [2]:
from scipy.stats import pearsonr
import numpy as np

notas_matematica = [
    5.50, 9.00, 4.50, 6.50, 7.50, 3.00, 10.00, 9.00, 4.50, 5.00, 3.50, 7.50, 6.50, 8.00, 4.00,
    7.00, 7.50, 6.00, 10.00, 9.00, 8.00, 5.00, 4.00, 9.50, 6.50, 7.00, 5.00, 6.50, 8.50, 9.75]
notas_fisica = [
    7.50, 8.50, 5.00, 8.00, 6.00, 6.00, 8.00, 8.00, 5.50, 5.00, 5.00, 9.00, 7.50, 9.00, 5.00,
    6.00, 7.50, 9.00, 7.50, 10.00, 9.00, 5.00, 3.00,  8.00, 7.00, 7.50, 4.50, 8.00, 6.00, 5.00]
notas_literatura = [
    9.00, 5.50, 6.50, 6.50, 5.00, 10.00, 5.50, 6.50, 8.00, 5.50, 7.50, 4.50, 8.50, 5.00, 6.50,
    8.50, 6.00, 3.00, 5.00, 5.50, 9.00, 5.00, 7.50, 8.50, 4.50, 8.00, 9.00, 5.00, 6.00, 6.50 ]

cor, p = pearsonr(notas_matematica, notas_fisica)
print(f"Notas Matemática - Notas Física - corr {cor} / p = {p}")

cor, p = pearsonr(notas_matematica, notas_literatura)
print(f"Notas Matemática - Notas Literatura - corr {cor} / p = {p}")

cor, p = pearsonr(notas_fisica, notas_literatura)
print(f"Notas Física - Notas Matemática - corr {cor} / p = {p}")

print("Matriz de correlação")
print(np.corrcoef([notas_matematica, notas_fisica, notas_literatura], rowvar=True))


Notas Matemática - Notas Física - corr 0.6025321124160095 / p = 0.0004260030729539852
Notas Matemática - Notas Literatura - corr -0.308782778326862 / p = 0.09686159239066042
Notas Física - Notas Matemática - corr -0.2895610252192638 / p = 0.12064697753111912
Matriz de correlação
[[ 1.          0.60253211 -0.30878278]
 [ 0.60253211  1.         -0.28956103]
 [-0.30878278 -0.28956103  1.        ]]


# Distribuição Binomial

binom takes n and p as shape parameters, where p is the probability of a single success and 1-p is the probability of a single failure.
The probability mass function above is defined in the “standardized” form. To shift distribution use the loc parameter. Specifically, binom.pmf(k, n, p, loc) is identically equivalent to binom.pmf(k - loc, n, p).

The formula for the probability mass function was:
$$bpmf\left(n,k,p\right) = \binom{n}{k}p^k\left(1 - p\right)^{n - k}$$

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.binom.html#scipy.stats.binom

In [35]:
# Qualquer formula pode ser refeita com matemática básica abaixo um exemplo de formula usado apenas a biblioteca math do python

import math
def bpmf(n, k, p):
    return math.comb(n, k) * p**k * (1 - p)**(n-k)

p = 0.065
n = 12
k = 1

bpmf(n, k, p)

0.37241084729587093

In [43]:
# distribuição Binomial
# Aqui usaremos a biblioteca Scipy com muito suporte para estatística
from scipy.stats import binom

# temos a quantidade de sucessos (k) nas (n) repetições do experimento onde cada ocorrência tem uma probabilidade de sucesso de (p) 
p = 1/6
n = 10
k = 7

# gera uma distribuição binomial
dist = binom(n, p)

# Calcula dados estaísiticos destas amostras
mean, var, skew, kurt = dist.stats(moments='mvsk')

# calcula a probabilidade de 1 
prob = dist.pmf(k)

# ou em uma linha
#binom.pmf(k,n,p)
print(f"A probabilidade de {k} é de {prob*100:.04f}%")
print(f"Média: {mean}, Variância: {var}, Skew: {skew}, Curtosis: {kurt}")

A probabilidade de 7 é de 0.0248%
Média: 1.6666666666666665, Variância: 1.3888888888888888, Skew: 0.565685424949238, Curtosis: 0.11999999999999998


In [5]:
# ditribuição Binomial Negativa

from scipy.stats import nbinom
numero_ensaios = 5
quantidade_sucessos_k = 1

p = 0.11
n = quantidade_sucessos_k
k = numero_ensaios - quantidade_sucessos_k

# Gerando uma distribuição binomial negativa
distribuicao = nbinom(n, p)

# Calculando a probabilidade de obter k sucessos
probabilidade = distribuicao.pmf(k)

print(f"A probabilidade de obter {k} sucessos é {probabilidade*100:.4f}%")
print(probabilidade)



A probabilidade de obter 4 sucessos é 6.9016%
0.06901646510000001


In [58]:
# distribuição Poisson
from scipy.stats import poisson

x = 1
mu = 2
prob = poisson.pmf(x, mu)
print("Um médico notou que a taxa média de ocorrência (𝝀) de pacientes\ncom certa doença rara em seu consultório é de 2 por ano. Aceitando que esta\nvariável tenha distribuição Poisson, estime:")
print(f"A probabilidade de que o médico receba {x} paciente por ano é de {prob*100:.02f}%")

Um médico notou que a taxa média de ocorrência (𝝀) de pacientes
com certa doença rara em seu consultório é de 2 por ano. Aceitando que esta
variável tenha distribuição Poisson, estime:
A probabilidade de que o médico receba 1 paciente por ano é de 27.07%
