### A distribui√ß√£o Normal (de Moivre ou Gaussiana)
#### Pode ser estimada atrav√©s de 2 par√¢metros:
  - m√©dia
  - desvio padr√£o

In [None]:
# fun√ß√£o num√©rica do python: numpy
import numpy as np

# fun√ß√£o estat√≠stica do python: scipy
from scipy import stats
from scipy.stats import gaussian_kde

import seaborn as sns

# fun√ß√£o gr√°fica: matplotlib (h√° outras como seaborn e plotly)
import matplotlib.pyplot as plt
# %matplotlib inline

### Variando medias e desvios padr√µes

In [None]:
mu_params = [-1, 0, 1]
sd_params = [0.5, 1, 1.5]

x = np.linspace(-7, 7, 100)
f, ax = plt.subplots(len(mu_params), len(sd_params), sharex=True, sharey=True, figsize=(12,8))

for i in range(3):
    for j in range(3):
        MU = mu_params[i]
        SSD = sd_params[j]

        y = stats.norm(MU, SSD).pdf(x)
        label = f"MU = {MU:.1f} SSD={SSD:.1f}"

        ax[i,j].plot(x, y)
        ax[i,j].plot(0, 0, label=label, alpha=0)
        ax[i,j].legend(loc='upper right', fontsize=12);

ax[2,1].set_xlabel('$x$', fontsize=16);
ax[1,0].set_ylabel('$pdf(x)$', fontsize=16);

plt.tight_layout()

### A distribui√ß√£o Z √© uma normal com media=0 e sigma=1

In [None]:
N=500
MU = 0
SSD = 1

# random normal - stats.norm. random variates
y = stats.norm.rvs(loc=MU,scale=SSD,size=N)

# plot histogram
ret = plt.hist(y, bins=30, density=True)
perc, bins, patches = ret

# stats.norm.pdf - probabilistic density function
yfit = stats.norm(MU, SSD).pdf(bins)
l = plt.plot(bins, yfit, 'r-.', lw=2)

# kernel gaussiano
# aproximar os dados a uma curva pr√≥xima a uma gaussiana ~ smooth (arredondamento suave)
kde = gaussian_kde(y)
seqx = np.linspace(y.min(), y.max(), 400)
y_kde = kde(seqx)
plt.plot(seqx, y_kde, 'b--', lw=2)

plt.grid()

In [None]:
MU = 0
SSD = 1

y = stats.norm.rvs(loc=MU,scale=SSD,size=500)

sns.histplot(y, bins=30, stat="density", kde=True)

yfit = stats.norm(MU, SSD).pdf(bins)
l = plt.plot(bins, yfit, 'r--', lw=2)

plt.grid()

In [None]:
sns.histplot(y, bins=30, stat="density", kde=True);

### O que acontece se amostrarmos 10 n√∫meros

In [None]:
MU = 0
SSD = 1
N=10

y = stats.norm.rvs(loc=MU,scale=SSD,size=N)
y

In [None]:
sns.histplot(y, bins=10, stat="density", kde=True);

### Teste de normalidade de Shapiro-Wilk - SWT SW-test

In [None]:
stat, pvalue = stats.shapiro(y)
print(stat, pvalue)

if pvalue >= 0.05:
    print("H0: Segundo SWT estes valores parecem se aproximar de uma distribui√ß√£o normal")
else:
    print("Ha: Segundo SWT estes valores N√ÉO se aproximam de uma distribui√ß√£o normal")


In [None]:
# Shapiro-Wilk test com matplotlib
def mostre_calcule_SWT(y, bins=30):
    stat, pvalue = stats.shapiro(y)

    ret = plt.hist(y, bins=bins, density=True, label='hist')
    n, bins, patches = ret

    mu = np.mean(y)
    ssd = np.std(y)

    mini = np.min(y)
    maxi = np.max(y)

    seqx = np.linspace(mini, maxi, 400)

    yfit = stats.norm.pdf(seqx, mu, ssd)
    l = plt.plot(seqx, yfit, 'r--', linewidth=2, label='fit')

    y_kde = kde(seqx)
    plt.plot(seqx, y_kde, 'b--', lw=2, label='kde')

    title = f"Distriubi√ß√£o rand√¥mica - {len(y)} amostras"
    plt.grid()
    plt.legend()
    plt.title(title);

    if pvalue >= 0.05:
        stri = "H0 aceita - estatisticamente distribui√ß√µes similares."
        stri += f"\nSegundo o teste de Shapiro-Wilk esta distribui√ß√£o se aproxima a uma normal, pvalue={pvalue:.2e}"
    else:
        stri = "H0 rejeitada - estatisticamente distribui√ß√µes distintas."
        stri += f"\nSegundo o teste de Shapiro-Wilk esta distribui√ß√£o n√£o se aproxima a uma normal, pvalue={pvalue:.2e}"

    return ret, stat, pvalue, stri

In [None]:
# Shapiro-Wilk test com seaborn - melhor
def mostre_calcule_SWT_sns(y, bins=30):
    stat, pvalue = stats.shapiro(y)

    # o histplot
    #         gera uma distribui√ß√£o se stat="density"
    #         gera a curva KDE se kde=True
    sns.histplot(y, bins=30, stat="density", kde=True, label='hist+kde')

    mu = np.mean(y)
    ssd = np.std(y)

    mini = np.min(y)
    maxi = np.max(y)

    seqx = np.linspace(mini, maxi, 400)

    yfit = stats.norm.pdf(seqx, mu, ssd)
    l = plt.plot(seqx, yfit, 'r--', linewidth=2, label='fit')

    title = f"Distriubi√ß√£o rand√¥mica - {len(y)} amostras"
    plt.grid()
    plt.legend()
    plt.title(title);

    if pvalue >= 0.05:
        stri = "H0 aceita - estatisticamente distribui√ß√µes similares."
        stri += f"\nSegundo o teste de Shapiro-Wilk esta distribui√ß√£o se aproxima a uma normal, pvalue={pvalue:.2e}"
    else:
        stri = "H0 rejeitada - estatisticamente distribui√ß√µes distintas."
        stri += f"\nSegundo o teste de Shapiro-Wilk esta distribui√ß√£o n√£o se aproxima a uma normal, pvalue={pvalue:.2e}"

    return stat, pvalue, stri

### N=5 - absurdo! muito pequeno

In [None]:
MU = 0
SSD = 1
N=5

y = stats.norm.rvs(loc=MU,scale=SSD,size=N)
ret, stat, pvalue, stri = mostre_calcule_SWT(y)

print(stri, '\n')

In [None]:
ret

In [None]:
MU = 0
SSD = 1
N=8

y = stats.norm.rvs(loc=MU,scale=SSD,size=N)
stat, pvalue, stri = mostre_calcule_SWT_sns(y)

print(stri, '\n')

### iid - independente e identicamente distribu√≠da

Quando jogamos dados, moedas ou valores reais ou por simula√ß√£o, dizemos que se n√£o h√° correla√ß√£o entre 2 jogas de N amostras, as duas jogadas s√£o iid - independente e identicamente distribu√≠das.

### Teorema Central do Limite (TCL)

O Teorema Central do Limite afirma que `a distribui√ß√£o das m√©dias amostrais aproxima-se de uma distribui√ß√£o normal √† medida que o tamanho da amostra ($N_{amostral}$) aumenta`, **`independentemente da distribui√ß√£o original dos dados da popula√ß√£o`**.

Fundamental na estat√≠stica, ele permite realizar infer√™ncias (como intervalos de confian√ßa) mesmo com amostras pequenas (geralmente $N_{amostral}$ < 30), mesmo sem saber qual a distribui√ß√£o da popula√ß√£o (discreta ou cont√≠nua, e qual)

https://en.wikipedia.org/wiki/Central_limit_theorem

### Como uma amostra com N = 5 pode se aproximar de uma normal?

O Teorema Central do Limite diz:
  - A distribui√ß√£o da valor esperado central tende √† normal quando N ‚Üí ‚àû

‚ùå O TCL n√£o diz:
  - que os dados ficam normais
  - que N pequeno funciona
  - que N = 5 *j√° √© suficiente para analisarmos diferen√ßas estat√≠sticas*

üëâ Para N = 5:
  - a distribui√ß√£o da m√©dia herda a assimetria e curtose da popula√ß√£o
  - a m√©dia, por chance, pode se aproximar da m√©dia amostral para N grandes
  - o desvio padr√£o, normalmente, √© subestimado quanto ao desvio padr√£o amostral


### Normalidade n√£o √© inferida com N pequeno ‚Äî √© assumida ou n√£o.

  - ssumir normalidade para n√∫meros amostraais pequenos (N < 30) √© sua responasabilidade.
  - √© imposs√≠vel a estat√≠stica afirmar que a distribui√ß√£o √© normal quando N √© pequeno.

### O correto:
  - N pequeno
    - teste de Shaprio-Wilk
        - se Ok - for√ßado/assumido --> t-test
          - pareado
          - n√£o pareado
        - se NOk --> teste n√£o parm√©tricos (rank-tests)
          - Se grupos independentes -> teste U de Mann-Whitney
          - Se grupos pareados -> test de Wilcoxon signed-rank


### Teste U de Mann-Whitney

O teste U de Mann-Whitney √© um m√©todo estat√≠stico n√£o param√©trico utilizado para comparar se existem diferen√ßas entre duas amostras independentes quando os dados n√£o seguem uma distribui√ß√£o normal ou s√£o ordinais. Ele √© considerado o equivalente n√£o param√©trico do teste t de Student para amostras independentes.

### Teste de Wilcoxon signed-rank (teste de postos sinalizados de Wilcoxon)

O teste de Wilcoxon signed-rank (teste de postos sinalizados de Wilcoxon) √© um teste estat√≠stico n√£o param√©trico usado para comparar duas amostras pareadas (ex: antes e depois) ou uma amostra com um valor de refer√™ncia, substituindo o teste t pareado quando os dados n√£o seguem uma distribui√ß√£o normal. Ele analisa tanto o sinal quanto a magnitude das diferen√ßas entre as observa√ß√µes.

### O que acontece se amostrarmos 100 vezes

In [None]:
MU = 0
SSD = 1
N=100

y = stats.norm.rvs(loc=MU,scale=SSD,size=N)
ret_graph, stat, pvalue, stri = mostre_calcule_SWT(y)

print(stri, '\n')

In [None]:
stat, pvalue, stri = mostre_calcule_SWT_sns(y)

print(stri, '\n')

### O que acontece se amostrarmos 1000 n√∫meros

In [None]:
MU = 0
SSD = 1
N=1000

y = stats.norm.rvs(loc=MU,scale=SSD,size=N)
ret_graph, stat, pvalue, stri = mostre_calcule_SWT(y)

print(stri, '\n')

In [None]:
stat, pvalue, stri = mostre_calcule_SWT_sns(y)

print(stri, '\n')

### Usando a fun√ß√£o numpy arange para criar uma lista de 0 a 19 (20 elementos)

In [None]:
np.arange(0, 20)

In [None]:
y = np.arange(0, 200)
ret_graph, stat, pvalue, stri = mostre_calcule_SWT(y)

print(stri, '\n')

In [None]:
stat, pvalue, stri = mostre_calcule_SWT_sns(y)

print(stri, '\n')

In [None]:
N=20

y =  [1]*N + [3]*N + [5]*N + [7]*N + [9]*N
np.array(y)

In [None]:
ret_graph, stat, pvalue, stri = mostre_calcule_SWT(y)

print(stri, '\n')

In [None]:
stat, pvalue, stri = mostre_calcule_SWT_sns(y)

print(stri, '\n')