### A distribuição Normal (de Moivre ou Gaussiana)
#### Pode ser estimada através de 2 parâmetros:
  - média
  - desvio padrão

In [None]:
# função numérica do python: numpy
import numpy as np

# função estatística do python: scipy
from scipy import stats
from scipy.stats import gaussian_kde

import seaborn as sns

# função gráfica: matplotlib (há outras como seaborn e plotly)
import matplotlib.pyplot as plt
%matplotlib inline  

### Variando medias e desvios padrões

In [None]:
mu_params = [-1, 0, 1]
sd_params = [0.5, 1, 1.5]

x = np.linspace(-7, 7, 100)
f, ax = plt.subplots(len(mu_params), len(sd_params), sharex=True, sharey=True, figsize=(12,8))

for i in range(3):
    for j in range(3):
        MU = mu_params[i]
        SSD = sd_params[j]

        y = stats.norm(MU, SSD).pdf(x)
        label = f"MU = {MU:.1f} SSD={SSD:.1f}"
        
        ax[i,j].plot(x, y)
        ax[i,j].plot(0, 0, label=label, alpha=0)
        ax[i,j].legend(loc='upper right', fontsize=12);

ax[2,1].set_xlabel('$x$', fontsize=16);
ax[1,0].set_ylabel('$pdf(x)$', fontsize=16);

plt.tight_layout()

### A distribuição Z é uma normal com media=0 e sigma=1

In [None]:
MU = 0
SSD = 1

# random normal - stats.norm. random variates
y = stats.norm.rvs(loc=MU,scale=SSD,size=500)

# plot histogram
ret = plt.hist(y, bins=30, density=True)
n, bins, patches = ret

# stats.norm.pdf - probabilistic density function
yfit = stats.norm(MU, SSD).pdf(bins)
l = plt.plot(bins, yfit, 'r--', lw=2)

# kernel gaussiano
# aproximar os dados a uma curva próxima a uma gaussiana ~ smooth (arredondamento suave)
kde = gaussian_kde(y)
seqx = np.linspace(y.min(), y.max(), 400)
y_kde = kde(seqx)

plt.plot(seqx, y_kde, 'b--', lw=2)
plt.grid()

In [None]:
MU = 0
SSD = 1

y = stats.norm.rvs(loc=MU,scale=SSD,size=500)

sns.histplot(y, bins=30, stat="density", kde=True)

yfit = stats.norm(MU, SSD).pdf(bins)
l = plt.plot(bins, yfit, 'r--', lw=2)

plt.grid()

In [None]:
sns.histplot(y, bins=30, stat="density", kde=True);

### O que acontece se amostrarmos 10 números

In [None]:
MU = 0
SSD = 1
N=10

y = stats.norm.rvs(loc=MU,scale=SSD,size=N)
y[:10]

In [None]:
stat, pvalue = stats.shapiro(y)
print(stat, pvalue)

if pvalue >= 0.05:
    print("Segundo SWT estes valores parecem se aproximar de uma distribuição normal")
else:
    print("Segundo SWT estes valores NÃO se aproximam de uma distribuição normal")
    

In [None]:
# Shapiro-Wilk test
def mostre_calcule_SWT(y, bins=30):
    stat, pvalue = stats.shapiro(y)
   
    ret = plt.hist(y, bins=bins, density=True, label='hist')
    n, bins, patches = ret

    mu = np.mean(y)
    ssd = np.std(y)

    mini = np.min(y)
    maxi = np.max(y)
    
    seqx = np.linspace(mini, maxi, 400)

    yfit = stats.norm.pdf(seqx, mu, ssd)
    l = plt.plot(seqx, yfit, 'r--', linewidth=2, label='fit')
    
    y_kde = kde(seqx)
    plt.plot(seqx, y_kde, 'b--', lw=2, label='kde')

    title = f"Distriubição randômica - {len(y)} amostras"
    plt.grid()
    plt.legend()
    plt.title(title);

    if pvalue >= 0.05:
        stri = "H0 aceita - estatisticamente distribuições similares."
        stri += f"\nSegundo o teste de Shapiro-Wilk esta distribuição se aproxima a uma normal, pvalue={pvalue:.2e}"
    else:
        stri = "H0 rejeitada - estatisticamente distribuições distintas."
        stri += f"\nSegundo o teste de Shapiro-Wilk esta distribuição não se aproxima a uma normal, pvalue={pvalue:.2e}"

    return ret, stat, pvalue, stri

In [None]:
# Shapiro-Wilk test
def mostre_calcule_SWT_sns(y, bins=30):
    stat, pvalue = stats.shapiro(y)
   
    sns.histplot(y, bins=30, stat="density", kde=True, label='hist+kde')

    mu = np.mean(y)
    ssd = np.std(y)

    mini = np.min(y)
    maxi = np.max(y)
    
    seqx = np.linspace(mini, maxi, 400)

    yfit = stats.norm.pdf(seqx, mu, ssd)
    l = plt.plot(seqx, yfit, 'r--', linewidth=2, label='fit')

    title = f"Distriubição randômica - {len(y)} amostras"
    plt.grid()
    plt.legend()
    plt.title(title);

    if pvalue >= 0.05:
        stri = "H0 aceita - estatisticamente distribuições similares."
        stri += f"\nSegundo o teste de Shapiro-Wilk esta distribuição se aproxima a uma normal, pvalue={pvalue:.2e}"
    else:
        stri = "H0 rejeitada - estatisticamente distribuições distintas."
        stri += f"\nSegundo o teste de Shapiro-Wilk esta distribuição não se aproxima a uma normal, pvalue={pvalue:.2e}"

    return stat, pvalue, stri

### N=5 - absurdo! muito pequeno

In [None]:
MU = 0
SSD = 1
N=5

y = stats.norm.rvs(loc=MU,scale=SSD,size=N)
ret, stat, pvalue, stri = mostre_calcule_SWT(y)

print(stri, '\n')

In [None]:
ret

In [None]:
MU = 0
SSD = 1
N=5

y = stats.norm.rvs(loc=MU,scale=SSD,size=N)
stat, pvalue, stri = mostre_calcule_SWT_sns(y)

print(stri, '\n')

### O que acontece se amostrarmos 100 números

In [None]:
MU = 0
SSD = 1
N=100

y = stats.norm.rvs(loc=MU,scale=SSD,size=N)
ret_graph, stat, pvalue, stri = mostre_calcule_SWT(y)

print(stri, '\n')

In [None]:
stat, pvalue, stri = mostre_calcule_SWT_sns(y)

print(stri, '\n')

### O que acontece se amostrarmos 1000 números

In [None]:
MU = 0
SSD = 1
N=1000

y = stats.norm.rvs(loc=MU,scale=SSD,size=N)
ret_graph, stat, pvalue, stri = mostre_calcule_SWT(y)

print(stri, '\n')

In [None]:
stat, pvalue, stri = mostre_calcule_SWT_sns(y)

print(stri, '\n')

### Usando a função numpy arange para criar uma lista de 0 a 19 (20 elementos)

In [None]:
np.arange(0, 20)

In [None]:
y = np.arange(0, 200)
ret_graph, stat, pvalue, stri = mostre_calcule_SWT(y)

print(stri, '\n')

In [None]:
stat, pvalue, stri = mostre_calcule_SWT_sns(y)

print(stri, '\n')

In [None]:
N=20

y =  [1]*N + [3]*N + [5]*N + [7]*N + [9]*N
np.array(y)

In [None]:
ret_graph, stat, pvalue, stri = mostre_calcule_SWT(y)

print(stri, '\n')

In [None]:
stat, pvalue, stri = mostre_calcule_SWT_sns(y)

print(stri, '\n')