Notebook em **Python** que mostra procedimentos para a obtenção do cálculo do **Desvio Padrão** a partir de um exemplo do livro **[Six Sigma: A Complete Step-by-Step Guide](https://www.sixsigmacouncil.org/wp-content/uploads/2018/08/Six-Sigma-A-Complete-Step-by-Step-Guide.pdf)**

<!-- TEASER_END -->

# Exemplos do livro Six Sigma: A Complete Step-by-Step Guide

![Six Sigma: A Complete Step-by-Step Guide](https://raw.githubusercontent.com/vstram/SixSigmaInR/master/book_cover-small.jpg)


## Conteúdo:
* [Exercício](#Exercício)
* [Procedimento](#Procedimento)
* [Observações](#Observações)
* [Solução Alternativa 1](#Solução-Alternativa-1)
* [Solução Alternativa 2](#Solução-Alternativa-2)
* [Referências](#Referências)

## Exercício

Neste primeiro exemplo (pág 63), o livro apresenta as notas de 15 alunos que devem ser avaliadas através do cálculo do desvio padrão. As notas dos alunos são:

```
67, 68, 73, 74, 81, 85, 88, 88, 90, 90, 90, 93, 94, 98, 99
```

### Procedimento

1. [Opcional] Caso não tenha a biblioteca numpy instalada, use o comando abaixo (copie e cole em uma nova célula de código do Jupyter):

`! pip install numpy`

(dica: tecle `A` para inserir uma nova célula de código acima da célula selecionada)

2. Após instalar a bilbioteca numpy, use o comando `import` para importa-la e depois crie um array para armazenar as notas dos alunos

In [1]:
import numpy as np

v = np.array([67, 68, 73, 74, 81, 85, 88, 88, 90, 90, 90, 93, 94, 98, 99])
v

array([67, 68, 73, 74, 81, 85, 88, 88, 90, 90, 90, 93, 94, 98, 99])

3. Calcule a média dos valores deste array.

Equivalente à: $\mu = \frac{1}{n}\sum_{i}^{n} x_{i}$

In [2]:
mean_v = v.mean()
mean_v

85.2

3. Subtraia a média de cada elemento do vector e elevar ao quadrado

Realizamos a operação de subtração entre parênteses e depois usamos a função ```pow(vector, 2)``` para elevar ao quadrado. Esta operação é realizada em cada elemento do vector

Equivalente à: $(x_{i} - \mu)^{2}$

In [3]:
v_minus_mean_v_sq2 = pow((v - mean_v), 2)
v_minus_mean_v_sq2

array([3.3124e+02, 2.9584e+02, 1.4884e+02, 1.2544e+02, 1.7640e+01,
       4.0000e-02, 7.8400e+00, 7.8400e+00, 2.3040e+01, 2.3040e+01,
       2.3040e+01, 6.0840e+01, 7.7440e+01, 1.6384e+02, 1.9044e+02])

4. Calcule a média dos valores para encontrar a variância de todos os valores do vetor, isto é, em __toda a população__.

Equivalente à: $s^{2} = \frac{1}{n}\sum_{i}^{n} (x_{i} - \mu)^{2}$

In [4]:
variance = v_minus_mean_v_sq2.mean()
variance

99.76

5. Calcule a raiz quadrada da variância para obter o desvio padrão. Usar a função ```sqrt``` da biblioteca ```math```

Equivalente à: $s = \sqrt{\frac{1}{n} \sum_{i}^{n} (x_{i} - \mu)^{2}}$

In [5]:
import math
std_dev = math.sqrt(variance)
std_dev

9.987992791347018

### Observações

1. A fórmula apresentada neste exemplo para o cálculo da variância e do desvio padrão deve ser usada apenas quando estão disponíveis todos os dados a serem analisados (e não em uma amostra dos dados). Tal cálculo também é conhecido como "desvio padrão de uma população finita".
1. Obviamente, não é necessário calcular a média e a variância para se obter o desvio padrão com o `numpy`. Foi feito assim a título de demonstração. A variância e o desvio padrão pode ser calculado diretamente com a função `var` e `std` respectivamente:

In [6]:
print("Cálculo direto usando a Biblioteca numpy\n")
print(f"Variância (população finita): {v.var()}")
print(f"Desvio Padrão (população finita): {v.std()}")

Cálculo direto usando a Biblioteca numpy

Variância (população finita): 99.76
Desvio Padrão (população finita): 9.987992791347018


3. Caso deseje calcular a variância e desvio padrão para uma população infinita, deve-se utilizar como parâmetro `ddof=1` na chamada das funções `var` e `std`. Observe:

In [7]:
print(f"Variância (população infinita): {v.var(ddof=1)}")
print(f"Desvio Padrão (população infinita): {v.std(ddof=1)}")

Variância (população infinita): 106.88571428571429
Desvio Padrão (população infinita): 10.338554748402423


## Solução Alternativa 1

Caso não deseje usar o numpy, é possível realizar este mesmo cálculo usando as bibliotecas padrão do Python.
Pessoalmente prefiro usar o numpy, pois à medida que suas análises forem ficando mais complicadas, torna-se útil utilizar uma bilbioteca mais avançada e com mais recursos como o `numpy`.

In [8]:
import statistics

print("Cálculos usando a Biblioteca padrão statistics")
print("(Não é necessário nenhuma instalação adicional):\n")
v1 = [67, 68, 73, 74, 81, 85, 88, 88, 90, 90, 90, 93, 94, 98, 99]
mean_v1 = statistics.mean(v1)
print(f"Média: {mean_v1}")
variance1a = statistics.pvariance(v1)
print(f"Variância (população finita): {variance1a}")
std_dev1a = statistics.pstdev(v1)
print(f"Desvio Padrão (população finita): {std_dev1a}")
variance1b = statistics.variance(v1)
print(f"Variância (amostra de população infinita): {variance1b}")
std_dev1b = statistics.stdev(v1)
print(f"Desvio Padrão (amostra de população infinita): {std_dev1b}")

Cálculos usando a Biblioteca padrão statistics
(Não é necessário nenhuma instalação adicional):

Média: 85.2
Variância (população finita): 99.76
Desvio Padrão (população finita): 9.987992791347018
Variância (população infinita): 106.88571428571429
Desvio Padrão (população infinita): 10.338554748402423


## Solução Alternativa 2

Pode-se utilizar também a biblioteca `SciPy` para fazer este cálculo. A bibliteca `SciPy` contém inúmeras funções para análises estatísticas avançadas. Utilize quando precisar realizar uma análise estatística mais complexa e não desejar usar o `numpy`.

Para instalar, use: `! pip install scipy`

In [11]:
from scipy import stats

print("Cálculos usando a Biblioteca SciPy:\n")
mean_v2 = stats.tmean(v1)
print(f"Média: {mean_v2}")
variance2a = stats.tvar(v1, ddof=0)
print(f"Variância (população finita): {variance2a}")
variance2b = stats.tvar(v1, ddof=1)
print(f"Desvio Padrão (população finita): {std_dev2a}")
std_dev2b = stats.tstd(v1, ddof=1)
print(f"Variância (amostra de população infinita): {variance2b}")
std_dev2a = stats.tstd(v1, ddof=0)
print(f"Desvio Padrão (amostra de população infinita): {std_dev2b}")

Cálculos usando a Biblioteca SciPy:

Média: 85.2
Variância (população finita): 99.76
Desvio Padrão (população finita): 9.987992791347018
Variância (amostra de população infinita): 106.88571428571429
Desvio Padrão (amostra de população infinita): 10.338554748402423


## Referências

Este notebook contém exemplos do livro **[Six Sigma: A Complete Step-by-Step Guide](https://www.sixsigmacouncil.org/wp-content/uploads/2018/08/Six-Sigma-A-Complete-Step-by-Step-Guide.pdf)** disponibilizado pelo [The Council for Six Sigma Certification](https://www.sixsigmacouncil.org/six-sigma-training-material/)

Bibliotecas utilizadas

* [Numpy - std](https://numpy.org/doc/stable/reference/generated/numpy.std.html?highlight=std#numpy.std): documentação Numpy
* [Python - Statistics](https://docs.python.org/3.7/library/statistics.html?highlight=std#module-statistics): documentação Python
* [Scipy](https://docs.scipy.org/doc/scipy/reference/stats.html#summary-statistics): documentação SciPy