# Distribuição normal padrão (Z)
**Objetivo: padronizar variáveis com distribuição normal para encontrar outliers em amostras** 

In [36]:
import matplotlib.pyplot as plt
plt.style.use('default')
import scipy.stats as stats
import numpy as np
import pandas as pd

# Exercício 1
*Objetivo: descrever os efeitos de aplicar translações em variáveis aleatórias de distribuição normal*

Neste exercício, vamos partir de uma variável aleatória que segue uma distribuição normal $X \sim N(30,16)$.

O código abaixo gera uma grande amostra à partir dessa variável aleatória e calcula sua média:

In [17]:
x = stats.norm.rvs(size=10**6, loc=30, scale=4)
print(np.mean(x))

30.00089223941849


Qual é o valor esperado para a média da variável aleatória $x-30$? Faça um código que demonstra essa propriedade!

# Exercício 2
*Objetivo: descrever os efeitos de aplicar uma escala linear a uma variável aleatória que segue uma distribuição normal com média zero*

O código abaixo gera muitas amostras de uma variável $X \sim N(30, 16)$, e então calcula sua média e seu desvio padrão.

In [18]:
x = stats.norm.rvs(size=10**6, loc=30, scale=4)
print(np.mean(x), np.std(x))

29.9999373654697 3.999941106493027


Encontre experimentalmente:
1. Qual é a média e o desvio padrão da variável $Y=X/2$?
2. Qual é a média e o desvio padrão da variável $Y=2X$?
3. O que acontece com a média e o desvio padrão quando multiplicamos nossa variável aleatória por um número arbitrário $\alpha$?

# Exercício 3
*Objetivo: aplicar transformações escalares para padronizar uma distribuição normal*

Uma variável aleatória $X$ tem distribuição $N(30,16)$. Com base nos resultados que você teve dos exercícios anteriores, qual deve ser o procedimento para transformá-la numa variável $Z \sim N(0,1)$?

# Exercício 4
*Objetivo: deduzir como usar a estatística Z para encontrar outliers em dados*

Quando aplicamos a padronização feita no exercício 3 diretamente nos elementos de uma amostra de uma população, dizemos que estamos calculando a estatística Z (Z-Score). Sabendo que $Z \sim N(0,1)$, calcule (se precisar, use a função `stats.norm.cdf`):

1. $P(Z < 1)$
2. $P(Z < 2)$
3. $P(Z < 3)$
1. $P(|Z| < 1)$
2. $P(|Z| < 2)$
3. $P(|Z| < 3)$
4. Se um conjunto de dados segue uma distribuição normal, qual é a probabilidade de um ponto, escolhido aleatoriamente, distanciar-se da média por mais de 3 desvios padrões?
5. Como poderíamos usar a estatística Z para encontrar dados que se desviam muito em relação à média de uma população?

# Exercício 5
*Objetivo: detectar outliers em um conjunto de dados real*

Os dados do "Ames Housing Dataset" foram compilados por Dean De Cock e posteriormente usados em uma competição no [Kaggle](https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/overview). Eles contém dados de casas e seus preços de venda na região de Ames, no estado de Iowa-EUA.

Nessa região, há casas que foram vendidas por valores claramente mais altos que a média. 

1. Calcule a estatística Z (Z-score) para o preço de venda das casas de nosso dataset.
2. Usando a estatística Z, encontre as casas que foram vendidas tão caro que podem ser consideradas outliers
3. Mostre, em uma figura, a resposta para esta pergunta: as casas mais caras da região de Ames têm piscina?

In [44]:
df = pd.read_csv('./dados/house-prices-advanced-regression-techniques/train.csv')
df.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


# Exercício 6
*Objetivo: usar o Z-Score para decidir-se sobre pertencimento a um grupo*

Dois sistemas de armazenamento em núvem têm tempos de resposta bastante diferentes. O sistema $A$ tem tempo de resposta $t_A \sim N(40,1)$, em segundos. O sistema $B$ tem tempo de resposta $t_B \sim N(30,16)$, também em segundos. Uma requisição foi feita para o servidor, e foi respondida por um dos dois sistemas (que não sabemos qual é), em 50 segundos.
1. Calcule o Z-Score relacionado à resposta da requisição para os sistema $A$ e para o $B$.
2. Se uma requisição demorou 60 segundos para ser respondida, você diria que ela foi respondida pelo sistema $A$ ou pelo sistema $B$? Por que?