# Desafio Extra - Distribuição Normal e Outliers

___

# Imports

In [1]:
import numpy as np
import pandas as pd

# Objetivo:

Analisar como a adição de _outliers_ deforma um conjunto de dados cuja distribuição é normal.


# Configurações

In [2]:
""" Não altere esse valor, pois ele permite que toda a geração aleatória seja igual para todos """
np.random.seed(123456789)

## Dataset Original

O dataset original é uma **Series** com 1000 elementos cujos dados pertençam a uma **distribuição normal** de média igual a **150** e desvio padrão **10**.

Construção: a função **`np.random.randn`** é usada para gerar a distribuição normal, para depois transformá-la com a `média` e o `sigma` dados.

In [3]:
""" Dataset Original, já criado para a solução """
media = 150
sigma = 10
serie = pd.Series(np.random.randn(1000)) * sigma + media

## O Acumulador

O acumulador é um **DataFrame** usado para acumular as transformações feitas em cima do dataset original. Cada transformação será armazenada em uma **coluna** cujo nome descreve a transformação feita sobre os dados. 

Insira o dataset criado na coluna de nome **original**.

In [4]:
""" Não mude o código nesta célula """
accum = pd.DataFrame(
    index=range(2600),
    columns=["original"],
    data=serie
)
accum.head().append(accum.tail())

Unnamed: 0,original
0,172.12902
1,171.283978
2,168.417114
3,150.823825
4,158.589637
2595,
2596,
2597,
2598,
2599,


## Inserção de dados

Para cada item a seguir, crie um dataset de distribuição normal contendo **N** elementos, usando a **média** e o **sigma** também fornecidos pelo item. 

Em seguida, concatene os novos elementos gerados à **Series** original usando o código abaixo:
```
series_original = series_original.append(nova_series).reset_index(drop=True)
```

Depois disso, insira a **Series** atualizada no **acumulador** em uma coluna com o **nome de coluna** fornecido em cada item.


### A)  Elementos da mesma Distribuição
* N = 300
* média = 150
* sigma = 10
* coluna = "mesma_distribuição"

In [5]:
accum["mesma_distribuição"] = pd.Series(np.random.randn(300)) * 10 + 150

### B)  Elementos de outra distribuição
* N = 100
* média = 400
* sigma = 100
* coluna = "outliers_adicionados"

In [6]:
accum["outliers_adicionados"] = pd.Series(np.random.randn(100)) * 100 + 400

### C)  Elementos Próximos à média
* N = 1000
* média = 150
* sigma = 0.1
* coluna = "elementos_prox_a_media"

In [7]:
accum["elementos_prox_a_media"] = pd.Series(np.random.randn(1000)) * 0.1 + 150

## Avaliação das Séries:

Avaliar o **acumulador** e verificar o que mudou na distribuição original. 

In [8]:
accum.describe()

Unnamed: 0,original,mesma_distribuição,outliers_adicionados,elementos_prox_a_media
count,1000.0,300.0,100.0,1000.0
mean,149.843799,149.929486,383.288337,150.001269
std,9.675664,9.374505,105.763094,0.102188
min,123.602234,119.457485,127.644305,149.710584
25%,143.462341,144.425984,300.450204,149.934486
50%,149.948937,149.818362,382.741166,149.999695
75%,156.15612,156.181255,470.676818,150.071739
max,190.067115,177.668567,660.055783,150.376527
