# Desafio Extra - Distribuição Normal e Outliers

___

# Imports

In [9]:
import numpy as np
import pandas as pd

# Objetivo:

Analisar como a adição de _outliers_ deforma um conjunto de dados cuja distribuição é normal.


# Configurações

In [10]:
""" Não altere esse valor, pois ele permite que toda a geração aleatória seja igual para todos """
np.random.seed(123456789)

## Dataset Original

O dataset original é uma **Series** com 1000 elementos cujos dados pertençam a uma **distribuição normal** de média igual a **150** e desvio padrão **10**.

Construção: a função **`np.random.randn`** é usada para gerar a distribuição normal, para depois transformá-la com a `média` e o `sigma` dados.

In [24]:
""" Dataset Original, já criado para a solução """
media = 150
sigma = 10
serie_original = pd.Series(np.random.randn(1000)) * sigma + media
serie_original.describe()

count    1000.000000
mean      150.476530
std         9.934908
min       118.635386
25%       144.266773
50%       150.784336
75%       157.167991
max       180.085990
dtype: float64

## O Acumulador

O acumulador é um **DataFrame** usado para acumular as transformações feitas em cima do dataset original. Cada transformação será armazenada em uma **coluna** cujo nome descreve a transformação feita sobre os dados. 

Insira o dataset criado na coluna de nome **original**.

In [12]:
""" Não mude o código nesta célula """
accum = pd.DataFrame(
    index=range(2600),
    columns=["original"],
    data=serie
)
accum.head().append(accum.tail())

Unnamed: 0,original
0,172.12902
1,171.283978
2,168.417114
3,150.823825
4,158.589637
2595,
2596,
2597,
2598,
2599,


## Inserção de dados

Para cada item a seguir, crie um dataset de distribuição normal contendo **N** elementos, usando a **média** e o **sigma** também fornecidos pelo item. 

Em seguida, concatene os novos elementos gerados à **Series** original usando o código abaixo:
```
series_original = series_original.append(nova_series).reset_index(drop=True)
```

Depois disso, insira a **Series** atualizada no **acumulador** em uma coluna com o **nome de coluna** fornecido em cada item.


### A)  Elementos da mesma Distribuição
* N = 300
* média = 150
* sigma = 10
* coluna = "mesma_distribuição"

In [13]:
accum.head()

Unnamed: 0,original
0,172.12902
1,171.283978
2,168.417114
3,150.823825
4,158.589637


In [19]:
serie1 = pd.Series(np.random.randn(300)) * 10 + 150
serie_alterada = serie_original.append(serie1).reset_index(drop=True)
accum["mesma_distribuição"] = serie1

### B)  Elementos de outra distribuição
* N = 100
* média = 400
* sigma = 100
* coluna = "outliers_adicionados"

In [20]:
serie2 = pd.Series(np.random.randn(100)) * 100 + 400
serie_alterada = serie_alterada.append(serie2).reset_index(drop=True)
accum["outliers_adicionados"] = serie2

### C)  Elementos Próximos à média
* N = 1000
* média = 150
* sigma = 0.1
* coluna = "elementos_prox_a_media"

In [21]:
serie3 = pd.Series(np.random.randn(1000)) * 0.1 + 150
serie_alterada = serie_alterada.append(serie3).reset_index(drop=True)
accum["elementos_prox_a_media"] = serie3

## Avaliação das Séries:

Avaliar o **acumulador** e verificar o que mudou na distribuição original. 

In [23]:
accum["serie_alterada"] = serie_alterada
accum.describe()

Unnamed: 0,original,mesma_distribuição,outliers_adicionados,elementos_prox_a_media,serie_alterada
count,1000.0,300.0,100.0,1000.0,2400.0
mean,149.843799,149.558381,403.995188,150.000257,160.646141
std,9.675664,9.934239,92.285096,0.097261,54.632566
min,123.602234,118.52785,217.348783,149.654131,114.907755
25%,143.462341,142.624578,337.505109,149.935769,149.36703
50%,149.948937,149.37839,409.821876,149.997613,150.014153
75%,156.15612,155.882832,462.911404,150.065914,153.149077
max,190.067115,177.006053,627.79119,150.322432,627.79119
