# Seção 2: Análise de Dados Numéricos

___

# Tutorial

## Imports para a Aula

In [None]:
import numpy as np
import pandas as pd

## Operações Vetoriais

### Definição das Variáveis

In [None]:
df = pd.DataFrame(
    index=pd.Index(data=["Leite", "Ovos", "Carne", "Arroz", "Feijão"], name="Itens"),
    columns=["Unidade", "Quantidade",  "Preço Unitário"],
    data=np.array([
        ["Litro", "Dúzia", "Kilograma", "Kilograma", "Kilograma"],
        [4, 3, 1, 5, 2],
        [3.00, 6.50, 25.90, 5.00, 3.80]
    ]).T,
)
df

In [None]:
""" verificando dtypes """
df.dtypes

In [None]:
"""Conversão necessária pois o pandas interp´reta 'mixed types' como strings """
df[["Quantidade",  "Preço Unitário"]] = df[["Quantidade",  "Preço Unitário"]].astype(float)
df

In [None]:
""" verificando dtypes """
df.dtypes

### Manipulações Numéricas

##### * Incrementando o Preço Unitário

In [None]:
df["Preço Unitário"] += 1.
df

##### * Desconto de 10% no Preço Unitário

In [None]:
df["Preço Unitário"] *= 0.90
df

##### * Cálculo do Preço Total por Item

In [None]:
df["Preço Total"] = df["Preço Unitário"] * df["Quantidade"]
df

##### * Cálculo do Preço por Kg

In [None]:
df["Preço Médio Por Kg"] = np.nan
df

In [None]:
mask = df["Unidade"] == "Kilograma"
df[mask]

In [None]:
df.loc[mask, "Preço Médio Por Kg"] = (df.loc[mask, "Preço Unitário"] / df.loc[mask, "Quantidade"]).sum()
df

##### * Preenchendo NaNs

In [None]:
df.fillna(0)

##### * Soma : apenas valores numéricos 

In [None]:
df.sum()

##### * Média: apenas valores numéricos 

In [None]:
df.mean()

##### * Desvio Padrão: apenas valores numéricos 

In [None]:
df.std()

##### * Mediana: apenas valores numéricos 

In [None]:
df.median()

##### * Moda (valores mais frequentes): todos os tipos de valores

In [None]:
df.mode()

## Análise de Dados

### Definição das Variáveis

In [None]:
cols=["c1", "c2", "c3", "c4", "c5"]
data = np.random.rand(100, 5) 
data *= np.array([ 10,  20,  30,  40,  50]) 
data += np.array([100, 200, 300, 400, 500])
data = np.ceil(data)
df = pd.DataFrame(columns=cols, data=data)
df.head(10)

### Descrição dos dados 

In [None]:
""" descrevendo as distribuições dos dados """
df.describe()

In [None]:
""" mesma coisa, manipulando os percentis  """
df.describe(percentiles=[0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])

In [None]:
""" Verificando os valores únicos de C3 """
df.c3.unique()

In [None]:
""" Verificando a frequencia dos valores únicos de C3 """
df.c3.value_counts()

___

# Desafio

## Objetivo:

#### Analisar como  _Outliers_ deformam um a distribuição normal.


### Configurações

In [None]:
""" Não altere esse valor, pois ele permite que toda a geração aleatória seja igual para todos """
np.random.seed(123456789)

### Dataset Original

O dataset original é uma **Series** com 1000 elementos cujos dados pertençam a uma **distribuição normal** de média igual a **150** e desvio padrão **10**.

Construção: a função **`np.random.randn`** é usada para gerar a distribuição normal, para depois transformá-la com a `média` e o `sigma` dados.

In [None]:
""" Dataset Original, já criado para a solução """
media = 150
sigma = 10
serie = pd.Series(np.random.randn(1000)) * sigma + media

### O Acumulador

O acumulador é um **DataFrame** usado para acumular as transformações feitas em cima do dataset original. Cada transformação será armazenada em uma **coluna** cujo nome descreve a transformação feita sobre os dados. 

Insira o dataset criado na coluna de nome **original**.

In [None]:
accum = pd.DataFrame(
    index=range(2600),
    columns=["original"],
    data=serie
)
accum.head().append(accum.tail())

### Inserção de dados

Para cada item a seguir, crie um dataset de distribuição normal contendo **N** elementos, usando a **média** e o **sigma** também fornecidos pelo item. 

Em seguida, concatene os novos elementos gerados à **Series** original usando o código abaixo:
```
series_original = series_original.append(nova_series).reset_index(drop=True)
```

Depois disso, insira a **Series** atualizada no **acumulador** em uma coluna com o **nome de coluna** fornecido em cada item.


#### [ A ]  Elementos da mesma Distribuição
* N = 300
* média = 150
* sigma = 10
* coluna = "mesma_distribuição"

In [None]:
""" Escreva a a Solução Aqui """

#### [ B ]  Elementos de outra distribuição
* N = 100
* média = 400
* sigma = 100
* coluna = "outliers_adicionados"

In [None]:
""" Escreva a a Solução Aqui """

#### [ C ]  Elementos Próximos à média
* N = 1000
* média = 150
* sigma = 0.1
* coluna = "elementos_prox_a_media"

In [None]:
""" Escreva a a Solução Aqui """

### Avaliação das Séries:

Avaliar o **acumulador** e verificar o que mudou na distribuição original. 

In [None]:
""" Escreva a a Solução Aqui """