# Tutorial 2: Análise de Dados

___

# Imports para a Aula

In [None]:
import numpy as np
import pandas as pd


# Operações Vetoriais

## Definição das Variáveis

In [None]:
df = pd.DataFrame(
    index=pd.Index(data=["Leite", "Ovos", "Carne", "Arroz", "Feijão"], name="Itens"),
    columns=["Unidade", "Quantidade",  "Preço Unitário"],
    data=np.array([
        ["Litro", "Dúzia", "Kilograma", "Kilograma", "Kilograma"],
        [4, 3, 1, 5, 2],
        [3.00, 6.50, 25.90, 5.00, 3.80]
    ]).T,
)
df

In [None]:
""" verificando dtypes """
df.dtypes

In [None]:
"""Conversão necessária pois o pandas interp´reta 'mixed types' como strings """
df[["Quantidade",  "Preço Unitário"]] = df[["Quantidade",  "Preço Unitário"]].astype(float)
df

In [None]:
""" verificando dtypes """
df.dtypes

## Manipulações Numéricas

### * Incrementando o Preço Unitário

In [None]:
df["Preço Unitário"] += 1.
df

### * Desconto de 10% no Preço Unitário

In [None]:
df["Preço Unitário"] *= 0.90
df

### * Cálculo do Preço Total por Item

In [None]:
df["Preço Total"] = df["Preço Unitário"] * df["Quantidade"]
df

### * Cálculo do Preço por Kg

In [None]:
df["Preço Médio Por Kg"] = np.nan
df

In [None]:
mask = df["Unidade"] == "Kilograma"
df[mask]

In [None]:
df.loc[mask, "Preço Médio Por Kg"] = (df.loc[mask, "Preço Unitário"] / df.loc[mask, "Quantidade"]).sum()
df

### * Preenchendo NaNs

In [None]:
df.fillna(0)

### * Soma : apenas valores numéricos 

In [None]:
df.sum()

### * Média: apenas valores numéricos 

In [None]:
df.mean()

### * Desvio Padrão: apenas valores numéricos 

In [None]:
df.std()

### * Mediana: apenas valores numéricos 

In [None]:
df.median()

### * Moda (valores mais frequentes): todos os tipos de valores

In [None]:
df.mode()

# Análise de Dados

## Definição das Variáveis

In [None]:
cols=["c1", "c2", "c3", "c4", "c5"]
data = np.random.rand(100, 5) 
data *= np.array([ 10,  100, 1000, 10000, 100000]) 
data += np.array([1000, 20000, 300000, 400000, 5000000])
data = np.ceil(data)
df = pd.DataFrame(columns=cols, data=data)
df.head(10)

## Descrição dos dados 

### `describe`

In [None]:
""" descrevendo as distribuições dos dados """
df.describe()

In [None]:
""" mesma coisa, escolhendo os percentis ()  """
df.describe(percentiles=[0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])

### `unique`

In [None]:
""" Verificando os valores únicos de C1 """
df.c1.unique()

### `value_counts`

In [None]:
""" Verificando a frequencia dos valores únicos de C1 """
df.c1.value_counts()