# Tutorial 2: Análise de Dados

___

# Imports para a Aula

In [24]:
import numpy as np
import pandas as pd


# Operações Vetoriais

## Definição das Variáveis

In [25]:
df = pd.DataFrame(
    index=pd.Index(data=["Leite", "Ovos", "Carne", "Arroz", "Feijão"], name="Itens"),
    columns=["Unidade", "Quantidade",  "Preço Unitário"],
    data=np.array([
        ["Litro", "Dúzia", "Kilograma", "Kilograma", "Kilograma"],
        [4, 3, 1, 5, 2],
        [3.00, 6.50, 25.90, 5.00, 3.80]
    ]).T,
)
df

Unnamed: 0_level_0,Unidade,Quantidade,Preço Unitário
Itens,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Leite,Litro,4,3.0
Ovos,Dúzia,3,6.5
Carne,Kilograma,1,25.9
Arroz,Kilograma,5,5.0
Feijão,Kilograma,2,3.8


In [26]:
""" verificando dtypes """
df.dtypes

Unidade           object
Quantidade        object
Preço Unitário    object
dtype: object

In [27]:
"""Conversão necessária pois o pandas interp´reta 'mixed types' como strings """
df[["Quantidade",  "Preço Unitário"]] = df[["Quantidade",  "Preço Unitário"]].astype(float)
df

Unnamed: 0_level_0,Unidade,Quantidade,Preço Unitário
Itens,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Leite,Litro,4.0,3.0
Ovos,Dúzia,3.0,6.5
Carne,Kilograma,1.0,25.9
Arroz,Kilograma,5.0,5.0
Feijão,Kilograma,2.0,3.8


In [28]:
""" verificando dtypes """
df.dtypes

Unidade            object
Quantidade        float64
Preço Unitário    float64
dtype: object

## Manipulações Numéricas

### * Incrementando o Preço Unitário

In [29]:
df["Preço Unitário"] += 1.
df

Unnamed: 0_level_0,Unidade,Quantidade,Preço Unitário
Itens,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Leite,Litro,4.0,4.0
Ovos,Dúzia,3.0,7.5
Carne,Kilograma,1.0,26.9
Arroz,Kilograma,5.0,6.0
Feijão,Kilograma,2.0,4.8


### * Desconto de 10% no Preço Unitário

In [30]:
df["Preço Unitário"] *= 0.90
df

Unnamed: 0_level_0,Unidade,Quantidade,Preço Unitário
Itens,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Leite,Litro,4.0,3.6
Ovos,Dúzia,3.0,6.75
Carne,Kilograma,1.0,24.21
Arroz,Kilograma,5.0,5.4
Feijão,Kilograma,2.0,4.32


### * Cálculo do Preço Total por Item

In [31]:
df["Preço Total"] = df["Preço Unitário"] * df["Quantidade"]
df

Unnamed: 0_level_0,Unidade,Quantidade,Preço Unitário,Preço Total
Itens,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Leite,Litro,4.0,3.6,14.4
Ovos,Dúzia,3.0,6.75,20.25
Carne,Kilograma,1.0,24.21,24.21
Arroz,Kilograma,5.0,5.4,27.0
Feijão,Kilograma,2.0,4.32,8.64


### * Cálculo do Preço por Kg

In [32]:
df["Preço Médio Por Kg"] = np.nan
df

Unnamed: 0_level_0,Unidade,Quantidade,Preço Unitário,Preço Total,Preço Médio Por Kg
Itens,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Leite,Litro,4.0,3.6,14.4,
Ovos,Dúzia,3.0,6.75,20.25,
Carne,Kilograma,1.0,24.21,24.21,
Arroz,Kilograma,5.0,5.4,27.0,
Feijão,Kilograma,2.0,4.32,8.64,


In [33]:
mask = df["Unidade"] == "Kilograma"
df[mask]

Unnamed: 0_level_0,Unidade,Quantidade,Preço Unitário,Preço Total,Preço Médio Por Kg
Itens,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Carne,Kilograma,1.0,24.21,24.21,
Arroz,Kilograma,5.0,5.4,27.0,
Feijão,Kilograma,2.0,4.32,8.64,


In [34]:
df.loc[mask, "Preço Médio Por Kg"] = (df.loc[mask, "Preço Unitário"] / df.loc[mask, "Quantidade"]).sum()
df

Unnamed: 0_level_0,Unidade,Quantidade,Preço Unitário,Preço Total,Preço Médio Por Kg
Itens,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Leite,Litro,4.0,3.6,14.4,
Ovos,Dúzia,3.0,6.75,20.25,
Carne,Kilograma,1.0,24.21,24.21,27.45
Arroz,Kilograma,5.0,5.4,27.0,27.45
Feijão,Kilograma,2.0,4.32,8.64,27.45


### * Preenchendo NaNs

In [35]:
df.fillna(0)

Unnamed: 0_level_0,Unidade,Quantidade,Preço Unitário,Preço Total,Preço Médio Por Kg
Itens,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Leite,Litro,4.0,3.6,14.4,0.0
Ovos,Dúzia,3.0,6.75,20.25,0.0
Carne,Kilograma,1.0,24.21,24.21,27.45
Arroz,Kilograma,5.0,5.4,27.0,27.45
Feijão,Kilograma,2.0,4.32,8.64,27.45


### * Soma : apenas valores numéricos 

In [36]:
df.sum()

Unidade               LitroDúziaKilogramaKilogramaKilograma
Quantidade                                               15
Preço Unitário                                        44.28
Preço Total                                            94.5
Preço Médio Por Kg                                    82.35
dtype: object

### * Média: apenas valores numéricos 

In [37]:
df.mean()

Quantidade             3.000
Preço Unitário         8.856
Preço Total           18.900
Preço Médio Por Kg    27.450
dtype: float64

### * Desvio Padrão: apenas valores numéricos 

In [38]:
df.std()

Quantidade            1.581139
Preço Unitário        8.664948
Preço Total           7.435493
Preço Médio Por Kg    0.000000
dtype: float64

### * Mediana: apenas valores numéricos 

In [39]:
df.median()

Quantidade             3.00
Preço Unitário         5.40
Preço Total           20.25
Preço Médio Por Kg    27.45
dtype: float64

### * Moda (valores mais frequentes): todos os tipos de valores

In [40]:
df.mode()

Unnamed: 0,Unidade,Quantidade,Preço Unitário,Preço Total,Preço Médio Por Kg
0,Kilograma,1.0,3.6,8.64,27.45
1,,2.0,4.32,14.4,
2,,3.0,5.4,20.25,
3,,4.0,6.75,24.21,
4,,5.0,24.21,27.0,


# Análise de Dados

## Definição das Variáveis

In [41]:
cols=["c1", "c2", "c3", "c4", "c5"]
data = np.random.rand(100, 5) 
data *= np.array([ 10,  100, 1000, 10000, 100000]) 
data += np.array([1000, 20000, 300000, 400000, 5000000])
data = np.ceil(data)
df = pd.DataFrame(columns=cols, data=data)
df.head(10)

Unnamed: 0,c1,c2,c3,c4,c5
0,1004.0,20070.0,300836.0,402747.0,5003594.0
1,1006.0,20095.0,300132.0,409140.0,5023001.0
2,1005.0,20008.0,300873.0,405428.0,5081970.0
3,1010.0,20060.0,300277.0,405627.0,5039388.0
4,1003.0,20100.0,300239.0,407371.0,5066512.0
5,1010.0,20038.0,300766.0,403188.0,5098561.0
6,1003.0,20023.0,300890.0,409039.0,5090783.0
7,1002.0,20088.0,300497.0,404924.0,5074565.0
8,1005.0,20044.0,300966.0,409202.0,5032070.0
9,1009.0,20083.0,300788.0,400026.0,5006488.0


## Descrição dos dados 

### `describe`

In [42]:
""" descrevendo as distribuições dos dados """
df.describe()

Unnamed: 0,c1,c2,c3,c4,c5
count,100.0,100.0,100.0,100.0,100.0
mean,1005.22,20054.83,300512.29,405174.9,5049520.0
std,2.990152,29.742007,285.995454,2698.990161,27990.68
min,1001.0,20001.0,300009.0,400009.0,5000014.0
25%,1002.75,20030.5,300267.0,403123.75,5028924.0
50%,1005.0,20059.0,300538.5,405205.0,5048507.0
75%,1008.0,20081.5,300759.0,407378.0,5071373.0
max,1010.0,20100.0,300999.0,409899.0,5098917.0


In [43]:
""" mesma coisa, escolhendo os percentis ()  """
df.describe(percentiles=[0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])

Unnamed: 0,c1,c2,c3,c4,c5
count,100.0,100.0,100.0,100.0,100.0
mean,1005.22,20054.83,300512.29,405174.9,5049520.0
std,2.990152,29.742007,285.995454,2698.990161,27990.68
min,1001.0,20001.0,300009.0,400009.0,5000014.0
10%,1002.0,20008.9,300123.6,401659.5,5009311.0
20%,1002.0,20024.8,300185.8,402238.4,5021021.0
30%,1003.0,20035.4,300326.3,403644.1,5034765.0
40%,1004.0,20043.2,300406.8,404285.4,5041373.0
50%,1005.0,20059.0,300538.5,405205.0,5048507.0
60%,1006.0,20069.4,300608.4,406171.6,5060396.0


### `unique`

In [44]:
""" Verificando os valores únicos de C1 """
df.c1.unique()

array([1004., 1006., 1005., 1010., 1003., 1002., 1009., 1008., 1001.,
       1007.])

### `value_counts`

In [45]:
""" Verificando a frequencia dos valores únicos de C1 """
df.c1.value_counts()

1002.0    17
1010.0    15
1005.0    13
1003.0    12
1006.0     9
1001.0     8
1004.0     8
1007.0     7
1009.0     6
1008.0     5
Name: c1, dtype: int64