In [18]:
import pandas as pd
import numpy as np

# Criando DataFrame - pd.DataFrame()
<p> Para criar um dataframe utilizaremos o comando pd.DataFrame, porém antes será necessário a criação de um dicionário de listas que representará, os valores e colunas. </p>

In [1]:
# Dicionário de listas
dataset_produtos = {
    'Produto':['Produto 1','Produto 1','Produto 2','Produto 3','Produto 4','Produto 5','Produto 6','Produto 6','Produto 7'],
    'Preco':[25000,28000,30000,35000,33000,30000,12000,50000,40000],
    'Desconto':['20%','30%','40%','10%','30%','40%','80%','35%','44%']
}

In [2]:
dataset_produtos

{'Produto': ['Produto 1',
  'Produto 1',
  'Produto 2',
  'Produto 3',
  'Produto 4',
  'Produto 5',
  'Produto 6',
  'Produto 6',
  'Produto 7'],
 'Preco': [25000, 28000, 30000, 35000, 33000, 30000, 12000, 50000, 40000],
 'Desconto': ['20%', '30%', '40%', '10%', '30%', '40%', '80%', '35%', '44%']}

In [5]:
# Comando para criação DataFrame
df_produtos = pd.DataFrame(dataset_produtos)

In [6]:
# .head() mostra top 5 linhas df
df_produtos.head()

Unnamed: 0,Produto,Preco,Desconto
0,Produto 1,25000,20%
1,Produto 1,28000,30%
2,Produto 2,30000,40%
3,Produto 3,35000,10%
4,Produto 4,33000,30%


# Organizando Dados - .sort_values() - .value_counts() 

In [7]:
df_produtos

Unnamed: 0,Produto,Preco,Desconto
0,Produto 1,25000,20%
1,Produto 1,28000,30%
2,Produto 2,30000,40%
3,Produto 3,35000,10%
4,Produto 4,33000,30%
5,Produto 5,30000,40%
6,Produto 6,12000,80%
7,Produto 6,50000,35%
8,Produto 7,40000,44%


## .sort_values()
<p> Com sort_values podemos organizar nossos dados de maneira crescente ou decrescente </p>

In [8]:
df_produtos.sort_values(by='Preco')

Unnamed: 0,Produto,Preco,Desconto
6,Produto 6,12000,80%
0,Produto 1,25000,20%
1,Produto 1,28000,30%
2,Produto 2,30000,40%
5,Produto 5,30000,40%
4,Produto 4,33000,30%
3,Produto 3,35000,10%
8,Produto 7,40000,44%
7,Produto 6,50000,35%


In [10]:
# preço decrescente
df_produtos.sort_values(by='Preco', ascending = False)

Unnamed: 0,Produto,Preco,Desconto
7,Produto 6,50000,35%
8,Produto 7,40000,44%
3,Produto 3,35000,10%
4,Produto 4,33000,30%
2,Produto 2,30000,40%
5,Produto 5,30000,40%
1,Produto 1,28000,30%
0,Produto 1,25000,20%
6,Produto 6,12000,80%


In [9]:
# preço decrescente e desconto crescente
df_produtos.sort_values(by=['Preco','Desconto'], ascending = [False,True])

Unnamed: 0,Produto,Preco,Desconto
7,Produto 6,50000,35%
8,Produto 7,40000,44%
3,Produto 3,35000,10%
4,Produto 4,33000,30%
2,Produto 2,30000,40%
5,Produto 5,30000,40%
1,Produto 1,28000,30%
0,Produto 1,25000,20%
6,Produto 6,12000,80%


## .value_counts()
<p> Podemos criar um contagem da repetição de nossos dados (frequencia absoluta) dentro do nosso DataFrame </p>

In [11]:
df_produtos['Preco'].value_counts()

30000    2
25000    1
28000    1
35000    1
33000    1
12000    1
50000    1
40000    1
Name: Preco, dtype: int64

In [12]:
# criando uma frequencia relativa com value counts
df_produtos['Preco'].value_counts(normalize = True)

30000    0.222222
25000    0.111111
28000    0.111111
35000    0.111111
33000    0.111111
12000    0.111111
50000    0.111111
40000    0.111111
Name: Preco, dtype: float64

# Agrupando Dados - .groupby() - .pivot_table()

In [13]:
df_produtos

Unnamed: 0,Produto,Preco,Desconto
0,Produto 1,25000,20%
1,Produto 1,28000,30%
2,Produto 2,30000,40%
3,Produto 3,35000,10%
4,Produto 4,33000,30%
5,Produto 5,30000,40%
6,Produto 6,12000,80%
7,Produto 6,50000,35%
8,Produto 7,40000,44%


## .groupby()
<p> Podemos agrupar nossos dados com base em um determinado conjunto de valores, utilizando alguma função. </p>

In [14]:
df_produtos.groupby('Produto').mean()

Unnamed: 0_level_0,Preco
Produto,Unnamed: 1_level_1
Produto 1,26500.0
Produto 2,30000.0
Produto 3,35000.0
Produto 4,33000.0
Produto 5,30000.0
Produto 6,31000.0
Produto 7,40000.0


In [15]:
# Podemos utilizar o agg para aplicar mais de uma função
df_produtos.groupby('Produto').agg([min,max])['Preco']

Unnamed: 0_level_0,min,max
Produto,Unnamed: 1_level_1,Unnamed: 2_level_1
Produto 1,25000,28000
Produto 2,30000,30000
Produto 3,35000,35000
Produto 4,33000,33000
Produto 5,30000,30000
Produto 6,12000,50000
Produto 7,40000,40000


## .pivot_table()
<p> As pivot_table funcionam como um groupby, só que com possibilidade de efetuar uma contagem de valores com <b>margins = True </b></p>

In [16]:
df_produtos.pivot_table(values='Preco',index='Produto',columns = 'Desconto', fill_value = 0,margins = True)

Desconto,10%,20%,30%,35%,40%,44%,80%,All
Produto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Produto 1,0,25000,28000,0,0,0,0,26500.0
Produto 2,0,0,0,0,30000,0,0,30000.0
Produto 3,35000,0,0,0,0,0,0,35000.0
Produto 4,0,0,33000,0,0,0,0,33000.0
Produto 5,0,0,0,0,30000,0,0,30000.0
Produto 6,0,0,0,50000,0,0,12000,31000.0
Produto 7,0,0,0,0,0,40000,0,40000.0
All,35000,25000,30500,50000,30000,40000,12000,31444.444444


## .crosstab()
<p> Mais uma maneira de organizar os dados </p>

In [19]:
pd.crosstab(df_produtos['Produto'],df_produtos['Desconto'],values=df_produtos['Preco'],aggfunc=np.average)

Desconto,10%,20%,30%,35%,40%,44%,80%
Produto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Produto 1,,25000.0,28000.0,,,,
Produto 2,,,,,30000.0,,
Produto 3,35000.0,,,,,,
Produto 4,,,33000.0,,,,
Produto 5,,,,,30000.0,,
Produto 6,,,,50000.0,,,12000.0
Produto 7,,,,,,40000.0,
