# O pacote Pandas

O pacote `pandas`teve sua primeira versão lançada em 2008, sendo desenvolvido por Wes McKinney. Seu nome é um trocadilho com "**pan**el **da**ta" e "Python data analysis" (dados em painel/análise de dados em Python).

Construído a partir da biblioteca `NumPy`, `pandas` trouxe para o Python ferramental de trabalho com *dataframes* desenvolvido para o R, permitindo ao usuário que importe dados tabulados de diversas origens, além de manipulá-los e transformá-los. Portanto, é uma das principais armas da ciência de dados em Python.

# *Dataframe*

Um dataframe é uma estrutura bidimensional de linhas e colunas, aproximando-se de uma planilha de Excel, permitindo relacionar diferentes tipos de dados. Cada linha equivale a uma observação epossui um índice associado, ao passo que cada coluna reflete uma variável, que mensura uma detemerinada dimensão ou característica das observações.

São desenvolvidas muitas operações específicas para *dataframes* `pandas`. Funcionalidades *built-in* permitem operações matemáticas, manipulação de *strings*, formação de estatísticas descritivas, agrupamentos e subconjuntos estabelecidos por meio de lógica comparativa/booleana. Tomando inspiração no SQL, é possível realizar `joins` e `queries`.

O análogo do dataframe no Python-base é o dicionário. De fato, vamos começar nosso estudo de dataframes convertendo um dicionario em dataframe.



## Criação, visualização, informações básicas, contagem de elementos e deleção de colunas em um *dataframe*

In [None]:
import pandas as pd

df = pd.DataFrame({'ID_venda' : range(1,21),
                  'ID_vendedor' : (1,1,1,2,3,4,4,5,5,5,5,5,1,2,2,3,1,5,5,1),
                  'ID_loja' : (1,1,1,2,2,2,2,1,1,1,1,1,1,2,2,2,1,1,1,1),
                  'ID_produto' : (1,3,3,3,3,3,2,2,3,3,3,3,1,1,2,2,2,3,1,2),
                  'qtd' : (1,2,1,4,4,2,7,1,1,3,1,5,9,1,6,1,2,1,4,1)})

Antes de comentarmos mais sobre o *dataframe* vamos explorar duas funções uteís na construção de notebooks de ciência de dados. A primeira é a `display()`, que exibe o dataframe criado.

In [None]:
display(df)

Unnamed: 0,ID_venda,ID_vendedor,ID_loja,ID_produto,qtd
0,1,1,1,1,1
1,2,1,1,3,2
2,3,1,1,3,1
3,4,2,2,3,4
4,5,3,2,3,4
5,6,4,2,3,2
6,7,4,2,2,7
7,8,5,1,2,1
8,9,5,1,3,1
9,10,5,1,3,3


Observe que para dataframes mais extensos, a visualização não é conveniente. Para isso, existe a função `head()`, que exibe apenas as cinco primeiras linhas.

In [None]:
df.head()

Unnamed: 0,ID_venda,ID_vendedor,ID_loja,ID_produto,qtd
0,1,1,1,1,1
1,2,1,1,3,2
2,3,1,1,3,1
3,4,2,2,3,4
4,5,3,2,3,4


Ainda vamos saber mais sobre a estrutura deste *dataframe*. A função *shape()* nos informa sobre a quantidade de colunas e linhas, num par `(linhas, colunas)`.

In [None]:
display(df.shape)

(20, 5)

Para saber apenas a quantidade de linhas, basta empregar a velha conhecida `len()`:

In [None]:
display(len(df))

20

E se quisermos conhecer os tipos das variáveis, utilizamos `dtype()`.

In [None]:
df.dtypes

Unnamed: 0,0
ID_venda,int64
ID_vendedor,int64
ID_loja,int64
ID_produto,int64
qtd,int64


Agora, podemos falar mais sobre o dataframe. Cada linha equivale a uma venda, identificada pela coluna `ID_venda`, realizada em uma cadeia de lojas, cada uma com seu `ID_loja`. Os vendedores são identificados por `ID_vendedor`. O produto vendido possui um `ID_produto`, e a quantidade de itens vendidos em uma venda é expressa na coluna `qtd`.

Para sabermos exatamente quantos vendedores, lojas e produtos temos, assumindo que os ID são únicos, vamos empregar a função `value_counts()`.

In [None]:
display(df['ID_vendedor'].value_counts())
display(df['ID_loja'].value_counts())
display(df['ID_produto'].value_counts())

Unnamed: 0_level_0,count
ID_vendedor,Unnamed: 1_level_1
5,7
1,6
2,3
3,2
4,2


Unnamed: 0_level_0,count
ID_loja,Unnamed: 1_level_1
1,13
2,7


Unnamed: 0_level_0,count
ID_produto,Unnamed: 1_level_1
3,10
2,6
1,4


Um ponto importante: para acessar a informação de uma coluna, usamos a notação:

`df[nome da coluna]`

Caso as colunas possuam nomes padrão, ou seja, sem caracteres especiais, podemos usar também:

`df.nome da coluna`

Os resultados são os mesmos, como no exemplo abaixo.

In [None]:
display(df.ID_vendedor.value_counts())
display(df.ID_loja.value_counts())
display(df.ID_produto.value_counts())

Unnamed: 0_level_0,count
ID_vendedor,Unnamed: 1_level_1
5,7
1,6
2,3
3,2
4,2


Unnamed: 0_level_0,count
ID_loja,Unnamed: 1_level_1
1,13
2,7


Unnamed: 0_level_0,count
ID_produto,Unnamed: 1_level_1
3,10
2,6
1,4


Possuímos 5 vendedores, atuando em duas lojas e comercializando trÊs produtos. Esta já é uma estatística descritiva preliminar, com a contagem de vendas distribuídas por cada um desses elementos.

Vamos visualizar de novo as primeiras linhas do nosso *dataframe*.

In [None]:
df.head()

Unnamed: 0,ID_venda,ID_vendedor,ID_loja,ID_produto,qtd
0,1,1,1,1,1
1,2,1,1,3,2
2,3,1,1,3,1
3,4,2,2,3,4
4,5,3,2,3,4


Observem que a coluna `ID_venda` desempenha um papel que poderia facilmente ser executado pelo índice do *dataframe*. Para evitar o consumo de memória, vamos excluí-la. Existem duas opções de sintaxe diferentes para tanto, ambas empregando a função `drop`. Na primeira, usamos `axis = 1`, já que `axis = 0` é o eixo das linhas.

In [None]:
df.drop('ID_venda', axis=1).head()

Unnamed: 0,ID_vendedor,ID_loja,ID_produto,qtd
0,1,1,1,1
1,1,1,3,2
2,1,1,3,1
3,2,2,3,4
4,3,2,3,4


Na segunda, usamos diretamente o argumento `columns`:

In [None]:
df.drop(columns=['ID_venda']).head()

Unnamed: 0,ID_vendedor,ID_loja,ID_produto,qtd
0,1,1,1,1
1,1,1,3,2
2,1,1,3,1
3,2,2,3,4
4,3,2,3,4


Vamos visualizar novamente o cabeçalho do nosso *dataframe*.

In [None]:
df.head()

Unnamed: 0,ID_venda,ID_vendedor,ID_loja,ID_produto,qtd
0,1,1,1,1,1
1,2,1,1,3,2
2,3,1,1,3,1
3,4,2,2,3,4
4,5,3,2,3,4


Observe que a coluna *ID_venda* continua no *dataframe*. Isso ocorre porque precisamos instanciar noobjeto a operação. Podemos fazer isso de duas formas, atribuindo o *dataframe* a si mesmo:

`df = df.drop('coluna', axis = 1)`

Ou usando o argumento `inplace = True`:

`df.drop('coluna', axis = 1, inplace = True)`

Vamos optar pela segunda opção, por ser mais sucinta:

In [None]:
df.drop(columns=['ID_venda'], inplace = True)

Vamos visualizar o resultado agora:

In [None]:
df.head()

Unnamed: 0,ID_vendedor,ID_loja,ID_produto,qtd
0,1,1,1,1
1,1,1,3,2
2,1,1,3,1
3,2,2,3,4
4,3,2,3,4


## Álgebra relacional, conversão de tipos de colunas e *joins*

Observe que a modelagem dos nossos dados é **relacional**, ou seja, utiliza códigos para numéricos para relacionar nossa **tabela fato**, que é o *dataframe* que estamos utilizando no presente momento, reunindo os dados de vendas, e as **tabelas dimensão**, que ligam os IDs únicos aos nomes de vendedores, lojas e produtos. Vamos criar estes *dataframes*.

In [None]:
df_vendedores = pd.DataFrame({'ID_vendedor' : range(1,6),
                              'vendedor': ('Lucas', 'Marcos', 'Maria', 'Marina', 'Regina')})

display(df_vendedores)

Unnamed: 0,ID_vendedor,vendedor
0,1,Lucas
1,2,Marcos
2,3,Maria
3,4,Marina
4,5,Regina


In [None]:
df_lojas = pd.DataFrame({'ID_loja' : range(1,3),
                              'loja': ('Shopping', 'Centro')})

display(df_lojas)

Unnamed: 0,ID_loja,loja
0,1,Shopping
1,2,Centro


In [None]:
df_produtos = pd.DataFrame({'ID_produto' : range(1,4),
                              'produto': ('Sapato', 'Saia', 'Camisa'),
                              'preco': (95.25,37.50,25),
                              'custo_unitario': (57.38,21,19.5)
                            })

display(df_produtos)

Unnamed: 0,ID_produto,produto,preco,custo_unitario
0,1,Sapato,95.25,57.38
1,2,Saia,37.5,21.0
2,3,Camisa,25.0,19.5


Agora, podemos ver que o `vendedor` cujo `ID_vendedor` é 3 no *dataframe* original é Maria, a `loja` cujo `ID_loja` é 1 fica no Shopping e o `produto` cujo `ID_produto` é 2 é uma saia. Observe que, neste último caso, além dos dados de identificação, temos também o preço e o custo unitário da mercadoria.

Será interessante para o restante das nossas análises levarmos estas informações para a tabelaoriginal. Faremos isso por meio dos `joins`.

**Atenção**: estamos fazendo essa operação apenas para fins didáticos. Em bases reais, é interessante justamente fazermos o caminho contrário: codificar variáveis chamadas categóricas, ou seja, transformar a loja 'Shopping' no código 1 ou a vendedora Maria no código 3. Isso evita especialmente erros decorrentes de corrupção de caracteres, comuns em bancos grandes.

Antes de fazermos os *joins*, chamados *merges* no `pandas`, vamos converter as colunas de ID para string. Se você se lembra, elas estão como inteiros. É interessante que as colunas-chave, como chamamos as colunas que carregam os códigos que ligam as tabelas, sejam *strings*, para evitar erros de tipos numéricos diferentes. Faremos essa conversão por meio da função `astype()`, que pode receber como argumentos `str`, `int` ou `float`, além de qualquer outro tipo.

In [None]:
df['ID_vendedor'] = df['ID_vendedor'].astype(str)
df['ID_loja'] = df['ID_loja'].astype(str)
df['ID_produto'] = df['ID_produto'].astype(str)
df.head()

Unnamed: 0,ID_vendedor,ID_loja,ID_produto,qtd
0,1,1,1,1
1,1,1,3,2
2,1,1,3,1
3,2,2,3,4
4,3,2,3,4


In [None]:
df.dtypes

Unnamed: 0,0
ID_vendedor,object
ID_loja,object
ID_produto,object
qtd,int64


Observe que a única variável a permanecer com tipo numérico é a coluna `qtd`, como deveria ser. Vamos fazer agora essa operação de conversão para os demais *dataframes*. No caso do *df_produtos*, as colunas `preco` e `custo_unitario` também permanecerão como *float*. Para nos auxiliar neste processo, faremos um *loop* por uma lista de *dataframes* e usaremos o operador `is`, para comparar objetos:

In [None]:
dfs_convert = [df_vendedores, df_lojas, df_produtos]

for df_convert in dfs_convert:
  if df_convert is df_vendedores:
    coluna = 'ID_vendedor'
  elif df_convert is df_lojas:
    coluna = 'ID_loja'
  else:
    coluna = 'ID_produto'
  df_convert[coluna] = df_convert[coluna].astype(str)
  display(df_convert.dtypes)

Unnamed: 0,0
ID_vendedor,object
vendedor,object


Unnamed: 0,0
ID_loja,object
loja,object


Unnamed: 0,0
ID_produto,object
produto,object
preco,float64
custo_unitario,float64


Agora podemos usar a função merge, cuja sintaxe mais didática é:

`df1 = df1.merge(df2, left_on = ['col1',...,'col2'],right_on = ['col1',...,'col2'], how = 'left')`

Podemos também fazer da seguinte forma:

`df1 = pd.merge(df1, df2, left_on = ['col1',...,'col2'],right_on = ['col1',...,'col2'], how = 'left')`

Vamos esmiúçar um pouco mais esta função. O dataframe que está do lado de fora do merge ou é o primeiro citado dentro do parenteses, caso empreguemos `pd.merge()` é o da **ESQUERDA**. O outro, por consequência, é o da **DIREITA**.

Isso é de fundamental importância pelos tipos de *joins* que executaremos. Este é o tema de maior complexidade em bancos de dados relacionais. Para o escopo deste curso, trataremos apenas do *LEFT JOIN*, que é o mais comum. O *left join* faz uma junção preservando todas as linhas do dataframe da esquerda e trazendo as colunas do dataframe da direita em que há correspondência entre as chaves. Estas são passadas nos argumentos `left_on`, com as chaves do dataframe da esquerda, e `right_on`, com as chaves do dataframe da direita. No nosso exemplo, supondo um left join entre `df` e `df_loja`. A chave possui o mesmo nome em ambas, `ID_loja`:

1.   Na linha do *dataframe* da **ESQUERDA**, `df`, em que o valor da coluna `ID_loja` for 1, será trazida a coluna loja do *dataframe* da **DIREITA**, `df_lojas`, com o valor Shopping, que corresponde ao `ID_loja` de valor 1 neste segundo *dataframe*.
2.   Na linha do *dataframe* da **ESQUERDA**, `df`, em que o valor da coluna `ID_loja` for 2, será trazida a coluna loja do *dataframe* da **DIREITA**, `df_lojas`, com o valor Centro, que corresponde ao `ID_loja` de valor 2 neste segundo *dataframe*.

No nosso caso, não teremos problemas, pois o número de valores únicos nas chaves dos dois *dataframes* é igual, havendo correspondência entre todos. O *dataframe* resultante tem 20 linhas, o mesmo número da **ESQUERDA**. Agora, suponhamos que o nosso *df_lojas* fosse da forma:





In [None]:
df_lojas_2 = pd.DataFrame({'ID_loja': 1,
                          'loja': 'Shopping'},
                          index=[0])
display(df_lojas_2)

Unnamed: 0,ID_loja,loja
0,1,Shopping


Neste caso, somente seria possível realizar o item 1 do nosso join acima

1.   Na linha do *dataframe* da **ESQUERDA**, `df`, em que o valor da coluna `ID_loja` for 1, será trazida a coluna loja do *dataframe* da **DIREITA**, `df_loja`, com o valor Shopping, que corresponde ao `ID_loja` de valor 1 neste segundo *dataframe*.

E nas linhas em que o `ID_loja` de *df* fosse 2, qual seria o valor da coluna `loja`? Como não há correspondentes no *dataframe* da **DIREITA**, a linha do dataframe *df* seria preservada, mas a coluna loja teria valor NaN (*missing*), com o *df* mantendo suas vinte linhas originais.

Agora suponha que existisse um terceiro código no nosso *df_loja*:



In [None]:
df_lojas_3 = pd.DataFrame({'ID_loja' : range(1,4),
                              'vendedor': ('Shopping', 'Centro', 'Bairro')})

display(df_lojas_3)

Unnamed: 0,ID_loja,vendedor
0,1,Shopping
1,2,Centro
2,3,Bairro


Agora, realizaríamos as duas operações que pudemos realizar com o *dataframe* da **DIREITA** original:

1.   Na linha do *dataframe* da **ESQUERDA**, `df`, em que o valor da coluna `ID_loja` for 1, será trazida a coluna loja do *dataframe* da **DIREITA**, `df_lojas`, com o valor Shopping, que corresponde ao `ID_loja` de valor 1 neste segundo *dataframe*.
2.   Na linha do *dataframe* da **ESQUERDA**, `df`, em que o valor da coluna `ID_loja` for 2, será trazida a coluna loja do *dataframe* da **DIREITA**, `df_lojas`, com o valor Centro, que corresponde ao `ID_loja` de valor 2 neste segundo *dataframe*.

E quanto ao código 3, Bairro? Como não há nenhuma loja de código 3 no *dataframe* da **ESQUERDA**, a linha (3, Bairro) é "descartada" no join com o *dataframe* da **DIREITA**. O *dataframe* resultante possui 20 linhas e nenhum *missing*. Por fim, imaginemos um último caso. Suponhamos que o nosso *dataframe* da **ESQUERDA**, *df*, tivesse algum código 3 na sua coluna `ID_loja`, mas o *dataframe* da **DIREITA**, fosse o original (1 - Shopping/2 - Centro). Como seria o *dataframe* resultante, após o *merge*?

Poderíamos realizar, da mesma forma que acima, as duas operações:

1.   Na linha do *dataframe* da **ESQUERDA**, `df`, em que o valor da coluna `ID_loja` for 1, será trazida a coluna loja do *dataframe* da **DIREITA**, `df_lojas`, com o valor Shopping, que corresponde ao `ID_loja` de valor 1 neste segundo *dataframe*.
2.   Na linha do *dataframe* da **ESQUERDA**, `df`, em que o valor da coluna `ID_loja` for 2, será trazida a coluna loja do *dataframe* da **DIREITA**, `df_lojas`, com o valor Centro, que corresponde ao `ID_loja` de valor 2 neste segundo *dataframe*.

E quanto ao valor das linhas com código 3 em df? Como ele é o dataframe da **ESQUERDA**, essas linhas seriam preservadas. O dataframe resultante teriam 20 linhas e missing na coluna loja onde ID_loja fosse 3, por não haver correspondência no *dataframe* da **DIREITA**.

É isto que queremos dizer quando falamos que, em um **LEFT JOIN**, preserva-se o dataframe da **ESQUERDA** e trazem-se os pontos em que há interseção com o dataframe da **DIREITA**.

Vamos agora juntar nossos *dataframes*!


In [None]:
df = df.merge(df_vendedores, left_on='ID_vendedor', right_on='ID_vendedor', how = 'left')
df = df.merge(df_lojas, left_on='ID_loja', right_on='ID_loja', how = 'left')
df = df.merge(df_produtos, left_on='ID_produto', right_on='ID_produto', how = 'left')
df.head()

Unnamed: 0,ID_vendedor,ID_loja,ID_produto,qtd,vendedor,loja,produto,preco,custo_unitario
0,1,1,1,1,Lucas,Shopping,Sapato,95.25,57.38
1,1,1,3,2,Lucas,Shopping,Camisa,25.0,19.5
2,1,1,3,1,Lucas,Shopping,Camisa,25.0,19.5
3,2,2,3,4,Marcos,Centro,Camisa,25.0,19.5
4,3,2,3,4,Maria,Centro,Camisa,25.0,19.5


Como já temos as informações das variáveis categóricas, vamos deletar as colunas ID:

In [None]:
df.drop(columns = ['ID_vendedor', 'ID_loja', 'ID_produto'], inplace = True)
df.head()

Unnamed: 0,qtd,vendedor,loja,produto,preco,custo_unitario
0,1,Lucas,Shopping,Sapato,95.25,57.38
1,2,Lucas,Shopping,Camisa,25.0,19.5
2,1,Lucas,Shopping,Camisa,25.0,19.5
3,4,Marcos,Centro,Camisa,25.0,19.5
4,4,Maria,Centro,Camisa,25.0,19.5


Vejamos também os tipos dos *dataframe* e confirmemos que ele possui 20 linhas, mantendo todas as linhas do *dataframe* da **ESQUERDA**.

In [None]:
df.dtypes

Unnamed: 0,0
qtd,int64
vendedor,object
loja,object
produto,object
preco,float64
custo_unitario,float64


In [None]:
df.shape

(20, 6)

Por fim, um último ponto sobre álgebra relacional, antes de encerrarmos esta subseção. A correspondência que vimos entre nossas tabelas é do tipo **MUITOS-PARA-UM**, ou seja, muitos valores no *dataframe* da **ESQUERDA** para valores exclusivos no *dataframe* da **DIREITA**. Existem outros dois tipos de correspondência:

*   **UM-PARA-UM**: valores exclusivos no dataframe da **ESQUERDA** para valores exclusivos da **DIREITA**.
*   **UM-PARA-MUITOS**: valores exclusivos no dataframe da **ESQUERDA** para muitos valores na **DIREITA**.



## Criação de colunas e operações algébricas

Criar colunas em um *dataframe* pré-existente é muito simples. Basta instanciar a nova coluna, como no exemplo abaixo. Adicionalmente, ao realizarmos operações algébricas entre colunas numéricas, basta indicarmos as operações entre as colunas. O `pandas` automaticamente fará o cálculo para todas as linhas.

Vamos criar uma coluna `receita` da venda (lembre-se que cada linha do nosso *dataframe* equivale a uma venda), correspondendo ao produto da quantidade vendida pelo preço de venda ao consumidor, uma coluna `custo_total` da venda, com a multiplicação entre a quantidade de itens vendidos e o custo de aquisição unitário e, finalmente, uma coluna `lucro`, com a diferença entre a receita auferida e o custo total ao lojista. Vejamos também os tipos das variáveis criadas.

In [None]:
df['receita'] = df['qtd']*df['preco']
df['custo_total'] = df['qtd']*df['custo_unitario']
df['lucro'] = df['receita'] - df['custo_total']
df.head()

Unnamed: 0,qtd,vendedor,loja,produto,preco,custo_unitario,receita,custo_total,lucro
0,1,Lucas,Shopping,Sapato,95.25,57.38,95.25,57.38,37.87
1,2,Lucas,Shopping,Camisa,25.0,19.5,50.0,39.0,11.0
2,1,Lucas,Shopping,Camisa,25.0,19.5,25.0,19.5,5.5
3,4,Marcos,Centro,Camisa,25.0,19.5,100.0,78.0,22.0
4,4,Maria,Centro,Camisa,25.0,19.5,100.0,78.0,22.0


In [None]:
df.dtypes

Unnamed: 0,0
qtd,int64
vendedor,object
loja,object
produto,object
preco,float64
receita,float64


## *Subsetting*, *queries* e alteração de campos

Em aplicações reais, a maior parte das bases de dados é muito extensa para analisarmos na íntegra. Também não estamos interessados em observações individuais, mas sim nas tendências que surgem do conjunto. Finalmente, muitas vezes queremos isolar algumas variáveis para enender seus efeitos separadamente.

Desta forma, a criação de subconjuntos (*subsets*) é extremamente importante na ciência de dados. Vamos começar fazendo uma operação que já sabemos: extraír uma única coluna.

In [None]:
vendedores = df['vendedor']
vendedores.head()

Unnamed: 0,vendedor
0,Lucas
1,Lucas
2,Lucas
3,Marcos
4,Maria


Para extrair duas colunas, usamos os colchetes duplos:

In [None]:
vendedores_loja = df[['vendedor', 'loja']]
vendedores_loja.head()

Unnamed: 0,vendedor,loja
0,Lucas,Shopping
1,Lucas,Shopping
2,Lucas,Shopping
3,Marcos,Centro
4,Maria,Centro


Outro meio de criar subconjuntos é pela aplicação de **filtros**. Em um primeiro momento, queremos ver todas as vendas com lucro igual ou superior a 35.

In [None]:
lucro_35 = df[df.lucro >= 35]
display(lucro_35)

Unnamed: 0,qtd,vendedor,loja,produto,preco,custo_unitario,receita,custo_total,lucro
0,1,Lucas,Shopping,Sapato,95.25,57.38,95.25,57.38,37.87
6,7,Marina,Centro,Saia,37.5,21.0,262.5,147.0,115.5
12,9,Lucas,Shopping,Sapato,95.25,57.38,857.25,516.42,340.83
13,1,Marcos,Centro,Sapato,95.25,57.38,95.25,57.38,37.87
14,6,Marcos,Centro,Saia,37.5,21.0,225.0,126.0,99.0
18,4,Regina,Shopping,Sapato,95.25,57.38,381.0,229.52,151.48


Por outro lado, para as receitas estritamente inferiores a 60:

In [None]:
receita = df[df.receita < 60]
display(receita)

Unnamed: 0,qtd,vendedor,loja,produto,preco,custo_unitario,receita,custo_total,lucro
1,2,Lucas,Shopping,Camisa,25.0,19.5,50.0,39.0,11.0
2,1,Lucas,Shopping,Camisa,25.0,19.5,25.0,19.5,5.5
5,2,Marina,Centro,Camisa,25.0,19.5,50.0,39.0,11.0
7,1,Regina,Shopping,Saia,37.5,21.0,37.5,21.0,16.5
8,1,Regina,Shopping,Camisa,25.0,19.5,25.0,19.5,5.5
10,1,Regina,Shopping,Camisa,25.0,19.5,25.0,19.5,5.5
15,1,Maria,Centro,Saia,37.5,21.0,37.5,21.0,16.5
17,1,Regina,Shopping,Camisa,25.0,19.5,25.0,19.5,5.5
19,1,Lucas,Shopping,Saia,37.5,21.0,37.5,21.0,16.5


Podemos também ver todos os sapatos vendidos no Shopping.

In [None]:
sapatos_shopping = df[(df.loja == 'Shopping')&(df.produto == 'Sapato')]
display(sapatos_shopping)

Unnamed: 0,qtd,vendedor,loja,produto,preco,custo_unitario,receita,custo_total,lucro
0,1,Lucas,Shopping,Sapato,95.25,57.38,95.25,57.38,37.87
12,9,Lucas,Shopping,Sapato,95.25,57.38,857.25,516.42,340.83
18,4,Regina,Shopping,Sapato,95.25,57.38,381.0,229.52,151.48


Para extrair apenas o custo total das vendas feitas por Lucas ou Marina, procedemos da seguinte forma:

In [None]:
custo_L_M = df['custo_total'][(df.vendedor == 'Lucas')|(df.vendedor == 'Marina')]
display(custo_L_M)

Unnamed: 0,custo_total
0,57.38
1,39.0
2,19.5
5,39.0
6,147.0
12,516.42
16,42.0
19,21.0


Observe que, para a utilização de booleanos, separamos cada condição por parenteses e empregamos a notação `&` para `and` e `|` para `or`.

Poderíamos realizar a segunda operação acima de maneira mais sucinta, por meio da função `isin()`:

In [None]:
custo_L_M_2 = df['custo_total'][df.vendedor.isin(['Lucas','Marina'])]
display(custo_L_M_2)

Unnamed: 0,custo_total
0,57.38
1,39.0
2,19.5
5,39.0
6,147.0
12,516.42
16,42.0
19,21.0


O que fizemos acima foi extrair ao mesmo tempo linhas e colunas. Para isto, podemos empregar também os operadores `loc`/`iloc`.

In [None]:
custo_L_M_3 = df.loc[df.vendedor.isin(['Lucas','Marina']), 'custo_total']
display(custo_L_M_3)

Unnamed: 0,custo_total
0,57.38
1,39.0
2,19.5
5,39.0
6,147.0
12,516.42
16,42.0
19,21.0


Já `iloc`deve ser usado quando trabalhamos com índices. Da mesma maneira que cada linha possui um índice, cada coluna, além do nome, pode ser referenciada por um número. Desta forma, `qtd` é zero, por ser a primeira, e `custo_total` equivale a 7.

In [None]:
custo_L_M_4 = df.iloc[0:5,7]
display(custo_L_M_4)

Unnamed: 0,custo_total
0,57.38
1,39.0
2,19.5
3,78.0
4,78.0


Os operadores `loc`/`iloc` também podem ser usados para alterar os dados, com a sintaxe:

```
df.loc[condição, coluna] = novo valor
```

Suponhamos que o nome do vendedor Lucas seja, na verdade, Luciano:

In [None]:
df.loc[df.vendedor == 'Lucas', 'vendedor'] = 'Luciano'
df.head()

Unnamed: 0,qtd,vendedor,loja,produto,preco,custo_unitario,receita,custo_total,lucro
0,1,Luciano,Shopping,Sapato,95.25,57.38,95.25,57.38,37.87
1,2,Luciano,Shopping,Camisa,25.0,19.5,50.0,39.0,11.0
2,1,Luciano,Shopping,Camisa,25.0,19.5,25.0,19.5,5.5
3,4,Marcos,Centro,Camisa,25.0,19.5,100.0,78.0,22.0
4,4,Maria,Centro,Camisa,25.0,19.5,100.0,78.0,22.0


Essa sintaxe reduzida é muito mais sucinta que a alternativa, usando `for` e `if`. Salvo situações específicas de maior complexidade, em geral *loops* em *dataframes* devem ser evitados por motivos de eficência, já que existem soluções nativas ao `pandas` para resolver o problema de maneira vetorial. Observe como este problema seria resolvido, com um *loop*.

In [None]:
for i in range(len(df)):
  if df.loc[i, 'vendedor'] == 'Luciano':
    df.loc[i, 'vendedor'] = 'Lucas'

df.head()

Unnamed: 0,qtd,vendedor,loja,produto,preco,custo_unitario,receita,custo_total,lucro
0,1,Lucas,Shopping,Sapato,95.25,57.38,95.25,57.38,37.87
1,2,Lucas,Shopping,Camisa,25.0,19.5,50.0,39.0,11.0
2,1,Lucas,Shopping,Camisa,25.0,19.5,25.0,19.5,5.5
3,4,Marcos,Centro,Camisa,25.0,19.5,100.0,78.0,22.0
4,4,Maria,Centro,Camisa,25.0,19.5,100.0,78.0,22.0


O mesmo resultado, porém com mais linhas de código e menor eficiência. Vamos aproveitar a introdução deste assunto para mostrar uma última função de subsetting, para trabalhar com dados *missing*. Inicialmente, vamos trocar todos os preços de sapatos para o falor NaN empregando a função `np.nan`, simulando algum erro de preenchimento da base.

In [None]:
import numpy as np

df.loc[df.produto == 'Sapato', 'preco'] = np.nan
df.head()

Unnamed: 0,qtd,vendedor,loja,produto,preco,custo_unitario,receita,custo_total,lucro
0,1,Lucas,Shopping,Sapato,,57.38,95.25,57.38,37.87
1,2,Lucas,Shopping,Camisa,25.0,19.5,50.0,39.0,11.0
2,1,Lucas,Shopping,Camisa,25.0,19.5,25.0,19.5,5.5
3,4,Marcos,Centro,Camisa,25.0,19.5,100.0,78.0,22.0
4,4,Maria,Centro,Camisa,25.0,19.5,100.0,78.0,22.0


Vamos usar a função notna() para obtermos um dataset secundário composto apenas de preços preenchidos. Confiramos as dimensões dele posteriormente.

In [None]:
precos_validos = df[df.preco.notna()]
precos_validos.head()

Unnamed: 0,qtd,vendedor,loja,produto,preco,custo_unitario,receita,custo_total,lucro
1,2,Lucas,Shopping,Camisa,25.0,19.5,50.0,39.0,11.0
2,1,Lucas,Shopping,Camisa,25.0,19.5,25.0,19.5,5.5
3,4,Marcos,Centro,Camisa,25.0,19.5,100.0,78.0,22.0
4,4,Maria,Centro,Camisa,25.0,19.5,100.0,78.0,22.0
5,2,Marina,Centro,Camisa,25.0,19.5,50.0,39.0,11.0


In [None]:
precos_validos.shape

(16, 9)

Agora, vamos usar a função `isna()` para detectar os valores NaN no nosso *dataframe* original e retornar ao preenchimento correto.

In [None]:
df.loc[df.preco.isna(), 'preco'] = 95.25
df.head()

Unnamed: 0,qtd,vendedor,loja,produto,preco,custo_unitario,receita,custo_total,lucro
0,1,Lucas,Shopping,Sapato,95.25,57.38,95.25,57.38,37.87
1,2,Lucas,Shopping,Camisa,25.0,19.5,50.0,39.0,11.0
2,1,Lucas,Shopping,Camisa,25.0,19.5,25.0,19.5,5.5
3,4,Marcos,Centro,Camisa,25.0,19.5,100.0,78.0,22.0
4,4,Maria,Centro,Camisa,25.0,19.5,100.0,78.0,22.0


Por fim, encerrando esta subseção, apresentamos ainda outro método de criar subsets: a função `query()`, tomada do SQL, que realiza buscas em um *dataframe* empregando operadores de comparação e booleanos (na notação `&` e `|`).

Vamos, por exemplo, ver o subset das vendas realizadas por todos os vendedores que não Lucas.

In [None]:
vendas_sem_L = df.query('vendedor != "Lucas"')
display(vendas_sem_L)

Unnamed: 0,qtd,vendedor,loja,produto,preco,custo_unitario,receita,custo_total,lucro
3,4,Marcos,Centro,Camisa,25.0,19.5,100.0,78.0,22.0
4,4,Maria,Centro,Camisa,25.0,19.5,100.0,78.0,22.0
5,2,Marina,Centro,Camisa,25.0,19.5,50.0,39.0,11.0
6,7,Marina,Centro,Saia,37.5,21.0,262.5,147.0,115.5
7,1,Regina,Shopping,Saia,37.5,21.0,37.5,21.0,16.5
8,1,Regina,Shopping,Camisa,25.0,19.5,25.0,19.5,5.5
9,3,Regina,Shopping,Camisa,25.0,19.5,75.0,58.5,16.5
10,1,Regina,Shopping,Camisa,25.0,19.5,25.0,19.5,5.5
11,5,Regina,Shopping,Camisa,25.0,19.5,125.0,97.5,27.5
13,1,Marcos,Centro,Sapato,95.25,57.38,95.25,57.38,37.87


Agora vamos pesquisar as vendas feitas por Marcos ou Regina com lucro superior a 20 reais.

In [None]:
vendas_R_M_20 = df.query('(vendedor == "Marcos" | vendedor == "Regina") & lucro > 20')
display(vendas_R_M_20)

Unnamed: 0,qtd,vendedor,loja,produto,preco,custo_unitario,receita,custo_total,lucro
3,4,Marcos,Centro,Camisa,25.0,19.5,100.0,78.0,22.0
11,5,Regina,Shopping,Camisa,25.0,19.5,125.0,97.5,27.5
13,1,Marcos,Centro,Sapato,95.25,57.38,95.25,57.38,37.87
14,6,Marcos,Centro,Saia,37.5,21.0,225.0,126.0,99.0
18,4,Regina,Shopping,Sapato,95.25,57.38,381.0,229.52,151.48


Para extrir apenas o local e os produtos vendidos, usamos a seguinte notação:

In [None]:
vendas_R_M_20 = df.query('(vendedor == "Marcos" | vendedor == "Regina") & lucro > 20')[['loja', 'produto']]
display(vendas_R_M_20)

Unnamed: 0,loja,produto
3,Centro,Camisa
11,Shopping,Camisa
13,Centro,Sapato
14,Centro,Saia
18,Shopping,Sapato


## Estatísticas descritivas e agrupamentos

Encerrando esta seção, apresentamos duas das principais armas no arsenal da ciência de dados. Como mencionamos acima, tendências nos conjuntos são uma das principais fontes de informação para a análise. Isto pode ser obtido, dentre outros meios, por estatísticas descritivas e agrupamentos.

A função `describe()` retorna as principais medidas empregadas no cotidiano, da seguinte forma:

In [None]:
estatisticas = df['lucro'].describe()
display(estatisticas)

Unnamed: 0,lucro
count,20.0
mean,49.8525
std,79.366113
min,5.5
25%,11.0
50%,19.25
75%,37.87
max,340.83


Já a função groupby() realiza agrupamentos, aplicando funções específicas. Vejamos, por exemplo, o lucro total auferido por cada vendedor.

In [None]:
display(df.groupby(by = 'vendedor')['lucro'].sum())

Unnamed: 0_level_0,lucro
vendedor,Unnamed: 1_level_1
Lucas,444.7
Marcos,158.87
Maria,38.5
Marina,126.5
Regina,228.48


Por outro lado, se quisermos a média das receitas de cada local de venda:

In [None]:
display(df.groupby(by = 'loja')['receita'].mean())

Unnamed: 0_level_0,receita
loja,Unnamed: 1_level_1
Centro,124.321429
Shopping,141.038462


Podemos combinar tudo que vimos até aqui. Se quisermos saber quanto cada vendedor auferiu de lucro vendendo Sapatos, por exemplo:

In [None]:
display(df[df.produto == 'Sapato'].groupby(by = 'vendedor')['lucro'].sum())

Unnamed: 0_level_0,lucro
vendedor,Unnamed: 1_level_1
Lucas,378.7
Marcos,37.87
Regina,151.48


Se quisermos que a análise seja feita para mais de uma coluna ao mesmo tempo:

In [None]:
display(df[df.produto.isin(['Camisa', 'Saia'])].groupby(by = 'loja')[['lucro', 'receita', 'qtd']].mean())

Unnamed: 0_level_0,lucro,receita,qtd
loja,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Centro,47.666667,129.166667,4.0
Shopping,14.3,50.0,1.8
