# Agrupamento e Slicing

## Carregando o dataset

In [None]:
import pandas as pd

In [None]:
# Configuração para que os números fiquem com 2 casas decimais
pd.options.display.float_format = '{:,.2f}'.format

In [None]:
dataset = r'/content/drive/MyDrive/2022/Data Science/atividade_casa.csv'
df = pd.read_csv(dataset)

In [None]:
df.sample(5)

Unnamed: 0,Produto,Cor,Valor,Quantidade,Sexo,Idade,Data da Venda,Canal
24688,Calça,Amarela,63.9,4,Masculino,39,2022-06-14,Loja Virtual
20266,Short,Roxa,159.96,2,Masculino,38,2022-02-18,Loja Virtual
27332,Saia,Cinza,78.25,2,Feminino,41,2022-07-17,Loja Física
17326,Camisa,Cinza,99.11,4,Masculino,46,2022-04-20,Loja Física
53439,Saia,Cinza,78.67,4,Masculino,45,2022-01-17,Loja Virtual


## Indexação no Pandas

### Seleção baseado em índice

A indexação do Pandas funciona com dois paradigmas. A primeira é a <u>seleção baseada em índice</u>: selecionar dados com base em sua posição numérica nos dados. O __iloc__ segue este paradigma.

Para selecionar a primeira linha de dados em um _DataFrame_, faremos uso do iloc passando o index posicional.

__SINTAXE__

`df.iloc[0]`

In [None]:
df.iloc[0]

Produto                 Calça
Cor                      Roxa
Valor                   66.95
Quantidade                  4
Sexo                Masculino
Idade                      39
Data da Venda      2022-02-25
Canal            Loja Virtual
Name: 0, dtype: object

In [None]:
df.iloc[0].to_frame().transpose()

Unnamed: 0,Produto,Cor,Valor,Quantidade,Sexo,Idade,Data da Venda,Canal
0,Calça,Roxa,66.95,4,Masculino,39,2022-02-25,Loja Virtual


Tanto __loc__ quanto __iloc__ trabalham com _linha-primeiro_ e _coluna-segundo_. 

Isto é o oposto do que fazemos no Python nativo, que é a _coluna-primeiro_ e  a _linha-segundo_.

Isto significa que é um pouco mais fácil recuperar linhas e um pouco mais difícil recuperar colunas. Para obter uma coluna com __iloc__, devemos escrever assim: `df.iloc[:, 0]`

Por si só, o seletor __:__ , que também vem do Python nativo, significa __tudo__. 

Quando combinado com outros seletores, no entanto, pode ser usado para indicar um intervalo de valores. 

Por exemplo, para selecionar a coluna da _Data da Venda_ apenas da primeira, segunda e terceira linha, devemos seguir a sintaxe `df.iloc[:3, 0]`, mas, também, podemos passar uma lista como `df.iloc[[0, 1, 2], 0]`.

Podemos passar um intervalo, por exemplo: `df.iloc[1:3, 0]`

Por fim, vale saber que números negativos podem ser usados na seleção. Isso começará a contar para frente a partir do final dos valores. 

Então, por exemplo, aqui estão os últimos cinco elementos do conjunto de dados - `df.iloc[-5:]`



In [None]:
df.iloc[:, 0]

0           Calça
1        Camiseta
2           Calça
3           Short
4        Camiseta
           ...   
99995       Calça
99996        Saia
99997       Calça
99998       Calça
99999        Saia
Name: Produto, Length: 100000, dtype: object

In [None]:
df.columns

Index(['Produto', 'Cor', 'Valor', 'Quantidade', 'Sexo', 'Idade',
       'Data da Venda', 'Canal'],
      dtype='object')

In [None]:
df.iloc[:3, 6]

0    2022-02-25
1    2022-01-19
2    2022-03-11
Name: Data da Venda, dtype: object

In [None]:
df.iloc[[0, 1, 2], 6]

0    2022-02-25
1    2022-01-19
2    2022-03-11
Name: Data da Venda, dtype: object

In [None]:
df.iloc[-5:]

Unnamed: 0,Produto,Cor,Valor,Quantidade,Sexo,Idade,Data da Venda,Canal
99995,Calça,Laranja,101.16,4,Masculino,46,2022-01-24,Loja Física
99996,Saia,Preta,100.82,3,Masculino,28,2022-03-08,Loja Física
99997,Calça,Azul,63.92,4,Feminino,48,2022-06-08,Loja Virtual
99998,Calça,Azul,149.06,3,Feminino,19,2022-01-05,Loja Física
99999,Saia,Verde,114.09,3,Masculino,25,2022-04-19,Loja Virtual


### Seleção baseada em rótulo

O segundo paradigma para seleção de atributos é o seguido pelo operador __loc__: _seleção baseada em rótulos_. 

Nesse paradigma, é o __valor__ do índice de dados, __não sua posição__, que importa.

Por exemplo, para obter a primeira entrada do _dataset_, agora faríamos o seguinte: `df.loc[0, 'coluna']`

__iloc__ é conceitualmente mais simples que __loc__ porque ignora os índices do conjunto de dados. 

Quando usamos __iloc__, tratamos o conjunto de dados como uma grande matriz (uma lista de listas), na qual temos que indexar por posição. 

__loc__, por outro lado, usa as informações dos índices para fazer seu trabalho. Como seu conjunto de dados geralmente tem índices significativos, geralmente é mais fácil fazer as coisas usando __loc__. 

Por exemplo, aqui está uma operação que é muito mais fácil usando __loc__: `df.loc[:, ['coluna', 'coluna', 'coluna']]`

In [None]:
df.loc[0, 'Idade']

39

In [None]:
df.loc[:, ['Cor', 'Produto', 'Valor']]

Unnamed: 0,Cor,Produto,Valor
0,Roxa,Calça,66.95
1,Amarela,Camiseta,99.69
2,Azul,Calça,92.50
3,Azul,Short,162.69
4,Laranja,Camiseta,148.19
...,...,...,...
99995,Laranja,Calça,101.16
99996,Preta,Saia,100.82
99997,Azul,Calça,63.92
99998,Azul,Calça,149.06


### Escolhendo entre loc e iloc

Ao escolher ou fazer a transição entre __loc__ e __iloc__, há uma "_pegadinha_" que vale a pena ter em mente, que é que _os dois métodos usam esquemas de indexação ligeiramente diferentes_.

__iloc__ usa o esquema de indexação _stdlib_ do Python, onde o primeiro elemento do intervalo é incluído e o último excluído. 

Portanto, 0:10 selecionará as entradas 0,...,9. __loc__, enquanto isso, indexa inclusive. Portanto, 0:10 selecionará as entradas 0,...,10.

Por que a mudança? Lembre-se que loc pode indexar qualquer tipo de stdlib: strings, por exemplo. 

Isso é particularmente confuso quando o índice _DataFrame_ é uma lista numérica simples, por exemplo. 0,...,1000. 

Neste caso `df.iloc[0:1000]` retornará 1000 entradas, enquanto `df.loc[0:1000]` retornará 1001 delas! 

Para obter 1000 elementos usando loc, você precisará descer um e pedir `df.loc[0:999]`.

Caso contrário, a semântica do uso de loc é a mesma de iloc.

In [None]:
print(f'iloc: {len(df.iloc[0:10])} -----> loc: {len(df.loc[0:10])}')

iloc: 10 -----> loc: 11


## Manipulando o index

<u>A seleção baseada em rótulos</u> tem seu poder nos rótulos do índice.

> Criticamente, o índice que usamos não é imutável. Podemos manipular o índice da maneira que acharmos melhor.

O método `set_index()` pode ser usado para fazer o trabalho. 

__SINTAXE__

`df.set_index('coluna')`

Isso é útil se você puder criar um índice para o conjunto de dados que seja melhor que o atual.

In [None]:
df.set_index('Data da Venda')[:10]

Unnamed: 0_level_0,Produto,Cor,Valor,Quantidade,Sexo,Idade,Canal
Data da Venda,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2022-02-25,Calça,Roxa,66.95,4,Masculino,39,Loja Virtual
2022-01-19,Camiseta,Amarela,99.69,1,Masculino,30,Loja Física
2022-03-11,Calça,Azul,92.5,2,Feminino,25,Loja Física
2022-05-01,Short,Azul,162.69,1,Feminino,45,Loja Física
2022-03-13,Camiseta,Laranja,148.19,3,Feminino,29,Loja Física
2022-04-11,Calça,Laranja,54.47,3,Feminino,30,Loja Física
2022-01-31,Camisa,Azul,126.81,2,Masculino,25,Loja Virtual
2022-05-18,Calça,Cinza,173.46,1,Feminino,27,Loja Física
2022-03-19,Short,Verde,122.46,4,Feminino,32,Loja Virtual
2022-06-29,Camisa,Roxa,81.64,3,Masculino,49,Loja Física


## Seleção condicional

Até agora temos indexado vários passos de dados, usando propriedades estruturais do próprio _DataFrame_. 

Para fazer coisas __interessantes__ com os dados, no entanto, muitas vezes precisamos fazer perguntas com base nas condições.

Por exemplo, suponha que queiramos saber as pessoas com menos de 30 anos que realizaram um compra.

Podemos começar verificando a coluna idade onde o valor é menos que 30.

Essa operação produziu uma série de booleanos _True_/_False_ com base no país de cada registro. 

Este resultado pode ser usado dentro de __loc__ para selecionar os dados relevantes: `df.loc[condição]`

In [None]:
df['Idade'] < 30

0        False
1        False
2         True
3        False
4         True
         ...  
99995    False
99996     True
99997    False
99998     True
99999     True
Name: Idade, Length: 100000, dtype: bool

In [None]:
menor_30 = df['Idade'] < 30
df.loc[menor_30]

Unnamed: 0,Produto,Cor,Valor,Quantidade,Sexo,Idade,Data da Venda,Canal
2,Calça,Azul,92.50,2,Feminino,25,2022-03-11,Loja Física
4,Camiseta,Laranja,148.19,3,Feminino,29,2022-03-13,Loja Física
6,Camisa,Azul,126.81,2,Masculino,25,2022-01-31,Loja Virtual
7,Calça,Cinza,173.46,1,Feminino,27,2022-05-18,Loja Física
10,Camiseta,Amarela,112.51,1,Feminino,21,2022-05-23,Loja Virtual
...,...,...,...,...,...,...,...,...
99993,Short,Vermelha,179.09,2,Masculino,28,2022-01-13,Loja Virtual
99994,Camiseta,Azul,107.89,1,Feminino,29,2022-05-31,Loja Virtual
99996,Saia,Preta,100.82,3,Masculino,28,2022-03-08,Loja Física
99998,Calça,Azul,149.06,3,Feminino,19,2022-01-05,Loja Física


Este _DataFrame_ tem aproximadamente 37.817 linhas. O original tinha aproximadamente 100_000. Isso significa que cerca de 37.8% dos clientes tem idade inferior a 30 anos.

Também queríamos saber destes clientes quais são do sexo feminino.

Podemos usar o e comercial ( & ) para juntar as duas perguntas: `df.loc[(condição_1) & (condição_2)]`

A depender da pergunta ou do que queremos saber, podemos usar o pipe ( | ) para conseguir obter o resultado. Lembre-se que o & refere-se ao operador lógico __and__ e | ao operador lógico __or__ do python.

`df.loc[(condição_1) | (condição_2)]`


In [None]:
menor_30 = df['Idade'] < 30
sexo_feminino = df['Sexo'] == 'Feminino'

# df.loc[(df['Idade'] < 30) & (df['Sexo'] == 'Feminino')]
df.loc[menor_30 & sexo_feminino]

Unnamed: 0,Produto,Cor,Valor,Quantidade,Sexo,Idade,Data da Venda,Canal
2,Calça,Azul,92.50,2,Feminino,25,2022-03-11,Loja Física
4,Camiseta,Laranja,148.19,3,Feminino,29,2022-03-13,Loja Física
7,Calça,Cinza,173.46,1,Feminino,27,2022-05-18,Loja Física
10,Camiseta,Amarela,112.51,1,Feminino,21,2022-05-23,Loja Virtual
19,Camisa,Vermelha,67.99,2,Feminino,29,2022-06-18,Loja Virtual
...,...,...,...,...,...,...,...,...
99980,Saia,Azul,132.76,1,Feminino,23,2022-06-01,Loja Física
99985,Camisa,Roxa,149.30,1,Feminino,28,2022-06-06,Loja Virtual
99989,Saia,Azul,90.67,3,Feminino,29,2022-03-29,Loja Virtual
99994,Camiseta,Azul,107.89,1,Feminino,29,2022-05-31,Loja Virtual


O Pandas vem com alguns seletores condicionais embutidos, dois dos quais destacaremos aqui.

O primeiro __isin__ permite selecionar dados cujo valor "estão em" uma lista de valores. 

Por exemplo, veja como podemos usá-lo para selecionar clientes com as idade de 19 e 29 anos: 

`df.loc[df['coluna'].isin(['valor_1', 'valor_2'])]`

O segundo é __isnull__ (e seu companheiro __notnull__). Esses métodos permitem destacar valores que estão (ou não) vazios ( NaN ). 

`df.loc[df['coluna'].notnull()]`

In [None]:
df.loc[df['Idade'].isin([19, 29, 39, 49])]

Unnamed: 0,Produto,Cor,Valor,Quantidade,Sexo,Idade,Data da Venda,Canal
0,Calça,Roxa,66.95,4,Masculino,39,2022-02-25,Loja Virtual
4,Camiseta,Laranja,148.19,3,Feminino,29,2022-03-13,Loja Física
9,Camisa,Roxa,81.64,3,Masculino,49,2022-06-29,Loja Física
19,Camisa,Vermelha,67.99,2,Feminino,29,2022-06-18,Loja Virtual
26,Saia,Vermelha,162.87,4,Masculino,39,2022-02-18,Loja Física
...,...,...,...,...,...,...,...,...
99977,Saia,Roxa,157.97,3,Feminino,29,2022-07-10,Loja Física
99982,Camiseta,Amarela,60.26,4,Masculino,19,2022-06-04,Loja Virtual
99989,Saia,Azul,90.67,3,Feminino,29,2022-03-29,Loja Virtual
99994,Camiseta,Azul,107.89,1,Feminino,29,2022-05-31,Loja Virtual


In [None]:
df.loc[df['Idade'].isnull()]

Unnamed: 0,Produto,Cor,Valor,Quantidade,Sexo,Idade,Data da Venda,Canal


## Agrupamentos

Os mapas nos permitem transformar dados em um _DataFrame_ ou _Series_ um valor por vez para uma coluna inteira. 

No entanto, muitas vezes queremos agrupar nossos dados e, em seguida, fazer algo específico para o grupo em que os dados estão.

Como você aprenderá, fazemos isso com o método `groupby()`. 

Também abordaremos alguns tópicos adicionais, como formas mais complexas de indexar seus _DataFrames_, além de como classificar seus dados.

Uma função que já vimos na aula passada e é muito útil, é o método `value_counts()`. 

Podemos replicar o que `value_counts()` faz fazendo o seguinte: `df.groupby('coluna')['coluna'].count()`

> __*value_counts() é apenas um atalho para esta operação groupby()*__

Podemos usar qualquer uma das funções de resumo que usamos antes com esses dados. 

Por exemplo, para obter o vinho mais barato em cada categoria de valor de pontos, podemos fazer o seguinte: 

`df.groupby('coluna')['coluna'].min()`

Você pode pensar em cada grupo que geramos como sendo uma fatia do nosso _DataFrame_ contendo apenas dados com valores correspondentes. 

Este _DataFrame_ é acessível a nós diretamente usando o método `apply()`, e podemos manipular os dados da maneira que acharmos melhor. 

Por exemplo, aqui está uma maneira de selecionar o nome do primeiro vinho revisado de cada vinícola no conjunto de dados: 

`df.groupby('coluna').apply(lambda param: param.metodo())`

Para um controle ainda mais refinado, você também pode agrupar por mais de uma coluna. 

Por exemplo, veja como escolheríamos o melhor vinho por país e província:

`df.groupby(['coluna_1', 'coluna_2']).apply(lambda param: param.metodo())`

In [None]:
df['Sexo'].value_counts()

Masculino    50017
Feminino     49983
Name: Sexo, dtype: int64

In [None]:
df.groupby('Sexo')['Sexo'].count().sort_values(ascending=False)

Sexo
Masculino    50017
Feminino     49983
Name: Sexo, dtype: int64

Outro método `groupby()` que podemos usar associado a ele e que vale a pena mencionar é o `agg()` que permite executar várias funções diferentes em seu _DataFrame_ simultaneamente. 

Por exemplo, podemos gerar um resumo estatístico simples do conjunto de dados da seguinte forma:

`df.groupby('coluna')['coluna_2'].agg(['func_1', 'func_2', 'func_3'])`

O uso efetivo de `groupby()` permitirá que você faça muitas coisas realmente poderosas com seu conjunto de dados.

In [None]:
df.groupby('Produto')['Valor'].agg(['min', 'max', 'sum'])

Unnamed: 0_level_0,min,max,sum
Produto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Calça,50.0,180.0,2325447.18
Camisa,50.01,179.99,2307545.42
Camiseta,50.0,179.96,2279626.66
Saia,50.02,180.0,2295649.21
Short,50.0,179.99,2310937.62


## Multi-índices

Em todos os exemplos que vimos até agora, trabalhamos com objetos _DataFrame_ ou _Series_ com um índice de rótulo único. 

`groupby()` é um pouco diferente no fato de que, dependendo da operação que executamos, às vezes resultará no que é chamado de __multi-índice__.

Um _índice múltiplo_ difere de um índice regular por ter _vários níveis_. 

Por exemplo: `df.groupby(['coluna_1', 'coluna_2])['coluna_3'].agg([func_1])`

Multi-índices têm vários métodos para lidar com sua estrutura em camadas que estão ausentes para índices de nível único. 

Eles também exigem dois níveis de rótulos para recuperar um valor. 

Lidar com a saída de vários índices é uma "_pegadinha_" comum para usuários novos em __Pandas__.

Os casos de uso para um _multi-índice_ são detalhados junto com as instruções sobre como usá-los na seção MultiIndex / Advanced Selection da documentação do __Pandas__.

No entanto, em geral, o método multi-índice que você usará com mais frequência é aquele para converter de volta para um índice regular, o método `reset_index()`

Ex: `df.reset_index()`

In [None]:
df.groupby(['Produto', 'Cor'])['Valor'].agg(['sum', 'mean'])

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,mean
Produto,Cor,Unnamed: 2_level_1,Unnamed: 3_level_1
Calça,Amarela,284975.82,115.05
Calça,Azul,296161.61,114.88
Calça,Cinza,291582.58,115.85
Calça,Laranja,300894.26,114.45
Calça,Preta,287371.52,115.36
Calça,Roxa,283356.51,114.3
Calça,Verde,287699.21,115.03
Calça,Vermelha,293405.68,114.66
Camisa,Amarela,286634.08,115.86
Camisa,Azul,288421.33,115.46


In [None]:
df.groupby(['Produto', 'Cor'])['Valor'].agg(['min', 'max'])

Unnamed: 0_level_0,Unnamed: 1_level_0,min,max
Produto,Cor,Unnamed: 2_level_1,Unnamed: 3_level_1
Calça,Amarela,50.18,179.98
Calça,Azul,50.01,179.88
Calça,Cinza,50.12,180.0
Calça,Laranja,50.04,179.93
Calça,Preta,50.06,179.84
Calça,Roxa,50.03,180.0
Calça,Verde,50.0,179.96
Calça,Vermelha,50.09,179.95
Camisa,Amarela,50.01,179.92
Camisa,Azul,50.14,179.94


## Um pouco mais sobre set_index( ) e reset_index( )

Para saber um pouco mais sobre estes métodos, basta colocar o interrogação após a chamada dos mesmos

In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame(
    {
        'Turmas': [315, 319, 419, 713, 718],
        'Módulos': ['Python', 'Python', 'Python', 'Python', 'Python'],
        'Horário de Início': ['15:30', '19:00', '19:00', '13:30', '18:30']
    }
)

df

Unnamed: 0,Turmas,Módulos,Horário de Início
0,315,Python,15:30
1,319,Python,19:00
2,419,Python,19:00
3,713,Python,13:30
4,718,Python,18:30


In [None]:
# Pegando ajuda para set_index

df.set_index?

In [None]:
df.set_index('Turmas', inplace=True)
df

Unnamed: 0_level_0,Módulos,Horário de Início
Turmas,Unnamed: 1_level_1,Unnamed: 2_level_1
315,Python,15:30
319,Python,19:00
419,Python,19:00
713,Python,13:30
718,Python,18:30


In [None]:
df.iloc[1].to_frame().transpose()

Unnamed: 0,Módulos,Horário de Início
319,Python,19:00


In [None]:
df.loc[319].to_frame().transpose()

Unnamed: 0,Módulos,Horário de Início
319,Python,19:00


In [None]:
# Pegando ajuda para reset_index()

df.reset_index?

In [None]:
df.reset_index(inplace=True)
df

Unnamed: 0,Turmas,Módulos,Horário de Início
0,315,Python,15:30
1,319,Python,19:00
2,419,Python,19:00
3,713,Python,13:30
4,718,Python,18:30


## Hora de praticar!

### Atividade 1

1. Quantos produtos tem o valor maior que R$100,00?

In [None]:
maior_100 = df.loc[df['Valor'] > 100]
maior_100['Quantidade'].sum()

155036

### Atividade 2

2. Quantas saias abaixo de R$70,00 foram compradas

In [None]:
saias = df.loc[(df['Produto'] == 'Saia') & (df['Valor'] < 70)]
saias['Quantidade'].sum()

7635

### Atividade 3

3. Qual foi o faturamento total (em R$) de camisas laranjas

In [None]:
camisas_laranjas = df.loc[(df['Produto'] == 'Camisa') & (df['Cor'] == 'Laranja')]
calculo = camisas_laranjas['Valor'] * camisas_laranjas['Quantidade']
camisas_laranjas.insert(4, 'Sub-Total', calculo)
f'R${camisas_laranjas["Sub-Total"].sum():_.2f}'

'R$742_830.65'

### Atividade 4

4. Quantos clientes entre 30 e 40 anos (inclusive) compraram calça roxa?

In [None]:
calca_roxa = df.loc[(df['Produto'] == 'Calça') & (df['Cor'] == 'Roxa')]
calca_roxa_30_40 = calca_roxa.loc[(calca_roxa['Idade'] >= 30) & (calca_roxa['Idade'] <= 40)]
calca_roxa_30_40.shape[0]

838

In [None]:
calca_roxa_30_40['Sexo'].count()

838