# Agrupamento e Slicing

In [None]:
import pandas as pd

In [None]:
# Configuração para que os números fiquem com 2 casas decimais
pd.options.display.float_format = '{:,.2f}'.format

In [None]:
dataset = r'https://raw.githubusercontent.com/rafaelpuyau/infinity_school/main/ds/datasets/atividade_casa.csv'
df = pd.read_csv(dataset)
df

In [None]:
df.sample(2)


## Indexação no Pandas



### Seleção baseado em índice


A indexação do Pandas funciona com dois paradigmas. A primeira é a <u>seleção baseada em índice</u>: selecionar dados com base em sua posição numérica nos dados. O __iloc__ segue este paradigma.

Para selecionar a primeira linha de dados em um _DataFrame_, faremos uso do iloc passando o index posicional.

__SINTAXE__

`df.iloc[0]`

In [None]:
df.iloc[[0]]

In [None]:
#DataFrame = tabela = serie
df.iloc[0].to_frame().transpose()

Tanto __loc__ quanto __iloc__ trabalham com _linha-primeiro_ e _coluna-segundo_.

Isto é o oposto do que fazemos no Python nativo, que é a _coluna-primeiro_ e  a _linha-segundo_.

Isto significa que é um pouco mais fácil recuperar linhas e um pouco mais difícil recuperar colunas. Para obter uma coluna com __iloc__, devemos escrever assim: `df.iloc[:, 0]`

Por si só, o seletor __:__ , que também vem do Python nativo, significa __tudo__.

Quando combinado com outros seletores, no entanto, pode ser usado para indicar um intervalo de valores.

Por exemplo, para selecionar a coluna da _Data da Venda_ apenas da primeira, segunda e terceira linha, devemos seguir a sintaxe `df.iloc[:3, 0]`, mas, também, podemos passar uma lista como `df.iloc[[0, 1, 2], 0]`.

Podemos passar um intervalo, por exemplo: `df.iloc[1:3, 0]`

Por fim, vale saber que números negativos podem ser usados na seleção. Isso começará a contar para frente a partir do final dos valores.

Então, por exemplo, aqui estão os últimos cinco elementos do conjunto de dados - `df.iloc[-5:]`


In [None]:
#df.iloc[LinhaInicial:LinhaFinal, ColunaInicial:ColunaFinal]
#df.iloc[LinhaInicial ATÉ LinhaFinal, ColunaInicial ATÉ ColunaFinal]
df.iloc[:, 0]

In [None]:
#Verificar o nome das colunas do DataFrame
df.columns

In [None]:
#df.iloc[LinhaInicial:LinhaFinal, ColunaInicial:ColunaFinal]
df.iloc[:3, 2]

In [None]:
#df.iloc[[LinhaUm,LinhaDois, LinhaTres], ColunaInicial:ColunaFinal]
df.iloc[[0, 1, 2], 6]

In [None]:
#Valores negativos das linhas | Para exibir de baixo para cima
df.iloc[-2:]

### Seleção baseada em rótulo


O segundo paradigma para seleção de atributos é o seguido pelo operador __loc__: _seleção baseada em rótulos_.

Nesse paradigma, é o __valor__ do índice de dados, __não sua posição__, que importa.

Por exemplo, para obter a primeira entrada do _dataset_, agora faríamos o seguinte: `df.loc[0, 'coluna']`

__iloc__ é conceitualmente mais simples que __loc__ porque ignora os índices do conjunto de dados.

Quando usamos __iloc__, tratamos o conjunto de dados como uma grande matriz (uma lista de listas), na qual temos que indexar por posição.

__loc__, por outro lado, usa as informações dos índices para fazer seu trabalho. Como seu conjunto de dados geralmente tem índices significativos, geralmente é mais fácil fazer as coisas usando __loc__.

Por exemplo, aqui está uma operação que é muito mais fácil usando __loc__: `df.loc[:, ['coluna', 'coluna', 'coluna']]`

In [None]:
df.loc[0, 'Idade']

39

In [None]:
df.columns

In [None]:
#df.loc[TodasASLinhas, ['Cor', 'Produto', 'Valor']]
df.loc[:, ['Produto' ,'Valor']]

### Escolhendo entre loc e iloc

Ao escolher ou fazer a transição entre __loc__ e __iloc__, há uma "_pegadinha_" que vale a pena ter em mente, que é que _os dois métodos usam esquemas de indexação ligeiramente diferentes_.

__iloc__ usa o esquema de indexação _stdlib_ do Python, onde o primeiro elemento do intervalo é incluído e o último excluído.

Portanto, 0:10 selecionará as entradas 0,...,9. __loc__, enquanto isso, indexa inclusive. Portanto, 0:10 selecionará as entradas 0,...,10.

Por que a mudança? Lembre-se que loc pode indexar qualquer tipo de stdlib: strings, por exemplo.

Isso é particularmente confuso quando o índice _DataFrame_ é uma lista numérica simples, por exemplo. 0,...,1000.

Neste caso `df.iloc[0:1000]` retornará 1000 entradas, enquanto `df.loc[0:1000]` retornará 1001 delas!

Para obter 1000 elementos usando loc, você precisará descer um e pedir `df.loc[0:999]`.

Caso contrário, a semântica do uso de loc é a mesma de iloc.

In [None]:
#df.iloc[0:10] = 10
#df.loc[0:10] = 11

print(f'iloc: {len(df.iloc[0:10])} -----> loc: {len(df.loc[0:10])}')

iloc: 10 -----> loc: 11


## Manipulando o index

<u>A seleção baseada em rótulos</u> tem seu poder nos rótulos do índice.

> Criticamente, o índice que usamos não é imutável. Podemos manipular o índice da maneira que acharmos melhor.

O método `set_index()` pode ser usado para fazer o trabalho.

__SINTAXE__

`df.set_index('coluna')`

Isso é útil se você puder criar um índice para o conjunto de dados que seja melhor que o atual.

In [None]:
df.set_index('Data da Venda')[:10]

## Seleção condicional

Até agora temos indexado vários passos de dados, usando propriedades estruturais do próprio _DataFrame_.

Para fazer coisas __interessantes__ com os dados, no entanto, muitas vezes precisamos fazer perguntas com base nas condições.

Por exemplo, suponha que queiramos saber as pessoas com menos de 30 anos que realizaram um compra.

Podemos começar verificando a coluna idade onde o valor é menos que 30.

Essa operação produziu uma série de booleanos _True_/_False_ com base no país de cada registro.

Este resultado pode ser usado dentro de __loc__ para selecionar os dados relevantes: `df.loc[condição]`

In [None]:
df['Idade'] < 30

In [None]:
menor_30 = df['Idade'] < 30
df.loc[menor_30]

Este _DataFrame_ tem aproximadamente 37.817 linhas. O original tinha aproximadamente 100_000. Isso significa que cerca de 37.8% dos clientes tem idade inferior a 30 anos.

Também queríamos saber destes clientes quais são do sexo feminino.

Podemos usar o e comercial ( & ) para juntar as duas perguntas: `df.loc[(condição_1) & (condição_2)]`

A depender da pergunta ou do que queremos saber, podemos usar o pipe ( | ) para conseguir obter o resultado. Lembre-se que o & refere-se ao operador lógico __and__ e | ao operador lógico __or__ do python.

`df.loc[(condição_1) | (condição_2)]`

In [None]:
menor_30 = df['Idade'] < 30
sexo_feminino = df['Sexo'] == 'Feminino'

# df.loc[(df['Idade'] < 30) & (df['Sexo'] == 'Feminino')]
df.loc[menor_30 & sexo_feminino]

In [None]:
#FAÇA UMA PESQUISA DE TODAS AS MULHERES ENTRE 30 ATÉ 45 ANOS
maiorIgual_30 = df['Idade'] >= 30
sexo_feminino = df['Sexo'] == 'Feminino'
igual45 = df['Idade'] <= 45

# df.loc[(df['Idade'] < 30) & (df['Sexo'] == 'Feminino')]
df.loc[maiorIgual_30 & sexo_feminino & igual45]

O Pandas vem com alguns seletores condicionais embutidos, dois dos quais destacaremos aqui.

O primeiro __isin__ permite selecionar dados cujo valor "estão em" uma lista de valores.

Por exemplo, veja como podemos usá-lo para selecionar clientes com as idade de 19 e 29 anos:

`df.loc[df['coluna'].isin(['valor_1', 'valor_2'])]`

O segundo é __isnull__ (e seu companheiro __notnull__). Esses métodos permitem destacar valores que estão (ou não) vazios ( NaN ).

`df.loc[df['coluna'].notnull()]`

In [None]:
#Valores exatos
df.loc[df['Idade'].isin([19, 29, 39, 49])]

In [None]:
#Exibir os campos nulos = NaN
df.loc[df['Idade'].isnull()]

## Agrupamentos

Os mapas nos permitem transformar dados em um _DataFrame_ ou _Series_ um valor por vez para uma coluna inteira.

No entanto, muitas vezes queremos agrupar nossos dados e, em seguida, fazer algo específico para o grupo em que os dados estão.

Como você aprenderá, fazemos isso com o método `groupby()`.

Também abordaremos alguns tópicos adicionais, como formas mais complexas de indexar seus _DataFrames_, além de como classificar seus dados.

Uma função que já vimos na aula passada e é muito útil, é o método `value_counts()`.

Podemos replicar o que `value_counts()` faz fazendo o seguinte: `df.groupby('coluna')['coluna'].count()`

> __*value_counts() é apenas um atalho para esta operação groupby()*__

Podemos usar qualquer uma das funções de resumo que usamos antes com esses dados.

Por exemplo, para obter o vinho mais barato em cada categoria de valor de pontos, podemos fazer o seguinte:

`df.groupby('coluna')['coluna'].min()`

Você pode pensar em cada grupo que geramos como sendo uma fatia do nosso _DataFrame_ contendo apenas dados com valores correspondentes.

Este _DataFrame_ é acessível a nós diretamente usando o método `apply()`, e podemos manipular os dados da maneira que acharmos melhor.

Por exemplo, aqui está uma maneira de selecionar o nome do primeiro vinho revisado de cada vinícola no conjunto de dados:

`df.groupby('coluna').apply(lambda param: param.metodo())`

Para um controle ainda mais refinado, você também pode agrupar por mais de uma coluna.

Por exemplo, veja como escolheríamos o melhor vinho por país e província:

`df.groupby(['coluna_1', 'coluna_2']).apply(lambda param: param.metodo())`

In [None]:
df['Sexo'].value_counts()

In [None]:
df.groupby('Sexo')['Sexo'].count().sort_values(ascending=False)

Outro método `groupby()` que podemos usar associado a ele e que vale a pena mencionar é o `agg()` que permite executar várias funções diferentes em seu _DataFrame_ simultaneamente.

Por exemplo, podemos gerar um resumo estatístico simples do conjunto de dados da seguinte forma:

`df.groupby('coluna')['coluna_2'].agg(['func_1', 'func_2', 'func_3'])`

O uso efetivo de `groupby()` permitirá que você faça muitas coisas realmente poderosas com seu conjunto de dados.

In [None]:
df.groupby('Produto')['Valor'].agg(['min', 'max', 'sum'])

Em todos os exemplos que vimos até agora, trabalhamos com objetos _DataFrame_ ou _Series_ com um índice de rótulo único.

`groupby()` é um pouco diferente no fato de que, dependendo da operação que executamos, às vezes resultará no que é chamado de __multi-índice__.

Um _índice múltiplo_ difere de um índice regular por ter _vários níveis_.

Por exemplo: `df.groupby(['coluna_1', 'coluna_2])['coluna_3'].agg([func_1])`

Multi-índices têm vários métodos para lidar com sua estrutura em camadas que estão ausentes para índices de nível único.

Eles também exigem dois níveis de rótulos para recuperar um valor.

Lidar com a saída de vários índices é uma "_pegadinha_" comum para usuários novos em __Pandas__.

Os casos de uso para um _multi-índice_ são detalhados junto com as instruções sobre como usá-los na seção MultiIndex / Advanced Selection da documentação do __Pandas__.

No entanto, em geral, o método multi-índice que você usará com mais frequência é aquele para converter de volta para um índice regular, o método `reset_index()`

Ex: `df.reset_index()`

In [None]:
df.groupby(['Produto', 'Cor'])['Valor'].agg(['sum', 'mean'])

In [None]:
df.groupby(['Produto', 'Cor'])['Valor'].agg(['min', 'max'])

## Hora de praticar!

1. Quantos produtos tem o valor maior que R$100,00?

2. Quantas saias abaixo de R$70,00 foram compradas

3. Qual foi o faturamento total (em R$) de camisas laranjas

4. Quantos clientes entre 30 e 40 anos (inclusive) compraram calça roxa?

In [None]:
#1. Quantos produtos tem o valor maior que R$100,00?
maior_100 = df.loc[df['Valor'] > 100]
maior_100['Quantidade'].sum()

155036

In [None]:
#2. Quantas saias abaixo de R$70,00 foram compradas
saias = df.loc[(df['Produto'] == 'Saia') & (df['Valor'] < 70)]
saias['Quantidade'].sum()

In [None]:
#3. Qual foi o faturamento total (em R$) de camisas laranjas
camisas_laranjas = df.loc[(df['Produto'] == 'Camisa') & (df['Cor'] == 'Laranja')]
calculo = camisas_laranjas['Valor'] * camisas_laranjas['Quantidade']
camisas_laranjas.insert(4, 'Sub-Total', calculo)
f'R${camisas_laranjas["Sub-Total"].sum():_.2f}'

'R$742_830.65'

In [None]:
#4. Quantos clientes entre 30 e 40 anos (inclusive)
#compraram calça roxa?

calca_roxa = df.loc[(df['Produto'] == 'Calça') & (df['Cor'] == 'Roxa')]
calca_roxa_30_40 = calca_roxa.loc[(calca_roxa['Idade'] >= 30) & (calca_roxa['Idade'] <= 40)]
calca_roxa_30_40.shape[0]

838

In [None]:
calca_roxa_30_40['Sexo'].count()

838