### Entendendo `groupby`

O método `groupby` do Pandas permite agrupar e resumir dados de um `DataFrame` com base em critérios numéricos ou categóricos, como colunas ou índices. Ele divide os dados em grupos e aplica operações como soma, média, contagem e outras funções de agregação.

Alguns parâmetros importantes:
- **by**: define a(s) coluna(s) de agrupamento.
- **axis**: especifica o eixo do agrupamento (0 para linhas, 1 para colunas).
- **sort**: ordena os grupos com base na coluna escolhida (True por padrão).
- **dropna**: determina se valores ausentes (NaN) serão excluídos (True por padrão).

In [1]:
import pandas as pd

df = pd.DataFrame({
   'Animal': ['Cachorro', 'Gato', 'Elefante', 'Cachorro', 'Gato', 'Elefante'],
   'Cor': ['Preto', 'Branco', 'Cinza', 'Marrom', 'Preto', 'Marrom'],
   'Quantidade': [2, 3, 1, 4, 2, 2]
})
df

Unnamed: 0,Animal,Cor,Quantidade
0,Cachorro,Preto,2
1,Gato,Branco,3
2,Elefante,Cinza,1
3,Cachorro,Marrom,4
4,Gato,Preto,2
5,Elefante,Marrom,2


Usando o método `groupby` do Pandas, podemos agrupar os dados pelo tipo de animal e somar a coluna "Quantidade" para obter o total de cada categoria.


In [2]:
df.groupby('Animal').sum(numeric_only=True)

Unnamed: 0_level_0,Quantidade
Animal,Unnamed: 1_level_1
Cachorro,6
Elefante,3
Gato,5


Podemos também usar o método `groupby` para agrupar os dados por múltiplas colunas.

In [3]:
df.groupby(['Animal', 'Cor'])[['Quantidade']].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Quantidade
Animal,Cor,Unnamed: 2_level_1
Cachorro,Marrom,4
Cachorro,Preto,2
Elefante,Cinza,1
Elefante,Marrom,2
Gato,Branco,3
Gato,Preto,2


O método `drop()` do Pandas permite remover linhas ou colunas de um DataFrame, podendo aplicar a mudança de forma permanente no próprio DataFrame. Para isso, basta especificar os índices das linhas ou colunas a serem excluídos e definir o eixo da remoção (`axis=0` para linhas e `axis=1` para colunas). Se quiser tornar a mudança definitiva, utilize `inplace=True`. Isso ajuda na manipulação e filtragem eficiente dos dados.

In [4]:
import pandas as pd

dados = pd.DataFrame([['Feira', 'Cebola', 2.5], 
                        ['Mercado', 'Cebola', 1.99], 
                        ['Supermercado', 'Cebola', 1.69], 
                        ['Feira', 'Tomate', 4], 
                        ['Mercado', 'Tomate', 3.29], 
                        ['Supermercado', 'Tomate', 2.99], 
                        ['Feira', 'Batata', 4.2], 
                        ['Mercado', 'Batata', 3.99], 
                        ['Supermercado', 'Batata', 3.69]],
                        columns = ['Local', 'Produto', 'Preço'])
dados

Unnamed: 0,Local,Produto,Preço
0,Feira,Cebola,2.5
1,Mercado,Cebola,1.99
2,Supermercado,Cebola,1.69
3,Feira,Tomate,4.0
4,Mercado,Tomate,3.29
5,Supermercado,Tomate,2.99
6,Feira,Batata,4.2
7,Mercado,Batata,3.99
8,Supermercado,Batata,3.69


In [5]:
dados.drop([2, 5, 8], axis=0, inplace=True)

In [6]:
dados.head()

Unnamed: 0,Local,Produto,Preço
0,Feira,Cebola,2.5
1,Mercado,Cebola,1.99
3,Feira,Tomate,4.0
4,Mercado,Tomate,3.29
6,Feira,Batata,4.2


### Criando Colunas

1 - Atribuição direta de valores a uma nova coluna:

In [7]:
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df['C'] = [7, 8, 9]
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


2 - Criação de uma coluna a partir de operações entre outras colunas:

In [8]:
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df['C'] = df['A'] + df['B']
df

Unnamed: 0,A,B,C
0,1,4,5
1,2,5,7
2,3,6,9


3 - Utilização do método [**`assign()`**](https://pandas.pydata.org/pandas-docs/version/1.4/reference/api/pandas.DataFrame.assign.html) para criar uma nova coluna:

In [9]:
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df = df.assign(C=[7, 8, 9])
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


4 - Utilização do método [**`apply()`**](https://pandas.pydata.org/pandas-docs/version/1.4/reference/api/pandas.DataFrame.apply.html) para aplicar uma função a uma coluna existente e criar uma nova coluna:

In [10]:
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df['C'] = df['A'].apply(lambda x: x * 2)
df

Unnamed: 0,A,B,C
0,1,4,2
1,2,5,4
2,3,6,6
