O método groupby do Pandas permite agrupar e resumir dados de um DataFrame, com base em um ou mais critérios. Esses critérios podem ser variáveis numéricas ou categóricas, como colunas ou índices do DataFrame.

A ideia por trás do groupby é dividir os dados em grupos com base nos critérios selecionados e, em seguida, aplicar uma operação a esses grupos. Essa operação pode ser uma função de agregação, como soma, média, contagem, desvio padrão, entre outras, ou mesmo uma operação personalizada definida pela pessoa usuária.

Esse método possui diversos parâmetros, alguns deles são:

- by: esse é o parâmetro mais comum e é usado para especificar a coluna ou colunas que queremos agrupar. Como argumento dele, podemos passar o nome de uma coluna ou uma lista de nomes de colunas;

- axis: utilizamos esse parâmetro para especificar o eixo ao longo do qual queremos agrupar. O valor padrão dele é 0, o que significa que as linhas serão agrupadas. Se quisermos agrupar as colunas, devemos definir esse parâmetro como 1;

- sort: esse parâmetro é um booleano (True ou False) que indica se os grupos devem ser ordenados pelo valor da coluna de agrupamento. O valor padrão é True;

- dropna: utilizamos esse parâmetro para controlar se os valores ausentes (NaN) serão excluídos ou não durante o processo de agrupamento. O valor padrão é True.

Vamos analisar um exemplo simples utilizando o groupby. Suponha que temos o seguinte DataFrame:

In [4]:
import pandas as pd

df = pd.DataFrame({
   'Animal': ['Cachorro', 'Gato', 'Elefante', 'Cachorro', 'Gato', 'Elefante'],
   'Cor': ['Preto', 'Branco', 'Cinza', 'Marrom', 'Preto', 'Marrom'],
   'Quantidade': [2, 3, 1, 4, 2, 2]
})
df

Unnamed: 0,Animal,Cor,Quantidade
0,Cachorro,Preto,2
1,Gato,Branco,3
2,Elefante,Cinza,1
3,Cachorro,Marrom,4
4,Gato,Preto,2
5,Elefante,Marrom,2


Aqui nós temos um DataFrame com dados referentes a alguns animais. Vamos utilizar o groupby para agrupar os dados pelo tipo de animal e realizarmos a soma da coluna "Quantidade" para conferirmos o total de cada tipo de animal:

In [5]:
df.groupby('Animal').sum(numeric_only=True)

Unnamed: 0_level_0,Quantidade
Animal,Unnamed: 1_level_1
Cachorro,6
Elefante,3
Gato,5


Podemos também usar o método groupby para agrupar os dados por múltiplas colunas. Por exemplo, vamos agrupar pelo tipo do animal e também pela cor e realizar a soma da coluna "Quantidade":

In [6]:
df.groupby(['Animal', 'Cor'])[['Quantidade']].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Quantidade
Animal,Cor,Unnamed: 2_level_1
Cachorro,Marrom,4
Cachorro,Preto,2
Elefante,Cinza,1
Elefante,Marrom,2
Gato,Branco,3
Gato,Preto,2


Assim, podemos observar que o groupby é um método muito útil para situações em que precisamos dividir os dados em grupos para analisar o comportamento desses grupos. Utilizando esse método, nós podemos responder perguntas específicas sobre nossos conjuntos de dados.

Caso queira aprender mais sobre esse método, deixo a sugestão de dois artigos:

- [Pandas GroupBy: Your Guide to Grouping Data in Python](https://realpython.com/pandas-groupby/)
- [Pandas’ groupby explained in detail](https://towardsdatascience.com/pandas-groupby-aggregate-transform-filter-c95ba3444bbb)

Ambos os artigos estão em inglês.

---

Quando trabalhamos com bases de dados, em alguns momentos, pode ser necessário fazermos alterações nos nomes das colunas.

In [7]:
df

Unnamed: 0,Animal,Cor,Quantidade
0,Cachorro,Preto,2
1,Gato,Branco,3
2,Elefante,Cinza,1
3,Cachorro,Marrom,4
4,Gato,Preto,2
5,Elefante,Marrom,2


In [8]:
df.Animal.unique()

array(['Cachorro', 'Gato', 'Elefante'], dtype=object)

In [9]:
df.Animal.value_counts()

Animal
Cachorro    2
Gato        2
Elefante    2
Name: count, dtype: int64

In [10]:
df.Animal.value_counts(normalize=True)

Animal
Cachorro    0.333333
Gato        0.333333
Elefante    0.333333
Name: proportion, dtype: float64

In [11]:
df.Animal.value_counts(normalize=True).to_frame()

Unnamed: 0_level_0,proportion
Animal,Unnamed: 1_level_1
Cachorro,0.333333
Gato,0.333333
Elefante,0.333333


Podemos notar que a coluna com os percentuais, ficou nomeada como "proportion". E se quiséssemos mudar o nome dela para "Percentuais"?

Nesse caso, nós podemos utilizar o método rename() para mudar o nome dessa coluna. Esse método nos permite especificar um dicionário que associa o nome antigo da coluna ao novo nome que queremos atribuir. Então, vamos fazer isso:

In [12]:
# salvando o dataframe em uma variável
df_exemplo = df['Animal'].value_counts(normalize=True).to_frame().sort_values('proportion')

# alterando o nome da coluna "proportion" para "Percentuais"
df_exemplo.rename(columns={'proportion': 'Percentuais'}, inplace=True)

# visualizando o dataframe
df_exemplo 

Unnamed: 0_level_0,Percentuais
Animal,Unnamed: 1_level_1
Cachorro,0.333333
Gato,0.333333
Elefante,0.333333


Nós utilizamos o parâmetro <inplace=True> para que essa alteração seja definitivamente aplicada no nosso DataFrame <df_exemplo>.

---

O método `drop()`` da biblioteca Pandas permite remover uma ou mais linhas e/ou colunas de um DataFrame. Essa remoção pode ser realizada de forma permanente no DataFrame original. É possível especificar os índices das linhas e/ou colunas a serem removidos, bem como o eixo em que a remoção deve ocorrer.

Suponha que temos o seguinte DataFrame, salvo em uma variável chamada `dados``:

Código para criação do DataFrame:

In [13]:
import pandas as pd

dados = pd.DataFrame([['Feira', 'Cebola', 2.5], 
                        ['Mercado', 'Cebola', 1.99], 
                        ['Supermercado', 'Cebola', 1.69], 
                        ['Feira', 'Tomate', 4], 
                        ['Mercado', 'Tomate', 3.29], 
                        ['Supermercado', 'Tomate', 2.99], 
                        ['Feira', 'Batata', 4.2], 
                        ['Mercado', 'Batata', 3.99], 
                        ['Supermercado', 'Batata', 3.69]],
                        columns = ['Local', 'Produto', 'Preço'])
dados

Unnamed: 0,Local,Produto,Preço
0,Feira,Cebola,2.5
1,Mercado,Cebola,1.99
2,Supermercado,Cebola,1.69
3,Feira,Tomate,4.0
4,Mercado,Tomate,3.29
5,Supermercado,Tomate,2.99
6,Feira,Batata,4.2
7,Mercado,Batata,3.99
8,Supermercado,Batata,3.69


Para remover de forma permanente as linhas onde, na coluna "Local", temos o "Supermercado":

In [14]:
dados.drop([2, 5, 8], axis=0, inplace=True)
dados

Unnamed: 0,Local,Produto,Preço
0,Feira,Cebola,2.5
1,Mercado,Cebola,1.99
3,Feira,Tomate,4.0
4,Mercado,Tomate,3.29
6,Feira,Batata,4.2
7,Mercado,Batata,3.99


Dessa forma, estamos passando uma lista com os índices das linhas em que, na coluna "Local", temos os "Supermercado", ou seja, os índices das linhas que desejamos remover. Além disso, também é especificado o axis=0, o que indica que desejamos remover linhas.

---

O Pandas oferece diversos métodos para salvar arquivos em diferentes formatos. Alguns exemplos são:

- `to_csv()``: salva o DataFrame em um arquivo CSV (Comma-Separated Values);

- `to_excel()``: salva o DataFrame em um arquivo Excel;

- `to_json()``: salva o DataFrame em um arquivo JSON (JavaScript Object Notation).

Esses são apenas alguns exemplos, existem outros métodos disponíveis no Pandas para salvar arquivos em diferentes formatos. Caso queira conhecê-los, acesse a documentação: https://pandas.pydata.org/docs/user_guide/io.html#io-tools-text-csv-hdf5

---

Suponha que temos o seguinte DataFrame, com informações referentes a alguns carros em venda:

Código para criação do DataFrame:

In [1]:
import pandas as pd

dados = {
    'Nome': ['Jetta', 'Passat', 'Crossfox', 'DS5', 'Fusca'], 
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8', 'Motor 2.0', 'Motor 1.6'],
    'Ano': [2019, 2003, 1991, 2019, 1990],
    'Quilometragem': [0.0, 5712.0, 37123.0, 0.0, 120000.0],
    'Valor': [88000.0, 106000.0, 72000.0, 89000.0, 32000.0],
    'IPVA': [2000.0, 5000.0, 1700.0, 2200.0, 1000.0],
    'Desconto': [380.0, 450.0, 277.0, 400.0, 150.0]
}

df = pd.DataFrame(dados)
df

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Valor,IPVA,Desconto
0,Jetta,Motor 4.0 Turbo,2019,0.0,88000.0,2000.0,380.0
1,Passat,Motor Diesel,2003,5712.0,106000.0,5000.0,450.0
2,Crossfox,Motor Diesel V8,1991,37123.0,72000.0,1700.0,277.0
3,DS5,Motor 2.0,2019,0.0,89000.0,2200.0,400.0
4,Fusca,Motor 1.6,1990,120000.0,32000.0,1000.0,150.0


Precisamos criar uma coluna chamada "Valor_total" que possui o valor do carro, somado com o IPVA e subtraídos os valores de desconto.

In [2]:
df['Valor_total'] = df['Valor'] + df['IPVA'] - df['Desconto']
df.head()

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Valor,IPVA,Desconto,Valor_total
0,Jetta,Motor 4.0 Turbo,2019,0.0,88000.0,2000.0,380.0,89620.0
1,Passat,Motor Diesel,2003,5712.0,106000.0,5000.0,450.0,110550.0
2,Crossfox,Motor Diesel V8,1991,37123.0,72000.0,1700.0,277.0,73423.0
3,DS5,Motor 2.0,2019,0.0,89000.0,2200.0,400.0,90800.0
4,Fusca,Motor 1.6,1990,120000.0,32000.0,1000.0,150.0,32850.0


---

Existem diversas maneiras de criar colunas em um DataFrame no Pandas. Alguns exemplos são:

1 - Atribuição direta de valores a uma nova coluna:

In [3]:
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df['C'] = [7, 8, 9]
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


2 - Criação de uma coluna a partir de operações entre outras colunas:

In [4]:
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df['C'] = df['A'] + df['B']
df

Unnamed: 0,A,B,C
0,1,4,5
1,2,5,7
2,3,6,9


3 - Utilização do método `assign()`` para criar uma nova coluna:

In [5]:
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df = df.assign(C=[7, 8, 9])
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


4 - Utilização do método `apply()`` para aplicar uma função a uma coluna existente e criar uma nova coluna:

In [6]:
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df['C'] = df['A'].apply(lambda x: x * 2)
df

Unnamed: 0,A,B,C
0,1,4,2
1,2,5,4
2,3,6,6


Caso queira se aprofundar nesse assunto, consulte a documentação: https://pandas.pydata.org/docs/getting_started/intro_tutorials/05_add_columns.html#how-to-create-new-columns-derived-from-existing-columns

---

https://pandas.pydata.org/docs/reference/index.html

A API do Pandas fornece uma grande quantidade de funcionalidades que podem ser utilizadas para manipular uma gama de diferentes tipos de dados, incluindo séries temporais, matrizes numéricas e muito mais. Pandas é uma biblioteca do Python que oferece estruturas de dados e funções poderosas para manipulação e análise de dados, possibilitando um trabalho rápido e intuitivo.

https://www.google.com.br/books/edition/Python_para_an%C3%A1lise_de_dados/Oj5FDwAAQBAJ?hl=pt-BR&gbpv=0

"Python Para Análise de Dados" é um livro que ensina como manipular, processar, limpar e realizar análise de dados utilizando a linguagem de programação Python. Este livro é destinado a todos os analistas de dados e programadores interessados em usar Python para análise de dados. As técnicas e conceitos ensinados neste livro podem ser aplicadas em uma vasta gama de setores e profissões.