# Filtering, Selecting, and Aggregating Data

This notebook demonstrates fundamental data manipulation techniques in Python using pandas:

- Data filtering  
- Selecting rows and columns  
- Data aggregation  

Let's start by importing the necessary libraries and creating an example dataset.


In [16]:
!pip install numpy



In [17]:
!pip install pandas



In [18]:
import pandas as pd
import numpy as np

# Creating an example DataFrame
data = {
    'Nome': ['João', 'Maria', 'Pedro', 'Ana', 'Carlos', 'Julia', 'Lucas', 'Beatriz'],
    'Idade': [25, 30, 35, 28, 40, 22, 33, 27],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'São Paulo',
               'Rio de Janeiro', 'Belo Horizonte', 'São Paulo', 'Rio de Janeiro'],
    'Salário': [5000, 6000, 4500, 7000, 5500, 4000, 6500, 4800],
    'Departamento': ['TI', 'RH', 'Vendas', 'TI', 'Vendas', 'RH', 'TI', 'Vendas']
}

df= pd.DataFrame(data)
df

Unnamed: 0,Nome,Idade,Cidade,Salário,Departamento
0,João,25,São Paulo,5000,TI
1,Maria,30,Rio de Janeiro,6000,RH
2,Pedro,35,Belo Horizonte,4500,Vendas
3,Ana,28,São Paulo,7000,TI
4,Carlos,40,Rio de Janeiro,5500,Vendas
5,Julia,22,Belo Horizonte,4000,RH
6,Lucas,33,São Paulo,6500,TI
7,Beatriz,27,Rio de Janeiro,4800,Vendas


In [19]:
# Filtering people with salary greater than 5000
df[df['Salário'] > 5000]


Unnamed: 0,Nome,Idade,Cidade,Salário,Departamento
1,Maria,30,Rio de Janeiro,6000,RH
3,Ana,28,São Paulo,7000,TI
4,Carlos,40,Rio de Janeiro,5500,Vendas
6,Lucas,33,São Paulo,6500,TI


In [20]:
# Filtering people from TI Department
df[df['Departamento'] == 'TI']

Unnamed: 0,Nome,Idade,Cidade,Salário,Departamento
0,João,25,São Paulo,5000,TI
3,Ana,28,São Paulo,7000,TI
6,Lucas,33,São Paulo,6500,TI


In [21]:
df[(df['Salário'] > 5000) & (df['Idade'] < 30)]

Unnamed: 0,Nome,Idade,Cidade,Salário,Departamento
3,Ana,28,São Paulo,7000,TI


## 2. Data Selection

### The selection allows you to choose specific columns or combinations of rows and columns.

In [22]:
# The selection allows you to choose specific columns or combinations of rows and columns.
df[['Nome', 'Salário', 'Departamento']]

Unnamed: 0,Nome,Salário,Departamento
0,João,5000,TI
1,Maria,6000,RH
2,Pedro,4500,Vendas
3,Ana,7000,TI
4,Carlos,5500,Vendas
5,Julia,4000,RH
6,Lucas,6500,TI
7,Beatriz,4800,Vendas


In [23]:
# Selecting specific rows and columns
df.loc[df['Idade'] > 30, ['Nome', 'Cidade', 'Salário']]

Unnamed: 0,Nome,Cidade,Salário
2,Pedro,Belo Horizonte,4500
4,Carlos,Rio de Janeiro,5500
6,Lucas,São Paulo,6500


### 3. Data Aggregation

Aggregation allows you to summarize data using statistical functions.

In [24]:
# Average salary by department
df.groupby('Departamento')['Salário'].mean()

Departamento
RH        5000.000000
TI        6166.666667
Vendas    4933.333333
Name: Salário, dtype: float64

In [28]:
# Multiple aggregations by department
df.groupby('Departamento').agg({
    'Salário': ['mean', 'min', 'max', 'count'],
    'Idade': 'mean'
})

Unnamed: 0_level_0,Salário,Salário,Salário,Salário,Idade
Unnamed: 0_level_1,mean,min,max,count,mean
Departamento,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
RH,5000.0,4000,6000,2,26.0
TI,6166.666667,5000,7000,3,28.666667
Vendas,4933.333333,4500,5500,3,34.0


In [32]:
# Aggregations by multiple columns
df.groupby(['Departamento','Cidade'])['Salário'].mean()

Departamento  Cidade        
RH            Belo Horizonte    4000.000000
              Rio de Janeiro    6000.000000
TI            São Paulo         6166.666667
Vendas        Belo Horizonte    4500.000000
              Rio de Janeiro    5150.000000
Name: Salário, dtype: float64

### 4. Combined Practical Example

In [38]:
df[df['Cidade'] == 'Belo Horizonte'].groupby('Departamento')['Salário'].mean()

Departamento
RH        4000.0
Vendas    4500.0
Name: Salário, dtype: float64

1. Find the youngest person in each department.
2. Calculate the average age per city.
3. Find the highest salary in each city.
4. Select all people who earn more than the overall average salary.

In [34]:
# Solution to exercise 1
df.loc[df.groupby('Departamento')['Idade'].idxmin()]

Unnamed: 0,Nome,Idade,Cidade,Salário,Departamento
5,Julia,22,Belo Horizonte,4000,RH
0,João,25,São Paulo,5000,TI
7,Beatriz,27,Rio de Janeiro,4800,Vendas


In [36]:
# Solution to exercise 2
df.groupby('Cidade')['Idade'].mean()

Cidade
Belo Horizonte    28.500000
Rio de Janeiro    32.333333
São Paulo         28.666667
Name: Idade, dtype: float64

In [37]:
df[df['Idade']>25].groupby('Departamento')['Salário'].mean()

Departamento
RH        6000.000000
TI        6750.000000
Vendas    4933.333333
Name: Salário, dtype: float64