# Módulo 4: Análise e Transformação de Dados

## 1. Agrupamento de Dados com `groupby`



In [2]:
import pandas as pd

# Exemplo: Criando um DataFrame
data = {
    'Categoria': ['A', 'B', 'A', 'B', 'A', 'B'],
    'Valor': [10, 20, 30, 40, 50, 60]
}
df = pd.DataFrame(data)

# Agrupando os dados por 'Categoria' e somando os valores
grouped = df.groupby('Categoria').sum()
print(grouped)

           Valor
Categoria       
A             90
B            120


## 2. Aplicação de Funções (média, soma, contagem)



In [3]:
mean_values = df.groupby('Categoria')['Valor'].mean()
print("Média por Categoria:")
print(mean_values)

# Contando quantos itens existem por categoria
count_values = df.groupby('Categoria')['Valor'].count()
print("Contagem por Categoria:")
print(count_values)

Média por Categoria:
Categoria
A    30.0
B    40.0
Name: Valor, dtype: float64
Contagem por Categoria:
Categoria
A    3
B    3
Name: Valor, dtype: int64


## 3. Mesclagem e Junção de DataFrames (`merge`, `join`, `concat`)



In [7]:
# Criando dois DataFrames para mesclagem
df1 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nome': ['Alice', 'Bob', 'Charlie']
})
df2 = pd.DataFrame({
    'ID': [1, 2, 4],
    'Idade': [25, 30, 35]
})

# Usando merge para juntar os DataFrames pela coluna 'ID'
merged_df = pd.merge(df1, df2, on='ID', how='inner')
print("Merge Inner:")
print(merged_df)

print("\n")
# Concatenando os DataFrames verticalmente
concat_df = pd.concat([df1, df2], axis=0)
print("Concatenação:")
print(concat_df)

Merge Inner:
   ID   Nome  Idade
0   1  Alice     25
1   2    Bob     30


Concatenação:
   ID     Nome  Idade
0   1    Alice    NaN
1   2      Bob    NaN
2   3  Charlie    NaN
0   1      NaN   25.0
1   2      NaN   30.0
2   4      NaN   35.0


## 4. Ordenação de Dados (`sort_values`, `sort_index`)

In [8]:
# Criando um DataFrame para ordenar
data = {
    'Nome': ['Alice', 'Bob', 'Charlie'],
    'Idade': [25, 30, 20]
}
df = pd.DataFrame(data)

# Ordenando os valores pela coluna 'Idade'
sorted_by_age = df.sort_values(by='Idade')
print("Ordenado por Idade:")
print(sorted_by_age)

# Ordenando os índices em ordem decrescente
sorted_by_index = df.sort_index(ascending=False)
print("Ordenado por Índice Decrescente:")
print(sorted_by_index)

Ordenado por Idade:
      Nome  Idade
2  Charlie     20
0    Alice     25
1      Bob     30
Ordenado por Índice Decrescente:
      Nome  Idade
2  Charlie     20
1      Bob     30
0    Alice     25




## Exercício Prático

1. Crie um DataFrame com as seguintes colunas:
   - `Produto`: Nomes dos produtos
   - `Categoria`: Categoria dos produtos
   - `Preço`: Preço de cada produto
2. Agrupe os dados pela coluna `Categoria` e calcule a soma dos preços por categoria.
3. Adicione uma nova coluna `Desconto`, aplicando um desconto de 10% em todos os produtos.
4. Ordene os produtos pelo preço com desconto.



In [10]:
### Resposta
# Criando o DataFrame
products = pd.DataFrame({
    'Produto': ['Camiseta', 'Calça', 'Casaco', 'Short', 'Bermuda'],
    'Categoria': ['Vestuário', 'Vestuário', 'Vestuário', 'Esportes', 'Esportes'],
    'Preço': [50, 120, 200, 80, 90]
})

# Agrupando por Categoria e somando os preços
grouped_prices = products.groupby('Categoria')['Preço'].sum()
print("Soma dos preços por Categoria:")
print(grouped_prices)

# Adicionando a coluna de Desconto
products['Desconto'] = products['Preço'] * 0.9
print("Produtos com Desconto:")
print(products)

# Ordenando pelo preço com desconto
sorted_products = products.sort_values(by='Desconto')
print("Produtos Ordenados pelo Preço com Desconto:")
print(sorted_products)

Soma dos preços por Categoria:
Categoria
Esportes     170
Vestuário    370
Name: Preço, dtype: int64
Produtos com Desconto:
    Produto  Categoria  Preço  Desconto
0  Camiseta  Vestuário     50      45.0
1     Calça  Vestuário    120     108.0
2    Casaco  Vestuário    200     180.0
3     Short   Esportes     80      72.0
4   Bermuda   Esportes     90      81.0
Produtos Ordenados pelo Preço com Desconto:
    Produto  Categoria  Preço  Desconto
0  Camiseta  Vestuário     50      45.0
3     Short   Esportes     80      72.0
4   Bermuda   Esportes     90      81.0
1     Calça  Vestuário    120     108.0
2    Casaco  Vestuário    200     180.0
