In [None]:
import pandas as pd

# Grupowanie i agregacja danych w Pandas

Przygotujmy dane, które posłużą nam do zilustrowania grupowania i agregacji w Pandas.

In [None]:
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emma', 'Frank', 'Grace', 'Hannah'],
    'Age': [25, 30, 35, 40, 25, 35, 30, 40],
    'City': ['New York', 'Los Angeles', 'Los Angeles', 'Houston', 'New York', 'Chicago', 'Los Angeles', 'Houston'],
    'Salary': [70000, 80000, 120000, 100000, 90000, 110000, 95000, 105000],
    'Department': ['HR', 'Finance', 'Engineering', 'Engineering', 'HR', 'Engineering', 'Finance', 'HR']
})

df

## Jak obliczyć średnią płacę w każdym z miast?

In [None]:
df.groupby('City', as_index=False)['Salary'].mean()

## Jak obliczyć mediana płacy w każdym z miast?

In [None]:
df.groupby('City', as_index=False)['Salary'].median()

## Jak obliczyć ile jest osób w każdym mieście?

In [None]:
df.groupby('City', as_index=False)['Salary'].count()

## Jak obliczyć ile jest osób w każdym mieście oraz ile wynosi średnia pensja w każdym mieście?

In [None]:
agg_df = df.groupby('City', as_index=False).agg({'Salary': ['mean', 'median', 'count']})
agg_df

In [None]:
agg_df.columns

In [None]:
# zmieńmy nazwy kolumn, aby pozbyć się wielopoziomowego indeksu
agg_df.columns = ['City', 'Salary Mean', 'Salary Median', 'City Count']
agg_df

## Oblicz min, max, średnia, medianę i odchylenie standardowe dla wieku i zarobków

In [None]:
df.groupby('City', as_index=False).agg({
    'Age': ['min', 'max', 'mean', 'median', 'std'],
    'Salary': ['min', 'max', 'mean', 'median', 'std'],
})

## Jak pogrupować po dwóch kolumnach?

In [None]:
# pokażmy oryginalny DataFrame dla porównania
df

In [None]:
df.groupby(['City', 'Department'])[['Salary']].mean().reset_index()

## Jak użyć grupowania do radzenia sobie z duplikatami?

In [None]:
people_df = pd.DataFrame([
    {'Name': 'Alice', 'Age': 25, 'City': 'New York', 'Salary': 70000, 'Department': 'HR'},
    {'Name': 'Alice', 'Age': 26, 'City': 'Los Angeles', 'Salary': 80000, 'Department': 'HR'},
])
people_df

In [None]:
# Zamiast usuwać duplikaty, możemy je zagregować.
# Na przykład, możemy zsumować wynagrodzenia osób o tych samych imionach.
people_df.groupby('Name', as_index=False).agg({
    'Age': 'first',  # Zatrzymanie pierwszej wartości wieku
    'City': 'last',  # Zatrzymanie ostatniej wartości miasta
    'Salary': 'mean'  # średnie wynagrodzeń
})

## Jak grupować po datach?

In [None]:
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emma', 'Frank', 'Grace', 'Hannah'],
    'Hire Date': ['2024-07-15', '2019-07-23', '2018-03-14', '2021-06-01', '2017-11-30', '2022-02-15', '2019-12-25', '2020-05-10'],
    'Department': ['HR', 'Finance', 'Engineering', 'Engineering', 'HR', 'Engineering', 'Finance', 'HR'],
    'Salary': [70000, 80000, 120000, 100000, 90000, 110000, 95000, 105000]
})
df['Hire Date'] = pd.to_datetime(df['Hire Date'])
df

In [None]:
df.groupby(df['Hire Date'].dt.year)['Salary'].mean().reset_index()