<a href="https://colab.research.google.com/github/KamilBienias/data-science/blob/main/training/analityk.edu.pl/pandas_tutorial/11_groupby.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
# https://analityk.edu.pl/python-pandas-tutorial-groupowanie-danych-z-group-by/

# **Python Pandas Tutorial – groupowanie danych, z group by**

Grupowanie, agregowanie, transformowanie danych jest to jedno z zadań które wykonuje bardzo często, każdy analityk danych. Nie jest więc zaskoczeniem, że i Pandas przychodzi tutaj z zestawem prostych, lecz skutecznych funkcji, takich jak pandas group by, sprawiając że jest to łatwe i przyjemne. W tej i kilku kolejnych lekcjach, pokaże najważniejsze z nich.

Dla zobrazowania działania funkcji group by, posłużymy się zbiorem danych films, który znamy z poprzednich lekcji.

In [3]:
import pandas as pd

films = pd.read_csv('https://drive.google.com/uc?export=download&id=1Ofob2EV42qPeJSpIlhxnsEMAdEvnop7l', 
                    sep=';', 
                    encoding = "ISO-8859-1",
                    skiprows=[1],
                    dtype={'Length':'float64', 'Popularity':'float64'},
                    usecols=['Year','Length','Title','Subject','Popularity','Awards'],
                    converters={'Awards':lambda x: True if x == 'Yes' else False})
films

Unnamed: 0,Year,Length,Title,Subject,Popularity,Awards
0,1990,111.0,Tie Me Up! Tie Me Down!,Comedy,68.0,False
1,1991,113.0,High Heels,Comedy,68.0,False
2,1983,104.0,"Dead Zone, The",Horror,79.0,False
3,1979,122.0,Cuba,Action,6.0,False
4,1978,94.0,Days of Heaven,Drama,14.0,False
...,...,...,...,...,...,...
1654,1932,226.0,"Shadow of the Eagle, The",Action,19.0,False
1655,1989,103.0,Blood & Guns,Action,43.0,False
1656,1988,78.0,Hot Money,Drama,19.0,False
1657,1977,75.0,Comedy Tonight,Comedy,18.0,False


## **Pandas Group by – prosty przykład**

Powiedzmy że chcemy poznać ilość filmów w naszym DataFrame dla poszczególnych lat. Użyjemy funkcji group by, która przyjmuje jako parametr nazwę kolumny po której chcemy dokonać grupowania oraz funkcji count() która zliczy nam rekordy:

In [4]:
films.groupby('Year').count()

Unnamed: 0_level_0,Length,Title,Subject,Popularity,Awards
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1920,1,1,1,1,1
1923,1,1,1,0,1
1924,3,3,3,3,3
1925,1,1,1,1,1
1926,4,4,4,4,4
...,...,...,...,...,...
1991,119,129,129,129,129
1992,84,88,88,88,88
1993,15,21,21,21,21
1996,1,1,1,1,1


Tym samym zliczyliśmy ile jest wartości w każdej kolumnie dla danego roku (innych niż NaN).

Bez problemu, możemy skupić się na jednej kolumnie, wykonać operację na przykład mean() i policzyć średnią popularność filmu:

In [5]:
films.groupby('Year').Popularity.mean()

Year
1920    29.000000
1923          NaN
1924    72.000000
1925    73.000000
1926    63.000000
          ...    
1991    41.984496
1992    41.454545
1993    41.666667
1996    39.000000
1997    60.000000
Name: Popularity, Length: 74, dtype: float64

## **Pandas Group by, dla kilku kolumn**

Grupowanie może odbyć się również po większej ilości kolumn. Możemy policzyć średnią długość trwania filmu dla danego roku, dodatkowo w rozbiciu na np kategorię filmu. W tym celu do naszej funkcji group by, podamy 2 parametry:

In [8]:
films.groupby(['Year','Subject']).Length.mean()

Year  Subject        
1920  Drama              137.000000
1923  Western             57.000000
1924  Drama              109.333333
1925  Drama              125.000000
1926  Action             126.000000
                            ...    
1993  Music               53.000000
      Mystery             76.000000
      Western             80.000000
1996  Horror              96.000000
1997  Science Fiction    109.000000
Name: Length, Length: 361, dtype: float64

## **Pandas Group by – funkcja agg**

Powyżej zobaczyliśmy, że grupowanie dla prostych operacji jest bardzo proste w Pandas. A co jeżeli chcemy dla danej grupy wykonać kilka obliczeń? Np minimalną oraz maksymalną długość filmu oraz dodatkowo minimalną oraz maksymalną popularność filmu? Do tego celu użyjemy funcji agg, która znacząco zwiększa nasze możliwości.

Najpierw zobaczmy jak ona wygląda:

In [9]:
films.groupby('Year').agg({'Popularity':['min','max'], 'Length':['min','max']})

Unnamed: 0_level_0,Popularity,Popularity,Length,Length
Unnamed: 0_level_1,min,max,min,max
Year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1920,29.0,29.0,137.0,137.0
1923,,,57.0,57.0
1924,63.0,79.0,95.0,123.0
1925,73.0,73.0,125.0,125.0
1926,49.0,76.0,66.0,139.0
...,...,...,...,...
1991,1.0,88.0,16.0,240.0
1992,0.0,88.0,52.0,286.0
1993,0.0,80.0,30.0,108.0
1996,39.0,39.0,96.0,96.0


Funkcję możemy wywołać na kilka sposobów. W powyższym przykładnie wywołujemy ją ze słownikiem. Jako klucz podajemy kolumnę, a jako wartość listę operacji, którą chcemy wykonać. Innym sposobem wywołania funkcji agg, jest bardzo wygodny sposób, który pozwala nam od razu nadać nazwy naszym kolumnom:

In [11]:
films.groupby('Year').agg(mininalna_popularnosc=('Popularity', 'min'),
                          maksymalna_popularnosc=('Popularity', 'max'),
                          srednia_dlugosc=('Length', 'mean'))

Unnamed: 0_level_0,mininalna_popularnosc,maksymalna_popularnosc,srednia_dlugosc
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1920,29.0,29.0,137.000000
1923,,,57.000000
1924,63.0,79.0,109.333333
1925,73.0,73.0,125.000000
1926,49.0,76.0,110.000000
...,...,...,...
1991,1.0,88.0,103.865546
1992,0.0,88.0,105.642857
1993,0.0,80.0,79.933333
1996,39.0,39.0,96.000000


## **Filtrowanie**

To o czym jeszcze nie wspomniałem to o prostej metodzie na wyfiltrowanie części danych przed ich zgrupowaniem. 

Powiedzmy że chcemy policzyć średnią długość trwania filmu, dla filmów z okresu 1980 – 1990.

Na początku zamienimy rok na liczby, ponieważ zapomniałem tego zrobić we wcześniejszych lekcjach, a następnie użyjemy znanych i lubianych nawiasów [ ], aby wyfiltrować potrzebne dla nas dane.

In [12]:
# zamienia typ ze string na int
films['Year'] = pd.to_numeric(films.Year)
print(films.dtypes)

Year            int64
Length        float64
Title          object
Subject        object
Popularity    float64
Awards           bool
dtype: object


Year
1980    111.758621
1981    114.115385
1982    122.750000
1983    100.945946
1984    104.378378
1985    104.309524
1986    101.829787
1987    101.420000
1988    104.326087
1989     99.623656
1990    100.728261
Name: Length, dtype: float64

In [13]:
# najpierw maska a potem grupowanie
films[(films['Year'] >= 1980) & (films['Year'] <= 1990)].groupby('Year').Length.mean()

Year
1980    111.758621
1981    114.115385
1982    122.750000
1983    100.945946
1984    104.378378
1985    104.309524
1986    101.829787
1987    101.420000
1988    104.326087
1989     99.623656
1990    100.728261
Name: Length, dtype: float64

## **Ćwiczenia**

1. Policz średni czas trwania filmu, w każdym roku, po 1980

2. Policz ilość filmów, na dany roku, w zależności od kategorii filmu

In [15]:
# 1.
films[films["Year"] > 1980].groupby("Year").agg(średni_czas_w_minutach=("Length", "mean"))

Unnamed: 0_level_0,średni_czas_w_minutach
Year,Unnamed: 1_level_1
1981,114.115385
1982,122.75
1983,100.945946
1984,104.378378
1985,104.309524
1986,101.829787
1987,101.42
1988,104.326087
1989,99.623656
1990,100.728261


In [16]:
# 2.
films.groupby(['Year','Subject']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Length,Title,Popularity,Awards
Year,Subject,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1920,Drama,1,1,1,1
1923,Western,1,1,0,1
1924,Drama,3,3,3,3
1925,Drama,1,1,1,1
1926,Action,1,1,1,1
...,...,...,...,...,...
1993,Music,1,1,1,1
1993,Mystery,3,3,3,3
1993,Western,2,4,4,4
1996,Horror,1,1,1,1
