### Grupowanie

[pandas GroupBy: Your Guide to Grouping Data in Python](https://realpython.com/pandas-groupby/)

https://github.com/unitedstates/congress-legislators - Zbiór danych Kongresu USA zawiera publiczne informacje o historycznych członkach Kongresu.

Wczytajmy dane

In [1]:
# pandas_legislators.py
import pandas as pd
df = pd.read_csv('data/legislators-historical.csv')
df

Unnamed: 0,last_name,first_name,middle_name,suffix,nickname,full_name,birthday,gender,type,state,...,opensecrets_id,lis_id,fec_ids,cspan_id,govtrack_id,votesmart_id,ballotpedia_id,washington_post_id,icpsr_id,wikipedia_id
0,Bassett,Richard,,,,,1745-04-02,M,sen,DE,...,,,,,401222,,,,507.0,Richard Bassett (politician)
1,Bland,Theodorick,,,,,1742-03-21,M,rep,VA,...,,,,,401521,,,,786.0,Theodorick Bland (congressman)
2,Burke,Aedanus,,,,,1743-06-16,M,rep,SC,...,,,,,402032,,,,1260.0,Aedanus Burke
3,Carroll,Daniel,,,,,1730-07-22,M,rep,MD,...,,,,,402334,,,,1538.0,Daniel Carroll
4,Clymer,George,,,,,1739-03-16,M,rep,PA,...,,,,,402671,,,,1859.0,George Clymer
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11970,Garrett,Thomas,,,,"Thomas A. Garrett, Jr.",1972-03-27,M,rep,VA,...,N00038847,,H6VA05142,103625.0,412729,134493.0,,,21721.0,Thomas Garrett (Virginia politician)
11971,Handel,Karen,,,,Karen C. Handel,1962-04-18,F,rep,GA,...,N00035477,,H8GA06286,1026745.0,412737,69553.0,Karen Handel,,,Karen Handel
11972,Jones,Brenda,B.,,,Brenda Jones,1959-10-24,F,rep,MI,...,N00042648,,H8MI13243,,412752,,Brenda Jones (Michigan),,,Brenda Jones (politician)
11973,Marino,Tom,,,,Tom Marino,1952-08-15,M,rep,PA,...,N00031777,,H0PA10078,95129.0,412468,119478.0,Tom Marino,,21170.0,Tom Marino


In [4]:
cols = ['first_name', 'last_name', 'type', 'state', 'party', 'gender', 'birthday']
df = pd.read_csv(
    'data/legislators-historical.csv',
    usecols = cols,
    parse_dates = ['birthday'])
df

Unnamed: 0,last_name,first_name,birthday,gender,type,state,party
0,Bassett,Richard,1745-04-02,M,sen,DE,Anti-Administration
1,Bland,Theodorick,1742-03-21,M,rep,VA,
2,Burke,Aedanus,1743-06-16,M,rep,SC,
3,Carroll,Daniel,1730-07-22,M,rep,MD,
4,Clymer,George,1739-03-16,M,rep,PA,
...,...,...,...,...,...,...,...
11970,Garrett,Thomas,1972-03-27,M,rep,VA,Republican
11971,Handel,Karen,1962-04-18,F,rep,GA,Republican
11972,Jones,Brenda,1959-10-24,F,rep,MI,Democrat
11973,Marino,Tom,1952-08-15,M,rep,PA,Republican


In [5]:
type(df.iloc[1].birthday)

pandas._libs.tslibs.timestamps.Timestamp

In [None]:
...

Spróbujmy teraz podziałać z grupowaniem.

Ilu jest w zbiorze kongresmenów w poszczególnych stanach. Tego typu zapytanie w języku sql mogłoby mieć postać: <pre><code>SELECT state, count(name)
FROM df
GROUP BY state
ORDER BY state;
</code></pre>

A jak to będzie wyglądało w pandas?

Klauzula `groupby` stworzy worki, po jednym worku na każdy stan.

In [6]:
df.groupby('state')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001D8B9D612D0>

In [8]:
df_groupby = df.groupby('state')
df_groupby.groups

{'AK': [6619, 6647, 7442, 7501, 8039, 8236, 8877, 9819, 9951, 9985, 10082, 10108, 10325, 11262, 11386, 11734], 'AL': [912, 991, 1079, 1180, 1252, 1307, 1320, 1360, 1533, 1621, 1633, 1810, 1847, 1854, 1855, 1859, 1935, 2180, 2224, 2228, 2258, 2359, 2364, 2369, 2412, 2425, 2465, 2525, 2553, 2602, 2608, 2618, 2632, 2663, 2667, 2668, 2765, 2903, 3003, 3085, 3093, 3145, 3156, 3204, 3287, 3342, 3344, 3345, 3353, 3416, 3448, 3810, 3842, 3853, 3871, 3877, 3915, 3935, 3981, 4029, 4088, 4108, 4122, 4129, 4195, 4227, 4326, 4331, 4349, 4354, 4364, 4381, 4408, 4418, 4445, 4448, 4595, 4624, 4678, 4707, 4739, 4748, 4775, 4877, 4977, 5008, 5009, 5056, 5071, 5093, 5180, 5203, 5261, 5296, 5457, 5589, 5604, 5638, 5735, 5821, ...], 'AR': [1001, 1279, 2096, 2254, 2318, 2421, 2466, 2472, 2598, 3103, 3218, 3298, 3382, 3437, 3440, 3557, 3829, 3844, 3909, 3912, 4021, 4022, 4085, 4096, 4111, 4130, 4255, 4276, 4282, 4362, 4540, 4596, 4781, 4791, 4825, 4845, 4997, 5266, 5415, 5489, 5568, 5636, 5702, 5988, 6098, 6

Na workach możemy wykonywać jakieś statystyki (tzw. funkcje agregujące), np. możemy zliczyć ile jest niepustych wpisów w każdym z worków za pomocą funkcji `count`.

In [9]:
df_groupby.count()

Unnamed: 0_level_0,last_name,first_name,birthday,gender,type,party
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
AK,16,16,16,16,16,14
AL,206,206,197,206,206,206
AR,117,117,114,117,117,115
AS,2,2,2,2,2,2
AZ,48,48,48,48,48,48
CA,361,361,358,361,361,361
CO,90,90,90,90,90,90
CT,240,240,238,240,240,227
DC,2,2,2,2,2,2
DE,97,97,91,97,97,94


albo ile jest niepustych wpisów dla wybranej kolumny (gdybyśmy chcieli uwzględnić również wpisy z pustymi wartościami należałoby zamiast metody `count` użyć metody `size`).

In [10]:
df_groupby.size()

state
AK      16
AL     206
AR     117
AS       2
AZ      48
CA     361
CO      90
CT     240
DC       2
DE      97
DK       9
FL     155
GA     309
GU       4
HI      23
IA     202
ID      59
IL     486
IN     341
KS     141
KY     373
LA     197
MA     426
MD     305
ME     175
MI     294
MN     160
MO     333
MS     155
MT      52
NC     354
ND      44
NE     127
NH     181
NJ     359
NM      54
NV      56
NY    1461
OH     674
OK      92
OL       2
OR      89
PA    1053
PI      13
PR      19
RI     107
SC     251
SD      51
TN     299
TX     256
UT      53
VA     432
VI       4
VT     115
WA      95
WI     196
WV     120
WY      40
dtype: int64

10 pierwszych wpisów

In [11]:
df_groupby["last_name"].count().head(n = 10)

state
AK     16
AL    206
AR    117
AS      2
AZ     48
CA    361
CO     90
CT    240
DC      2
DE     97
Name: last_name, dtype: int64

Możemy grupować po kilku kolumnach. Każdy kolejny poziom grupowania oznacza stworzenie worków wewnątrz innych worków. Możemy na przykład wewnątrz naszych worków dla poszczególnych stanów potworzyć worki na płeć. I na takich "podworkach" wyliczyć jakieś statystyki.

Ile było kobiet i mężczyzn kongresmenów w poszczególnych stanach.

Zapytanie sql miałoby postać: <pre><code>SELECT state, gender, count(name)
FROM df
GROUP BY state, gender
ORDER BY state, gender;</code></pre>

Zapytanie pandas:

In [14]:
res = df.groupby(['state', 'gender']).count()
res

Unnamed: 0_level_0,Unnamed: 1_level_0,last_name,first_name,birthday,type,party
state,gender,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
AK,M,16,16,16,16,14
AL,F,3,3,3,3,3
AL,M,203,203,194,203,203
AR,F,5,5,5,5,5
AR,M,112,112,109,112,110
...,...,...,...,...,...,...
WI,M,196,196,196,196,196
WV,F,1,1,1,1,1
WV,M,119,119,117,119,119
WY,F,2,2,2,2,2


In [15]:
res.index

MultiIndex([('AK', 'M'),
            ('AL', 'F'),
            ('AL', 'M'),
            ('AR', 'F'),
            ('AR', 'M'),
            ('AS', 'M'),
            ('AZ', 'F'),
            ('AZ', 'M'),
            ('CA', 'F'),
            ('CA', 'M'),
            ...
            ('VI', 'F'),
            ('VI', 'M'),
            ('VT', 'M'),
            ('WA', 'F'),
            ('WA', 'M'),
            ('WI', 'M'),
            ('WV', 'F'),
            ('WV', 'M'),
            ('WY', 'F'),
            ('WY', 'M')],
           names=['state', 'gender'], length=104)

In [16]:
res.loc[('AK', 'M')]

last_name     16
first_name    16
birthday      16
type          16
party         14
Name: (AK, M), dtype: int64

Metoda `groupby` biblioteki pandas i klauzula `GROUP BY` języka sql są podobne, ale nie identyczne. Jedną z ważniejszych różnic pomiędzy nimi jest postać zwracanego wyniku. Podczas gdy klauzula `GROUP BY` zwraca result set, metoda `groupby` zwraca serię (w przypadku więcej niż jeden poziom worków metoda zwraca serię z wielokrotnym indeksem).

In [None]:
...

In [None]:
...

In [None]:
...

In [None]:
res.index

Możemy zapobiec tworzeniu wielokrotnego indeksu za pomocą parametru `as_index`.

In [17]:
df.groupby(['state', 'gender'], as_index=False).count()

Unnamed: 0,state,gender,last_name,first_name,birthday,type,party
0,AK,M,16,16,16,16,14
1,AL,F,3,3,3,3,3
2,AL,M,203,203,194,203,203
3,AR,F,5,5,5,5,5
4,AR,M,112,112,109,112,110
...,...,...,...,...,...,...,...
99,WI,M,196,196,196,196,196
100,WV,F,1,1,1,1,1
101,WV,M,119,119,117,119,119
102,WY,F,2,2,2,2,2


Wtedy worki zostaną "rozrzucone" po kolumnach wynikowej ramki.

In [None]:
...

In [None]:
...

Druga różnica pomiędzy klauzulą `GROUP BY` i metodą `groupby` polega na tym, że metoda `groupby` domyślnie sortuje wynik (odpowiada za to parametr `sort`, którego domyślna wartości to `True`) podczas gdy klauzula `GROUP by` nie sortuje result seta.

#### `groupby` technikalia

Kiedy już nauczyliśmy się jak używać metody `groupby` pora na zapoznanie się z mechanizmem tej metody.

Przypomnijmy sobie co zwraca metoda `groupby`.

In [18]:
df.groupby(['state'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001D8BA566210>

obiekt klasy `DataFrameGroupBy`.

Dlaczego nie wyświetlił się nam wynik już na tym etapie ?

Ponieważ klasa DataFrameGroupBy jest **leniwa** w swojej naturze. Dopóki nie wskażemy co chcemy zrobić (`.count`, `.sum`, `.agg`) nie zacznie grupować, ponieważ w zależności od tego co chcemy otrzymać samo zapytanie może być inaczej realizowane. A nawet jak już wskażemy co chcemy zrobić pandas wciąż nie zacznie wykonywać zapytania. Innymi słowy, zapisanie:

In [21]:
res = df.groupby(['state']).count()

nie spowoduje wykonania zapytania. Dopiero konsumpcja wyniku, czyli moment w którym wynik jest nam już potrzebny, bo dalej coś z nim robimy, jest momentem wykonania obliczeń. Na przykład:

In [22]:
print(res)

       last_name  first_name  birthday  gender  type  party
state                                                      
AK            16          16        16      16    16     14
AL           206         206       197     206   206    206
AR           117         117       114     117   117    115
AS             2           2         2       2     2      2
AZ            48          48        48      48    48     48
CA           361         361       358     361   361    361
CO            90          90        90      90    90     90
CT           240         240       238     240   240    227
DC             2           2         2       2     2      2
DE            97          97        91      97    97     94
DK             9           9         9       9     9      8
FL           155         155       152     155   155    151
GA           309         309       288     309   309    303
GU             4           4         4       4     4      4
HI            23          23        23  

Najczęstszymi sposobami konsumowania wyniku są:
- wyświetlanie wyniku
- iterowanie się po wyniku
- rzutowanie wyniku na jakiś typ (np. listę)

I wszystkie inne operacje przy których wynik jest nam potrzebny, żeby móc pójść dalej.

W kontekście metody `groupby` biblioteki pandas, często pojawia się zbitka słów **split-apply-combine**. Co ona oznacza ?

Formuła **split-apply-combine** odnosi się do trzech kroków, które przeważnie realizowane są "pod maską" przez metodę `groupby`:
- split - rozbicie tabeli na grupy (worki)
- apply - zastosowanie jakiejś operacji na każdej grupie (worku) z osobna
- combine - połączenie wyników

Nie jest jednak łatwo zrobić inspekcje metody `groupby`, ponieważ żaden z tych kroków nie jest wykonywany do czasu aż nie zrobimy czegoś do czego potrzebny nam jest już konkretny wynik zapytania.

Jak więc rozdzielić kroki split, apply i combine jeżeli nie możemy przyjrzeć się żadnemu z nich z osobna ? Zacznijmy od split.

Dobrym sposobem na zobaczenie kroku split w akcji jest przeiterowanie się po obiekcie klasy `DataFrameGroupBy`.

In [23]:
res = df.groupby(['state'])

In [24]:
for state in res:
    print(state)

(('AK',),         last_name first_name   birthday gender type state        party
6619       Waskey      Frank 1875-04-20      M  rep    AK     Democrat
6647         Cale     Thomas 1848-09-17      M  rep    AK  Independent
7442      Grigsby     George 1874-12-02      M  rep    AK          NaN
7501       Sulzer    Charles 1879-02-24      M  rep    AK          NaN
8039   Sutherland     Daniel 1869-04-17      M  rep    AK   Republican
8236   Wickersham      James 1857-08-24      M  rep    AK   Republican
8877       Dimond    Anthony 1881-11-30      M  rep    AK     Democrat
9819     Gruening     Ernest 1887-02-06      M  sen    AK     Democrat
9951       Rivers      Ralph 1903-05-23      M  rep    AK     Democrat
9985     Bartlett     Edward 1904-04-20      M  sen    AK     Democrat
10082     Pollock     Howard 1920-04-11      M  rep    AK   Republican
10108      Begich   Nicholas 1932-04-06      M  rep    AK     Democrat
10325      Gravel    Maurice 1930-05-13      M  sen    AK     Democ

In [None]:
for 

Innym dobrym sposobem na analizę etapu split jest atrybut `groups`, który zwraca słownik z parami: nazwa grupy i listą etykiet elementów przypisanych do tej grupy).

In [None]:
...

Popatrzmy na jedną groupę.

In [None]:
...

lub metoda `get_group()`

In [None]:
...

Metoda `.get_group("AL")` jest odpowiednikiem filtra: <pre><code>df.loc[df["state"] == "AL"]</code></pre>

A teraz co z etapem `apply` ?

Na tym etapie wskazana operacja jest wykonywana na każdej z utorzonych na etapie split grup.

In [None]:
...

In [None]:
...

In [None]:
...

In [None]:
...

In [None]:
...

In [None]:
...

I to pasuje do naszego ostatecznego wyniku.

Ostatni z etapów **combine** zbiera do jednej ramki/serii wszystkie otrzymane, cząstkowe wynik.

Podsumowując całość, schemat działania metody `groupby` możemy przedstawić za pomocą ilustracji:

![groupby.png](attachment:da4cdf84-c771-4385-b0bd-b965fa1674a0.png)