# Pandas DataFrame - GroupBy Operations Part One

O operație de tipul 'GroupBy' ne permite să vizualizăm anumite datele din cadrul unui DataFrame per categorii. Această parte poate să ne răspundă la întrebări precum 'Care este media dintr-o anumită categorie?' , 'Câte rânduri are o anumită categorie?'. Să explorăm acest concept în Pandas

| Category | Data value |
| --- | --- |
| A   | 20.5 |
| A   | 1.7 |
| B   | 1.22 |
| B   | 14.65 |
| C   | 8.14 |
| C   | 11.17 |

În tabelul de mai sus avem două coloane (Category și Data value). Atunci când facem o operație de GroupBy dorim să agregăm o valoare continuă per categorie. În cazul de față primul pas este de a selecta o coloană de tipul 'categorical'. Aceste coloane sunt non-continue, ceea ce înseamnă că grupuri distincte de valori în cadrul acestor coloane. Coloana denumită 'Category' are trei valori distincte și anume A, B și C. Aceste coloane pot fi alcătuie fie numai din valori de tip string, fie pot fi alcătuite din valori numerice. După ce am identificat coloana de tipul category, ce uremază să facem este să apelăm metoda 'groupby()' la care îi oferim ca și argument coloana respectivă. Ce anume face Pandas în spate, ia DataFrame-ul și separă rândurile din acel DataFrame pe baza categoriilor distincte. Astfel o să avem un rezultat de tipul:

 Category | Data value |
| --- | --- |
| A   | 20.5 |
| A   | 1.7 |

 Category | Data value |
| --- | --- |
| B   | 1.22 |
| B   | 14.65 |

 Category | Data value |
| --- | --- |
| C   | 8.14 |
| C   | 11.17 |

Practic ne împare DataFrmae-ul mare în mai multe DataFrame-urui mai mici. Asupra acestor DataFrame-uri putem să apelăm anumite funcții de agregare, cum ar fi funcția 'sum'

groupby_operation.sum()

 Category | Result |
| --- | --- |
| A   | 22.2 |
| B   | 15.87 |
| C   | 19.31 |



Atunci când apleăm metoda 'groupby()' în Pandas, aceasta creează un obiect de tipul 'lazy object' deoarece așteaptă să fie evaluată de o anumită funcție de agregare. O să începem să utilizăm aceste metode în Pandas

In [1]:
# importing the libraries
import numpy as np
import pandas as pd

In [2]:
# reading the csv file into a DataFrame
df = pd.read_csv('../data/03-Pandas/mpg.csv')

In [4]:
# printing the first five rows of the DataFrame
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140,3449,10.5,70,1,ford torino


In [6]:
# printing the shape of the DataFrame
df.shape

(398, 9)

În cadrul acestui DataFrame avem date despre anumite mașini, date precum consumul, numărul de cilindrii, anul fabricării etc. Putem să ne folosim de metoda groupby împreună de o funcție de agregare pentru a descoperi evoluția mașinilor în timp (cum s-a modificat consumul mediu în timpul anilor). Pentru a grupa datele putem să utilizăm metoda 'groupby()'. Acestei metode îi oferim ca și argument numele coloanei după care dorim să facem schimbarea

In [7]:
df.groupby('model_year')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fdf2d5ef8b0>

Dacă rulăm acel cod numai, atunci o să avem rezultatul de mai jos deoarece după cum am spun, ceea ce returnează metoda 'groupby()' este un 'lazy object'. La ce ne referim prin 'lazy object' este faptul că Pandas nu realizează nimic momentan (no work) deoarece așteaptă încă un input de la utilizator, încă așteaptă să îi spui ce anume dorești să faci cu aceste date. (dorim suma, valorea medie). Pentru codul de mai sus trebuie să apelăm o funcție de agregare pentru ca Pandas că înceapă să facă ceva operații cu aceste grupuri de date. O să apelăm metoda mean()

In [8]:
df.groupby('model_year').mean()

Unnamed: 0_level_0,mpg,cylinders,displacement,weight,acceleration,origin
model_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,17.689655,6.758621,281.413793,3372.793103,12.948276,1.310345
71,21.25,5.571429,209.75,2995.428571,15.142857,1.428571
72,18.714286,5.821429,218.375,3237.714286,15.125,1.535714
73,17.1,6.375,256.875,3419.025,14.3125,1.375
74,22.703704,5.259259,171.740741,2877.925926,16.203704,1.666667
75,20.266667,5.6,205.533333,3176.8,16.05,1.466667
76,21.573529,5.647059,197.794118,3078.735294,15.941176,1.470588
77,23.375,5.464286,191.392857,2997.357143,15.435714,1.571429
78,24.061111,5.361111,177.805556,2861.805556,15.805556,1.611111
79,25.093103,5.827586,206.689655,3055.344828,15.813793,1.275862


Pandas a luat fiecare valoare unică din coloana 'model_year' și a grupat datele în funcție de acea coloană. În continuare, a luat fiecare grup și a apelat metoda 'mean()' pentru fiecare grup în parte (pentru coloanele care au conținut valori numerice). Ce s-a afișat este un DataFrame în care ca și index sunt trecute valorile unice din coloana 'model_year', valori care reprezintă câte un grup separat. Valorile pentru rânduri reprezintă calcului funcției mean() pentru fiecare dintre coloanele unde s-a putut apela această funcție.

Datorită faptului că ceea ce se returnează este un DataFrame putem să extragem doar anumite coloane care ne sunt de interes

In [9]:
df.groupby('model_year').mean()['mpg']

model_year
70    17.689655
71    21.250000
72    18.714286
73    17.100000
74    22.703704
75    20.266667
76    21.573529
77    23.375000
78    24.061111
79    25.093103
80    33.696552
81    30.334483
82    31.709677
Name: mpg, dtype: float64

Ce anume putem să mai facem cu această metodă este să grupăm datele după mai multe coloane. În urma codului de mai sus am aflat care este consumul mediu  în funcție de anul producție mașinii. Consumul acesta poate diferi însă de la model la model, de aceea am mai putea să grupăm datele și după numărul de cilindrii. Pentru a grupa datele după mai multe coloane, îi oferim metodei ca și argument o listă de valori

In [11]:
df.groupby(['model_year', 'cylinders']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,4,25.285714,107.0,2292.571429,16.0,2.285714
70,6,20.5,199.0,2710.5,15.5,1.0
70,8,14.111111,367.555556,3940.055556,11.194444,1.0
71,4,27.461538,101.846154,2056.384615,16.961538,1.923077
71,6,18.0,243.375,3171.875,14.75,1.0
71,8,13.428571,371.714286,4537.714286,12.214286,1.0
72,3,19.0,70.0,2330.0,13.5,3.0
72,4,23.428571,111.535714,2382.642857,17.214286,1.928571
72,8,13.615385,344.846154,4228.384615,13.0,1.0
73,3,18.0,70.0,2124.0,13.5,3.0


Ce se poate oberva din acest output este faptul că acuma avem un multiindex pentru acest DataFrame. Primul dintre acestea este index-ul pentru model_year, iar cel de-al doilea este index-ul pentru cylinders. Putem să accesăm atributl de index pentru a vedea că acesta întradevăr este un multiindex

In [12]:
df.groupby(['model_year', 'cylinders']).mean().index

MultiIndex([(70, 4),
            (70, 6),
            (70, 8),
            (71, 4),
            (71, 6),
            (71, 8),
            (72, 3),
            (72, 4),
            (72, 8),
            (73, 3),
            (73, 4),
            (73, 6),
            (73, 8),
            (74, 4),
            (74, 6),
            (74, 8),
            (75, 4),
            (75, 6),
            (75, 8),
            (76, 4),
            (76, 6),
            (76, 8),
            (77, 3),
            (77, 4),
            (77, 6),
            (77, 8),
            (78, 4),
            (78, 5),
            (78, 6),
            (78, 8),
            (79, 4),
            (79, 5),
            (79, 6),
            (79, 8),
            (80, 3),
            (80, 4),
            (80, 5),
            (80, 6),
            (81, 4),
            (81, 6),
            (81, 8),
            (82, 4),
            (82, 6)],
           names=['model_year', 'cylinders'])

În continuare o să lucrăm puțin cu acest multiindex, deoarece uneori poate fi complicat modul prin care putem extrage anumite date dintr-un DataFrame care are un multiindex. Pentru asta o să salvăm output-ul de la groupby() într-un DataFrame

In [13]:
year_cly = df.groupby(['model_year', 'cylinders']).mean()

In [14]:
year_cly

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,4,25.285714,107.0,2292.571429,16.0,2.285714
70,6,20.5,199.0,2710.5,15.5,1.0
70,8,14.111111,367.555556,3940.055556,11.194444,1.0
71,4,27.461538,101.846154,2056.384615,16.961538,1.923077
71,6,18.0,243.375,3171.875,14.75,1.0
71,8,13.428571,371.714286,4537.714286,12.214286,1.0
72,3,19.0,70.0,2330.0,13.5,3.0
72,4,23.428571,111.535714,2382.642857,17.214286,1.928571
72,8,13.615385,344.846154,4228.384615,13.0,1.0
73,3,18.0,70.0,2124.0,13.5,3.0


Pentru a vedea ce index avem în cadrul acestui DataFrame putem să accesăm atributul index

In [15]:
year_cly.index

MultiIndex([(70, 4),
            (70, 6),
            (70, 8),
            (71, 4),
            (71, 6),
            (71, 8),
            (72, 3),
            (72, 4),
            (72, 8),
            (73, 3),
            (73, 4),
            (73, 6),
            (73, 8),
            (74, 4),
            (74, 6),
            (74, 8),
            (75, 4),
            (75, 6),
            (75, 8),
            (76, 4),
            (76, 6),
            (76, 8),
            (77, 3),
            (77, 4),
            (77, 6),
            (77, 8),
            (78, 4),
            (78, 5),
            (78, 6),
            (78, 8),
            (79, 4),
            (79, 5),
            (79, 6),
            (79, 8),
            (80, 3),
            (80, 4),
            (80, 5),
            (80, 6),
            (81, 4),
            (81, 6),
            (81, 8),
            (82, 4),
            (82, 6)],
           names=['model_year', 'cylinders'])

Acest atribut de index mai are și alte atribute în plus prin care putem să extragem numele pe care îl are fiecare index și nivelul fiecărui index în parte. Acest atribute poartă denumirea de index.names și index.levels

In [16]:
year_cly.index.names

FrozenList(['model_year', 'cylinders'])

In [17]:
year_cly.index.levels

FrozenList([[70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82], [3, 4, 5, 6, 8]])

Pentru a putea extrage date din index-ul exterior (model_year), atunci o să utilizăm indexatorul loc. La acest indexator trebuie să îi iferim ca și argument valorea index-ului pe care dorim să îl extragem

In [18]:
year_cly.loc[70]

Unnamed: 0_level_0,mpg,displacement,weight,acceleration,origin
cylinders,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
4,25.285714,107.0,2292.571429,16.0,2.285714
6,20.5,199.0,2710.5,15.5,1.0
8,14.111111,367.555556,3940.055556,11.194444,1.0


Dacă dorim să extragem mai multe valori, atunci o să oferim acele valori sub formă de listă

In [19]:
year_cly.loc[[70, 82]]

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,4,25.285714,107.0,2292.571429,16.0,2.285714
70,6,20.5,199.0,2710.5,15.5,1.0
70,8,14.111111,367.555556,3940.055556,11.194444,1.0
82,4,32.071429,118.571429,2402.321429,16.703571,1.714286
82,6,28.333333,225.0,2931.666667,16.033333,1.0


70 și 82 din lista de valori reprezintă valorile pentru grupurile 'model_year' din anii 70, respectiv 82

Pentru a extrage date utilizând ambele nivele de index atunci pentru indexatorul loc o să îi oferim ca și valoare o tuplă. Aceasta se poate extrage din cadrul outputului de la atributul index

In [20]:
year_cly.index

MultiIndex([(70, 4),
            (70, 6),
            (70, 8),
            (71, 4),
            (71, 6),
            (71, 8),
            (72, 3),
            (72, 4),
            (72, 8),
            (73, 3),
            (73, 4),
            (73, 6),
            (73, 8),
            (74, 4),
            (74, 6),
            (74, 8),
            (75, 4),
            (75, 6),
            (75, 8),
            (76, 4),
            (76, 6),
            (76, 8),
            (77, 3),
            (77, 4),
            (77, 6),
            (77, 8),
            (78, 4),
            (78, 5),
            (78, 6),
            (78, 8),
            (79, 4),
            (79, 5),
            (79, 6),
            (79, 8),
            (80, 3),
            (80, 4),
            (80, 5),
            (80, 6),
            (81, 4),
            (81, 6),
            (81, 8),
            (82, 4),
            (82, 6)],
           names=['model_year', 'cylinders'])

De exemplu, dacă dorim să preluăm informația pentru modelul din 77 cu 4 cilindrii, atunci trebuie să oferim ca și argument tupla (77, 4). Putem să ne folosim de outputul de mai sus pentru a oferi un input (argument) pentru indexatorul loc

In [21]:
year_cly.loc[(77, 4)]

mpg               29.107143
displacement     106.500000
weight          2205.071429
acceleration      16.064286
origin             1.857143
Name: (77, 4), dtype: float64

## Recapitulare

În cadrul acestui tutorial am învățat următoarele lucruri:

    1. Cum funcționează metoda de groupby()

    2. Cum utilizăm metoda groupby()

        df.groupby('model_year')

        df.groupby(['model_year', 'cylinders'])

        df.groupby(['model_year', 'cylinders']).mean()

        year_cly = df.groupby(['model_year', 'cylinders']).mean()

    3. Cum putem afla index-ul pentru un DataFrame, numele indexului și nivelele (atunci când avem un multiindex)

        year_cly.index

        year_cly.index.names

        year_cly.index.levels

    4. Cum putem accesa date utilizând doar index-ul exterior (se utilizează indexatorul loc în mod normal)

        year_cly.loc[70]

        year_cly.loc[[70, 82]]

    5. Cum putem accesa date utilizând ambii indexi din cadrul unui DataFrame (se oferă un tuple ca și argument pentru indexatorul 'loc')

        year_cly.loc[(77, 4)]



