## Gruparea si agregarea datelor in Pandas

In [86]:
import pandas as pd

### Cuprins
1. [Introducere](#intro)
2. [Agregarea datelor](#agg)
3. [Gruparea datelor](#group)

### Introducere <a name="intro"></a>

Un element esential in analiza datelor il reprezinta agregarea eficienta a acestora. Agregarea datelor reprezinta procesul prin care date brute, uneori preluate din mai multe surse, sunt organizate si exprimate intr-o forma mai cuprinzatoare si mai usor de utilizat (consumat).

De exemplu, datele brute pot fi agregate pe o anumita perioada de timp pentru a furniza valori statistice, precum: suma, media, maximul, minimul sau numarul de valori.

Organizatia Natiunilor Unite pentru Alimentatie si Agricultura (FAO) este o agentie specializata a Natiunilor Unite. Scopul organizatiei este acela de a asigura securitatea alimentara si accesul regulat la hrana de calitate pentru a duce o viata activa si sanatoasa. [About FAO, Food and Agriculture Organization of the United Nations](http://www.fao.org/about/en/)

FAO ofera acces gratuit la date privind alimentatia si agricultura pentru peste 245 de tari si teritorii din 1961 pana in prezent. Un astfel de set de date a fost descarcat din cadrul platformei de date a organizatiei [FAOSTAT](https://www.fao.org/faostat/en/#data). Setul de date cuprinde suprafata recoltata, randamentul si productia pentru culturi de cereale (orz, porumb, ovaz, orez, secara si grau) din mai multe state europene (Italia, Franta, Germania, Polonia, Spania si Romania), pentru perioada 1961-2020. Stabilirea elementelor care vor fi disponibile la nivelul setului de date s-a realizat in cadrul platformei de date a FAO, la adresa [FAOSTAT: Crops and livestock products](https://www.fao.org/faostat/en/#data/QCL).

![fao-logo-en.svg](../images/fao-logo-en.svg)
<!-- ![fao-logo-en.svg](https://www.fao.org/images/corporatelibraries/fao-logo/fao-logo-en.svg) -->

FAOSTAT: crops and livestock products

* URL: https://www.fao.org/faostat/en/#data/QCL
* Country: France, Germany, Italy, Poland, Romania, Spain 
* Elements: area harvested, yield, production quantity
* Items: Barley, Maize, Oats, Rice, Rye, Wheat 
* Years: 1961-2020
* Last update: 17.02.2022

In [87]:
df = pd.read_csv("../data/faostat.csv", header=0)

Apeland metoda [pandas.DataFrame.info()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html) pentru structura de date de tip DataFrame (df) obtinem informatiile generale cu privire la structura de date, precum tipul de date al valorilor de la nivelul coloanelor, denumirile coloanelor, valorile nenule.

In [88]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6132 entries, 0 to 6131
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Domain Code       6132 non-null   object
 1   Domain            6132 non-null   object
 2   Area Code (FAO)   6132 non-null   int64 
 3   Area              6132 non-null   object
 4   Element Code      6132 non-null   int64 
 5   Element           6132 non-null   object
 6   Item Code (FAO)   6132 non-null   int64 
 7   Item              6132 non-null   object
 8   Year Code         6132 non-null   int64 
 9   Year              6132 non-null   int64 
 10  Unit              6132 non-null   object
 11  Value             6132 non-null   int64 
 12  Flag              2059 non-null   object
 13  Flag Description  6132 non-null   object
dtypes: int64(6), object(8)
memory usage: 670.8+ KB


In [89]:
df.columns

Index(['Domain Code', 'Domain', 'Area Code (FAO)', 'Area', 'Element Code',
       'Element', 'Item Code (FAO)', 'Item', 'Year Code', 'Year', 'Unit',
       'Value', 'Flag', 'Flag Description'],
      dtype='object')

Pentru simplificarea denumirilor unor coloane, <i>Area Code (FAO)</i> si <i>Item Code (FAO)</i>, eliminam de la nivelul acestora sirul de caractere (FAO). In acest scop pot fi utilizate metode pentru procesarea obiectelor de tip sir de caractere din limbajul Python, precum: [str.lstrip()](https://docs.python.org/3/library/stdtypes.html#str.lstrip), [str.rstrip()](https://docs.python.org/3/library/stdtypes.html#str.rstrip) sau [str.replace()](https://docs.python.org/3/library/stdtypes.html#str.replace).

Metoda [str.rstrip()](https://docs.python.org/3/library/stdtypes.html#str.rstrip) este utilizata pentru a elimina caractere (in cazul nostru <i>(FAO)</i>), de la finalul unui sir de caractere. Pentru a redenumi toate coloanele de la nivelul structurii de date de tip DataFrame (df), vom aplica metoda [str.rstrip()](https://docs.python.org/3/library/stdtypes.html#str.rstrip) pentru fiecare nume de coloane, dupa cum urmeaza.

In [90]:
df.columns = df.columns.str.rstrip(' (FAO)')

Incepand cu versiunea 3.9, limbajul Python introduce doua noi functii pentru eliminarea sufixelor/prefixelor dintr-un sir de caractere: [str.removesuffix()](https://docs.python.org/3/library/stdtypes.html#str.removesuffix), respectiv [str.removeprefix()](https://docs.python.org/3/library/stdtypes.html#str.removeprefix). Problema anterioara poate fi rezolvata si prin apelarea metodei [str.removesuffix()](https://docs.python.org/3/library/stdtypes.html#str.removesuffix) pentru fiecare nume de coloana de la nivelul structurii de date.

Aplicarea metodei [str.removesuffix()](https://docs.python.org/3/library/stdtypes.html#str.removesuffix) se realizeaza in acest caz prin intermediul expresiilor lambda si a functiei [map()](https://docs.python.org/3/library/functions.html#map). Pentru detalii in legatura cu utilizarea expresiilor lambda puteti consulta materialul [Elemente de programare functionala in Python](https://uncoded.ro/elemente-de-programare-functionala-in-python/).

In [91]:
# df.columns = df.columns.map(lambda x: x.removesuffix(' (FAO)'))

In [92]:
df.head()

Unnamed: 0,Domain Code,Domain,Area Code,Area,Element Code,Element,Item Code,Item,Year Code,Year,Unit,Value,Flag,Flag Description
0,QCL,Crops and livestock products,68,France,5312,Area harvested,44,Barley,1961,1961,ha,2259100,,Official data
1,QCL,Crops and livestock products,68,France,5312,Area harvested,44,Barley,1962,1962,ha,2176500,,Official data
2,QCL,Crops and livestock products,68,France,5312,Area harvested,44,Barley,1963,1963,ha,2538500,,Official data
3,QCL,Crops and livestock products,68,France,5312,Area harvested,44,Barley,1964,1964,ha,2360100,,Official data
4,QCL,Crops and livestock products,68,France,5312,Area harvested,44,Barley,1965,1965,ha,2429800,,Official data


Coloanele <i>Domain Code</i>, <i>Area Code</i>, <i>Element Code</i>, <i>Item Code</i> si <i>Year Code</i> contin codari specifice organizatiei FAO, pentru diverse elemente prezente la nivelul setului de date (domeniu date, stat, tip raportare, tip cultura, an raportare), motiv pentru care le vom elimina de la nivelul setului prin intermediul metodei [pandas.DataFrame.drop()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html).

Metoda [pandas.DataFrame.drop()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html) elimina de la nivelul randurilor sau coloanelor etichetele specificate. Prin precizarea parametrului <i>axis</i> cu valorile <i>0</i> sau <i>index</i> sunt eliminate etichete de la nivelul randurilor, in timp ce valorile <i>1</i> sau <i>columns</i> determina eliminarea etichetelor de la nivelul coloanelor. 

In [93]:
df.drop(['Domain Code', 'Area Code', 'Element Code', 'Item Code', 'Year Code'], axis=1, inplace=True)

Parametrul <i>inplace</i> detine implicit valoarea <i>False</i> si determina returnarea unei copii ca urmare a apelului metodei care il contine. Daca acesta are valoarea <i>True</i>, operatia va fi efectuata cu salvarea rezultatului la nivelul structurii de date.   

Coloanele <i>Flag</i> si <i>Flag Description</i> ofera informatii cu privire la sursa datelor. Valorile posibile pentru aceste coloana sunt disponibile in tabelul de mai jos:

| Flag | Flag description |
| --- | --- |
| A | valori agregate; pot include date oficiale, semioficiale, estimate sau calculate |
| FC | date calculate |
| M | date indisponibile |
| Im | date FAO bazate pe metodologia de imputare |
| F | estimare FAO |
| | date oficiale |
|* | date neoficiale |


In [94]:
df['Flag'].unique()

array([nan, 'Fc', 'F', '*'], dtype=object)

In [95]:
df['Flag Description'].unique()

array(['Official data', 'Calculated data', 'FAO estimate',
       'Unofficial figure'], dtype=object)

Eliminam de la nivelul setului de date si coloanele <i>Domain</i>, <i>Flag</i> si <i>Flag Description</i>, deoarece aceste nu prezinta relevanta in agregarea datelor.

In [96]:
df.drop(['Domain', 'Flag', 'Flag Description'], axis=1, inplace=True)

Unitatile de masura utilizate pentru cele trei tipuri de raportari/elemente (<i>Area harvested</i>, <i>Yield</i>, <i>Production</i>) sunt <i>ha</i>, <i>hg/ha</i>, respectiv <i>tonnes</i>. 

In [97]:
df['Unit'].unique()

array(['ha', 'hg/ha', 'tonnes'], dtype=object)

Pentru raportarea randamentului este necesara conversia valorilor in tone la hectar. In acest sens, valorile din coloana <i>Value</i> pentru inregistrarile care au in vedere randamentul (<i>Yield</i>) trebuie impartite la 10000. Dupa realizarea conversiei, si valorile de la nivelul coloanei <i>Unit</i> trebuiesc actualizate la valoarea <i>tonnes/ha</i> pentru inregistrarile care au in vedere randamentul (<i>Yield</i>).

In [98]:
df['Value'] = df['Value'].astype(float)
df.loc[(df['Element']=='Yield'), 'Value'] = df['Value']/10000

In [99]:
df.loc[(df['Element']=='Yield'), 'Unit'] = 'tonnes/ha'

In [100]:
df['Area'].unique()

array(['France', 'Germany', 'Italy', 'Poland', 'Romania', 'Spain'],
      dtype=object)

In [101]:
df['Element'].unique()

array(['Area harvested', 'Yield', 'Production'], dtype=object)

In [102]:
df['Item'].unique()

array(['Barley', 'Maize', 'Oats', 'Rice, paddy', 'Rye', 'Wheat'],
      dtype=object)

Observam faptul ca la nivelul setului de date sunt disponibile mai multe coloane care prezinta date categorice, si anume: <i>Area</i>, <i>Element</i>, <i>Item</i>, <i>Year</i>, <i>Unit</i>. Conversia acestor coloane la tipul <i>category</i> se poate realiza prin intermediul metodei [pandas.DataFrame.astype()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html), metoda care permite trecerea unui obiect Pandas la un tip de date specificat explicit.

In [103]:
category = ['Area', 'Element', 'Item', 'Year', 'Unit']
df[category] = df[category].astype('category')

In [104]:
df.sample(5)

Unnamed: 0,Area,Element,Item,Year,Unit,Value
1327,Germany,Yield,Maize,1968,tonnes/ha,4.8943
1339,Germany,Yield,Maize,1980,tonnes/ha,5.6435
1446,Germany,Area harvested,Oats,1967,ha,1077720.0
1637,Germany,Area harvested,Rye,1972,ha,1489460.0
5102,Spain,Area harvested,Barley,2011,ha,2700679.0


Inregistrarile de la nivelul structurii de date de tip DataFrame contin pentru fiecare stat, tip de cultura si an, trei tipuri de raportari: suprafata cultivata, randamentul si productia. 

Dorim sa obtinem o noua structura de tip DataFrame care sa contina pentru fiecare stat, tip de cultura si an coloane corespunzatoare celor trei tipuri de raportari. In acest scop, extragem prin intermediul metodei [pandas.DataFrame.query()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.query.html) in trei subseturi distincte inregistrarile ce corespund fiecarui tip de raportare. In fiecare structura de date nou obtinuta redenumim coloana <i>Value</i> folosind numele raporortarilor (<i>Area harvasted</i>, <i>Yield</i>, respectiv <i>Production</i>) si stergem coloanele <i>Element</i> si <i>Unit</i>.

In [105]:
data_frames = []
for element in df['Element'].unique():
    data_frames.append(df.query("Element == @element").rename(columns={'Value':element}).drop(['Element', 'Unit'], axis=1))

Subseturile sunt adaugate ca si elemente ale structurii de date de tip list, numita data_frames, cu ajutorul metodei [list.append()](https://docs.python.org/3/tutorial/datastructures.html).

In [106]:
data_frames[0].sample(5), \
data_frames[1].sample(5), \
data_frames[2].sample(5)

(         Area         Item  Year  Area harvested
 239    France        Maize  2020       1691130.0
 2932    Italy        Wheat  2007       2100437.0
 2364    Italy         Oats  1979        222098.0
 3271   Poland        Maize  1986         22233.0
 4520  Romania  Rice, paddy  1969         28969.0,
          Area    Item  Year   Yield
 4061  Romania  Barley  1990  3.5775
 4801  Romania     Rye  2010  2.3742
 2065    Italy  Barley  1980  2.8739
 4230  Romania   Maize  1979  3.5539
 5499    Spain    Oats  1988  1.5417,
          Area         Item  Year  Production
 3409   Poland        Maize  2004   2344027.0
 1613  Germany         Oats  2014    627100.0
 5893    Spain          Rye  1962    452700.0
 1411  Germany        Maize  1992   2139031.0
 2692    Italy  Rice, paddy  2007   1540087.0)

Pentru a obtine setul de date final (dfs) este necesara combinarea subseturilor specifice raportarilor pe baza coloanelor <i>Area</i>, <i>Item</i> si <i>Year</i>, folosind functia [pandas.merge()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.merge.html). Mai intai se combina datele din primele doua subseturi de date, dupa care rezultatul este combinat cu datele din ultimul subset.

In [107]:
dfs = data_frames[0]
for data_frame in data_frames[1:]:
    dfs = dfs.merge(data_frame, on=['Area', 'Item', 'Year']) 

In [108]:
dfs.head()

Unnamed: 0,Area,Item,Year,Area harvested,Yield,Production
0,France,Barley,1961,2259100.0,2.396,5412790.0
1,France,Barley,1962,2176500.0,2.7581,6003010.0
2,France,Barley,1963,2538500.0,2.9088,7384040.0
3,France,Barley,1964,2360100.0,2.8774,6790980.0
4,France,Barley,1965,2429800.0,3.0363,7377700.0


In [109]:
dfs.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2040 entries, 0 to 2039
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype   
---  ------          --------------  -----   
 0   Area            2040 non-null   category
 1   Item            2040 non-null   category
 2   Year            2040 non-null   category
 3   Area harvested  2040 non-null   float64 
 4   Yield           2040 non-null   float64 
 5   Production      2040 non-null   float64 
dtypes: category(3), float64(3)
memory usage: 56.9 KB


### Sumarizarea datelor <a name="agg"></a>

Metoda [pandas.DataFrame.describe()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html) este o metoda de baza care permite obtinerea de statistici pentru fiecare coloana numerica de la nivelul unui set de date. Metoda este disponibila inclusiv la nivelul structurilor de date de tip Series, putand fi astfel aplicata si coloanelor dintr-o structura de date de tip DataFrame.

In [110]:
dfs.describe()

Unnamed: 0,Area harvested,Yield,Production
count,2040.0,2040.0,2040.0
mean,1164921.0,3.873381,4595692.0
std,1267106.0,2.146913,6228652.0
min,105.0,0.6309,253.0
25%,142578.2,2.32435,381559.2
50%,549419.0,3.30675,2346364.0
75%,2014325.0,5.11015,6831077.0
max,5542247.0,12.2581,42750030.0


Din rezultatul aplicarii metodei [pandas.DataFrame.describe()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html) putem observa faptul ca numarul de valori nenule de la nivelul setului de date este 2040, randamentul mediu al culturilor are valoarea de 3.87 tone/ha cu o abatere standard de 2.15, productia minima este 253 tone, in timp ce suprafata maxima cultivata este 5542247 ha. Deasemenea, rezultatul anterior furnizeaza si valorile corespunzatoare percentilelor. Astfel, 25% din randamentele culturilor sunt sub 2.32 tone/ha, 50% din culturi prezinta un randament sub 3.31 tone/ha si 75% sunt sub 5.11 tone/ha.

In [111]:
dfs['Yield'].describe()

count    2040.000000
mean        3.873381
std         2.146913
min         0.630900
25%         2.324350
50%         3.306750
75%         5.110150
max        12.258100
Name: Yield, dtype: float64

In mod similar metodelor describe() prezentate anterior, biblioteca Pandas introduce pentru structurile de date de tip DataFrame si Series posibilitatea implementarii unor calcule statistice. De exemplu, putem calcula foarte simplu media, abaterea standard, valorile minime si maxime, numarul de valori nenule sau numarul de valori nenule unice.

In [112]:
dfs.count()

Area              2040
Item              2040
Year              2040
Area harvested    2040
Yield             2040
Production        2040
dtype: int64

In [113]:
# numarul de valori nenule de la nivelul coloanei Area

dfs['Area'].count()

np.int64(2040)

In [114]:
# numarul de valori nenule unice de la nivelul coloanei Area

dfs['Area'].nunique()

6

In [115]:
# media valorilor de la nivelul coloanei Yield

dfs['Yield'].mean()

np.float64(3.873380735294117)

In [116]:
# abaterea standard a valorilor de la nivelul coloanei Yield

dfs['Yield'].std()

np.float64(2.146912888029027)

In [117]:
# valorile minima si maxima de la nivelui coloanei Production

dfs['Production'].min(), dfs['Production'].max()

(np.float64(253.0), np.float64(42750027.0))

### Gruparea datelor <a name="group"></a>

O operatie de grupare este o functionalitate prezenta la nivelul sistemelor de date care implica realizarea urmatorilor pasi:
* impartirea datelor de la nivelul unei structuri de date pe baza unei conditii;
* aplicarea uneia sau mai multor functii pentru fiecare grup obtinut la pasul precedent;
* combinarea rezultatelor obtinute dupa aplicarea functiilor la nivelul grupurilor de date intr-o singura structura de date.

In Pandas, operatiile de grupare pot fi implementate pentru structurile da date de tip DataFrame prin intermediul metodei [pandas.DataFrame.groupby()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html), metoda care prezinta urmatoarea sintaxa de baza:

<pre>pandas.DataFrame.groupby(
    by=None, 
    as_index=True, 
    sort=True
)</pre>

Metoda [pandas.DataFrame.groupby()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html) returneaza un obiect de tip DataFrameGroupBy, care contine informatii cu privire la grupurile de date.

In [None]:
dfs.groupby(by=['Area'], observed=True)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000231F6CBC590>

In [119]:
dfs.groupby(['Area'], observed=True).groups.keys()

dict_keys(['France', 'Germany', 'Italy', 'Poland', 'Romania', 'Spain'])

* by: parametrul se utilizeaza pentru a stabili grupurile; gruparea poate fi realizata pe baza unei etichete, <i>Area</i> in exemplul urmator, o lista de etichete (<i>Area, Item</i>), sau chiar o functie, caz in care aceasta este apelata pentru fiecare valoare a indicelui obiectului;

Grupam inregistrarile din setul de date dfs pe baza cheii <i>Area</i>, de-a lungul inregistrarilor. In felul acesta obtinem cate un grup pentru fiecare stat; fiecare grup va contine toate inregistrarile (raportarile) corespunzatoare perioadei 1961-2020 de la nivelul unui stat. Calculam numarul de inregistrari din fiecare grup prin intermediul functiei de sumarizare <i>count()</i>.

In [120]:
# numarul de inregistrari (raportari) disponibile pentru fiecare stat

dfs.groupby('Area', observed=True)['Area'].count()

Area
France     360
Germany    300
Italy      360
Poland     300
Romania    360
Spain      360
Name: Area, dtype: int64

* axis: impartirea datelor se realizeaza de-a lungul inregistrarilor (<i>0, index</i>) sau de-a lungul coloanelor (<i>1, columns</i>); parametrul axis detine implicit valoarea 0;

In [121]:
# valorile maxime de la nivelul coloanelor Area harvaster, Yield si Production pentru fiecare stat si tip de cultura

dfs.groupby(['Area', 'Item'], observed=True)[['Area harvested', 'Yield', 'Production']].max()

Unnamed: 0_level_0,Unnamed: 1_level_0,Area harvested,Yield,Production
Area,Item,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
France,Barley,2936000.0,7.1237,13565420.0
France,Maize,2020100.0,10.1239,18343320.0
France,Oats,1441170.0,5.0212,2875980.0
France,"Rice, paddy",33000.0,6.0915,137132.0
France,Rye,261200.0,5.1804,455000.0
France,Wheat,5542247.0,7.8008,42750027.0
Germany,Barley,3008345.0,7.3475,14493757.0
Germany,Maize,526200.0,10.6838,5514700.0
Germany,Oats,1177606.0,5.3198,4404027.0
Germany,Rye,2008314.0,6.132,5499179.0


* as_index: implicit detine valoare True si in cazul rezultatelor agregate returneaza obiectul cu etichetele grupurilor ca si index; daca parametrul prezinta valoare False, rezultatul este similar cu cele obtinute prin gruparea detelor din cadrul sistemelor de tip SQL;

In [122]:
# randamentele minime pentru fiecare tip de cultura

dfs.groupby(['Item'], as_index=False, observed=True)[['Yield']].min()

Unnamed: 0,Item,Yield
0,Barley,1.2026
1,Maize,1.5876
2,Oats,0.6309
3,"Rice, paddy",1.2632
4,Rye,0.724
5,Wheat,0.8837


Rezultatul operatiei de grupare va detine un index sau un multi-index care corespunde cheilor pe baza carora se realizeaza gruparea. Pentru a evita stabilirea acestui index este necesara transmiterea parametrului as_index cu valoarea False. 

In [123]:
# randamentele medii, maxime si minime pentru fiecare tip de cultura

dfs.groupby(['Item'], as_index=False, observed=True).aggregate(
    {
        'Area harvested': ['mean', 'max', 'min'],
        'Yield': ['mean', 'max', 'min'],
        'Production': ['mean', 'max', 'min']
    }
)

Unnamed: 0_level_0,Item,Area harvested,Area harvested,Area harvested,Yield,Yield,Yield,Production,Production,Production
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,max,min,mean,max,min,mean,max,min
0,Barley,1525756.0,4412800.0,175080.0,3.523864,7.3475,1.2026,5559067.0,14493757.0,251500.0
1,Maize,1058935.0,3428400.0,3500.0,6.048932,12.2581,1.5876,5618298.0,18663940.0,10000.0
2,Oats,444996.2,1682000.0,44700.0,2.532604,5.3198,0.6309,1114965.0,4404027.0,46977.0
3,"Rice, paddy",79871.57,247700.0,105.0,5.075601,7.9739,1.2632,470764.6,1620400.0,253.0
4,Rye,648804.5,4880000.0,2654.0,2.634906,6.132,0.724,1668523.0,9540277.0,6940.0
5,Wheat,2869478.0,5542247.0,1393000.0,3.825118,8.6296,0.8837,11767560.0,42750027.0,2479052.0


In implementarea precedenta poate fi observata si aplicarea mai multor functii de sumarizare pentru coloane de la nivelul datelor grupate, prin transmiterea unei liste de functii in metoda [pandas.core.groupby.DataFrameGroupBy.aggregate()](https://pandas.pydata.org/docs/reference/api/pandas.core.groupby.DataFrameGroupBy.aggregate.html).

In [124]:
# randamentele maxim, precum si productiile minima si maxima de la nivelul fiecarui stat

dfs.groupby(
    ['Area'], as_index=False, observed=True
).agg(
    {
        'Yield': 'max',
        'Production':['min', 'max']
    }
)

Unnamed: 0_level_0,Area,Yield,Production,Production
Unnamed: 0_level_1,Unnamed: 1_level_1,max,min,max
0,France,10.1239,20100.0,42750027.0
1,Germany,10.6838,26151.0,27784700.0
2,Italy,11.2682,6940.0,11368007.0
3,Poland,7.3481,10000.0,12433210.0
4,Romania,7.6368,253.0,18663940.0
5,Spain,12.2581,101452.0,12070000.0


* sort: implicit detine valoarea True, caz in care cheile dupa care se realizeaza gruparea sunt sortate; se recomanda trecerea parametrului sort la valoarea False pentru a obtine timpi de rulare mai mici;

In [125]:
# valoarea maxima a productiei (Production) din fiecare stat pentru cultura de grau (Wheat) 

dfs.loc[dfs['Item']=='Wheat'].groupby(['Area'], sort=True, observed=True)['Production'].max()

Area
France     42750027.0
Germany    27784700.0
Italy      10057300.0
Poland     12433210.0
Romania    10297110.0
Spain       8322510.0
Name: Production, dtype: float64

Trebuie punctat faptul ca operatia de grupare va pastra totusi ordinea in care sunt sortate observatiile in cadrul fiecarui grup. De exemplu, inregistrarile de la nivelul grupurilor create prin intermediul operatiei de mai sus sunt pastrate in ordinea in care ele erau disponibile in structura de date de tip DataFrame initiala.

In [126]:
dfs.loc[dfs['Item'] == 'Wheat'].groupby(['Area'], observed=True).get_group(('France',)).head()

Unnamed: 0,Area,Item,Year,Area harvested,Yield,Production
300,France,Wheat,1961,3997300.0,2.395,9573520.0
301,France,Wheat,1962,4570000.0,3.0752,14053770.0
302,France,Wheat,1963,3849500.0,2.6624,10248960.0
303,France,Wheat,1964,4388200.0,3.1534,13837700.0
304,France,Wheat,1965,4520000.0,3.2655,14760000.0


In [127]:
dfs.loc[dfs['Item'] == 'Wheat'].groupby(['Area'], observed=True).get_group(('Romania',)).head()

Unnamed: 0,Area,Item,Year,Area harvested,Yield,Production
1620,Romania,Wheat,1961,2969400.0,1.3438,3990300.0
1621,Romania,Wheat,1962,3042600.0,1.3323,4053800.0
1622,Romania,Wheat,1963,2874400.0,1.3216,3798800.0
1623,Romania,Wheat,1964,2958800.0,1.2923,3823700.0
1624,Romania,Wheat,1965,2983400.0,1.99,5937000.0
