# Data Aggregation
Andiamo a vedere come aggreagare i dati di un DataFrame considerando i valori di una colonna.
Vediamo come caricare dei dati da una fonte esterna come un file .csv attraverso la funzione "read_csv".
Una volta aggregati in dati per una determinata caratteristica, possiamo calcolare il valore medio dei gruppi generati.


In [2]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame


In [3]:
# Per caricare i dati presenti in un file .csv utilizziamo la funzione read_csv()
address = "./Data/mtcars.csv"
cars = pd.read_csv(address)
# Andiamo ad assegnare dei nomi alle colonne del nostro DataFrame.
cars.columns= ["car_names","mpg","cyl","disp","hp","drat", "wt","qsec", "vs", "am","gear", "carb"]

In [4]:
# Con il comandi head() ci vengono restituite solo le prime 5 righe.
cars.head()

Unnamed: 0,car_names,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [20]:
# Grazie alla funzione groupby() possiamo andare a raggruppare i nostri dati in base ad i valori di una delle colonne.
car_groups = cars.groupby(["cyl"]) 
# Possiamo a questo punto andare a vedere le medie dei valori in base alla suddivisione per numero di cilindri.
car_groups.mean()

Unnamed: 0_level_0,mpg,disp,hp,drat,wt,qsec,vs,am,gear,carb
cyl,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
4,26.663636,105.136364,82.636364,4.070909,2.285727,19.137273,0.909091,0.727273,4.090909,1.545455
6,19.742857,183.314286,122.285714,3.585714,3.117143,17.977143,0.571429,0.428571,3.857143,3.428571
8,15.1,353.1,209.214286,3.229286,3.999214,16.772143,0.0,0.142857,3.285714,3.5


In [21]:
# Con la funzione get_group() possiamo vedere all'interno di un singolo gruppo.
car_groups.get_group(4)

Unnamed: 0,car_names,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
7,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
8,Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
17,Fiat 128,32.4,4,78.7,66,4.08,2.2,19.47,1,1,4,1
18,Honda Civic,30.4,4,75.7,52,4.93,1.615,18.52,1,1,4,2
19,Toyota Corolla,33.9,4,71.1,65,4.22,1.835,19.9,1,1,4,1
20,Toyota Corona,21.5,4,120.1,97,3.7,2.465,20.01,1,0,3,1
25,Fiat X1-9,27.3,4,79.0,66,4.08,1.935,18.9,1,1,4,1
26,Porsche 914-2,26.0,4,120.3,91,4.43,2.14,16.7,0,1,5,2
27,Lotus Europa,30.4,4,95.1,113,3.77,1.513,16.9,1,1,5,2


In [44]:
# La funzione permette di andare a raggruppare i dati anche per più valori.
cars_group_2 =cars.groupby(["am", "gear"])
cars_group_2.first()

Unnamed: 0_level_0,Unnamed: 1_level_0,car_names,mpg,cyl,disp,hp,drat,wt,qsec,vs,carb
am,gear,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,1
0,4,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,2
1,4,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,4
1,5,Porsche 914-2,26.0,4,120.3,91,4.43,2.14,16.7,0,2


In [45]:
# Possiamo andare a contare le occorrenze all'interno dei sottogruppi. 
cars_group_2.count()

Unnamed: 0_level_0,Unnamed: 1_level_0,car_names,mpg,cyl,disp,hp,drat,wt,qsec,vs,carb
am,gear,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,3,15,15,15,15,15,15,15,15,15,15
0,4,4,4,4,4,4,4,4,4,4,4
1,4,8,8,8,8,8,8,8,8,8,8
1,5,5,5,5,5,5,5,5,5,5,5
