In [1]:
import pandas as pd

#groupby
 
data = {
    'Azienda': ['A', 'A', 'B', 'B', 'C'],
    'Vendite': [100, 150, 200, 130, 170],
    'Anno': [2023, 2024, 2023, 2024, 2024]
}
df = pd.DataFrame(data)

grouped = df.groupby(['Azienda','Anno',]).sum()

print(grouped.sum())

print(grouped)


Vendite    750
dtype: int64
              Vendite
Azienda Anno         
A       2023      100
        2024      150
B       2023      200
        2024      130
C       2024      170


In [18]:
df = pd.DataFrame({
    'City': ['New York', 'Los Angeles', 'New York', 'Los Angeles',
             'Chicago', 'New York', 'Chicago', 'Los Angeles'],
    'Category': ['Electronics', 'Clothing', 'Electronics', 'Clothing',
                 'Electronics', 'Clothing', 'Clothing', 'Electronics'],
    'Sales': [100, 200, 150, 250, 300, 180, 220, 270],
    'Quantity': [2, 5, 3, 7, 6, 4, 8, 9]
})

grouped2 = df.groupby(['City','Category']).agg({
    'Sales': ['sum','mean','max'],
    'Quantity':['sum','mean','max']
})

print(grouped2)


                        Sales             Quantity         
                          sum   mean  max      sum mean max
City        Category                                       
Chicago     Clothing      220  220.0  220        8  8.0   8
            Electronics   300  300.0  300        6  6.0   6
Los Angeles Clothing      450  225.0  250       12  6.0   7
            Electronics   270  270.0  270        9  9.0   9
New York    Clothing      180  180.0  180        4  4.0   4
            Electronics   250  125.0  150        5  2.5   3


In [None]:
#multi index per le righe
import numpy as np

index = pd.MultiIndex.from_product(
    [
        ['Italia', 'Francia', 'Germania'],
        ['Nord', 'Centro', 'Sud'],
        [2021, 2022]
        
    ],
    names=['Paese', 'Regione', 'Anno']
    
)

df = pd.DataFrame(
    np.random.randn(18,2),
    index = index,
    columns=['Vendite','Costi']
)

#print(df)


#slicing con multi_index

italia_data = df.loc['Italia']
print("\nDati italiani : \n",italia_data)

#selezionare i dati del 'Nord' di tutti i paesi

nord_data = df.xs('Nord',level='Regione')
print("\n Dati nordici : ")
print(nord_data)

#selezionare i dati del 2022 per la francia

francia_2022 = df.loc[('Francia',slice(None),2022)]
print("\n Dati Francia 2022 : ")
print(francia_2022)



####aggregazione dati####

#media delle vendite per paese

vendite_medie_paese = df['Vendite'].groupby(level = 'Paese').mean()
print("\nVendite medie per paese : ")
print(vendite_medie_paese)

#somma dei costi per regione e anno

cost_xregione_anno = df['Costi'].groupby(level= ['Regione','Anno']).sum()
print("\nCosti tot per regione e anno : ")
print(cost_xregione_anno)

####pivoting e unstacking####

#trasformare il multi_index in colonne

df_unstacked = df.unstack(level='Anno')
print("\nDataFrame con anno come colonna : ")
print(df_unstacked)

#pivoting su più livelli

df_pivoted = df.unstack(['Regione','Anno'])
print("\nDataFrame Pivotato : ")
print(df_pivoted)

In [None]:
#Aggiungere un nuovo livello all'indice

df_copy = df.copy() #crea una copia del df
df_copy['Settore'] = ['Retail','Online']*9 #aggiunge una colonna settore con valori 
#moltiplicati per 9 volte(18 in tutto)
df_with_sector = df_copy.set_index('Settore',append = True) #setta l'indice 'Settore' appendendolo,senza rimuovere altri indici

print(df_with_sector)


In [None]:
#riordinare i livelli dell'indice

df_rordered = df.reorder_levels(['Anno','Paese','Regione'])

print(df_rordered.head())

                      Vendite     Costi Settore
Paese  Regione Anno                            
Italia Nord    2021 -1.909589  1.207953  Retail
               2022 -0.504064 -1.029907  Online
       Centro  2021 -0.891530 -0.193014  Retail
               2022 -1.278400  0.358996  Online
       Sud     2021  0.437026 -0.181644  Retail
                      Vendite     Costi
Anno Paese  Regione                    
2021 Italia Nord    -1.909589  1.207953
2022 Italia Nord    -0.504064 -1.029907
2021 Italia Centro  -0.891530 -0.193014
2022 Italia Centro  -1.278400  0.358996
2021 Italia Sud      0.437026 -0.181644


In [63]:
#rinominare i livelli dell'indice

df_renamed = df.rename_axis(index ={'Paese':'Nazione','Regione':'Area'})

print(df_renamed)

#rimuovere un livello

df_droplevelel = df.droplevel('Anno')

print(df_droplevelel.head())

                       Vendite     Costi
Nazione  Area   Anno                    
Italia   Nord   2021 -1.909589  1.207953
                2022 -0.504064 -1.029907
         Centro 2021 -0.891530 -0.193014
                2022 -1.278400  0.358996
         Sud    2021  0.437026 -0.181644
                2022  1.623183 -0.908492
Francia  Nord   2021 -0.605234 -0.916954
                2022  1.691302 -0.525666
         Centro 2021  0.375654 -0.546822
                2022 -0.181451 -0.502346
         Sud    2021 -0.865731 -0.571491
                2022 -1.871112  0.003648
Germania Nord   2021  0.229877  0.449836
                2022 -0.146483 -0.620039
         Centro 2021  0.442038  0.119953
                2022  0.030323  1.901474
         Sud    2021 -1.926280  0.897707
                2022 -1.359244 -0.925986
                 Vendite     Costi
Paese  Regione                    
Italia Nord    -1.909589  1.207953
       Nord    -0.504064 -1.029907
       Centro  -0.891530 -0.193014
     