# Aggregation

Data aggregation is the process where raw data is gathered and expressed in a summary form for statistical analysis.

For example, raw data can be aggregated over a given time period to provide statistics such as average, minimum, maximum, sum, and count. After the data is aggregated and written to a view or report, you can analyze the aggregated data to gain insights about particular resources or resource groups.

(man sammanställer mycket data till en punkt)
- T.ex. få ut data per dag/vecko/månads nivå osv. 
- Eller alla invånare i Sverige: kan aggregeras per kommun, osv. 
- I enklaste form: Tar lista med värden, t.ex. kolumn och kör aggregeringsfunktion och får ett värde på det (summa/medel m.m.)
- Varför aggregera? 
    - Vill koka ner mycket data till mindre mängd som är läsbart (Tänk t.ex. befolkning på flera miljoner rader)
    - Ett sätt att få ut KPI:er 
    - För att dra slutsatser, för att räkna ut vissa saker o.s.v.



In [1]:
import numpy as np
import pandas as pd


### Built-in aggregation methods in Pandas
An aggregation method takes a Series of values and returns a single value. 

In [135]:
# Create a Pandas Series object   (Series = 1D array, Dataframe = 2D array)

numbers = pd.Series(np.random.randint(low = 1, high = 100, size = 5))
numbers[3] = np.nan      # make index 3 in the series a NaN value
numbers


0    91.0
1    48.0
2    28.0
3     NaN
4    36.0
dtype: float64

In [136]:
# Some of Pandas aggregation methods are:

print(f"{numbers.min() = }")
print(f"{numbers.max() = }")
print(f"{numbers.mean() = }")
print(f"{numbers.sum() = }")
print(f"{numbers.count() = }")
print(f"{numbers.sum()/numbers.count()= }")
print(f"{numbers.median() = }")
print(f"{numbers.mode()[0] = }") 
print(f"{numbers.size = }")                # Totala antal rader. Då den inte var callable så är det utan parentes på slutet
                                           # Till skillnad från count som ger antal värden. 




numbers.min() = 28.0
numbers.max() = 91.0
numbers.mean() = 50.75
numbers.sum() = 203.0
numbers.count() = 4
numbers.sum()/numbers.count()= 50.75
numbers.median() = 42.0
numbers.mode()[0] = 28.0
numbers.size = 5


### When agg() method is run on a dataframe (multiple series) they return a single value for each Series, forming a new Series. 

In [41]:
# Create a pandas DataFrame

numbers_df = pd.DataFrame(np.random.randint(low = 1, high = 100, size = [5, 5]))      # man kan även ange kolumnnamn via parameter "column"
numbers_df.loc[[0,3], [1, 4]] = np.nan  # Set NaN values in the given indexes
numbers_df

Unnamed: 0,0,1,2,3,4
0,58,,39,39,
1,29,50.0,30,69,74.0
2,90,61.0,64,18,93.0
3,79,,44,25,
4,40,39.0,30,18,71.0


In [None]:
numbers_df.min(axis="columns")   # Här får man series med min värden kolumnvis. Default på axis är radvis ("index"), väljer man axis= "columns" sker det kolumnvis

numbers_df.min(axis="columns").min() # Här får man min, i serien med min värden
                                     # Eftersom detta ger tillbaka en serie, så kan man även köra min värdet igen på hela serien för att få ut min för hela serien
                                     # Fråga om 3D, och Fredrik svarar att när vi använder aggregeringsmetoder görs det på data, som är i tabellform.

numbers_df.min(axis="index").min()     # Samma värde oavsett axis, när det gäller just min. Men:
                                       # Dessa skiljer sig dock med axis:
                                            # numbers_df.median(axis="index").median()      
                                            # numbers_df.median(axis="columns").median()



In [42]:
numbers_df.isna()          # Ger tabellen med bool värden där värden = False, och NaN = True

numbers_df.isna().sum()    # Antal NaN värden per kolumn

0    0
1    2
2    0
3    0
4    2
dtype: int64

## Working with real data

In [147]:
# Load datafile

autos = pd.read_json("../Data/autos.json")
autos.tail()

Unnamed: 0,aspiration,body-style,bore,city-mpg,compression-ratio,curb-weight,drive-wheels,engine-location,engine-size,engine-type,...,make,normalized-losses,num-of-cylinders,num-of-doors,peak-rpm,price,stroke,symboling,wheel-base,width
200,std,sedan,3.78,23,9.5,2952,rwd,front,141,ohc,...,volvo,95.0,four,four,5400.0,16845.0,3.15,-1,109.1,68.9
201,turbo,sedan,3.78,19,8.7,3049,rwd,front,141,ohc,...,volvo,95.0,four,four,5300.0,19045.0,3.15,-1,109.1,68.8
202,std,sedan,3.58,18,8.8,3012,rwd,front,173,ohcv,...,volvo,95.0,six,four,5500.0,21485.0,2.87,-1,109.1,68.9
203,turbo,sedan,3.01,26,23.0,3217,rwd,front,145,ohc,...,volvo,95.0,six,four,4800.0,22470.0,3.4,-1,109.1,68.9
204,turbo,sedan,3.78,19,9.5,3062,rwd,front,141,ohc,...,volvo,95.0,four,four,5400.0,22625.0,3.15,-1,109.1,68.9


In [51]:
# Medelvärde på alla priser i hela dataframe:t (för alla bilmärken)

autos["price"].mean()

13207.129353233831

In [149]:
autos[["length", "width", "height"]].head(3)         # Tre högsta värden i dessa tre kolumner
                                                     # Man anger kolumnerna i lista när det är flera

Unnamed: 0,length,width,height
0,168.8,64.1,48.8
1,168.8,64.1,48.8
2,171.2,65.5,52.4


# Running mean() on multiple columns (DataFrame) returns a Series of means.

In [153]:
autos[["length", "width", "height"]].mean()                   # Mean för alla i datasetet: Det är ett Dataframe, därför kan bara delen i hakparentes tas till de nedan som också är dataframes
autos[["length", "width", "height"]].head(3).mean()           # Mean för tre första

autos[autos["make"] == "volvo"][["length", "width", "height"]].mean()     # Värden för volvo, eftersom vi har quote runt volvo är det ett faktiskt värde och make är en kolumnn
autos.query("make == 'toyota'")[["length", "width", "height"]].mean()     # Värden för toyota

# Han tycker query är bättre när vi bara läser datat, särskilt när fler villkor anges. Men när 
# vi ska göra mer saker med datasetet, så kan andra sättet vara bra och vi behöver använda loc




length    169.600000
width      64.566667
height     50.000000
dtype: float64

In [80]:
# Smidigt sätt att få ut fler aggregeringar samtidigt i samma rad kod.
autos[["length", "width", "height"]].agg(["max", "min", "mean"])                          # agg = aggregate funktion


 # Comprehension för att få ut enbart viss datatyp
[col for col in autos.columns if autos[col].dtype in ["int64", "float64"]]

# # Dictionary comprehension. Smidig ifall man vill konvertera alla till t.ex. "object" och skicka in det via XX utan att röra andra
# {col: autos[col].dtype for col in autos.columns if autos[col].dtype in ["int64", "float64"]}

# Dictionary comprehension. Smidig ifall man vill konvertera alla till t.ex. "object" och skicka in det via XX utan att röra andra
# {col: "object" for col in autos.columns if autos[col].dtype in ["int64", "float64"]}

 # Kolla här igen
autos[[col for col in autos.columns if autos[col].dtype in ["int64", "float64"]]].agg(["min", "max", "mean"])


Unnamed: 0,bore,city-mpg,compression-ratio,curb-weight,engine-size,height,highway-mpg,horsepower,length,normalized-losses,peak-rpm,price,stroke,symboling,wheel-base,width
min,2.54,13.0,7.0,1488.0,61.0,47.8,16.0,48.0,141.1,65.0,4150.0,5118.0,2.07,-2.0,86.6,60.3
max,3.94,49.0,23.0,4066.0,326.0,59.8,54.0,288.0,208.1,256.0,6600.0,45400.0,4.17,3.0,120.9,72.3
mean,3.329751,25.219512,10.142537,2555.565854,126.907317,53.724878,30.75122,104.256158,174.049268,122.0,5125.369458,13207.129353,3.255423,0.834146,98.756585,65.907805


In [81]:
autos.describe()      # ser här att den bara tar numerics, jämför med ovan där vi filtrerat ut numerics.

Unnamed: 0,bore,city-mpg,compression-ratio,curb-weight,engine-size,height,highway-mpg,horsepower,length,normalized-losses,peak-rpm,price,stroke,symboling,wheel-base,width
count,201.0,205.0,205.0,205.0,205.0,205.0,205.0,203.0,205.0,164.0,203.0,201.0,201.0,205.0,205.0,205.0
mean,3.329751,25.219512,10.142537,2555.565854,126.907317,53.724878,30.75122,104.256158,174.049268,122.0,5125.369458,13207.129353,3.255423,0.834146,98.756585,65.907805
std,0.273539,6.542142,3.97204,520.680204,41.642693,2.443522,6.886443,39.714369,12.337289,35.442168,479.33456,7947.066342,0.316717,1.245307,6.021776,2.145204
min,2.54,13.0,7.0,1488.0,61.0,47.8,16.0,48.0,141.1,65.0,4150.0,5118.0,2.07,-2.0,86.6,60.3
25%,3.15,19.0,8.6,2145.0,97.0,52.0,25.0,70.0,166.3,94.0,4800.0,7775.0,3.11,0.0,94.5,64.1
50%,3.31,24.0,9.0,2414.0,120.0,54.1,30.0,95.0,173.2,115.0,5200.0,10295.0,3.29,1.0,97.0,65.5
75%,3.59,30.0,9.4,2935.0,141.0,55.5,34.0,116.0,183.1,150.0,5500.0,16500.0,3.41,2.0,102.4,66.9
max,3.94,49.0,23.0,4066.0,326.0,59.8,54.0,288.0,208.1,256.0,6600.0,45400.0,4.17,3.0,120.9,72.3


### Split-Apply-Combine

- Select a feature to use as key
- Split the dataset into group for each unique key value
- Apply aggregation to each group
- Combine aggregated data into a new dataset


t.ex. key = volvo, toyota, mazda och values är ngt av deras värden

Det sker alltså praktiskt i två steg: groupby först, ger många dataframe:s i en variabel med typ ..GroupBy.
sedan: aggregerar vilket summerar i en enda dataframe och kombinerar. 

![image](https://nicholasvadivelu.com/assets/images/posts/groupby/split-apply-combine.svg#center)


### Group by
Use Pandas . groupby() method to select a key and split into groups.

This creates a new DataFrameGroupBy(annan Panda klass) object containing the grouped DataFrames



In [83]:
makes = autos.groupby("make")     # delas in i grupper och man får tillbaka en dataframe för varje grupp.


In [84]:
type(makes)         # den i sig är en DataFrameGroupBy

pandas.core.groupby.generic.DataFrameGroupBy

In [85]:
len(makes)

22

In [89]:
# autos["make"].nunique()      # räknar antal unique
# len(autos["make"].unique())  # samma som ovan
# autos["make"].value_counts()   # räknar värden på varje unique

In [93]:
makes.groups      # Output är bilmärke som key och index i Dataframe:t

makes.groups.keys()    # Enbart keys fås ut

autos.loc[makes.groups["jaguar"]]    # Returnerar lista med index där jaguar finns (kan ses även i makes.groups)

makes.get_group("jaguar")            # Enklare sätt för att få samma sak, lista där jaguar finns



Unnamed: 0,aspiration,body-style,bore,city-mpg,compression-ratio,curb-weight,drive-wheels,engine-location,engine-size,engine-type,...,make,normalized-losses,num-of-cylinders,num-of-doors,peak-rpm,price,stroke,symboling,wheel-base,width
47,std,sedan,3.63,15,8.1,4066,rwd,front,258,dohc,...,jaguar,145.0,six,four,4750.0,32250.0,4.17,0,113.0,69.6
48,std,sedan,3.63,15,8.1,4066,rwd,front,258,dohc,...,jaguar,,six,four,4750.0,35550.0,4.17,0,113.0,69.6
49,std,sedan,3.54,13,11.5,3950,rwd,front,326,ohcv,...,jaguar,,twelve,two,5000.0,36000.0,2.76,0,102.0,70.6


### Apply & Combine
It's possible to access a single group as above.

However, most of the time we rather apply aggregation functions to each group individually and combine the result into a new dataset. 


In [102]:
makes.count()             # Räknar för varje dataframe. Resultatet är en dataframe, som man kan utföra operationer på:

makes.count().head(3)     

# makes.mean()           # Funkar ej då det finns icke - numeriska värden i dataframe:t

makes["price"].mean()    # Även dataframegroupBy går att indexera på,

makes[["length", "width", "height"]]       # ger också tillbaka en dataframeGroupBy men med de tre kolumnerna


makes[["length", "width", "height"]].mean().head(3)   # Men först när vi gör aggregeringsmetoderna får vi ut en dataframe från det (eftersom det inte är många grupperade dataframe:s längre)
                                                      # Apply från bilden är alltså här, och combine sker när det blir en enda dataframe

Unnamed: 0_level_0,length,width,height
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
alfa-romero,169.6,64.566667,50.0
audi,183.828571,68.714286,54.428571
bmw,184.5,66.475,54.825


### SeriesGroubBy
Indexing a DataFrameGroupBy object with a single column will return a SeriesGroupBy object.
Ena beskriver gruppering av dataframes, och andra beskriver gruppering av serier.

In [110]:
sgb = makes["price"]

type(sgb)           # Här ser vi att den är en SeriesGroupBy

# Fungerar lika som DataframeGroupBy:

sgb.groups
sgb.get_group("jaguar")
sgb.mean().head(3)        # tar average för varje typ av brand och ny Series för varje typ av grupp



make
alfa-romero    15498.333333
audi           17859.166667
bmw            26118.750000
Name: price, dtype: float64

In [118]:
# SAMMANFATTAT VAD HÄNDER?

autos.groupby("make")["price"].mean()      # Här alla steg med i detta
autos.groupby("make")[["length", "width", "height"]].mean() # annan variant med alla steg
#        DataFrameGroupBy       fortf men grupperar    nu blir DataFrame

# Hans tips om kedjade anrop, lägg upp snyggt, typ:

# Indenterar såhär för att alla grejerna hänger ihop med autos, så ser man vad metoderna hänger ihop med.
# Dock, så länge parenteserna är runt så räknas det som ett enda uttryck och den bryr sig inte mycket om indentering,
# # Frågar man olika utvecklare får man olika svar om best practice, men alla är överens om att det ska vara lättläst
# result = (
# autos
#     .groupby("make")["price"]
#     .mean()
# )

# result

Unnamed: 0_level_0,length,width,height
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
alfa-romero,169.6,64.566667,50.0
audi,183.828571,68.714286,54.428571
bmw,184.5,66.475,54.825
chevrolet,151.933333,62.5,52.4
dodge,160.988889,64.166667,51.644444
honda,160.769231,64.384615,53.238462
isuzu,163.775,63.55,52.225
jaguar,196.966667,69.933333,51.133333
mazda,170.805882,65.588235,53.358824
mercedes-benz,195.2625,71.0625,55.725


# Multiple aggregations on SeriesGroupBy
Use pandas .agg() method on SeriesGroupBy to do multiple aggregation on a single feature

In [124]:
sgb.min()

sgb.agg(["min", "mean", "max"])

autos.groupby("make")["price"].agg(["min", "mean", "max"])   # Vanligaste sättet att skriva det på. 

autos.groupby("make")["price"].describe()

autos.groupby("make")["price"].describe().transpose()        # Får ut som vanlig describe med transpose (byter plats på rader och kolumner)

make,alfa-romero,audi,bmw,chevrolet,dodge,honda,isuzu,jaguar,mazda,mercedes-benz,...,nissan,peugot,plymouth,porsche,renault,saab,subaru,toyota,volkswagen,volvo
count,3.0,6.0,8.0,3.0,9.0,13.0,2.0,3.0,17.0,8.0,...,18.0,11.0,7.0,4.0,2.0,6.0,12.0,32.0,12.0,11.0
mean,15498.333333,17859.166667,26118.75,6007.0,7875.444444,8184.692308,8916.5,34600.0,10652.882353,33647.0,...,10415.666667,15489.090909,7963.428571,31400.5,9595.0,15223.333333,8541.25,9885.8125,10077.5,18063.181818
std,1734.937559,3452.379493,9263.832033,754.421633,2213.386044,2061.672112,3014.396208,2047.559523,3975.682094,6789.560306,...,4477.3942,2246.749673,2395.544257,6528.784343,424.264069,2860.794761,1940.191468,3204.982114,2178.549872,3314.650263
min,13495.0,13950.0,16430.0,5151.0,5572.0,5399.0,6785.0,32250.0,5195.0,25552.0,...,5499.0,11900.0,5572.0,22018.0,9295.0,11850.0,5118.0,5348.0,7775.0,12940.0
25%,14997.5,15800.0,19958.75,5723.0,6377.0,6855.0,7850.75,33900.0,7395.0,28230.0,...,7311.5,13530.0,6460.5,29900.5,9445.0,12887.5,7378.75,7870.5,8145.0,16250.0
50%,16500.0,17580.0,22835.0,6295.0,7609.0,7295.0,8916.5,35550.0,10595.0,32892.0,...,8124.0,16630.0,7609.0,33278.0,9595.0,15275.0,7894.0,9103.0,9737.5,18420.0
75%,16500.0,18617.5,32290.0,6435.0,8558.0,9095.0,9982.25,35775.0,11845.0,36532.0,...,13499.0,16987.5,8439.0,34778.0,9745.0,17490.0,10019.5,10973.25,11768.75,20265.0
max,16500.0,23875.0,41315.0,6575.0,12964.0,12945.0,11048.0,36000.0,18344.0,45400.0,...,19699.0,18150.0,12764.0,37028.0,9895.0,18620.0,11694.0,17669.0,13845.0,22625.0


### Multiple aggregation on DataFrameGroupBy

Using pandas .agg() method on a DataFrameGroupBy to do multiple aggregations on multiple features will return a multi-index column dataframe. 

In [126]:
makes[["length", "width", "height"]].agg(["min", "mean", "max"]).head(3)   # han gillar inte att få ut på detta sätt. Gillar mer nästa: Custom columns...

Unnamed: 0_level_0,length,length,length,width,width,width,height,height,height
Unnamed: 0_level_1,min,mean,max,min,mean,max,min,mean,max
make,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
alfa-romero,168.8,169.6,171.2,64.1,64.566667,65.5,48.8,50.0,52.4
audi,176.6,183.828571,192.7,66.2,68.714286,71.4,52.0,54.428571,55.9
bmw,176.8,184.5,197.0,64.8,66.475,70.9,53.7,54.825,56.3


### Custom columns aggregation

In [128]:
autos.groupby("make").agg({"price": "mean", "horsepower": "max"}).head(3)         # Väljer feature och vad jag vill aggregera på
                                                                          # Nackdel att det är svårt att se vad de aggregerat på (max, min eller vad?)
                                                    

Unnamed: 0_level_0,price,horsepower
make,Unnamed: 1_level_1,Unnamed: 2_level_1
alfa-romero,15498.333333,154.0
audi,17859.166667,160.0
bmw,26118.75,182.0


In [133]:
# Man använder relevanta metoder och de kolumner man vill aggregera samt vad man vill aggregera på. De får samma namn i 
# resulterande dataframe som variabelnamn man sätter för varje del.

autos.groupby("make").agg(
    average_price = pd.NamedAgg(column = "price", aggfunc = "mean"),      
    min_horsepower = pd.NamedAgg(column = "horsepower", aggfunc = "min"),
    max_horsepower = pd.NamedAgg(column = "horsepower", aggfunc = "max")         # istället för "max" eller "min", hade man kunnat skicka in en funktion se nästa ruta
).head(3)



Unnamed: 0_level_0,average_price,min_horsepower,max_horsepower
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
alfa-romero,15498.333333,111.0,154.0
audi,17859.166667,102.0,160.0
bmw,26118.75,101.0,182.0


In [None]:
# Visar hur man kan lägga in egna aggregeringsfunktioner eller på andra sätt

def my_function():
    pass

autos.groupby("make").agg(
    average_price = pd.NamedAgg(column = "price", aggfunc = np.mean),       # Refererar till np mean metod. Innebär att vi även kan definiera egna funktioner och skriva in för egna aggregeringsmetoder.   
    min_horsepower = pd.NamedAgg(column = "horsepower", aggfunc = my_function),   # alt lambda kan användas.
    max_horsepower = pd.NamedAgg(column = "horsepower", aggfunc = lambda: x)         
).head(3)

In [None]:
# Essensen av allt detta är att man aggregerar genom att koka ner värden för flera kolumner till en och får ut en series av det.
# Eller för flera series och får ut en series av det. 
# Viktigt att få ut för att kunna analysera det och göra något vettigt av det.

In [164]:
# Mer om vad lambda är genom att fortsätta i spåret med f.g. ruta:
# Vill ha nedan kolumner men också komma separerad lista med body styles


def list_unique(x):
    return ", ".join(sorted(x.apply(str).unique()))    # Denna funktion aggregerar sträng features till enbart unika värden
                                                       # först spara unika, sedan omvandla till str, därefter sortera, sist joina
autos.groupby("make").agg(
    average_price = pd.NamedAgg(column = "price", aggfunc = "mean"),       # Refererar till np mean metod. Innebär att vi även kan definiera egna funktioner och skriva in för egna aggregeringsmetoder.   
    min_horsepower = pd.NamedAgg(column = "horsepower", aggfunc = "min"),   # alt lambda kan användas.
    max_horsepower = pd.NamedAgg(column = "horsepower", aggfunc = "max"),
    body_styles = pd.NamedAgg(column = "body-style", aggfunc = list_unique)
).sort_values("average_price", ascending = False).head(1)                  # average_price heter den kolumnen nu eftersom i den nya dataframe finns bara de kolumner man definierat
                                                                           # "by" behöver inte anges då default är första kolumnen


Unnamed: 0_level_0,average_price,min_horsepower,max_horsepower,body_styles
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
jaguar,34600.0,176.0,262.0,sedan


In [174]:
# def my_sorting_func(person):
#     return len(person["FirstName"])

mylist = [
    {"FirstName": "Fredrik", "LastName": "Johansson", "Age": 42},
    {"FirstName": "Anna", "LastName": "Johansson", "Age": 22},
    {"FirstName": "Henrik", "LastName": "Johansson", "Age": 32},
    {"FirstName": "Hassan", "LastName": "Johansson", "Age": 52}
]


# sorted(mylist, key=my_sorting_func, reverse = True)         # I vanliga fall tar sorted in en lista (typ integers), sorterar i storleksordning. Men nu 
                                                            # tar den en function och sorterar enligt förnamn för varje item i listan
                                                            # Key tar en function som säger hur varje item ska processas innan den sorteras
                                                            # Reverse för att ha det i reverse ordning


# Går att även göra med lambda: ett annat sätt för att skriva en funktion.
# Nedan gör samma sak som ovan. "Anonym funktion" då den inte har andra namn
 
sorted(mylist, key=lambda person: len(person["FirstName"]), reverse = True) 
# mylist.sort()            # sort() är metod på lista, sorterar my_list, "inplace" uppdatering alltså själva listan    

[{'FirstName': 'Fredrik', 'LastName': 'Johansson', 'Age': 42},
 {'FirstName': 'Henrik', 'LastName': 'Johansson', 'Age': 32},
 {'FirstName': 'Hassan', 'LastName': 'Johansson', 'Age': 52},
 {'FirstName': 'Anna', 'LastName': 'Johansson', 'Age': 22}]

In [179]:
# Lite om funktioner

def my_func():
    return "Hello"

my_func()

# my_func    detta är bara referens till funktionen så:
otherfunc = my_func
# otherfunc() blir då samma då den pekar mot samma referens till funktionen. 
print(otherfunc())

Hello
Hello
None


In [182]:
# Detta blir samma sak som ovan
my_func = lambda: "Hello"   # Man sätter alltså funktionen och dess return/print på detta sätt.
                            # Så detta är snabbväg för att slippa definiera egen funktion först

# lambda x: ", ".join(sorted(x.apply(str).unique())
# lambda = metoden för detta, x = input parameter, övrigt: själva returnen för funktionen

Hello


In [183]:
# Mer om vad lambda är genom att fortsätta i spåret med f.g. ruta:
# Vill ha nedan kolumner men också komma separerad lista med body styles


def list_unique(x):
    return ", ".join(sorted(x.apply(str).unique()))    # Denna funktion aggregerar sträng features till enbart unika värden
                                                       # först spara unika, sedan omvandla till str, därefter sortera, sist joina
autos.groupby("make").agg(
    average_price = pd.NamedAgg(column = "price", aggfunc = "mean"),       # Refererar till np mean metod. Innebär att vi även kan definiera egna funktioner och skriva in för egna aggregeringsmetoder.   
    min_horsepower = pd.NamedAgg(column = "horsepower", aggfunc = "min"),   # alt lambda kan användas.
    max_horsepower = pd.NamedAgg(column = "horsepower", aggfunc = "max"),
    body_styles = pd.NamedAgg(column = "body-style", aggfunc = lambda x: ", ".join(sorted(x.apply(str).unique())))  # Se ovan för hur det definierats i en funktion innan.
).sort_values("average_price", ascending = False).head(1)                  # average_price heter den kolumnen nu eftersom i den nya dataframe finns bara de kolumner man definierat
                                                                           # "by" behöver inte anges då default är första kolumnen



Unnamed: 0_level_0,average_price,min_horsepower,max_horsepower,body_styles
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
jaguar,34600.0,176.0,262.0,sedan
