# Übungssession zu Pandas

Erinnerung: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

In [5]:
import numpy as np
import pandas as pd

In [6]:
LEGO_all = pd.read_csv("LEGO.csv")
LEGO = LEGO_all[LEGO_all["date"] == LEGO_all["date"].max()].copy()
LEGO.head(3)

Unnamed: 0,name,theme,product_code,ageRange,pieceCount,price,minifigureCount,buildHeight,buildWidth,buildDepth,url,date
0,Burg Himeji,Architecture,21060,18+,2125.0,159.99,,,,,/de-de/product/himeji-castle-21060,2023-09-21
1,New York City,Architecture,21028,12+,598.0,49.99,,,,,/de-de/product/new-york-city-21028,2023-09-21
2,Taj Mahal,Architecture,21056,18+,2022.0,119.99,,20.0,23.0,23.0,/de-de/product/taj-mahal-21056,2023-09-21


### Frage 1: Preispolitik

Wie oft kommen (bei den aktuellen Modellen) die unterschiedlichen Preise jeweils vor? Sortieren Sie die Preise nach ihrer Häufigkeit.

Ergänzen Sie ferner Ihre Tabelle um eine Spalte in der nicht die absolute sondern die relative Häufigkeit (d.h. der prozentuale Anteil) steht.

### Einschub

Bisher hatten wir Split-Apply-Combine in einer relativ einfachen Form gesehen.
Meist wurde nach der Gruppierung eine explizite Spalte ausgewählt und darauf eine Aggregationsfunktion angewandt.
Grundsätzlich kann man auch beliebige Funktionen auf die jeweiligen SubDataFrames anwenden.

In [7]:
def my_function(subdf):
    rows = len(subdf)
    unique_prices= subdf["price"].nunique() # n unique anzahl der Eigenartigen
    return pd.Series([rows, unique_prices], index = ["num_rows","unique_prices" ])

LEGO.groupby("theme").apply(my_function)

Unnamed: 0_level_0,num_rows,unique_prices
theme,Unnamed: 1_level_1,Unnamed: 2_level_1
Architecture,9,7
Art,6,6
Batman™,10,7
BrickHeadz,24,5
City,91,25
Classic,27,14
Creator 3-in-1-Sets,28,14
Creator Expert,7,6
DC,5,5
DOTS,24,12


### Frage 2: Teure Modelle

Die Tabelle (nur die aktuellen Modelle) soll so eingeschränkt werden, dass für jedes Thema nur die drei teuersten Modelle enthalten sind.

In [8]:
def other_function(subdf):
    return subdf.sort_values("price", ascending = False).head(3)

LEGO.groupby("theme").apply(other_function).reset_index(drop = True)

Unnamed: 0,name,theme,product_code,ageRange,pieceCount,price,minifigureCount,buildHeight,buildWidth,buildDepth,url,date
0,Burg Himeji,Architecture,21060,18+,2125.0,159.99,,,,,/de-de/product/himeji-castle-21060,2023-09-21
1,Cheops-Pyramide,Architecture,21058,18+,1476.0,139.99,,,,,/de-de/product/great-pyramid-of-giza-21058,2023-09-21
2,Taj Mahal,Architecture,21056,18+,2022.0,119.99,,20.0,23.0,23.0,/de-de/product/taj-mahal-21056,2023-09-21
3,Weltkarte,Art,31203,18+,11695.0,249.99,,65.0,104.0,,/de-de/product/world-map-31203,2023-09-21
4,The Rolling Stones,Art,31206,18+,1998.0,149.99,,,,,/de-de/product/the-rolling-stones-31206,2023-09-21
...,...,...,...,...,...,...,...,...,...,...,...,...
109,Republikanischer Angriffskreuzer der Venator-K...,Star Wars™,75367,18+,5374.0,649.99,2.0,32.0,54.0,109.0,/de-de/product/tdb-lsw-2023-24-75367,2023-09-21
110,Liebherr LR 13000 Raupenkran,Technic,42146,18+,2883.0,679.99,,,,,/de-de/product/liebherr-crawler-crane-lr-13000...,2023-09-21
111,Appgesteuerter Cat® D11 Bulldozer,Technic,42131,18+,3854.0,499.99,,26.0,57.0,37.0,/de-de/product/app-controlled-cat-d11-bulldoze...,2023-09-21
112,Lamborghini Sián FKP 37,Technic,42115,18+,3696.0,449.99,,,,,/de-de/product/lamborghini-sian-fkp-37-42115,2023-09-21


### Einschub

Mit filter() kann man ganze Gruppen entfernen, sofern sie ein Kriterium nicht erfüllen.

Bsp: Behalte nur diejenigen Themengruppen, welche maximal zwei Sets enthalten.

In [9]:
def func_3(subdf):

    return len(subdf) <= 3
LEGO.groupby("theme").filter(func_3)

Unnamed: 0,name,theme,product_code,ageRange,pieceCount,price,minifigureCount,buildHeight,buildWidth,buildDepth,url,date
161,The LEGO Ideas Book New Edition: You Can Build...,Sonstiges,5007583,7+,0.0,24.99,,,,,/de-de/product/the-lego-ideas-book-new-edition...,2023-09-21
227,Kleines Disney Schloss,Disney Mickey and Friends,40478,12+,567.0,39.99,,,,,/de-de/product/mini-disney-castle-40478,2023-09-21
275,Elsas Schmuckkästchen,Die Eiskönigin,41168,6+,300.0,39.99,,,,,/de-de/product/elsa-s-jewelry-box-creation-41168,2023-09-21
589,DER HERR DER RINGE: BRUCHTAL,Lord of the Rings™,10316,18+,6167.0,499.99,15.0,39.0,72.0,50.0,/de-de/product/lotr-10316,2023-09-21
603,Tempel des goldenen Götzen,LEGO® Indiana Jones™,77015,18+,1545.0,149.99,,,,,/de-de/product/temple-of-the-golden-idol-77015,2023-09-21
604,Flucht aus dem Grabmal,LEGO® Indiana Jones™,77013,8+,600.0,39.99,,,,,/de-de/product/escape-from-the-lost-tomb-77013,2023-09-21
605,Flucht vor dem Jagdflugzeug,LEGO® Indiana Jones™,77012,8+,387.0,34.99,,,,,/de-de/product/fighter-plane-chase-77012,2023-09-21
700,Roboter-Erfinder,MINDSTORMS®,51515,10+,949.0,359.99,,,,,/de-de/product/robot-inventor-51515,2023-09-21
732,Holz-Minifigur,LEGO® Originals,5007523,6+,0.0,119.99,,,,,/de-de/product/wooden-minifigure-5007523,2023-09-21
1043,Sportzubehör,Xtra,40375,6+,36.0,3.99,,,,,/de-de/product/sports-accessories-40375,2023-09-21


Mit transform() kann man eine Funktion aufrufen aber den Index der ursprünglichen Spalte (d.h. vor der Gruppierung) belassen.
Dies ist meist hilfreich wenn man einen aggregierten Wert über alle Zeilen verteilen möchte, von denen er stammt.

### Frage 3: Neue Modelle

Welche Modelle sind im aktuellen Halbjahr neu hinzugekommen?

In [17]:
#LEGO_all[LEGO_all["date"] == "2023-09-21"]

## Fabian Lösung
LEGO_all = LEGO_all.sort_values(["product_code", "date"])
LEGO_all.head()



Unnamed: 0,name,theme,product_code,ageRange,pieceCount,price,minifigureCount,buildHeight,buildWidth,buildDepth,url,date
3911,Elementetrenner,Classic,630,4+,1.0,2.49,,,,,/de-de/product/brick-separator-630,2021-10-04
3161,Elementetrenner,Classic,630,4+,1.0,2.49,,,,,/de-de/product/brick-separator-630,2022-03-22
2187,Elementetrenner,Classic,630,4+,1.0,2.49,,,,,/de-de/product/brick-separator-630,2022-09-19
1226,Elementetrenner,Classic,630,4+,1.0,2.49,,,,,/de-de/product/brick-separator-630,2023-02-28
172,Elementetrenner,Classic,630,4+,1.0,2.49,,,,,/de-de/product/brick-separator-630,2023-09-21


In [19]:
counts = LEGO_all.groupby("product_code").size().reset_index(name = "anzahl")
counts.head()

Unnamed: 0,product_code,anzahl
0,630,5
1,2304,1
2,10255,5
3,10258,1
4,10261,1


In [22]:
df = pd.merge(LEGO_all, counts, how="left", left_on = "product_code", right_on= "product_code")
df.head(7)

Unnamed: 0,name,theme,product_code,ageRange,pieceCount,price,minifigureCount,buildHeight,buildWidth,buildDepth,url,date,anzahl
0,Elementetrenner,Classic,630,4+,1.0,2.49,,,,,/de-de/product/brick-separator-630,2021-10-04,5
1,Elementetrenner,Classic,630,4+,1.0,2.49,,,,,/de-de/product/brick-separator-630,2022-03-22,5
2,Elementetrenner,Classic,630,4+,1.0,2.49,,,,,/de-de/product/brick-separator-630,2022-09-19,5
3,Elementetrenner,Classic,630,4+,1.0,2.49,,,,,/de-de/product/brick-separator-630,2023-02-28,5
4,Elementetrenner,Classic,630,4+,1.0,2.49,,,,,/de-de/product/brick-separator-630,2023-09-21,5
5,Grüne LEGO® DUPLO® Bauplatte,DUPLO®,2304,,1.0,14.99,,,,,/de-de/product/lego-duplo-large-green-building...,2021-10-04,1
6,Stadtleben,Creator Expert,10255,16+,4002.0,239.99,,,,,/de-de/product/assembly-square-10255,2021-10-04,5


In [23]:
df[(df["anzahl"]== 1 )& (df["data"] == df["date"].max())]

KeyError: 'data'