In [146]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os

"Automobile Data Set" from the following link: https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data.

its normalized losses in use as compared to other cars. The second rating corresponds to the degree to which the auto is more risky than its price indicates. Cars are initially assigned a risk factor symbol associated with its price. Then, if it is more risky (or less), this symbol is adjusted by moving it up (or down) the scale. Actuarians call this process "symboling". A value of +3 indicates that the auto is risky, -3 that it is probably pretty safe. The third factor is the relative average loss payment per insured vehicle year. This value is normalized for all autos within a particular size classification (two-door small, station wagons, sports/specialty, etc…), and represents the average loss per car per year.

- symboling: -3, -2, -1, 0, 1, 2, 3
- normalized-losses: continuous from 65 to 256
- make: alfa-romero, audi, bmw, chevrolet, dodge, honda, isuzu, jaguar, mazda, mercedes-benz, mercury, mitsubishi, nissan, peugot, plymouth, porsche, renault, saab, subaru, toyota, volkswagen, volvo
- fuel-type: diesel, gas
- aspiration: std, turbo
- num-of-doors: four, two
- body-style: hardtop, wagon, sedan, hatchback, convertible
- drive-wheels: 4wd, fwd, rwd
- engine-location: front, rear
- wheel-base: continuous from 86.6 120.9
- length: continuous from 141.1 to 208.1
- width: continuous from 60.3 to 72.3
- height: continuous from 47.8 to 59.8
- curb-weight: continuous from 1488 to 4066
- engine-type: dohc, dohcv, l, ohc, ohcf, ohcv, rotor
- num-of-cylinders: eight, five, four, six, three, twelve, two
- engine-size: continuous from 61 to 326
- fuel-system: 1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi
- bore: continuous from 2.54 to 3.94
- stroke: continuous from 2.07 to 4.17
- compression-ratio: continuous from 7 to 23
- horsepower: continuous from 48 to 288
- peak-rpm: continuous from 4150 to 6600
- city-mpg: continuous from 13 to 49
- highway-mpg: continuous from 16 to 54
- price: continuous from 5118 to 45400.

## Bronze Schicht

In [147]:
headers = ["risikoniveau","normalisierter-verlustwert","marke","kraftstofftyp","absaugung", "türnummern","körperform",
         "antriebsräder","motorstandort","radstand", "länge","breite","höhe","leergewicht","motortyp",
         "anzahl-der-zylinder", "motorgröße","kraftstoffsystem","bohrung","anschlag","verdichtungsverhältnis","pferdestärken",
         "spitzendrehzahl","stadt-mpg","autobahn-mpg","preis"]

raw_input_df = pd.read_csv('input/auto.csv', names = headers)
display(raw_input_df.head(10))

Unnamed: 0,risikoniveau,normalisierter-verlustwert,marke,kraftstofftyp,absaugung,türnummern,körperform,antriebsräder,motorstandort,radstand,...,motorgröße,kraftstoffsystem,bohrung,anschlag,verdichtungsverhältnis,pferdestärken,spitzendrehzahl,stadt-mpg,autobahn-mpg,preis
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
5,2,?,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
6,1,158,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710
7,1,?,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920
8,1,158,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875
9,0,?,audi,gas,turbo,two,hatchback,4wd,front,99.5,...,131,mpfi,3.13,3.4,7.0,160,5500,16,22,?


In [148]:
csv_file_path = os.path.join('.', 'bronze')
csv_file_name = 'auto_bronze.csv'

if not os.path.exists(csv_file_path):
    os.mkdir(csv_file_path)

raw_input_df.to_csv(os.path.join(csv_file_path, csv_file_name), index=False)

## Silber Schicht

Wie wir sehen können, sind mehrere Fragezeichen im Datenrahmen erschienen; das sind fehlende Werte, die unsere weitere Analyse behindern können.

Wie können wir also all diese fehlenden Werte identifizieren und mit ihnen umgehen?
Wie kann man mit fehlenden Daten arbeiten?

Schritte für die Arbeit mit fehlenden Daten:

Identifizieren fehlender Daten
Umgang mit fehlenden Daten
Korrektes Datenformat

In [149]:
bronze_df = pd.read_csv('bronze/auto_bronze.csv')

# Umwandlung von "?" in NaN
bronze_df.replace("?", np.nan, inplace = True)

In [150]:
# Fehlende Werte in jeder Spalte zählen
missing_data = bronze_df.isnull().sum()
missing_data.sort_values(inplace=True, ascending=False)
display(missing_data)

normalisierter-verlustwert    41
preis                          4
anschlag                       4
bohrung                        4
spitzendrehzahl                2
türnummern                     2
pferdestärken                  2
motortyp                       0
autobahn-mpg                   0
stadt-mpg                      0
verdichtungsverhältnis         0
kraftstoffsystem               0
motorgröße                     0
anzahl-der-zylinder            0
risikoniveau                   0
höhe                           0
breite                         0
länge                          0
radstand                       0
motorstandort                  0
antriebsräder                  0
körperform                     0
absaugung                      0
kraftstofftyp                  0
marke                          0
leergewicht                    0
dtype: int64

Wie geht man mit fehlenden Daten um?

Daten löschen
a. die gesamte Zeile löschen
b. die gesamte Spalte löschen
Daten ersetzen
a. durch Mittelwert ersetzen
b. Ersetzen durch Häufigkeit
c. Ersetzen auf der Grundlage anderer Funktionen

Ersetzen durch Mittelwert:

"normalisierte-Verluste": 41 fehlende Daten, durch Mittelwert ersetzen
"Schlaganfall": 4 fehlende Daten, durch Mittelwert ersetzen
"Bohrung": 4 fehlende Daten, ersetzen Sie diese durch den Mittelwert
"Pferdestärken": 2 fehlende Daten, durch Mittelwert ersetzen
"Spitzen-Drehzahl": 2 fehlende Daten, ersetze sie durch den Mittelwert

Ersetzen durch Häufigkeit:

"Anzahl der Türen": 2 fehlende Daten, ersetze sie durch "vier".
Grund: 84% der Limousinen sind viertürig. Da vier Türen am häufigsten vorkommen, ist es am wahrscheinlichsten, dass sie vorkommen.

Streiche die ganze Zeile:

"Preis": 4 fehlende Daten, einfach die ganze Zeile löschen
Grund: Der Preis ist das, was wir vorhersagen wollen. Jeder Dateneintrag ohne Preisdaten kann nicht für die Vorhersage verwendet werden; daher ist jede Zeile ohne Preisdaten für uns nicht nützlich

In [151]:
# Ersetzen durch Mittelwert
avg_normalisierter_verlustwert = bronze_df['normalisierter-verlustwert'].astype("float").mean(axis=0)
bronze_df.fillna({'normalisierter-verlustwert': avg_normalisierter_verlustwert}, inplace=True)

avg_bohrung = bronze_df['bohrung'].astype('float').mean(axis=0)
bronze_df.fillna({'bohrung': avg_bohrung}, inplace=True)

avg_anschlag = bronze_df["anschlag"].astype("float").mean(axis = 0)
bronze_df.fillna({'anschlag': avg_anschlag}, inplace=True)

avg_pferdestaerken = bronze_df['pferdestärken'].astype('float').mean(axis=0)
bronze_df.fillna({'pferdestärken': avg_pferdestaerken}, inplace=True)

avg_spitzendrehzahl = bronze_df['spitzendrehzahl'].astype('float').mean(axis=0)
bronze_df.fillna({'spitzendrehzahl': avg_spitzendrehzahl}, inplace=True)

In [152]:
# Ersetzen durch Häufigkeit:

max_tuernummern = bronze_df['türnummern'].value_counts().idxmax()
print(max_tuernummern)
bronze_df['türnummern'].replace(np.nan, max_tuernummern, inplace=True)

four


In [153]:
# Streiche die ganze Zeile
bronze_df.dropna(subset=['preis'], axis=0, inplace=True)
bronze_df.reset_index(drop=True, inplace=True)

Correct data format

In [154]:
display(bronze_df.dtypes)

risikoniveau                    int64
normalisierter-verlustwert     object
marke                          object
kraftstofftyp                  object
absaugung                      object
türnummern                     object
körperform                     object
antriebsräder                  object
motorstandort                  object
radstand                      float64
länge                         float64
breite                        float64
höhe                          float64
leergewicht                     int64
motortyp                       object
anzahl-der-zylinder            object
motorgröße                      int64
kraftstoffsystem               object
bohrung                        object
anschlag                       object
verdichtungsverhältnis        float64
pferdestärken                  object
spitzendrehzahl                object
stadt-mpg                       int64
autobahn-mpg                    int64
preis                          object
dtype: objec

Wie wir oben sehen können, haben einige Spalten nicht den richtigen Datentyp. Numerische Variablen sollten den Typ "float" oder "int" haben, und Variablen mit Zeichenketten wie Kategorien sollten den Typ "object" haben. Bei den Variablen "Bohrung" und "Hub" handelt es sich beispielsweise um numerische Werte, die die Motoren beschreiben, so dass man erwarten sollte, dass sie vom Typ "float" oder "int" sind; sie werden jedoch als Typ "object" angezeigt.

In [155]:
bronze_df[['bohrung', 'anschlag']] = bronze_df[['bohrung', 'anschlag']].astype("float")
bronze_df['normalisierter-verlustwert'] = bronze_df['normalisierter-verlustwert'].astype("int64")
bronze_df['preis'] = bronze_df['preis'].astype("float")
bronze_df['spitzendrehzahl'] = bronze_df['spitzendrehzahl'].astype("float")
bronze_df['pferdestärken'] = bronze_df['pferdestärken'].astype("int64", copy=True)

Data Standardization

Umwandlung von mpg in L/100km:

In unserem Datensatz werden die Kraftstoffverbrauchsspalten "Stadt-mpg" und "Autobahn-mpg" in der Einheit mpg (miles per gallon) dargestellt. Angenommen, wir entwickeln eine Anwendung in einem Land, in dem der Kraftstoffverbrauch in L/100km angegeben wird.

Die Formel für die Einheitenumrechnung lautet

L/100km = 235 / mpg

In [156]:
bronze_df['stadt-L/100km'] = 235/bronze_df['stadt-mpg']
bronze_df['autobahn-L/100km'] = 235/bronze_df['autobahn-mpg']

Data Normalization

Unter Normalisierung versteht man den Prozess der Umwandlung von Werten mehrerer Variablen in einen ähnlichen Bereich. Typische Normalisierungen umfassen die Skalierung der Variablen, so dass der Durchschnitt der Variablen 0 ist, die Skalierung der Variablen, so dass die Varianz 1 ist, oder die Skalierung der Variablen, so dass die Variablenwerte zwischen 0 und 1 liegen.

In [157]:
bronze_df['länge-norm'] = bronze_df['länge'] / bronze_df['länge'].max()
bronze_df['breite-norm'] = bronze_df['breite'] / bronze_df['breite'].max()
bronze_df['höhe-norm'] = bronze_df['höhe'] / bronze_df['höhe'].max()

display(bronze_df[['länge-norm','breite-norm','höhe-norm']].head())

Unnamed: 0,länge-norm,breite-norm,höhe-norm
0,0.811148,0.890278,0.816054
1,0.811148,0.890278,0.816054
2,0.822681,0.909722,0.876254
3,0.84863,0.919444,0.908027
4,0.84863,0.922222,0.908027


Binning

Binning ist ein Verfahren zur Umwandlung kontinuierlicher numerischer Variablen in diskrete kategorische "Bins" für eine gruppierte Analyse.

In [165]:
bins = np.linspace(min(bronze_df['pferdestärken']), max(bronze_df['pferdestärken']), 4)
gruppen_namen = ['niedrig', 'mittel', 'hoch']
bronze_df['pferdestärken-binned'] = pd.cut(bronze_df['pferdestärken'], bins, labels=gruppen_namen, include_lowest=True )
# bronze_df['pferdestärken-binned'] = pd.qcut(bronze_df['pferdestärken'], 3, labels=['niedrig', 'mittel', 'hoch'])
display(bronze_df[['pferdestärken','pferdestärken-binned']].head(20))

Unnamed: 0,pferdestärken,pferdestärken-binned
0,111,niedrig
1,111,niedrig
2,154,mittel
3,102,niedrig
4,115,niedrig
5,110,niedrig
6,110,niedrig
7,110,niedrig
8,140,mittel
9,101,niedrig


Indicator Variable (or Dummy Variable)

In [159]:
dummy = pd.get_dummies(bronze_df['kraftstofftyp'])
bronze_df = pd.concat([bronze_df, dummy], axis=1)
bronze_df.rename(columns={'gas': 'benzin'}, inplace=True)

export als Parquet

In [160]:
parquet_file_path = os.path.join('.', 'silber')
parquet_file_name = 'auto_silber.parquet'

if not os.path.exists(parquet_file_path):
    os.mkdir(parquet_file_path)

bronze_df.to_parquet(os.path.join(parquet_file_path, parquet_file_name))
display(bronze_df)
print(bronze_df.columns)

Unnamed: 0,risikoniveau,normalisierter-verlustwert,marke,kraftstofftyp,absaugung,türnummern,körperform,antriebsräder,motorstandort,radstand,...,autobahn-mpg,preis,stadt-L/100km,autobahn-L/100km,länge-norm,breite-norm,höhe-norm,pferdestärken-binned,diesel,benzin
0,3,122,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,27,13495.0,11.190476,8.703704,0.811148,0.890278,0.816054,mittel,False,True
1,3,122,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,27,16500.0,11.190476,8.703704,0.811148,0.890278,0.816054,mittel,False,True
2,1,122,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,26,16500.0,12.368421,9.038462,0.822681,0.909722,0.876254,hoch,False,True
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,30,13950.0,9.791667,7.833333,0.848630,0.919444,0.908027,mittel,False,True
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,22,17450.0,13.055556,10.681818,0.848630,0.922222,0.908027,hoch,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
196,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,28,16845.0,10.217391,8.392857,0.907256,0.956944,0.928094,hoch,False,True
197,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,...,25,19045.0,12.368421,9.400000,0.907256,0.955556,0.928094,hoch,False,True
198,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,23,21485.0,13.055556,10.217391,0.907256,0.956944,0.928094,hoch,False,True
199,-1,95,volvo,diesel,turbo,four,sedan,rwd,front,109.1,...,27,22470.0,9.038462,8.703704,0.907256,0.956944,0.928094,mittel,True,False


Index(['risikoniveau', 'normalisierter-verlustwert', 'marke', 'kraftstofftyp',
       'absaugung', 'türnummern', 'körperform', 'antriebsräder',
       'motorstandort', 'radstand', 'länge', 'breite', 'höhe', 'leergewicht',
       'motortyp', 'anzahl-der-zylinder', 'motorgröße', 'kraftstoffsystem',
       'bohrung', 'anschlag', 'verdichtungsverhältnis', 'pferdestärken',
       'spitzendrehzahl', 'stadt-mpg', 'autobahn-mpg', 'preis',
       'stadt-L/100km', 'autobahn-L/100km', 'länge-norm', 'breite-norm',
       'höhe-norm', 'pferdestärken-binned', 'diesel', 'benzin'],
      dtype='object')


## Gold Schicht


In [161]:
silber_df = pd.read_parquet('silber/auto_silber.parquet')

def safe_gold_usecase(silber_df, columns, usecase_name):
    parquet_file_path = os.path.join('.', 'gold')
    parquet_file_name = f'auto_{usecase_name}.parquet'
    
    if not os.path.exists(parquet_file_path):
        os.mkdir(parquet_file_path)
        
    gold_df = silber_df[columns].copy()
    gold_df.to_parquet(os.path.join(parquet_file_path, parquet_file_name))
    display(gold_df)

Kraftstoffeffizienzvorhersage: 
Basierend auf den Merkmalen welche eine Vorhersage über die Kraftstoffeffizienz eines Fahrzeugs erstellt werden.

In [162]:
kraftstoffeffizienz_gold = ['motorgröße', 'kraftstoffsystem', 'bohrung', 'anschlag', 'verdichtungsverhältnis', 'leergewicht', 'pferdestärken', 'spitzendrehzahl', 'stadt-L/100km', 'autobahn-L/100km', 'pferdestärken-binned', 'diesel', 'benzin']

safe_gold_usecase(silber_df, kraftstoffeffizienz_gold, 'kraftstoffeffizienz')

Unnamed: 0,motorgröße,kraftstoffsystem,bohrung,anschlag,verdichtungsverhältnis,leergewicht,pferdestärken,spitzendrehzahl,stadt-L/100km,autobahn-L/100km,pferdestärken-binned,diesel,benzin
0,130,mpfi,3.47,2.68,9.0,2548,111,5000.0,11.190476,8.703704,mittel,False,True
1,130,mpfi,3.47,2.68,9.0,2548,111,5000.0,11.190476,8.703704,mittel,False,True
2,152,mpfi,2.68,3.47,9.0,2823,154,5000.0,12.368421,9.038462,hoch,False,True
3,109,mpfi,3.19,3.40,10.0,2337,102,5500.0,9.791667,7.833333,mittel,False,True
4,136,mpfi,3.19,3.40,8.0,2824,115,5500.0,13.055556,10.681818,hoch,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...
196,141,mpfi,3.78,3.15,9.5,2952,114,5400.0,10.217391,8.392857,hoch,False,True
197,141,mpfi,3.78,3.15,8.7,3049,160,5300.0,12.368421,9.400000,hoch,False,True
198,173,mpfi,3.58,2.87,8.8,3012,134,5500.0,13.055556,10.217391,hoch,False,True
199,145,idi,3.01,3.40,23.0,3217,106,4800.0,9.038462,8.703704,mittel,True,False


Segmentierung von Fahrzeugen: 
Basierend auf den Merkmalen welche Fahrzeuge in verschiedene Segmente eingeteilt werden (z.B. Kleinwagen, Limousinen, Geländewagen), was für Marketing- und Vertriebsstrategien relevant ist.

In [163]:
segmentierung_gold  = ['marke', 'normalisierter-verlustwert', 'türnummern', 'körperform', 'antriebsräder', 'motorstandort', 'radstand', 'länge', 'breite', 'höhe', 'leergewicht', 'länge-norm', 'breite-norm', 'höhe-norm']

safe_gold_usecase(silber_df, segmentierung_gold, 'segmentierung')

Unnamed: 0,marke,normalisierter-verlustwert,türnummern,körperform,antriebsräder,motorstandort,radstand,länge,breite,höhe,leergewicht,länge-norm,breite-norm,höhe-norm
0,alfa-romero,122,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,0.811148,0.890278,0.816054
1,alfa-romero,122,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,0.811148,0.890278,0.816054
2,alfa-romero,122,two,hatchback,rwd,front,94.5,171.2,65.5,52.4,2823,0.822681,0.909722,0.876254
3,audi,164,four,sedan,fwd,front,99.8,176.6,66.2,54.3,2337,0.848630,0.919444,0.908027
4,audi,164,four,sedan,4wd,front,99.4,176.6,66.4,54.3,2824,0.848630,0.922222,0.908027
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
196,volvo,95,four,sedan,rwd,front,109.1,188.8,68.9,55.5,2952,0.907256,0.956944,0.928094
197,volvo,95,four,sedan,rwd,front,109.1,188.8,68.8,55.5,3049,0.907256,0.955556,0.928094
198,volvo,95,four,sedan,rwd,front,109.1,188.8,68.9,55.5,3012,0.907256,0.956944,0.928094
199,volvo,95,four,sedan,rwd,front,109.1,188.8,68.9,55.5,3217,0.907256,0.956944,0.928094


Preisvorhersage: 
Nutzen Sie die verschiedenen Merkmale um den Preis eines Fahrzeugs vorherzusagen. Dies kann für Händler und Kunden gleichermaßen nützlich sein.

In [164]:
preisvorhersage_gold  = ['risikoniveau', 'marke', 'kraftstofftyp', 'türnummern', 'antriebsräder', 'motorstandort', 'motortyp', 'anzahl-der-zylinder', 'pferdestärken-binned', 'preis']

safe_gold_usecase(silber_df, preisvorhersage_gold, 'preisvorhersage')

Unnamed: 0,risikoniveau,marke,kraftstofftyp,türnummern,antriebsräder,motorstandort,motortyp,anzahl-der-zylinder,pferdestärken-binned,preis
0,3,alfa-romero,gas,two,rwd,front,dohc,four,mittel,13495.0
1,3,alfa-romero,gas,two,rwd,front,dohc,four,mittel,16500.0
2,1,alfa-romero,gas,two,rwd,front,ohcv,six,hoch,16500.0
3,2,audi,gas,four,fwd,front,ohc,four,mittel,13950.0
4,2,audi,gas,four,4wd,front,ohc,five,hoch,17450.0
...,...,...,...,...,...,...,...,...,...,...
196,-1,volvo,gas,four,rwd,front,ohc,four,hoch,16845.0
197,-1,volvo,gas,four,rwd,front,ohc,four,hoch,19045.0
198,-1,volvo,gas,four,rwd,front,ohcv,six,hoch,21485.0
199,-1,volvo,diesel,four,rwd,front,ohc,six,mittel,22470.0


## notizen

jupyter nbconvert --to script 'foo.ipynb'       

Um näher an eine Medaillenarchitektur zu gelangen, könnte man den gegebenen Code wie folgt anpassen:

Bronze-Schicht:

Die Bronze-Schicht bleibt unverändert. Sie dient weiterhin als Einstiegspunkt für die Rohdaten.
Die Daten werden jedoch nicht direkt in eine CSV-Datei geschrieben, sondern in einem persistenteren und skalierbareren Format gespeichert, wie z.B. in einem Data Lake, einem Data Warehouse oder einer NoSQL-Datenbank.
Silber-Schicht:

Die Silber-Schicht übernimmt die Verarbeitung der Daten aus der Bronze-Schicht.
Statt die Daten direkt in ein anderes Dateiformat zu schreiben, könnte man sie in einer verarbeiteten Form speichern, die für eine breitere Palette von Analysen und Anwendungen geeignet ist. Dies könnte bedeuten, dass Daten in einem Data Warehouse oder einem speziell optimierten Datenbankformat wie Parquet oder ORC gespeichert werden.
Zudem könnten in dieser Schicht auch Metadaten hinzugefügt werden, die Informationen über die Datenqualität, -herkunft und -struktur enthalten.
Gold-Schicht:

Die Gold-Schicht bleibt im Wesentlichen unverändert. Sie konzentriert sich darauf, spezifische Analyse- und Anwendungsfälle zu bedienen.
Allerdings könnten die in dieser Schicht erzeugten Daten weiter verfeinert werden, um Analysen auf einem höheren Niveau zu ermöglichen. Dies könnte bedeuten, dass zusätzliche Analysen, Vorhersagemodelle oder Data-Mining-Algorithmen angewendet werden, um zusätzliche Einblicke zu gewinnen.
Die Ergebnisse dieser Analysen könnten dann wiederum in einem persistenteren Format gespeichert werden, um langfristige Analysen und Vergleiche zu ermöglichen.
Insgesamt würde eine Anpassung des Codes an eine Medaillenarchitektur dazu führen, dass die Daten in verschiedenen Schichten in unterschiedlichen Formaten und Verarbeitungsstufen gespeichert und verarbeitet werden. Dies ermöglicht eine flexiblere und skalierbarere Datenverarbeitung, die den Anforderungen verschiedener Analyse- und Anwendungsfälle besser gerecht wird.