# Teil 1: Daten laden, Zusammenführen und Bereinigen
## Mit Polars DataFrames

In diesem Notebook werden die Daten geladen, bereinigt und visualisiert. Dabei werden die Polars und Seaborn Bibliotheken verwendet.

Polars bietet uns Datentypen um mit tabellarischen Daten zu arbeiten (DataFrame und Series). Außerdem werden eine Menge von Methoden bereitgestellt um Daten zu bereinigen und zu transformieren. Polars ist eine sehr performante Bibliothek, die auf Apache Arrow basiert und somit sehr gut mit dem Apache Big Data Ökosystem kompatibel ist.  
Sie ist dazu sehr performant und kann, im Gegenzug zur Pandas Bibliothek, sehr große Datenmengen verarbeiten (Out-of-Memory Query Engine).

Numpy und Scipy sind Mathematik bzw. Wissenschaftliche quasi-Standard Bibliotheken und bieten uns eine Vielfalt an bekannten Funktionen und Methoden.

Damit haben wir bereits alles, was wir benötigen, um eine erste Analyse der Daten durchzuführen und mit diesen Ergebnissen später ein Modell zu entwickeln, um eine Vorhersage zu treffen.

In [737]:
import numpy as np
import scipy as sp
import polars as pl

Zur Veranschaulichung des Analytics/Modeling Prozesses verwenden wir einen kleinen Datensatz der einfach verständlich ist. In der Praxis hat man es oft mit komplexeren Daten zu tun, die eine Menge an Vorverarbeitung und Reduktion benötigen, um sie für das Modellieren zu nutzen.  
Öffentlich verfügbare, reale Datensätze sind leider oft anonymisiert und daher nicht leicht verständlich.

Daten können in unterschiedlichen Formaten vorliegen. Da jedes Unternehmen eine eigene Dateninfrastruktur besitzt, verwenden wir für diesen Workshop Dateien als universelle und menschenlesbare Datenquelle.  

Polars macht es einfach, direkt aus solchen Dateiformaten in einen DataFrame einzulesen.  

An dieser Stelle machen wir uns erst einmal mit dem Datensatz vertraut.  
Die Beschreibung zu diesem synthetischen Datensatz finden Sie unter: https://www.kaggle.com/datasets/lucasokwudishu/gta-v-vehicle-dataset

Warum einen Datensatz aus einem Spiel verwenden?  
Spiele sind eine gute Quelle fuer Daten, da sie eine komplexe Welt simulieren und frei zugänglich sind (Im Gegensatz zu industriellen Daten, die oft anonymisiert sind). Außerdem bestehen sie oft aus stark heterogenen Datentypen, was uns eine gute Gelegenheit bietet, Datenbereinigung und Transformation zu üben.

Hinzu kommt, dass jede/r sich etwas unter den Daten vorstellen kann, was es einfacher macht, die Ergebnisse gemeinsam zu interpretieren.


### Einlesen und Merging der Daten
Wie wir uns eben in der Datenbeschreibung angesehen haben, besteht der Datensatz aus mehreren verschiedenen Dateien. 
Diese müssen wir nun zusammenführen, um einen kompletten Datensatz zu erhalten. Danach werden wir die Daten bereinigen bevor es mit Notebook `02_transform_extract.ipynb` weitergeht.

In [738]:
# Öffnen sie nebenbei die polars doku https://pola-rs.github.io/polars-book/user-guide/index.html

# try/except ist in einem notebook etwas überflüssig aber es ist eine gute Übung 
# und Vorlage für die spätere Weiterverarbeitung in einer komplexeren Applikation

try:
    df = (pl.read_csv("resources/data/gta_v/gta_data_batch_1.csv", columns=range(1,35), sep=',')
        .extend(pl.read_csv("resources/data/gta_v/gta_data_batch_2.csv", columns=range(1,35), sep=','))
        .extend(pl.read_csv("resources/data/gta_v/gta_data_batch_3.csv", columns=range(1,35), sep=','))
    )
except OSError as e:
    print(f'Failed to read files {e}')
except Exception as e:
    print(f'Other error {e}')


# check if there are duplicates
if df.shape != df.unique().shape:
    print(f'Warning: {df} has duplicates -> drop them manually')


Ein `print()` des DataFrame liefert einen gekürzten Auszug der Header und des Inhalts und die Dimensionen der Tabelle (shape: Zeilen, Spalten). 
Speziell in Notebooks kann auch einfach der Variablenname des DataFrame am Ende eines Blocks eine schöne Darstellung ausgeben.
Dies sollte zur besseren Übersichtlichkeit sehr sparsam verwendet werden z.B. am Ende von Operationblöcken.
Weitere Methoden sind `.head(n)` und `.tail(n)` um die ersten bzw. letzten n Zeilen des DataFrame anzuzeigen.  

Mit der Methode `.describe()` kann eine statistische Übersicht über die Daten gegeben werden.

In [739]:
df

title,vehicle_class,manufacturer,features,acquisition,price,storage_location,delivery_method,modifications,resale_flag,resale_price,race_availability,top_speed_in_game,based_on,seats,weight_in_kg,drive_train,gears,release_date,release_dlc,top_speed_real,lap_time,bulletproof,weapon1_resistance,weapon2_resistance,weapon3_resistance,weapon4_resistance,weapon5_resistance,speed,acceleration,braking,handling,overall,vehicle_url
str,str,str,str,str,str,str,str,str,str,str,str,str,str,i64,str,str,str,str,str,str,str,str,i64,i64,i64,i64,i64,str,str,str,str,str,str
"""GTA 5: Volato...","""Planes""","""NA""","""Armored Vehicl...","""Warstock Cache...","""$3,724,000""","""Hangar (Person...","""Interaction Me...","""Hangar Aircraf...","""Can be sold on...","""$2,234,400 (...","""Transform Race...","""155.34 mph (25...","""Avro Vulcan, M...",4,"""40,000	KG""","""NA""","""NA""","""December 12, 2...","""1.42 The Dooms...","""165.50 mph (26...","""0:53.501""","""Bulletproof fr...",3,1,2,1,1,"""Speed 76.07""","""Acceleration 2...","""Braking 32.50""","""Handling 1.01""","""Overall 34.54""","""https://www.gt..."
"""GTA 5: Sadler""","""Utility""","""Vapid""","""Has Variants, ...","""Can be stolen ...","""$35,000""","""Garage (Person...","""Mechanic""","""Los Santos Cus...","""Can be sold if...","""$21,000 ($10...","""Can be used in...","""80.78 mph (130...","""First Generati...",4,"""2,100	KG""","""NA""","""5""","""September 17, ...","""1.01 Game Laun...","""100.00 mph (16...","""1:19.113""","""No""",1,1,2,1,1,"""Speed 69.75""","""Acceleration 5...","""Braking 20.00""","""Handling 62.12...","""Overall 50.47""","""https://www.gt..."
"""GTA 5: Benefac...","""Commercial""","""Benefactor""","""Armored Vehicl...","""Warstock Cache...","""$1,375,000""","""Nightclub Ware...","""Interaction Me...","""Point of Stora...","""Cannot be sold...","""NA""","""Cannot be used...","""74.56 mph (120...","""Mercedes-Benz ...",4,"""10,000	KG""","""RWD""","""6""","""August 14, 201...","""1.44 After Hou...","""87.25 mph (140...","""1:28.302""","""Bullet resista...",34,34,81,17,8,"""Speed 64.39""","""Acceleration 4...","""Braking 8.33""","""Handling 59.09...","""Overall 42.95""","""https://www.gt..."
"""GTA 5: Mammoth...","""Planes""","""Mammoth""","""Armored Vehicl...","""Elitás Travel""","""$500,000""","""Pegasus Vehicl...","""Pegasus Concie...","""Paint Job Only...","""Cannot be sold...","""NA""","""Transform Race...","""155.34 mph (25...","""De Havilland C...",4,"""2,000	KG""","""RWD""","""NA""","""November 18, 2...","""1.18 PS4 & Xbo...","""134.25 mph (21...","""0:55.335""","""Bulletproof fr...",2,1,2,1,1,"""Speed 76.07""","""Acceleration 2...","""Braking 18.99""","""Handling 25.95...","""Overall 36.50""","""https://www.gt..."
"""GTA 5: Fathom ...","""SUVs""","""Fathom""","""Mystery Prize""","""Can be stolen ...","""$50,000""","""Garage (Person...","""Mechanic""","""Los Santos Cus...","""Can be sold if...","""$30,000 ($96...","""Can be used in...","""83.89 mph (135...","""Infiniti QX70""",4,"""2,400	KG""","""NA""","""5""","""September 17, ...","""1.01 Game Laun...","""104.00 mph (16...","""1:18.880""","""No""",1,1,2,1,1,"""Speed 72.43""","""Acceleration 4...","""Braking 8.33""","""Handling 60.61...","""Overall 46.59""","""https://www.gt..."
"""GTA 5: Dinka E...","""Motorcycles""","""Dinka""","""Has Liveries, ...","""Southern S.A. ...","""$48,000""","""Garage (Person...","""Mechanic""","""Los Santos Cus...","""Can be sold on...","""$28,800 ($84...","""Can be used in...","""73.94 mph (119...","""Honda XL350, X...",2,"""220	KG""","""RWD""","""4""","""March 10, 2015...","""1.21 Heists DL...","""107.25 mph (17...","""1:09.137""","""No""",1,1,2,1,1,"""Speed 63.85""","""Acceleration 7...","""Braking 36.67""","""Handling 65.45...","""Overall 59.62""","""https://www.gt..."
"""GTA 5: Enus Co...","""Sedans""","""Enus""","""Armored Vehicl...","""Legendary Moto...","""$396,000""","""Garage (Person...","""Mechanic""","""Los Santos Cus...","""Can be sold on...","""$237,600 ($3...","""Can be used in...","""90.10 mph (145...","""Bentley Contin...",4,"""2,600	KG""","""RWD""","""5""","""December 15, 2...","""1.31 Executive...","""112.25 mph (18...","""1:14.007""","""Bullet resista...",2,2,4,1,1,"""Speed 77.80""","""Acceleration 6...","""Braking 18.33""","""Handling 66.67...","""Overall 56.95""","""https://www.gt..."
"""GTA 5: Karin 1...","""Sports Classic...","""Karin""","""Has Liveries, ...","""Legendary Moto...","""$900,000""","""Garage (Person...","""Mechanic""","""Los Santos Cus...","""Can be sold on...","""$540,000 ($7...","""Can be used in...","""86.99 mph (140...","""Datsun 240Z/Ni...",2,"""1,100	KG""","""RWD""","""5""","""February 20, 2...","""1.42 The Dooms...","""109.75 mph (17...","""1:10.371""","""No""",1,1,2,1,1,"""Speed 75.12""","""Acceleration 6...","""Braking 31.67""","""Handling 69.70...","""Overall 61.00""","""https://www.gt..."
"""GTA 5: RUNE Ch...","""Sports Classic...","""RUNE""","""Has Liveries, ...","""Southern S.A. ...","""$145,000""","""Garage (Person...","""Mechanic""","""Los Santos Cus...","""Can be sold on...","""$87,000 ($26...","""Can be used in...","""86.99 mph (140...","""VAZ-2101, VAZ-...",4,"""1,100	KG""","""RWD""","""5""","""June 5, 2018""","""1.43 Southern ...","""108.75 mph (17...","""1:12.006""","""No""",1,1,2,1,1,"""Speed 75.12""","""Acceleration 6...","""Braking 26.67""","""Handling 68.18...","""Overall 59.05""","""https://www.gt..."
"""GTA 5: HVY Bar...","""Military""","""HVY""","""Has Variants""","""Warstock Cache...","""$450,000""","""Pegasus Vehicl...","""Pegasus Concie...","""Cannot be modi...","""Cannot be sold...","""NA""","""Transform Race...","""68.35 mph (110...","""Daimler milita...",10,"""9,000	KG""","""RWD""","""5""","""September 17, ...","""1.01 Game Laun...","""82.50 mph (132...","""1:44.607""","""No""",1,1,2,1,1,"""Speed 59.02""","""Acceleration 2...","""Braking 10.00""","""Handling 50.00...","""Overall 36.63""","""https://www.gt..."


Allerdings sind wir noch nicht fertig - Es fehlen noch die Daten der Upgrade-Kosten.  
Diese sind in in zwei Batches inseparaten Dateien gespeichert. Sie enthalten ebenfalls eine Spalte mit der Fahrzeug URL, die wir nutzen können, um die Daten zu verknüpfen (mittels `join`).

In [740]:
try:
    dfcost = (pl.read_csv("resources/data/gta_v/gta_data_upgrade_cost_1.csv", columns=range(1,3))
        .extend(pl.read_csv("resources/data/gta_v/gta_data_upgrade_cost_2.csv", columns=range(1,3)))
    )
except (IOError, OSError) as e:
    print(f'Failed to read files {e}')
except Exception as e:
    print(f'Other error {e}')


if dfcost.shape != dfcost.unique().shape:
    print(f'Warning: {dfcost} has duplicates -> drop them manually')

In [741]:
df = df.join(dfcost, on='vehicle_url', how='left')
del dfcost

Jetzt ist ein wichtiger Aspekt, ob invalide Datenpunkte vorhanden sind. Das können z.b. fehlende Werte sein (Sensorausfall), aber auch ungültige Werte, die nicht in den erwarteten Bereich fallen (Nicht abgefangene Eingaben). 
Typischerweise werden diese in Polars als `null` dargestellt (Pandas: `NA`) und machen den gesamten Datenpunkt unbrauchbar. Numerisch nicht verwendbare Werte wie `+/-inf` oder `nan` sind ebenfalls ein Problem (allerdings sind dies keine _fehlenden_ Werte).

Oft wird man diese Werte einfach aus dem Datensatz entfernen, um das Ergebnis nicht zuverfälschen.
Allerdings kann dies zu einem Verlust von Information führen, wenn die Anzahl der ungültigen Werte zu groß ist.
Daher _kann_ es sinnvoll sein, diese Werte mit speziellen Werten zu ersetzen.
Eine weitere Möglichkeit ist "Clipping" - also das Setzen von Grenzwerten, die außerhalb des erwarteten Bereichs liegen.

In der Praxis ist dies nahezu immer erforderlich, da "echte" Daten häufig "verunreinigt" sind.

Mit folgendem Code können wir die Anzahl der `null` Werte pro Spalte ausgeben lassen, sofern überhaupt welche existieren.

In [742]:
# Entweder Pro Spalte > 0 oder über alle Spalten als Tabelle mit null_count()

#  for col in df.get_columns():
#     if col.is_null().sum() > 0:
#         print(f'{col.name : <24} {col.is_null().sum()}')

df.null_count()

title,vehicle_class,manufacturer,features,acquisition,price,storage_location,delivery_method,modifications,resale_flag,resale_price,race_availability,top_speed_in_game,based_on,seats,weight_in_kg,drive_train,gears,release_date,release_dlc,top_speed_real,lap_time,bulletproof,weapon1_resistance,weapon2_resistance,weapon3_resistance,weapon4_resistance,weapon5_resistance,speed,acceleration,braking,handling,overall,vehicle_url,upgrade_cost
u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32,u32
0,0,0,47,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In diesem Beispiel sehen wir, dass nur die Spalte `features` null-Werte enthält. 
Allerdings müssen wir hier genau hinschauen, da die Spalte `features` selbst eine Liste von Text-Werten ist.
> Achtung! `null` heißt hier also nur, dass keine besonderen features vorhanden sind - es wäre fatal diese Zeilen zu entfernen!  

Sonst gibt es einen einfachen Weg, alle Zeilen mit mindestens einem `null`-Wert zu entfernen bzw. zu ersetzen: `.drop_nulls()` / `.fill_null()`.

Hier hätten wir dann allerdings bei von 0 und 1 features die gleiche Länge an Listenelementen - also belassen wir es vorerst bei nulls
und erstellen später eine neue Spalte in der wir die Anzahl der Features berechnen.

### Datenbereinigung / Vorverarbeitung
Nachdem die Daten nun korrekt zusammengeführt wurden, können wir uns um die Datenbereinigung kümmern. 
Konkret fallen bei unserem Datensatz folgende Dinge auf:

1. In Spalte `title` ist ein redundantes "GTA 5:" enthalten. 
2. In Textspalten sollte vor- und nachstehender Whitespace entfernt werden.
3. Spalte `resale_price` enthält eigentlich 2 separate Werte, die auch in separaten Spalten stehen sollten z.B. `resale_price_base` und `resale_price_upgrade`
4. `top_speed_real`, `top_speed_in_game` enthält mph und kmh. Da wir nicht im letzten Jahrhundert leben, können wir mph verwerfen.
5. `speed`, `acceleration`, `braking`, `handling`, `overall`, `upgrade_cost`: Diese Spalten enthalten gemischten Text und numerische Werte. Wir müssen also die numerischen Werte extrahieren und die Spalten in numerische Werte umwandeln und entscheiden, was mit Sonderfällen wie "N/A" passiert.
6. Im Moment sind in der Spalte 'title' _manchmal_ noch Hersteller und Modellname vermischt, obwohl wir schon eine extra Spalte für den Hersteller haben (manchmal gibt es auch gar keinen Hersteller). Hier sollten wir noch eine Spalte `model` erzeugen und nur die Modellnamen extrahieren.
7. `release_date` und `lap_time` stehen fuer Datum und Zeit, sind aber aktuell als `str` gespeichert. Um mit diesen Werten zu sinnvoll zu arbeiten (vergleichen, rechnen), müssen wir sie in eines der `datetime` Formate umwandeln.


Im folgenden sehen wir einen gravierenden Unterschied zu Pandas:  
In Polars werden "Queries" aufgebaut, um DataFrames zu manipulieren. Diese werden allerdings erst berechnet, wenn wir das Ergebnis benötigen.
Dadurch kann Polars bestimmte Optimierungen auf den Queries ausführen, um die Berechnung zu beschleunigen.

Der DataFrame bietet u.A. die Hauptzugriffsmethoden `.select()`, `.filter()` und `.with_columns()`  welche als Parameter weitere Funktionen entgegennehmen, die auf den DataFrame angewendet werden.

In [743]:
# 1. Strip "GTA 5:" from title
# denken Sie an die Zuweisung an df, sonst ändert sich der DataFrame nicht
df = df.with_columns(
    pl.col('title').str.slice(7, None)
)


# 2. Strip leading/trailing whitespace from all text columns
# https://pola-rs.github.io/polars-book/user-guide/howcani/selecting_data/selecting_data_expressions.html
# filter        : select rows
# select        : select columns only return those
# with_columns  : operate on subset of columns but return all / add new columns
df = df.with_columns(
    pl.col(pl.Utf8).str.strip(" \t\n\r\b\f\v\a")
)

# 3. Split resale_price, then take care of NA/nulls (numeric conversion is handled below)
df = df.with_columns(
    pl.col('resale_price').str.replace('NA', '0(0'), # using this trick for consistent splitting
)
df = df.with_columns(
    (
    pl.col('resale_price')
    .str.split_exact(by='(', n=1)
    .struct.rename_fields(['resale_price_base','resale_price_upgrade'])
    .alias('fields')
    ),
).unnest('fields').drop(['resale_price'])

# 4. discard mph values from top_speed_in_game and top_speed_real because we're not savages
df = df.with_columns(
    (
    pl.col('top_speed_real')
    .str.split_exact(by='(', n=1)
    .struct.rename_fields(['mph','top_speed_real_kmh'])
    .alias('fields')
    ),
).unnest('fields').drop(['mph','top_speed_real'])

df = df.with_columns(
    (
    pl.col('top_speed_in_game')
    .str.split_exact(by='(', n=1)
    .struct.rename_fields(['mph','top_speed_in_game_kmh'])
    .alias('fields')
    ),
).unnest('fields').drop(['mph', 'top_speed_in_game'])

# 5. Strip non-numeric characters from numeric columns resale_price_base and resale_price_upgrade
# this is super ugly and could be done in a more elegant way by just retaining for numeric characters
stripchars = ' $abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ/) \n\t'
numeric_cols = ['resale_price_base', 
                'resale_price_upgrade', 
                'price', 
                'weight_in_kg', 
                'top_speed_real_kmh', 
                'top_speed_in_game_kmh',
                'speed',
                'acceleration',
                'braking',
                'handling',
                'overall',
                'upgrade_cost']
                

df = df.with_columns(
    pl.col(numeric_cols).str.strip(stripchars),
)
df = df.with_columns(
    pl.col(numeric_cols).str.replace_all(r',', ''),
)

# FIXME where $0 in upgrade_cost stripped to "", replace them with "0"
df = df.with_columns(pl.col('upgrade_cost').str.replace('','0'))

df = df.with_columns(
    pl.col(numeric_cols).cast(pl.Float64),
)

# 6. create model column from title
# create new column with model name
df = (
    df
    .with_columns(pl.col('title').str.split(' ')
    .alias('splits'),)
)

df = df.with_columns(
    [   
        pl.when(
            pl.col('splits').arr.lengths() == 1,
        )
        .then(
            pl.col('splits')
            .arr
            .slice(0, 1)
        )
        .otherwise(
            pl.col('splits')
            .arr
            .slice(1, None)
        ).arr
        .join(' ')
        .cast(pl.Utf8)
        .alias('model'),
    ]
).drop('splits')


# 7. create convert release_date and lap_time to date and duration
# see https://pola-rs.github.io/polars-book/user-guide/howcani/data/timestamps.html
# format opt table https://docs.rs/chrono/latest/chrono/format/strftime/index.html
# lap_time is not in standard format (minutes are single digit), have to convert first, luckily, the lap time is always single digit minutes so we can just add a leading zero


df = df.with_columns(
    (pl.lit('0') + pl.col('lap_time')).alias('lap_time'),
)

df = df.with_columns(
    [
        # for dates/times, use strptime and standard ISO format strings
        pl.col('release_date').str.strptime(pl.Date, fmt="%B %d, %Y"),
        # Only Date/Time/Datetime are supported, so we have to convert to Duration ourselves
        #pl.col('lap_time').str.strptime(pl.Time, fmt="%M:%S.%3f").cast(pl.Duration),
    ]
)

#print final data frame
df

title,vehicle_class,manufacturer,features,acquisition,price,storage_location,delivery_method,modifications,resale_flag,race_availability,based_on,seats,weight_in_kg,drive_train,gears,release_date,release_dlc,lap_time,bulletproof,weapon1_resistance,weapon2_resistance,weapon3_resistance,weapon4_resistance,weapon5_resistance,speed,acceleration,braking,handling,overall,vehicle_url,upgrade_cost,resale_price_base,resale_price_upgrade,top_speed_real_kmh,top_speed_in_game_kmh,model
str,str,str,str,str,f64,str,str,str,str,str,str,i64,f64,str,str,date,str,str,str,i64,i64,i64,i64,i64,f64,f64,f64,f64,f64,str,f64,f64,f64,f64,f64,str
"""Volatol""","""Planes""","""NA""","""Armored Vehicl...","""Warstock Cache...",3.724e6,"""Hangar (Person...","""Interaction Me...","""Hangar Aircraf...","""Can be sold on...","""Transform Race...","""Avro Vulcan, M...",4,40000.0,"""NA""","""NA""",2017-12-12,"""1.42 The Dooms...","""00:53.501""","""Bulletproof fr...",3,1,2,1,1,76.07,28.58,32.5,1.01,34.54,"""https://www.gt...",374150.0,2.2344e6,2.421475e6,266.35,250.0,"""Volatol"""
"""Sadler""","""Utility""","""Vapid""","""Has Variants, ...","""Can be stolen ...",35000.0,"""Garage (Person...","""Mechanic""","""Los Santos Cus...","""Can be sold if...","""Can be used in...","""First Generati...",4,2100.0,"""NA""","""5""",2013-09-17,"""1.01 Game Laun...","""01:19.113""","""No""",1,1,2,1,1,69.75,50.0,20.0,62.12,50.47,"""https://www.gt...",176750.0,21000.0,109375.0,160.93,130.0,"""Sadler"""
"""Benefactor Ter...","""Commercial""","""Benefactor""","""Armored Vehicl...","""Warstock Cache...",1.375e6,"""Nightclub Ware...","""Interaction Me...","""Point of Stora...","""Cannot be sold...","""Cannot be used...","""Mercedes-Benz ...",4,10000.0,"""RWD""","""6""",2018-08-14,"""1.44 After Hou...","""01:28.302""","""Bullet resista...",34,34,81,17,8,64.39,40.0,8.33,59.09,42.95,"""https://www.gt...",256000.0,0.0,0.0,140.41,120.0,"""Terrorbyte"""
"""Mammoth Dodo""","""Planes""","""Mammoth""","""Armored Vehicl...","""Elitás Travel""",500000.0,"""Pegasus Vehicl...","""Pegasus Concie...","""Paint Job Only...","""Cannot be sold...","""Transform Race...","""De Havilland C...",4,2000.0,"""RWD""","""NA""",2014-11-18,"""1.18 PS4 & Xbo...","""00:55.335""","""Bulletproof fr...",2,1,2,1,1,76.07,25.0,18.99,25.95,36.5,"""https://www.gt...",0.0,0.0,0.0,216.05,250.0,"""Dodo"""
"""Fathom FQ 2""","""SUVs""","""Fathom""","""Mystery Prize""","""Can be stolen ...",50000.0,"""Garage (Person...","""Mechanic""","""Los Santos Cus...","""Can be sold if...","""Can be used in...","""Infiniti QX70""",4,2400.0,"""NA""","""5""",2013-09-17,"""1.01 Game Laun...","""01:18.880""","""No""",1,1,2,1,1,72.43,45.0,8.33,60.61,46.59,"""https://www.gt...",132200.0,30000.0,96100.0,167.37,135.0,"""FQ 2"""
"""Dinka Enduro""","""Motorcycles""","""Dinka""","""Has Liveries, ...","""Southern S.A. ...",48000.0,"""Garage (Person...","""Mechanic""","""Los Santos Cus...","""Can be sold on...","""Can be used in...","""Honda XL350, X...",2,220.0,"""RWD""","""4""",2015-03-10,"""1.21 Heists DL...","""01:09.137""","""No""",1,1,2,1,1,63.85,72.5,36.67,65.45,59.62,"""https://www.gt...",111000.0,28800.0,84300.0,172.6,119.0,"""Enduro"""
"""Enus Cognoscen...","""Sedans""","""Enus""","""Armored Vehicl...","""Legendary Moto...",396000.0,"""Garage (Person...","""Mechanic""","""Los Santos Cus...","""Can be sold on...","""Can be used in...","""Bentley Contin...",4,2600.0,"""RWD""","""5""",2015-12-15,"""1.31 Executive...","""01:14.007""","""Bullet resista...",2,2,4,1,1,77.8,65.0,18.33,66.67,56.95,"""https://www.gt...",132200.0,237600.0,303700.0,180.65,145.0,"""Cognoscenti 55..."
"""Karin 190z""","""Sports Classic...","""Karin""","""Has Liveries, ...","""Legendary Moto...",900000.0,"""Garage (Person...","""Mechanic""","""Los Santos Cus...","""Can be sold on...","""Can be used in...","""Datsun 240Z/Ni...",2,1100.0,"""RWD""","""5""",2018-02-20,"""1.42 The Dooms...","""01:10.371""","""No""",1,1,2,1,1,75.12,67.5,31.67,69.7,61.0,"""https://www.gt...",437725.0,540000.0,758863.0,176.63,140.0,"""190z"""
"""RUNE Cheburek""","""Sports Classic...","""RUNE""","""Has Liveries, ...","""Southern S.A. ...",145000.0,"""Garage (Person...","""Mechanic""","""Los Santos Cus...","""Can be sold on...","""Can be used in...","""VAZ-2101, VAZ-...",4,1100.0,"""RWD""","""5""",2018-06-05,"""1.43 Southern ...","""01:12.006""","""No""",1,1,2,1,1,75.12,66.25,26.67,68.18,59.05,"""https://www.gt...",363240.0,87000.0,268620.0,175.02,140.0,"""Cheburek"""
"""HVY Barracks""","""Military""","""HVY""","""Has Variants""","""Warstock Cache...",450000.0,"""Pegasus Vehicl...","""Pegasus Concie...","""Cannot be modi...","""Cannot be sold...","""Transform Race...","""Daimler milita...",10,9000.0,"""RWD""","""5""",2013-09-17,"""1.01 Game Laun...","""01:44.607""","""No""",1,1,2,1,1,59.02,27.5,10.0,50.0,36.63,"""https://www.gt...",0.0,0.0,0.0,132.77,110.0,"""Barracks"""


Jetzt haben wir (endlich) einen sauberen Datensatz mit den korrekten Datentypen, der ein statistisches Experiment beschreibt.  
Hierbei sind die 

- *Spalten* sind jeweils Zufallsvariablen 
- *Zeilen* die einzelnen Observationen. 
  
Diese Form wollen wir immer erreichen und es ist auch die Form, in der wir die Daten in eine Datenbank schreiben oder an ein ML-Modell übergeben.

Zum Schluss dieses Arbeitsschritts schreiben wir diesen Datensatz in eine neue Datei, damit wir ihn später einfacher wiederverwenden können.  
Wir verwenden hier das `parquet` Format, welches sehr performant ist und die Daten komprimiert speichert.
CSV ist natuerlich auch eine Möglichkeit, wenn man die Daten weiterhin in einem menschenlesbaren Format haben möchte.  

Bei so einem kleinen Datensatz machen wir einfach beides :)

In [744]:
df.write_csv("resources/data/gta_v/gta_v_data.csv")
# we can also use a non-human readable (but smaller and faster to load) format, e.g. parquet
df.write_parquet("resources/data/gta_v/gta_v_data.parquet")