In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import re

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
df = pd.read_csv('/content/drive/MyDrive/sales.csv')
pd.read_csv('/content/drive/MyDrive/sales.csv')

Unnamed: 0,order_id,name,ordered_at,price,quantity,line_total,date,temp,rain_dur,temp_max
0,10000,"""ICE CREAM"" Peanut Fudge",2018-01-01 11:30:00,$3.50,3,$10.50,2018-01-01,7.13,318.63,9.06
1,10000,"""ICE CREAM"" Peanut Fudge",2018-01-01 11:30:00,$3.50,1,$3.50,2018-01-01,7.13,318.63,9.06
2,10001,"""SORBET"" Raspberry",2018-01-01 12:14:54,$2.50,2,$5.00,2018-01-02,5.48,284.97,6.89
3,10001,,2018-01-01 12:14:54,$1.50,1,$1.50,2018-01-02,5.48,284.97,6.89
4,10001,"""CONE"" Dipped Waffle Cone",2018-01-01 12:14:54,$3.50,1,$3.50,2018-01-02,5.48,284.97,6.89
...,...,...,...,...,...,...,...,...,...,...
29917,18452,"""ICE CREAM"" Dulce De Leche",2018-06-26 03:56:13,$-1.50,2,$-3.00,2018-06-26,19.98,0.00,24.71
29918,12889,"""ICE CREAM"" Dark Chocolate",2018-03-03 10:06:21,$4.00,3,$12.00,2018-03-03,0.25,206.50,2.96
29919,14526,"""ICE CREAM"" Peanut Fudge",2018-04-05 17:33:24,$3.50,3,$10.50,2018-04-06,10.91,0.00,17.08
29920,19589,"""CONE"" Dipped Waffle Cone",2018-07-20 09:10:01,$3.50,2,$7.00,2018-07-20,23.97,78.68,29.61


In [None]:
df.shape

In [None]:
# Kolonnen ausgeben
df.dtypes

In [None]:
# überprüft ob es in name values hat die null sind
df['name'].isnull().values.any()

In [None]:
# zählen wie viele null sind
df['name'].isnull().sum()

1488

In [None]:
# Eine weitere Möglichkeit wäre über die Methode info() des Dataframes. Dort sehen wir, wie viele Not-Null Values wir haben:
df.info()

# **Umgang mit NULL/NaN Felder**

In [None]:
# alle n/a-Werte mit 0 füllen
df2 = df # altes Dataframe in neues kopieren
df2 = df2.fillna(0)
df2['name'].isnull().sum() # ausgeben wie viele noch null sind --> keine wurden ja alle ersetzt durch 0

In [None]:
df2['name'].isnull().values.any()

In [None]:
# Records entfernen
df2 = df # altes Dataframe in neues kopieren
df2 = df2.dropna()
df2

In [None]:
# df auch bereinigen
df = df.dropna()

In [None]:
# Daten sortieren
# Möchten wir die Daten in einem Feld sortieren, können wir hier auf sort_values von Pandas zugreifen
df.sort_values(by='order_id')

In [None]:
# Duplikate finden
df.duplicated()

In [None]:
# Duplikate entfernen
df = df.drop_duplicates()

In [None]:
# Zielspalte in Datetime umwandeln
df.ordered_at = pd.to_datetime(df.ordered_at)

In [None]:
# Datentyp für "price" und "line_total" ändern
# Diese Funktion schneidet das erste Zeichen des Strings ab. Konkret wird also
#das $-Zeichen entfernt und das gesamte Feld in einen float umgewandelt.
df.price = df.price.apply(lambda x: float(x[1:]))

In [None]:
# das gleiche für line_total
df.line_total = df.line_total.apply(lambda x: float(x[1:]))

In [None]:
df

In [None]:
# Wenn wir nun df.info() aufrufen, sehen wir dass Pandas das Datenformat bereits
#in "float64" geändert hat. Somit müssen wir nichts mehr tun
df.info()

In [None]:
# Numerische Felder analysieren
df.describe()

In [None]:
# boxplot für temp
plt.boxplot(df.temp)

In [None]:
# boxplot für temp_max
plt.boxplot(df.temp_max)

In [None]:
# boxplot für rain_dur --> Die Punkte sind Ausreisser
plt.boxplot(df.rain_dur)

In [None]:
# Überblick von Ice-Creme Sorten
df.name.unique()

In [None]:
pattern = r'^"([A-Z ]+)" (.*)'
transform_func = lambda x: re.findall(pattern, x)[0]

df[['category', 'name']] = df['name'] \
    .apply(transform_func) \
    .apply(pd.Series)

In [None]:
df.head()

In [None]:
# Verteilung anzeigen - wieviele Eiscreme pro Sorte verkauft wurden
f, ax = plt.subplots(figsize=(10, 6)) # Neuen Plot in der Grösse 10x6 erzeugen
df.groupby('name')['line_total'].sum().sort_values(ascending=False).head(10).plot(kind='bar', color=['r', 'g', 'b'])
# Dataframe mit dem Feld Name gruppieren, auf das Feld line_total summieren und anschliessend absteigend Sortieren.
# Anschliessend werden die zehn oberen Records genommen und mit den Farben rot, grün und blau ausgegeben.
f.autofmt_xdate() # Autoformat auf der X-Achse setzen
plt.show() # Plot anzeigen

In [None]:
# Das gleiche mit anderen Kategorien
f, ax = plt.subplots(figsize=(8, 6)) # Neuen Plot in der Grösse 8x6 erzeugen
df.groupby('category')['line_total'].sum().sort_values(ascending=False).plot(kind='bar', color=['r', 'g', 'b'])
# Dataframe mit dem Feld Category gruppieren, auf das Feld line_total summieren und anschliessend absteigend Sortieren.
# Anschliessend werden die zehn oberen Records genommen und mit den Farben rot, grün und blau ausgegeben.
f.autofmt_xdate() # Autoformat auf der X-Achse setzen
plt.show() # Plot anzeigen

In [None]:
# Zeitstrahl
f, ax = plt.subplots(figsize=(17, 6)) # Neuen Plot mit der Grösse 17x6 erzeugen
df.resample('W', on='ordered_at')['line_total'].sum().plot()
# Daten aufsteigend nach "ordered_at" neu darstellen und mit dem Linetotal summieren und anschliessend plotten
plt.show() # Plot anzeigen

In [None]:
# Weekday Feld erzeugen
df['weekday'] = df.apply(lambda x: x['ordered_at'].strftime('%A'), axis=1)

In [None]:
f, ax = plt.subplots(figsize=(10, 7))
df.groupby('weekday')['line_total'].sum().sort_values(ascending=False).head(10).plot(kind='bar', color=['r', 'g', 'b'])
f.autofmt_xdate()
plt.show()

In [None]:
# Verkäufe nach Temperatur
df_new = df[['date', 'temp', 'line_total']].groupby(['date', 'temp'])['line_total'].sum()

In [None]:
df_new

In [None]:
# Index wieder auf das Datumsfeld zurücksetzen
df_new = df_new.reset_index(level=[0,1])

In [None]:
# Scatterplot ausgeben
plt.scatter(df_new['temp'], df_new['line_total'])

In [None]:
# Scatterplot über die Regendauer und die Temperatur
plt.scatter(df.temp, df.rain_dur)