# Projekt
Programming for Data Science
Lukas Schierle

## 1. Definition/Formulierung der Fragestellung
## Aufgabenstellung (10 Pkt.)

Definieren Sie eine Sie interessierende bzw. interessante Fragestellung im Zusammenhang mit dem Datensatz:

-   Was interessiert Sie an dem Datensatz?
-   Welche spezifische Fragestellung würden Sie gern mit Hilfe des Datensatzes beantworten?
-   Was erwarten Sie, angesichts Ihrer Fragestellung, bezüglich des Datensatzes?

## Fragestellung zum Datensatz
- Welche Produkte verkaufen sich am besten?
- In welchen Staaten werden die besten Umsätze gemacht?
- Welche "Ship Mode[s]" werden in welchen Staaten am meisten genutzt?
- Welche Produkte werden mit hoher Priorität bewertet?
- Wie wirken Discounts auf die Bestellungen?

### Denkbar ist die Kombination mit weiteren Daten
- Hat das Wetter einen Einfluss auf die Bestellungen?

## 2. Laden der Daten
## Aufgabenstellung (10 Pkt.)

Laden Sie die Daten in das Notebook und verschaffen Sie sich einen ersten Überblick \* Welche Typen sind enthalten? \* Ist sichergestellt, dass alle Daten den richtigen Typ haben? \* Haben die Daten irgendwelche "Seltsamkeiten" mit denen Sie umgehen müssen, wie z.B. anders codierte `NA`'s, mehrere Tabellen, ... etc. \* Je nach Datensatz können Sie die Daten auch in eine Datenbank laden und dann auf diese in Python zugreifen.

Beschreiben Sie, was Sie tun müssen, bevor Sie die Daten im nächsten Abschnitt aufbereiten und bearbeiten können!


### Beschreibung des Datensatzes: 
**Australia Retail Data** (z.Dt.: Australien-Einzelhandelsdaten) \
Heruntergeladen von der Plattform Kaggle am ``09.04.2024``: https://www.kaggle.com/datasets/chickenfulleton/australia-retail-data \
Der Datensatz steht unter der folgenden Creative Commons Lizens: [Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)](https://creativecommons.org/licenses/by-nc/4.0/)

In [48]:
# Laden der Daten als pandas dataframe
import pandas as pd 

df = pd.read_csv("../data/dataaus.csv")
df.head()

Unnamed: 0,Order No,Order Date,Customer Name,Address,City,State,Customer Type,Account Manager,Order Priority,Product Name,...,Cost Price,Retail Price,Profit Margin,Order Quantity,Sub Total,Discount %,Discount $,Order Total,Shipping Cost,Total
0,4293-1,2/9/2019,Vivek Sundaresam,"152 Bunnerong Road,Eastgardens",Sydney,NSW,Small Business,Tina Carlton,Critical,UGen Ultra Professional Cordless Optical Suite,...,$156.50,$300.97,$144.47,23.0,"$4,533.52",2%,$194.83,"$4,757.22",$7.18,"$4,291.55"
1,5001-1,24/10/2020,Shahid Hopkins,"438 Victoria Avenue,Chatswood",Sydney,NSW,Corporate,Natasha Song,Medium,Bagged Rubber Bands,...,$0.24,$1.26,$1.02,8.0,$45.20,3%,$0.00,$45.90,$0.70,$46.91
2,5004-1,13/3/2019,Dennis Pardue,"412 Brunswick St,Fitzroy",Melbourne,VIC,Consumer,Connor Betts,Not Specified,TechSavi Cordless Navigator Duo,...,$42.11,$80.98,$38.87,45.0,$873.32,4%,$72.23,$837.57,$7.18,$82.58
3,5009-1,18/2/2018,Sean Wendt,"145 Ramsay St,Haberfield",Sydney,NSW,Small Business,Phoebe Gour,Critical,Artisan Printable Repositionable Plastic Tabs,...,$5.33,$8.60,$3.27,16.0,$73.52,1%,$4.35,$740.67,$6.19,$730.92
4,5010-1,13/9/2019,Christina Vanderzanden,"188 Pitt Street,Sydney",Sydney,NSW,Small Business,Tina Carlton,Not Specified,Pizazz Drawing Pencil Set,...,$1.53,$2.78,$1.25,49.0,$138.46,7%,$5.95,$123.77,$1.34,$125.97


In [49]:
# Exploration des dataframes
print(df.info())
anz_zeilen, anz_spalten = df.shape
print(f"Der Datensatz hat {anz_zeilen} Zeilen und {anz_spalten} Spalten.")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 24 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Order No           5000 non-null   object 
 1   Order Date         5000 non-null   object 
 2   Customer Name      5000 non-null   object 
 3   Address            4999 non-null   object 
 4   City               5000 non-null   object 
 5   State              5000 non-null   object 
 6   Customer Type      5000 non-null   object 
 7   Account Manager    5000 non-null   object 
 8   Order Priority     5000 non-null   object 
 9   Product Name       5000 non-null   object 
 10  Product Category   5000 non-null   object 
 11  Product Container  5000 non-null   object 
 12  Ship Mode          5000 non-null   object 
 13  Ship Date          5000 non-null   object 
 14  Cost Price         5000 non-null   object 
 15  Retail Price       5000 non-null   object 
 16  Profit Margin      5000 

### Was fällt auf?
- Es scheinen alle Spalten auch mit Werten gefüllt zu sein, lediglich in den Spalten ``Address`` & ``Order Quantity`` gibt es jeweils einen null value
- Alle Spalten, bis auf ``Order Quantity`` haben den Datentyp ``object``, darunter sind auch Spalten, welche zu welchen vermutlich eher eine anderer Datentyp besser passt: Diese müssen anschließend transformiert werden. 

In [50]:
# Diese beiden Eintrage betrachten: 
adress_is_null = df[df['Address'].isnull()]
order_quantity_is_null = df[df['Order Quantity'].isnull()]
                       
print(adress_is_null)
print(order_quantity_is_null)

     Order No Order Date Customer Name Address    City State   Customer Type  \
4354   6384-1  27/4/2021  Patt Bawkins     NaN  Sydney   NSW  Small Business   

     Account Manager Order Priority              Product Name  ... Cost Price  \
4354    Tina Carlton           High  HFX LaserJet 3310 Copier  ...    $377.99   

     Retail Price Profit Margin Order Quantity  Sub Total Discount %  \
4354      $599.99       $222.00           47.0  $9,599.84         0%   

     Discount $  Order Total Shipping Cost      Total  
4354      $0.00    $9,599.84        $24.49  $9,624.33  

[1 rows x 24 columns]
     Order No Order Date Customer Name                  Address    City State  \
1411   5428-1  25/2/2019   Jhrip Luxen  4A Lyons St,Strathfield  Sydney   NSW   

     Customer Type Account Manager Order Priority             Product Name  \
1411   Home Office    Tina Carlton           High  Creator Colored Pencils   

      ... Cost Price Retail Price Profit Margin Order Quantity Sub Total  \


Die fehlende Adresse lässt sich aus dem Datensatz nicht weiter ermitteln.
Der fehlende Eintrag aus der Order Quality ist jedoch implizit im Datensatz erhalten und kann ermittlet werden, indem ``Sub Total`` durch ``Retail Price`` geteilt wird.

In [51]:
import numpy as np

def calculate_order_quantity(row):
    sub_total= np.float64(row['Sub Total'].replace('$', ''))
    retail_price = np.float64(row['Retail Price'].replace('$', ''))
    calculated_order_quantity = np.round((sub_total / retail_price), 1)
    return calculated_order_quantity

#df.loc[df['Order Quantity'].isnull(), 'Order Quantity'] = df[df['Order Quantity'].isnull()].apply(calculate_order_quantity, axis=1)

df['Order Quantity'] = df.apply(lambda row: calculate_order_quantity(row) if pd.isnull(row['Order Quantity']) else np.float64(row['Order Quantity']), axis=1)
# Prüfen, ob es weiterhin einen Null Value in der Spalte gibt
order_quantity_is_null = df[df['Order Quantity'].isnull()]
print(order_quantity_is_null)

Empty DataFrame
Columns: [Order No, Order Date, Customer Name, Address, City, State, Customer Type, Account Manager, Order Priority, Product Name, Product Category, Product Container, Ship Mode, Ship Date, Cost Price, Retail Price, Profit Margin, Order Quantity, Sub Total, Discount %, Discount $, Order Total, Shipping Cost, Total]
Index: []

[0 rows x 24 columns]


In [52]:
df.head()

Unnamed: 0,Order No,Order Date,Customer Name,Address,City,State,Customer Type,Account Manager,Order Priority,Product Name,...,Cost Price,Retail Price,Profit Margin,Order Quantity,Sub Total,Discount %,Discount $,Order Total,Shipping Cost,Total
0,4293-1,2/9/2019,Vivek Sundaresam,"152 Bunnerong Road,Eastgardens",Sydney,NSW,Small Business,Tina Carlton,Critical,UGen Ultra Professional Cordless Optical Suite,...,$156.50,$300.97,$144.47,23.0,"$4,533.52",2%,$194.83,"$4,757.22",$7.18,"$4,291.55"
1,5001-1,24/10/2020,Shahid Hopkins,"438 Victoria Avenue,Chatswood",Sydney,NSW,Corporate,Natasha Song,Medium,Bagged Rubber Bands,...,$0.24,$1.26,$1.02,8.0,$45.20,3%,$0.00,$45.90,$0.70,$46.91
2,5004-1,13/3/2019,Dennis Pardue,"412 Brunswick St,Fitzroy",Melbourne,VIC,Consumer,Connor Betts,Not Specified,TechSavi Cordless Navigator Duo,...,$42.11,$80.98,$38.87,45.0,$873.32,4%,$72.23,$837.57,$7.18,$82.58
3,5009-1,18/2/2018,Sean Wendt,"145 Ramsay St,Haberfield",Sydney,NSW,Small Business,Phoebe Gour,Critical,Artisan Printable Repositionable Plastic Tabs,...,$5.33,$8.60,$3.27,16.0,$73.52,1%,$4.35,$740.67,$6.19,$730.92
4,5010-1,13/9/2019,Christina Vanderzanden,"188 Pitt Street,Sydney",Sydney,NSW,Small Business,Tina Carlton,Not Specified,Pizazz Drawing Pencil Set,...,$1.53,$2.78,$1.25,49.0,$138.46,7%,$5.95,$123.77,$1.34,$125.97


Um die Berechnung des Werts vornehmen zu können, müssen zunächst die Datentypen der Spalten angepasst werden.

In [53]:
column_names = df.columns.tolist()
print(column_names)

['Order No', 'Order Date', 'Customer Name', 'Address', 'City', 'State', 'Customer Type', 'Account Manager', 'Order Priority', 'Product Name', 'Product Category', 'Product Container', 'Ship Mode', 'Ship Date', 'Cost Price', 'Retail Price', 'Profit Margin', 'Order Quantity', 'Sub Total', 'Discount %', 'Discount $', 'Order Total', 'Shipping Cost', 'Total']


In [54]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 24 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Order No           5000 non-null   object 
 1   Order Date         5000 non-null   object 
 2   Customer Name      5000 non-null   object 
 3   Address            4999 non-null   object 
 4   City               5000 non-null   object 
 5   State              5000 non-null   object 
 6   Customer Type      5000 non-null   object 
 7   Account Manager    5000 non-null   object 
 8   Order Priority     5000 non-null   object 
 9   Product Name       5000 non-null   object 
 10  Product Category   5000 non-null   object 
 11  Product Container  5000 non-null   object 
 12  Ship Mode          5000 non-null   object 
 13  Ship Date          5000 non-null   object 
 14  Cost Price         5000 non-null   object 
 15  Retail Price       5000 non-null   object 
 16  Profit Margin      5000 

In [55]:
# Transformation der Datentypen
data_type_map = {'Order No': str, 'Order Date': 'datetime64[D]', 'Customer Name': str, 'Address': str, 'City': str, 'State': str, 
                 'Customer Type': str, 'Account Manager': str, 'Order Priority': str, 'Product Name': str, 'Product Category': str,
                 'Product Container': str, 'Ship Mode': str, 'Ship Date': 'datetime64[D]', 'Cost Price': float, 'Retail Price' :float,
                 'Profit Margin' : float, 'Order Quantity': float, 'Sub Total': float, 'Discount %': float, 'Discount $': float, 
                 'Order Total': float, 'Shipping Cost': float, 'Total': float}

dollar_columns = ('Cost Price', 'Retail Price', 'Profit Margin', 'Sub Total', 'Discount $', 'Order Total', 'Shipping Cost', 'Total')
percent_columns = ('Discount %')

for column, dtype in data_type_map.items():
#    print('Start transformation of column '+ str(column)) # for debbuging
    if dtype == 'datetime64[D]':
        df[column] = pd.to_datetime(df[column], format='%d/%m/%Y')
    elif column in dollar_columns:
        df[column] = df[column].str.replace('$', '').str.replace('.', '').str.replace(',','.').astype(float)
    elif column in percent_columns:
        df[column] = df[column].str.replace('%', '').str.replace('.', '').str.replace(',','.').astype(float)
    else:
        df[column] = df[column].astype(dtype)

In [56]:
# Prüfen der Datentypen
print('Die Datentypen nach der Transformation: \n'+ str(df.dtypes))

Die Datentypen nach der Transformation: 
Order No                     object
Order Date           datetime64[ns]
Customer Name                object
Address                      object
City                         object
State                        object
Customer Type                object
Account Manager              object
Order Priority               object
Product Name                 object
Product Category             object
Product Container            object
Ship Mode                    object
Ship Date            datetime64[ns]
Cost Price                  float64
Retail Price                float64
Profit Margin               float64
Order Quantity              float64
Sub Total                   float64
Discount %                  float64
Discount $                  float64
Order Total                 float64
Shipping Cost               float64
Total                       float64
dtype: object


## 3. Bearbeiten/Transformieren der Daten
## Aufgabenstellung (15 Pkt.)

In diesem Abschnitt sollten Sie alle notwendigen Transformationen/Bereiningungen/... etc. der Daten vornehmen (Data Muning, Data Cleansing), wie z.B.: \* Umcodierung von Daten, z.B. numerisch in kategorial \* Subsetting der Daten \* Joining von Datentabellen - falls nötig. Welcher Join ist notwendig? Warum? \* ...

Verschaffen Sie sich eine Übersicht der transformierten Daten. Sie können hierzu Hilfsmittel wie `glimpse()`, `skim()` und `head()` benutzen, um Ihre Erläuterungen zu veranschaulichen.

Sind die sich ergebenden Daten so, wie Sie es erwartet haben? Warum oder warum nicht?

## 4. Geeignete Visualisierung und Aggregation der Daten
## Aufgabenstellung (15 Pkt.)

Fassen Sie die Daten in einer geeigenten Form zur Beantwortung Ihrer formulierten Fragestellung zusammen. Ziehen Sie auch geeignete Visualisierungen der transformierten und/oder aggregierten Daten heran, um Ihre Aussagen entsprechend zu untermauern oder zu veranschaulichen.

Hier könne Sie auch geeignete statistische Verfahren bzw. Modellierungen nutzen, falls diese Ihnen bezüglich Ihrer Fragestellung weiterhelfen.

## 5. Zusammenfassung und Schlussfolgerung
## Aufgabenstellung (10 Pkt.)

Fassen Sie hier Ihre Fragestellung und Ihre Erkenntnisse aus Ihrer Analyse zusammen.

Sind Ihre Erkenntnisse das, was Sie erwartet haben? Warum oder warum nicht?

## Quellenverzeichnis