# 2. Subsetting & neue DataFrames

In [7]:
## 1. Bibliotheken importieren

In [8]:
import pandas as pd   # pandas für Datenanalyse
import numpy as np    # NumPy für numerische Operationen
import os             # os für Dateipfade und Ordneroperationen

In [9]:
## 2. Importierung den Datensatz

In [10]:
df_prods = pd.read_csv(r'C:\Users\faink\Desktop\Achievement_4\02_Daten\Rohe_Daten\products.csv', index_col = False)

## 3. Format einer Identifikationsvariable ändern

In [11]:
df_ords = pd.read_csv(r'C:\Users\faink\Desktop\Achievement_4\02_Daten\Rohe_Daten\orders.csv', index_col = False)

In [12]:
# Umwandlung von order_id in String
df_ords['order_id'] = df_ords['order_id'].astype(str)

# Alternativ: user_id umwandeln
df_ords['user_id'] = df_ords['user_id'].astype(str)

# Überprüfung
df_ords.dtypes

order_id                   object
user_id                    object
eval_set                   object
order_number                int64
order_dow                   int64
order_hour_of_day           int64
days_since_prior_order    float64
dtype: object

Die Variable wurde in den Datentyp „String“ umgewandelt, da es sich um eine Identifikationsvariable handelt und keine numerischen Berechnungen durchgeführt werden sollen.

## 4. Eine nicht intuitive Variable umbenennen (ohne Überschreiben des DataFrames)

In [13]:
df_ords_renamed = df_ords.rename(columns={'order_dow': 'order_day_of_week'})

# Überprüfung
df_ords_renamed.columns

Index(['order_id', 'user_id', 'eval_set', 'order_number', 'order_day_of_week',
       'order_hour_of_day', 'days_since_prior_order'],
      dtype='object')

Die Variable wurde umbenannt, um die Lesbarkeit und Verständlichkeit des Datensatzes zu verbessern.

## 5. Die meistgenutzte Bestellstunde ermitteln

In [14]:
df_ords['order_hour_of_day'].value_counts().sort_index()

order_hour_of_day
0      22758
1      12398
2       7539
3       5474
4       5527
5       9569
6      30529
7      91868
8     178201
9     257812
10    288418
11    284728
12    272841
13    277999
14    283042
15    283639
16    272553
17    228795
18    182912
19    140569
20    104292
21     78109
22     61468
23     40043
Name: count, dtype: int64

Die am stärksten frequentierte Stunde:

In [15]:
df_ords['order_hour_of_day'].value_counts().idxmax()


np.int64(10)

Die Analyse zeigt, zu welcher Tageszeit die meisten Bestellungen aufgegeben wurden.

## 6. Subset für Frühstücksprodukte erstellen

In [16]:
df_breakfast = df_prods.loc[df_prods['department_id'] == 14]

df_breakfast.head()


Unnamed: 0,product_id,product_name,aisle_id,department_id,prices
27,28,Wheat Chex Cereal,121,14,10.1
33,34,,121,14,12.2
67,68,"Pancake Mix, Buttermilk",130,14,13.7
89,90,Smorz Cereal,121,14,3.9
210,211,Gluten Free Organic Cereal Coconut Maple Vanilla,130,14,3.6


Es wurde ein Subset erstellt, das ausschließlich Produkte aus der Frühstückskategorie enthält.

## 7. Subset für „Dinner Party“-Produkte erstellen

In [17]:
df_dinner_party = df_prods.loc[
    df_prods['department_id'].isin([5, 13, 7, 15])
]

df_dinner_party.head()

Unnamed: 0,product_id,product_name,aisle_id,department_id,prices
1,2,All-Seasons Salt,104,13,9.3
2,3,Robust Golden Unsweetened Oolong Tea,94,7,4.5
4,5,Green Chile Anytime Sauce,5,13,4.3
6,7,Pure Coconut Water With Orange,98,7,4.4
9,10,Sparkling Orange Juice & Prickly Pear Beverage,115,7,8.4


Dieses Subset enthält Produkte, die typischerweise für eine Dinner-Party relevant sind (z. B. Alkohol, Feinkost, Getränke sowie Fleisch/Meeresfrüchte).

## 8. Anzahl der Zeilen im neuen DataFrame prüfen

In [18]:
df_dinner_party.shape

(12884, 5)

Die Anzahl der Beobachtungen im neu erstellten Subset wurde überprüft.

## 9. Alle Daten für user_id = 1 anzeigen

In [19]:
df_user_1 = df_ords[df_ords['user_id'] == '1']

df_user_1.head()


Unnamed: 0,order_id,user_id,eval_set,order_number,order_dow,order_hour_of_day,days_since_prior_order
0,2539329,1,prior,1,2,8,
1,2398795,1,prior,2,3,7,15.0
2,473747,1,prior,3,3,12,21.0
3,2254736,1,prior,4,4,7,29.0
4,431534,1,prior,5,4,15,28.0


Es wurde ein Subset erstellt, das alle Bestellungen des Nutzers mit der ID 1 enthält.

## 10. Deskriptive Statistik für diesen Nutzer

In [20]:
df_user_1.describe()

Unnamed: 0,order_number,order_dow,order_hour_of_day,days_since_prior_order
count,11.0,11.0,11.0,10.0
mean,6.0,2.636364,10.090909,19.0
std,3.316625,1.286291,3.477198,9.030811
min,1.0,1.0,7.0,0.0
25%,3.5,1.5,7.5,14.25
50%,6.0,3.0,8.0,19.5
75%,8.5,4.0,13.0,26.25
max,11.0,4.0,16.0,30.0


Die deskriptive Analyse liefert Informationen über das Bestellverhalten des ausgewählten Nutzers (z. B. bevorzugte Uhrzeit oder Bestellintervalle).

## 11. Export von df_ords

In [21]:
path = r'C:\Users\faink\Desktop\Achievement_4\02_Daten'

df_ords.to_csv(os.path.join(path, 'Prepared_Daten', 'orders_wrangled.csv'), index=False)



## 12. Struktur des Notebooks (Markdown-Überschriften)

In [22]:
# Data Wrangling

## Formatierung von Variablen

## Umbenennung von Variablen

## Subsetting von Daten

## Analyse eines einzelnen Nutzers

## Export der bereinigten Datensätze