# 2.6. Dane relacyjne, a ramki danych

Wspomnieliśmy już wcześniej, że na pojedynczą ramkę danych możemy patrzeć jak na tabelę w relacyjnej bazie danych. Jak sama nazwa wskazuje, dane relacyjne są jednak ze sobą powiązane i taką samą możliwość chcielibyśmy mieć również w przypadku naszych ramek danych. Dodatkowo, algorytmy które omówimy oczekują na wejściu pojedynczej ramki. Skupmy się więc na możliwościach pandas w tym zakresie, a także na tym w jaki sposób skonwertować dane relacyjne do pojedynczej ramki danych, użytecznej dla metod ML.

## Sprzedaż w systemie ecommerce

Rozpatrzymy bardzo prosty zbiór danych, który będzie składał się z danych o klientach oraz ich zakupach w naszym sklepie. Uprościmy sobie ten przykład i pominiemy modelowanie samej transakcji, na którą może składać się wiele produktów. Zamiast tego zakup danego produktu odnotujemy zawsze jako osobną transakcję.

In [1]:
import pandas as pd

In [2]:
customers_df = pd.read_csv("./data/2_6_customers.csv", 
                           index_col=0)
customers_df

Unnamed: 0,customer_id,name,surname
0,213,Luiza,Walczak
1,485,Blanka,Kalinowska
2,769,Jaromir,Majewski
3,304,Józef,Olszewski


In [3]:
items_df = pd.read_csv("./data/2_6_items.csv", 
                       index_col=0)
items_df

Unnamed: 0,item_id,name,price
0,ITEM-1,Elite Melon,10.59
1,ITEM-2,Wild Pineapple,5.79
2,ITEM-3,Beast Pear,2.99


In [4]:
orders_df = pd.read_csv("./data/2_6_orders.csv", 
                        index_col=0)
orders_df

Unnamed: 0,customer_id,item_id,datetime
0,485,ITEM-1,2019-07-14 16:00:00
1,769,ITEM-1,2019-03-25 07:00:00
2,769,ITEM-3,2019-04-10 07:00:00
3,485,ITEM-1,2019-04-11 01:00:00
4,769,ITEM-2,2019-06-03 14:00:00
5,485,ITEM-3,2019-06-14 18:00:00
6,769,ITEM-3,2019-04-08 00:00:00
7,769,ITEM-2,2018-04-17 03:00:00
8,769,ITEM-2,2018-07-02 19:00:00
9,213,ITEM-1,2019-05-23 11:00:00


### Indeksowanie danych

Zarówno dane klientów, jak i produktów mają pewien naturalny klucz. W związku z tym, dla ułatwienia kolejnych operacji,  ustawimy te kolumny na identyfikatory poszczególnych ramek danych.

In [5]:
customers_df.set_index("customer_id", inplace=True)
customers_df

Unnamed: 0_level_0,name,surname
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
213,Luiza,Walczak
485,Blanka,Kalinowska
769,Jaromir,Majewski
304,Józef,Olszewski


In [6]:
items_df.set_index("item_id", inplace=True)
items_df

Unnamed: 0_level_0,name,price
item_id,Unnamed: 1_level_1,Unnamed: 2_level_1
ITEM-1,Elite Melon,10.59
ITEM-2,Wild Pineapple,5.79
ITEM-3,Beast Pear,2.99


## Modelowanie sprzedaży

Załóżmy, że chcielibyśmy przewidywać jaki produkt został kupiony w danej transakcji. Obserwacjami stałyby się więc transakcje, ale warto byłoby je wzbogacić chociażby za pomocą danych o klientach, dzięki czemu będziemy w stanie spróbować stworzyć model, który przewiduje co kupił dany klient w danym momencie czasu.

In [7]:
orders_df.join(customers_df, on="customer_id")

Unnamed: 0,customer_id,item_id,datetime,name,surname
0,485,ITEM-1,2019-07-14 16:00:00,Blanka,Kalinowska
1,769,ITEM-1,2019-03-25 07:00:00,Jaromir,Majewski
2,769,ITEM-3,2019-04-10 07:00:00,Jaromir,Majewski
3,485,ITEM-1,2019-04-11 01:00:00,Blanka,Kalinowska
4,769,ITEM-2,2019-06-03 14:00:00,Jaromir,Majewski
5,485,ITEM-3,2019-06-14 18:00:00,Blanka,Kalinowska
6,769,ITEM-3,2019-04-08 00:00:00,Jaromir,Majewski
7,769,ITEM-2,2018-04-17 03:00:00,Jaromir,Majewski
8,769,ITEM-2,2018-07-02 19:00:00,Jaromir,Majewski
9,213,ITEM-1,2019-05-23 11:00:00,Luiza,Walczak


## Modelowanie klientów

Załóżmy jednak, że chcielibyśmy modelować naszych klientów, by np. określić ich zainteresowania. W tym momencie przydałoby się wiedzieć jakie produkty kupili u nas do tej pory. Oznacza to, iż każdy produkt powinien mieć osobną kolumnę, żeby zliczyć ile razy dana osoba zakupiła go wcześniej.

In [8]:
customer_items_df = orders_df \
    .groupby(["customer_id", "item_id"])\
    .count()
customer_items_df

Unnamed: 0_level_0,Unnamed: 1_level_0,datetime
customer_id,item_id,Unnamed: 2_level_1
213,ITEM-1,1
485,ITEM-1,2
485,ITEM-3,1
769,ITEM-1,1
769,ITEM-2,3
769,ITEM-3,2


In [9]:
customer_items_df.rename(columns={"datetime": "no_orders"}, 
                         inplace=True)

In [12]:
customer_items_df.reset_index(inplace=True)
customer_items_df.set_index("customer_id", 
                            inplace=True, 
                            drop=True)
customer_items_df

Unnamed: 0_level_0,item_id,no_orders
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1
213,ITEM-1,1
485,ITEM-1,2
485,ITEM-3,1
769,ITEM-1,1
769,ITEM-2,3
769,ITEM-3,2


In [13]:
for item_id in items_df.index.unique():
    item_orders_df = customer_items_df \
        .query("item_id == @item_id")
    customers_df = customers_df \
        .join(item_orders_df["no_orders"], how="left") \
        .rename(columns={"no_orders": item_id})
    
customers_df

Unnamed: 0_level_0,name,surname,ITEM-1,ITEM-2,ITEM-3
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
213,Luiza,Walczak,1.0,,
485,Blanka,Kalinowska,2.0,,1.0
769,Jaromir,Majewski,1.0,3.0,2.0
304,Józef,Olszewski,,,


In [14]:
customers_df.fillna(0.0)

Unnamed: 0_level_0,name,surname,ITEM-1,ITEM-2,ITEM-3
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
213,Luiza,Walczak,1.0,0.0,0.0
485,Blanka,Kalinowska,2.0,0.0,1.0
769,Jaromir,Majewski,1.0,3.0,2.0
304,Józef,Olszewski,0.0,0.0,0.0
