# Dokumentdatabas - Northwind

In [26]:
import json
import csv
import pandas as pd
from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi

In [None]:

PWD = open("../../../mongodb.pwd", "r").read().strip()

uri = f"mongodb+srv://linusrundbergstreuli:{PWD}@koksgladje.f2fmq.mongodb.net/?retryWrites=true&w=majority&appName=Koksgladje"

# Create a new client and connect to the server
client = MongoClient(uri, server_api=ServerApi('1'))

# Send a ping to confirm a successful connection
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

In [3]:
database = client["Northwind"]
collection = database["Orders"]

## Orders

Våra två dataset, `Orders`och `OrderDetails`, kommer i olika format. Det är inga problem, pandas kan ju läsa både `csv` och `JSON`.

Vi skapar två `DataFrames`; `orders`och `order_details`.

In [4]:
orders = pd.read_csv("orders.csv", index_col=False)
order_details = pd.read_json("order_details.json")

In [None]:
orders.head()

In [None]:
order_details.head()

Vi behöver tvätta datan lite innan vi läser in den i databasen.

In [16]:
order_details["UnitPrice"] = order_details.UnitPrice.str.replace(" kr", "").astype(float)

För att läsa in datan i MongoDB vill vi ha den som dokument i `JSON`-format. Varje `Order` ska vara ett eget dokument, som innehåller de `OrderDetails` som hör till `Order`:n som nästlade dokument.

In [17]:
orders["OrderDetails"] = \
orders.apply(
    lambda x: json.loads(
        order_details.query(f"OrderID == {x.OrderID}")
        .to_json(orient="records")), 
    axis=1) # type: ignore

Koden ovan är kanske en smula komplicerad. Låt oss bryta ner den!

1. Vi vill skapa en ny kolumn i `orders` som heter `OrderDetails`. Den ska innehålla JSON-formaterade objekt som innehåller datan från alla `OrderDetails` med samma `OrderID` som raden. `\` gör att vi får fortsätta koden på nästa rad.
2. `orders.apply()` tar en funktion vi anger och kör den på varje rad i `orders`.
3. Funktionen vi anger är en `lambda`-funktion. `x` kommer att vara varje rad i `orders`, uppifrån och ned, och själva funktionen returnerar resultatet av `json.loads()`, alltså ett JSON-formaterat objekt.
4. Vad ska vårt JSON-formaterade objekt bestå av? Jo, vi gör en *query* på `order_details` och matchar värdet i `OrderID`-kolumnerna mellan våra `DataFrame`:s.
5. `query`-metoden returnerar en `DataFrame` som vi omvandlar till JSON och använder *records*-orienteringen, som passar bäst för dokumentdatabaser.
6. `axis=1` anger att vi vill att vår `apply` ska gå på radnivå så att vi har tillgång till värdena i `OrderID`-kolumnen.

Vi kan se ut `orders["OrderDetails"]` ser ut!

In [None]:
orders["OrderDetails"]

Det är en lista med *dictionaries* som innehåller våra `OrderDetails` för varje `Order`.

...och hela `orders` ser nu ut såhär:

In [None]:
orders

Nu kan vi göra om hela `orders` till JSON, återigen med *records*-orienteringen.

In [18]:
order_data = json.loads(orders.to_json(orient="records"))

In [None]:
order_data

In [None]:
#collection.delete_many({})

Vi lägger till datan i databasen med `insert_many()`.

In [None]:
collection.insert_many(order_data)

### Några ord om duplicerad data

Eftersom vi har en `ProductID`-kolumn i `OrderDetails` skulle vi också kunna lägga till `Product`-datan till varje `OrderDetail`. Det här är lite tvärtom mot hur vi tänker med relationella databaser där vi inte vill spara samma data flera gånger utan vill normalisera datan i så hög form som möjligt. 

I dokumentdatabaser är det helt ok att ha icke-normaliserad data under vissa förutsättningar. Databasen är gjord för att läsa nästlad data snabbt så om vi inte har alltför många nivåer.

Den största risken med duplicerad data är om vi uppdaterar något "längre upp" i databasen. Om vi ändrar pris på en produkt måste vi se till att nya `OrderDetail`-dokument får med sig den ändringen.

MongoDB har lösningar på hur man kan se till att duplicerad data håller sig uppdaterad.

### Queries

Vi kan använda *Aggregations*-läget i MongoDB Atlas för att arbeta oss fram till vårt resultat. Sedan kan vi klistra in det i en cell och köra det från vår notebook.

In [21]:
total_sales_by_country = collection.aggregate([
    {   
        # Unwind OrderDetails so we can perform operations on the data
        '$unwind': {
            'path': '$OrderDetails'
        }
    }, {
        # Group by ShipCountry
        '$group': {
            '_id': '$ShipCountry', 
            'totalSalesAmount': {
                '$sum': {
                    '$multiply': [
                        '$OrderDetails.Quantity', '$OrderDetails.UnitPrice'
                    ]
                }
            }
        }
    }, {
        # Sort by totalSalesAmount, descending
        '$sort': {
            'totalSalesAmount': -1
        }
    }, {
        # Format the output a little
        '$project': {
            'Country': '$_id', 
            'TotalSalesAmount': '$totalSalesAmount'
        }
    }
])

In [None]:
[res for res in total_sales_by_country]