# Kunskapskontroll 1
## Databastyper

**OBS!** Alla uppgifter som inte står under rubriken **Väl godkänt** krävs för **Godkänt** på kunskapskontrollen.


1. Förklara övergripande vad NoSQL är.

Svar: NoSQL är en typ av databashanteringssystem som används för att lagra och hantera ostrukturerad, semi-strukturerad och distribuerad data. NoSQL-databaser är designade för att vara skalbara, flexibla och effektiva för stora datamängder, särskilt inom moderna webbapplikationer, big data och realtidsbearbetning. Till skillnad från relationella databaser (SQL) använder NoSQL oftast schemalösa datamodeller och distribuerade system.

2. Vilken typ av data kan en NoSQL-databas hantera som inte en
relationell databas kan?

Svar: NoSQL-databaser är bättre lämpade för att hantera:

- Ostrukturerad och semi-strukturerad data t.ex. JSON, XML, BSON.
- Stora volymer av snabbt föränderliga data t.ex. loggfiler, IoT-data, sociala medieflöden.
- Hierarkiska och komplexa datamodeller. Relationella databaser hanterar främst tabeller, medan NoSQL kan hantera grafer, dokument och nyckel/värde-par.
- Distribuerade system med horisontell skalbarhet, vilket gör dem bättre för Big Data och molnbaserade applikationer.

3. Beskriv kortfattat vad en nyckel/värde-databas är.


Svar: En nyckel/värde-databas lagrar data i form av nyckel-värde-par, där varje nyckel är unik och associerad med ett värde. Den fungerar likt en hash-tabell och används ofta för caching eller session-hantering.

4. Beskriv kortfattat vad en dokumentdatabas är.


Svar: En dokumentdatabas lagrar data i dokumentformat, oftast JSON, BSON eller XML. Den är schemalös och används för att lagra komplexa och hierarkiska data på ett flexibelt sätt.

5. Beskriv kortfattat vad en bredkolumndatabas är.


Svar: En bredkolumndatabas lagrar data i kolumnfamiljer istället för rader och tabeller. Den är optimerad för att hantera stora datamängder och distribueras över flera servrar.


6. Beskriv kortfattat vad en grafdatabas är.

Svar: En grafdatabas lagrar data i noder och relationer, vilket gör den idealisk för att modellera nätverk, sociala relationer och hierarkiska strukturer.

### Nyckel/värdedatabas

Lägg till datan i filen `kunskapskontroll_1/data/northwind/orders.csv` i en Redis-databas.

In [22]:
import redis
import pandas as pd

# Läs in lösenord från en fil
with open("redis.pwd", "r") as f:
    PWD = f.read().strip()

# Anslut till Redis
try:
    r = redis.Redis(host='redis-16029.c56.east-us.azure.redns.redis-cloud.com', 
                    port=16029, password=PWD, decode_responses=True)
    print("Ansluten till Redis!")
except Exception as e:
    print("Kunde inte ansluta till Redis:", e)
    exit()

# Läs CSV-filen
csv_file = "northwind/orders.csv"

try:
    df = pd.read_csv(csv_file)
except Exception as e:
    print(f"Fel vid läsning av CSV-filen: {e}")
    exit()

# Spara data i Redis som hashar
for _, row in df.iterrows():
    order_id = row.get("OrderID")
    
    # Kontrollera att OrderID är giltigt
    if pd.isna(order_id):
        print("Varning: OrderID saknas, hoppar över en rad")
        continue

    key = f"order:{int(order_id)}"  # Säkerställ att OrderID är ett heltal
    r.hset(key, mapping=row.dropna().to_dict())  # Tar bort NaN-värden innan lagring

print("CSV-filen har importerats till Redis!")

Ansluten till Redis!
CSV-filen har importerats till Redis!


Ge ett exempel på hur vad man kan använda Redis-databasen du skapat till:

Svar: Redis-databasen jag har skapat kan användas för att bland annat snabbt hämta orderinformation i en e-handelsplattform. Istället för att göra tunga SQL-frågor mot en relationell databas kan vi lagra ordrar i Redis och hämta dem på millisekunder.

Ett typiskt användningsområde är att visa orderstatus för en kund eller administratör i realtid. Med hjälp av följande kod kan vi hämta en order från Redis och skriva ut dess innehåll:

In [23]:
def get_order(order_id):
    """Hämtar en order från Redis och skriver ut den"""
    key = f"order:{order_id}"
    order = r.hgetall(key)  # Hämtar alla fält i hashen
    
    if not order:
        print(f"Order med ID {order_id} hittades inte.")
        return
    
    print("\n==== Orderinformation ====")
    for field, value in order.items():
        print(f"{field}: {value}")
    print("==========================\n")

# Exempel: Hämta order med ID 10248
order_id = "10248"
get_order(order_id)


==== Orderinformation ====
OrderID: 10248
OrderDate: 1996-07-04 00:00:00
RequiredDate: 1996-08-01 00:00:00
ShippedDate: 1996-07-16 00:00:00
ShipName: Vins et alcools Chevalier
ShipCountry: France
ShipRegion: nan
ShipAddress: 59 rue de l'Abbaye
ShipPostalCode: 51100
ShipCity: Reims



### Dokumentdatabas

I mappen `kunskapskontroll_1/data/northwind/` finns filerna `products.csv` och `suppliers.json`.

Slå ihop `products.csv` och `suppliers.json` på ett passande sätt och spara dem som en dokumentdatabas i MongoDB.

#### Godkänt
Ta reda på:
* vilka produkter som behöver beställas (`ReorderLevel` $\gt$ `UnitsInStock` $ + $ `UnitsOnOrder`)
* vem man ska kontakta för att beställa fler, och
* hur man kontaktar personen


In [3]:
import pandas as pd
import json
from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi

In [None]:
uri = "mongodb+srv://hannasjogrendata24hel:qg3wr2kLapj2Z3Mz@databasetypes.6zjyu.mongodb.net/?retryWrites=true&w=majority&appName=databasetypes"
 
# Skapa en ny klient och koppla till server 
client = MongoClient(uri, server_api=ServerApi('1'))
 
# Skicka en ping för att bekräfta att kopplingen gick igenom 
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

Pinged your deployment. You successfully connected to MongoDB!


In [5]:
# Läs CSV och JSON
products_df = pd.read_csv("northwind/products.csv")
with open("northwind/suppliers.json", "r") as f:
    suppliers = json.load(f)

suppliers_df = pd.DataFrame(suppliers)  # Konvertera JSON till DataFrame

# Slå ihop på SupplierID
merged_df = products_df.merge(suppliers_df, left_on="SupplierID", right_on="SupplierID", how="left")


In [6]:
# Anslut till MongoDB
client = MongoClient(uri, server_api=ServerApi('1'))
db = client["northwind"]
collection = db["products_suppliers"]

# Spara i MongoDB
collection.insert_many(merged_df.to_dict(orient="records"))

print("Data har sparats i MongoDB och alla produkter samt deras leverantörer!")

Data har sparats i MongoDB och alla produkter samt deras leverantörer!


In [1]:
def get_products_to_reorder():
    """Hämtar produkter som behöver beställas och deras leverantörer utan dubbletter."""
    query = {
        "$expr": {
            "$gt": ["$ReorderLevel", {"$add": ["$UnitsInStock", "$UnitsOnOrder"]}]
        }
    }
    
    # Använd aggregation för att gruppera produkterna efter namn och ta bort dubbletter
    pipeline = [
        {"$match": query},  # Filtrera produkter som behöver beställas
        {"$group": {
            "_id": "$ProductName",  # Grupp efter produktnamn
            "ProductName": {"$first": "$ProductName"},
            "CompanyName": {"$first": "$CompanyName"},
            "ContactName": {"$first": "$ContactName"},
            "Phone": {"$first": "$Phone"}
        }}
    ]
    
    return list(collection.aggregate(pipeline))


In [7]:
# Hämta produkter som behöver beställas
products_to_reorder = get_products_to_reorder()

# Printar listan av produkter som behöver beställas
if products_to_reorder:
    for product in products_to_reorder:
        print(f"Produkt: {product['ProductName']}")
        print(f"Leverantör: {product['CompanyName']}")
        print(f"Kontaktperson: {product['ContactName']}")
        print(f"Telefon: {product['Phone']}")
        print("----------------------------")
else:
    print("Inga produkter behöver beställas.")

Produkt: Sir Rodney's Scones
Leverantör: Specialty Biscuits, Ltd.
Kontaktperson: Peter Wilson
Telefon: (161) 555-4448
----------------------------
Produkt: Gnocchi di nonna Alice
Leverantör: Pasta Buttini s.r.l.
Kontaktperson: Giovanni Giudici
Telefon: (089) 6547665
----------------------------
Produkt: Nord-Ost Matjeshering
Leverantör: Nord-Ost-Fisch Handelsgesellschaft mbH
Kontaktperson: Sven Petersen
Telefon: (04721) 8713
----------------------------
Produkt: Outback Lager
Leverantör: Pavlova, Ltd.
Kontaktperson: Ian Devling
Telefon: (03) 444-2343
----------------------------
Produkt: Tofu
Leverantör: Mayumi's
Kontaktperson: Mayumi Ohno
Telefon: (06) 431-7877
----------------------------
Produkt: Gustaf's Knäckebröd
Leverantör: PB Knäckebröd AB
Kontaktperson: Lars Peterson
Telefon: 031-987 65 43
----------------------------



#### Väl godkänt
Skapa en Streamlit-app som visar produkter som behöver beställas och talar om vem man ska ringa för att beställa fler. Appen kan vara en enkel lista över produkter, eller innehålla fler funktioner (QR-kod-scanner?).

Svar: Se app.py filen för streamlit-appen och dess kod samt test.py. App.py ger QR-kod där det går att ange ett valfritt produktID, exempelvis siffran 6 så får man fram produktinformationen via scanner. test.py ger QR-kod för vardera produkt som behöver beställas och dess kontaktinformation som annars även syns direkt på sidan.

### Grafdatabas
**OBS** Fråga 1-3 nedan är desamma för både Godkänt och Väl godkänt. Det som skiljer sig är hur du väljer att skapa databasen samt fråga 4.

#### Godkänt
* Läs in `csv`-filerna i `kunskapskontroll_1/data/movies/prepared/` i Neo4j och skapa en datamodell.
* Svara på frågorna och utför instruktionerna nedan. Klistra in dina svar som JSON eller bilder, beroende på om svaret är i data- eller graf-form.
    1. Vilka är de 10 vanligaste kombinationerna av genrer?
    2. Vilka är de fem vanligaste genrerna på filmer regisserade av Steven Spielberg, och hur många filmer är i de genrerna?
    3. Det verkar som om de har missat att Viggo Mortensen är med i Sagan om Ringen-filmerna. Skapa `[:ACTED_IN]`-relationer mellan Viggo och alla tre *The Lord of the Rings*-filmerna. Visa en graf med Viggo i mitten och relationer till de tre filmerna.

#### Väl godkänt
* Bearbeta datan i `kunskapskontroll_1/data/movies/movies.json` så att den passar till att läsas in i Neo4j. Processen ska gå att följa i kodceller i notebooken. Du får gärna titta på filerna i `kunskapskontroll_1/data/movies/prepared/` för att få en idé om hur resultatet ska se ut.
* Läs in data in Neo4j.
* Svara på frågorna och utför instruktionerna nedan. Klistra in dina svar som JSON eller bilder, beroende på om svaret är i data- eller graf-form.
    1. Vilka är de 10 vanligaste kombinationerna av genrer?
    2. Vilka är de fem vanligaste genrerna på filmer regisserade av Steven Spielberg, och hur många filmer är i de genrerna?
    3. Det verkar som om de har missat att Viggo Mortensen är med i Sagan om Ringen-filmerna. Skapa `[:ACTED_IN]`-relationer mellan Viggo och alla tre *The Lord of the Rings*-filmerna. Visa en graf med Viggo i mitten och relationer till de tre filmerna.
    4. Hitta på minst en egen fråga och svara på den.



In [27]:
import json
import pandas as pd
from collections import Counter

In [None]:
# Ladda in JSON filen
file_path = 'movies.json'

with open(file_path, 'r') as f:
    json_data = json.load(f)

# json_normalize för att platta till strukturen
df = pd.json_normalize(json_data)

# Kontrollera dem första raderna för att verifiera strukturen 
print(df.head())

   movie_id  color      director_name  num_critic_for_reviews  duration  \
0    499549  Color      James Cameron                   723.0     178.0   
1    449088  Color     Gore Verbinski                   302.0     169.0   
2   2379713  Color         Sam Mendes                   602.0     148.0   
3   1345836  Color  Christopher Nolan                   813.0     164.0   
4   5289954   None        Doug Walker                     NaN       NaN   

         gross                                genres  \
0  760505847.0  [Action, Adventure, Fantasy, Sci-Fi]   
1  309404152.0          [Action, Adventure, Fantasy]   
2  200074175.0         [Action, Adventure, Thriller]   
3  448130642.0                    [Action, Thriller]   
4          NaN                         [Documentary]   

                                         movie_title  num_voted_users  \
0                                            Avatar            886204   
1          Pirates of the Caribbean: At World's End            471

In [None]:
# Explodera genres kollumnen till indviduella 
genres = pd.DataFrame(df['genres'].explode().unique(), columns=['genre'])
genres.insert(0, 'genre_id', genres.index + 1)

In [None]:
# Spara till en CSV fil 
genres.to_csv('genres.csv', index=False)

# Kontrollera hur output blir
print(genres.head())

   genre_id      genre
0         1     Action
1         2  Adventure
2         3    Fantasy
3         4     Sci-Fi
4         5   Thriller


In [None]:
# Explodera actors kollumnen och skapa en dataframe med unika skådespelarnamn 
actors = pd.DataFrame(df['actors'].explode().unique(), columns=['actor_name'])
actors.insert(0, 'actor_id', actors.index + 1)

# Spara till en CSV fil
actors.to_csv('actors.csv', index=False)

# Kontrollera hur output blir
print(actors.head())

   actor_id        actor_name
0         1  Joel David Moore
1         2       CCH Pounder
2         3         Wes Studi
3         4     Orlando Bloom
4         5       Johnny Depp


In [None]:
# Skapa dataframe med unika regissörnamn 
directors = pd.DataFrame(df['director_name'].unique(), columns=['director_name'])
directors.insert(0, 'director_id', directors.index + 1)

# Spara till CSV fil
directors.to_csv('directors.csv', index=False)

# Kontrollera hur output blir
print(directors.head())

   director_id      director_name
0            1      James Cameron
1            2     Gore Verbinski
2            3         Sam Mendes
3            4  Christopher Nolan
4            5        Doug Walker


In [None]:
# Explodera genres kollumnen och skapa en mapping av movie_id till genre_id 
df_genres = df.explode('genres').merge(genres, left_on='genres', right_on='genre', how='left')

# Skapa genres_movies dataframe med movie_id och genre_id
genres_movies = df_genres[['movie_id', 'genre_id']].dropna().drop_duplicates()

# Spara till CSV fil
genres_movies.to_csv('genres_movies.csv', index=False)

# Kontrollera hur output blir
print(genres_movies.head())

   movie_id  genre_id
0    499549         1
1    499549         2
2    499549         3
3    499549         4
4    449088         1


In [None]:
# Explodera actors kollumnen och skapa en mapping av movie_id till actor_id
df_actors = df.explode('actors').merge(actors, left_on='actors', right_on='actor_name', how='left')

# Skapa actors_movies dataframe med movie_id och actor_id
actors_movies = df_actors[['movie_id', 'actor_id']].dropna().drop_duplicates()

# Spara till CSV fil
actors_movies.to_csv('actors_movies.csv', index=False)

# Kontrollera hur output blir
print(actors_movies.head())

   movie_id  actor_id
0    499549         1
1    499549         2
2    499549         3
3    449088         4
4    449088         5


In [None]:
# Droppa dem orginala kollumnerna efter merge eftersom dessa blir överflödiga
df_cleaned = df.drop(columns=['genres', 'actors', 'director_name'])

In [None]:
# Droppa kollumn som även blir överflödig data
df_cleaned = df.drop(columns= ['facenumber_in_poster'])

# Exportera slutfilen till JSON
df_cleaned.to_json('final_movies_data.json', orient='records', lines=True)

In [58]:
# Exportera slutfilen till CSV
df_cleaned.to_csv('final_movies.csv', index=False)

#Laddat upp csv filen via github för att sedan kunna föra över i query i neo4j och förhandsgranska

LOAD CSV WITH HEADERS FROM 'https://raw.githubusercontent.com/hannasjogren/databasetypes_control_1/refs/heads/main/final_movies.csv' AS row
RETURN row LIMIT 5;

#Skapar Movie-noder med de viktigaste egenskaperna

LOAD CSV WITH HEADERS FROM 'https://raw.githubusercontent.com/hannasjogren/databasetypes_control_1/refs/heads/main/final_movies.csv' AS row
MERGE (m:Movie {id: toInteger(row.movie_id)}) 
SET m.title = row.movie_title,
    m.year = toInteger(row.title_year),
    m.imdb_score = toFloat(row.imdb_score),
    m.budget = toFloat(row.budget),
    m.gross = toFloat(row.gross),
    m.language = row.language,
    m.country = row.country,
    m.content_rating = row.content_rating,
    m.duration = toInteger(row.duration);

#Skapa Director-noder och relationer

LOAD CSV WITH HEADERS FROM 'https://raw.githubusercontent.com/hannasjogren/databasetypes_control_1/refs/heads/main/final_movies.csv' AS row
MERGE (d:Director {name: row.director_name})
WITH d, row
MATCH (m:Movie {id: toInteger(row.movie_id)})
MERGE (d)-[:DIRECTED]->(m);

#Skapa Genre-noder och relationer. Genrer är sparade i en lista som ['Action', 'Adventure', 'Fantasy', 'Sci-Fi'], så jag splitta för lättare hantering

LOAD CSV WITH HEADERS FROM 'https://raw.githubusercontent.com/hannasjogren/databasetypes_control_1/refs/heads/main/final_movies.csv' AS row
WITH row, split(replace(replace(row.genres, "[", ""), "]", ""), ", ") AS genreList
UNWIND genreList AS genre
MERGE (g:Genre {name: replace(replace(genre, "'", ""), '"', "")})
WITH g, row
MATCH (m:Movie {id: toInteger(row.movie_id)})
MERGE (m)-[:HAS_GENRE]->(g);

#Skapa Actor-noder och relationer. Skådespelarna är i en lista som ['Joel David Moo', 'Zoe Saldana', 'Sigourney Weaver'], så jag splitta dem och kopplade relationer

LOAD CSV WITH HEADERS FROM 'https://raw.githubusercontent.com/hannasjogren/databasetypes_control_1/refs/heads/main/final_movies.csv' AS row
WITH row, split(replace(replace(row.actors, "[", ""), "]", ""), ", ") AS actorList
UNWIND actorList AS actor
MERGE (a:Actor {name: replace(replace(actor, "'", ""), '"', "")})
WITH a, row
MATCH (m:Movie {id: toInteger(row.movie_id)})
MERGE (a)-[:ACTED_IN]->(m);

#Kontrollerat så allt är skapat

MATCH (n) RETURN n LIMIT 100;

MATCH (d:Director)-[:DIRECTED]->(m:Movie)
RETURN d, m;

MATCH (a:Actor)-[:ACTED_IN]->(m:Movie)
RETURN a, m;

MATCH (m:Movie)-[:HAS_GENRE]->(g:Genre)
RETURN m, g;

   ## 1. Vilka är de 10 vanligaste kombinationerna av genrer?

MATCH (m:Movie)-[:HAS_GENRE]->(g:Genre)
WITH m, collect(g.name) AS genres
RETURN genres, count(*) AS count
ORDER BY count DESC
LIMIT 10;

## 2. Vilka är de fem vanligaste genrerna på filmer regisserade av Steven Spielberg, och hur många filmer är i de genrerna?

MATCH (d:Director {name: "Steven Spielberg"})-[:DIRECTED]->(m:Movie)-[:HAS_GENRE]->(g:Genre)
RETURN g.name AS genre, count(*) AS count
ORDER BY count DESC
LIMIT 5;

## 3. Det verkar som om de har missat att Viggo Mortensen är med i Sagan om Ringen-filmerna. Skapa `[:ACTED_IN]`-relationer mellan Viggo och alla tre *The Lord of the Rings*-filmerna. Visa en graf med Viggo i mitten och relationer till de tre filmerna.

#Kontrollera så filmerna finns så det inte skapas dubletter

MATCH (m:Movie)
WHERE m.title CONTAINS "The Lord of the Rings"
RETURN m.title;

#Skapa relationer mellan Viggo Mortensen och filmerna

MATCH (m:Movie)
WHERE m.title IN ["The Lord of the Rings: The Fellowship of the Ring", 
                  "The Lord of the Rings: The Two Towers", 
                  "The Lord of the Rings: The Return of the King"]
MERGE (a:Actor {name: "Viggo Mortensen"})
MERGE (a)-[:ACTED_IN]->(m);

#Mer flexibel när det gäller mellanslag och andra variationer i slutet av titlarna

MATCH (m:Movie)
WHERE m.title =~ "The Lord of the Rings: The Fellowship of the Ring.*" OR
      m.title =~ "The Lord of the Rings: The Two Towers.*" OR
      m.title =~ "The Lord of the Rings: The Return of the King.*"
MERGE (a:Actor {name: "Viggo Mortensen"})
MERGE (a)-[:ACTED_IN]->(m);

#För att visa Viggo i mitten och relationer till dem tre filmerna

MATCH (a:Actor {name: "Viggo Mortensen"})-[:ACTED_IN]->(m:Movie)
WHERE m.title =~ "The Lord of the Rings: The Fellowship of the Ring.*" OR
      m.title =~ "The Lord of the Rings: The Two Towers.*" OR
      m.title =~ "The Lord of the Rings: The Return of the King.*"
RETURN a, m;

#Se visualisation.png för att se graf

## 4. Hitta på minst en egen fråga och svara på den.

Vilket skådespelare har medverkat i flest filmer?

MATCH (a:Actor)-[:ACTED_IN]->(m:Movie)
RETURN a.name, COUNT(m) AS numberOfMovies
ORDER BY numberOfMovies DESC
LIMIT 1;

Svar: Robert De Niro, number of movies 53

Vilka filmer har högst IMDB betyg?

MATCH (m:Movie)
RETURN m.title, m.imdb_score
ORDER BY m.imdb_score DESC
LIMIT 5;

"Towering Inferno  " 9.5

"The Shawshank Redemption " 9.3

"The Godfather " 9.2

"Dekalog  " 9.1

"Kickboxer: Vengeance " 9.1

Vilken regissör har regisserat flest filmer?

MATCH (d:Director)-[:DIRECTED]->(m:Movie)
RETURN d.name, COUNT(m) AS numberOfMovies
ORDER BY numberOfMovies DESC
LIMIT 1;

svar: Steven Spielberg , 26st

Vad är den genomsnittliga längden på filmerna?

MATCH (m:Movie)
RETURN AVG(m.duration) AS averageDuration;

svar: 107min

Vilka är dem 5 skådespelarna som varit med i flest filmer?

MATCH (a:Actor)-[:ACTED_IN]->(m:Movie)
RETURN a.name AS Actor, COUNT(m) AS MovieCount
ORDER BY MovieCount DESC
LIMIT 5;

"Robert De Niro" 53st

"Morgan Freeman" 43st

"Bruce Willis" 38st

"Matt Damon" 37st

"Johnny Depp" 36st

## Vad ska lämnas in på Learnpoint?

En länk till ett Github-repository som innehåller:
* en kopia av den här notebooken med dina svar på uppgifterna. **Använd kod-celler för kod och markdown-celler för text!**
* bilder på grafer så att de kan visas i notebooken
* VG: om du gjort en Streamlit-app i dokumentdatabas-delen ska där också finnas en `app.py` eller motsvarande med koden för appen.

That's it!