## Superwƒôze≈Ç - supernode

Superwƒôze≈Ç (ang. supernode) to wƒôze≈Ç w grafie, kt√≥ry ma bardzo du≈ºƒÖ liczbƒô relacji (np. setki tysiƒôcy lub miliony).

Przyk≈Çady to:
- wƒôze≈Ç :User reprezentujƒÖcy celebrytƒô z milionem obserwujƒÖcych,
- wƒôze≈Ç :Tag u≈ºyty przez milion post√≥w,
- wƒôze≈Ç :Product kupiony przez setki tysiƒôcy klient√≥w.

### Dlaczego nale≈ºy ich unikaƒá?
- Wydajno≈õƒá: zapytania zaczynajƒÖce siƒô od superwƒôz≈Ça mogƒÖ byƒá bardzo wolne ‚Äì Neo4j musi przeszukaƒá ogromny zestaw relacji, zanim przefiltruje te istotne.
- PrzeciƒÖ≈ºenie pamiƒôci: graf musi za≈Çadowaƒá du≈ºƒÖ liczbƒô relacji do RAM-u, co obciƒÖ≈ºa system.
- S≈Çaba selektywno≈õƒá zapyta≈Ñ: indeksy nie pomagajƒÖ, gdy i tak trzeba przetworzyƒá tysiƒÖce relacji z jednego wƒôz≈Ça.

### Jak unikaƒá superwƒôz≈Ç√≥w?
- Segmentuj dane ‚Äì np. :Post ‚Üí :Tag_2025, :Customer_US, itp.
- Dodawaj w≈Ça≈õciwo≈õci do relacji (np. :LIKED {timestamp}) i filtruj po nich.
- Ograniczaj kierunek przeszukiwania w zapytaniach, np. [:FRIENDS_WITH]-> zamiast [:FRIENDS_WITH*].
- Partycjonowanie tag√≥w:
    - Zamiast jednego (:Tag {name: "AI"}) ‚Üí u≈ºyj np. (:Tag {name: "AI", year: 2024})
- ZastƒÖpienie relacji w≈Ça≈õciwo≈õciƒÖ (je≈õli nie analizujesz relacji):
    - :Post {tags: ["AI", "ML"]} ‚Äì wtedy szukasz WHERE "AI" IN p.tags, ale tracisz semantykƒô grafu.

Laboratorium: Superwƒôze≈Ç ‚Äì problem i optymalizacja
Cel ƒáwiczenia:
- Zobaczyƒá wp≈Çyw superwƒôz≈Ça na wydajno≈õƒá zapyta≈Ñ.
- Nauczyƒá siƒô optymalizowaƒá strukturƒô grafu: przez filtrowanie, partycjonowanie, projektowanie pod zapytania.

In [3]:
from neo4j import GraphDatabase
import pandas as pd

In [4]:
# Po≈ÇƒÖczenie z Neo4j
URI = "bolt://neo4j_nosql_lab:7687"
USERNAME = "neo4j"
PASSWORD = "test1234"  # upewnij siƒô, ≈ºe to pasuje do graph-docker-compose.yml

In [None]:
q_list = [
    # // Tworzenie indeksu
    "DROP INDEX idx_post_created_at IF EXISTS;"
    , "CREATE INDEX idx_post_created_at FOR (p:Post) ON (p.created_at);"

    # // Superwƒôze≈Ç: jeden tag
    , "CREATE (:Tag {name: 'AI'});"

    # // Tworzenie 10k post√≥w z relacjƒÖ do tagu
    , """UNWIND range(1, 10000) AS i
    CREATE (p:Post {title: 'Post #' + i, created_at: date('2025-01-01')})
    WITH p
    MATCH (t:Tag {name: 'AI'})
    CREATE (p)-[:HAS_TAG]->(t);"""
]

In [14]:
def run_cypher(query: str, driver):
    with driver.session() as session:
        result = session.run(query)
        records = list(result)
        if not records:
            print("üîç Brak wynik√≥w.")
            return
        # Przekszta≈Çcenie do DataFrame
        df = pd.DataFrame([r.data() for r in records])
        return df

print("Po≈ÇƒÖczono z Neo4j. U≈ºyj funkcji `run_cypher('TWOJE_ZAPYTANIE')` aby wykonaƒá zapytanie.")

def qexec(query: str):
    driver = GraphDatabase.driver(URI, auth=(USERNAME, PASSWORD))
    
    df = run_cypher(query, driver)
    
    driver.close()
    
    return df

Po≈ÇƒÖczono z Neo4j. U≈ºyj funkcji `run_cypher('TWOJE_ZAPYTANIE')` aby wykonaƒá zapytanie.


In [None]:
for q in q_list:
    print(q)
    qexec(q)

### Zadanie 1: Zapytanie bez filtru (klasyczny superwƒôze≈Ç)

In [None]:
q = """
MATCH (t:Tag {name: 'AI'})<-[:HAS_TAG]-(p:Post)
RETURN p.title
LIMIT 5
"""
qexec(q)

### Zadanie 2: Optymalizacja ‚Äì filtr po dacie

In [None]:
q = """
MATCH (t:Tag {name: 'AI'})<-[:HAS_TAG]-(p:Post)
WHERE p.created_at > date('2025-01-01')
RETURN p.title
LIMIT 5
"""
qexec(q)

### Zadanie 3: Partycjonowanie tag√≥w po roku

In [None]:
q = """
// Tworzenie tagu AI_2025
CREATE (:Tag {name: 'AI_2025'});

// Tworzenie 10k post√≥w przypisanych tylko do partycji
UNWIND range(1, 10000) AS i
CREATE (p:Post {title: 'Post_2025_' + i, created_at: date('2025-01-01')})
WITH p
MATCH (t:Tag {name: 'AI_2025'})
CREATE (p)-[:HAS_TAG]->(t);
"""
qexec(q)

In [None]:
query = """
// Zapytanie po partycjonowanym tagu
MATCH (t:Tag {name: 'AI_2025'})<-[:HAS_TAG]-(p:Post)
RETURN p.title
LIMIT 5
"""
qexec(query)

### Zadanie 4: Por√≥wnanie czasu zapytania

In [None]:
query = """
PROFILE MATCH (...) RETURN ...
"""
qexec(query)

### Checklista: cecha jako wƒôze≈Ç czy w≈Ça≈õciwo≈õƒá?

| Kryterium                                                                 | Odpowied≈∫ | Zalecenie     |
|---------------------------------------------------------------------------|-----------|----------------|
| Czy wiele wƒôz≈Ç√≥w mo≈ºe dzieliƒá tƒô samƒÖ cechƒô?                              | Tak       | Wƒôze≈Ç          |
| Czy chcesz zadawaƒá pytania w stylu: ‚ÄûPoka≈º wszystkie wƒôz≈Çy z tƒÖ cechƒÖ‚Äù?  | Tak       | Wƒôze≈Ç          |
| Czy cecha ma w≈Çasne w≈Ça≈õciwo≈õci (np. `name`, `created_at`)?              | Tak       | Wƒôze≈Ç          |
| Czy cecha mo≈ºe mieƒá relacje z innymi wƒôz≈Çami?                             | Tak       | Wƒôze≈Ç          |
| Czy cecha wystƒôpuje wielokrotnie u jednego wƒôz≈Ça (lista, zbi√≥r)?         | Tak       | Wƒôze≈Ç          |
| Czy chcesz analizowaƒá tƒô cechƒô jako czƒô≈õƒá grafu (powiƒÖzania, agregacje)? | Tak       | Wƒôze≈Ç          |
| Czy cecha jest unikalna tylko dla tego jednego wƒôz≈Ça?                    | Tak       | W≈Ça≈õciwo≈õƒá     |
| Czy to prosty opis, bez relacji i analizy (np. wiek, status)?            | Tak       | W≈Ça≈õciwo≈õƒá     |
| Czy cecha jest u≈ºywana do filtrowania lub indeksowania (np. `username`)? | Tak       | W≈Ça≈õciwo≈õƒá     |
| Czy zale≈ºy Ci na maksymalnej wydajno≈õci zapyta≈Ñ po tej cesze?            | Tak       | W≈Ça≈õciwo≈õƒá     |
