# Bazy danych w Pythonie


## Co to jest baza danych?

Baza danych to zorganizowany zbiór danych, które można łatwo przechowywać, przetwarzać i wyszukiwać. Dane w bazie są zwykle strukturalne, co oznacza, że są zapisane w określonym formacie, takim jak tabele w przypadku relacyjnych baz danych lub dokumenty w przypadku baz nierelacyjnych.

## **Typy baz danych** 

Bazy danych można podzielić na różne typy w zależności od sposobu przechowywania i organizowania danych. Oto najważniejsze typy baz danych, z uwzględnieniem nowoczesnych rozwiązań:



---

### **Relacyjne bazy danych**
Relacyjne bazy danych są oparte na tabelach i języku SQL (Structured Query Language). Dane są przechowywane w wierszach i kolumnach z jasno zdefiniowaną strukturą.

**Cechy:**
- Struktura danych oparta na tabelach.
- Używanie kluczy głównych i obcych do zarządzania relacjami między tabelami.
- Świetne dla uporządkowanych, spójnych danych.

**Przykłady:**
- **SQLite**: Lekka baza danych idealna do lokalnych aplikacji.
- **PostgreSQL**: Zaawansowana baza relacyjna z obsługą JSON.
- **MySQL**: Popularna baza open-source używana w aplikacjach webowych.

---

### **Nierelacyjne bazy danych (NoSQL)**
Bazy NoSQL są bardziej elastyczne niż relacyjne i lepiej dostosowane do dynamicznych danych.

**Cechy:**
- Przechowywanie danych w formacie dokumentowym (np. JSON), klucz-wartość, kolumnowym lub grafowym.
- Brak sztywnej struktury tabel.
- Skalowalność pozioma.

**Przykłady:**
- **MongoDB**: Baza dokumentowa.
- **Redis**: Klucz-wartość, świetna do cache'owania.
- **Cassandra**: Baza kolumnowa, idealna dla dużych zbiorów danych.
- **Neo4j**: Baza grafowa, używana do przechowywania i analizowania relacji między obiektami.

---

### **Bazy dla serii czasowych (Time Series Databases)**
Bazy przeznaczone do przechowywania danych, które zmieniają się w czasie, takich jak dane IoT, logi systemowe czy pomiary finansowe.

**Cechy:**
- Optymalizacja dla zapytań czasowych, takich jak przedziały czasowe.
- Obsługa agregacji danych w czasie rzeczywistym.

**Przykłady:**
- **InfluxDB**: Popularna baza danych dla serii czasowych.
- **Prometheus**: Stworzony do monitoringu systemów i analizy metryk.
- **TimescaleDB**: Rozszerzenie PostgreSQL zoptymalizowane dla danych czasowych.

---

### **Bazy wektorowe**
Bazy zoptymalizowane do przechowywania i wyszukiwania wektorów (np. z embeddingów), używane głównie w systemach opartych na AI.

**Cechy:**
- Wydajne wyszukiwanie podobieństw między wektorami.
- Zastosowania w rekomendacjach, wyszukiwaniu semantycznym czy systemach AI.

**Przykłady:**
- **Milvus**: Open-source’owa baza wektorowa.
- **Pinecone**: Rozwiązanie SaaS do przechowywania i wyszukiwania wektorów.
- **Weaviate**: Baza zoptymalizowana dla aplikacji NLP i wyszukiwania semantycznego.

---

### **Bazy grafowe**
Przeznaczone do przechowywania danych w formie węzłów i krawędzi, reprezentujących obiekty i relacje między nimi.

**Cechy:**
- Optymalizacja dla zapytań związanych z relacjami między obiektami.
- Używane w sieciach społecznościowych, analizie zależności czy grafach wiedzy.

**Przykłady:**
- **Neo4j**: Najbardziej znana baza grafowa.
- **ArangoDB**: Wielomodelowa baza danych z obsługą grafów.
- **TigerGraph**: Rozwiązanie o wysokiej wydajności do analizy dużych grafów.

---

### **Bazy obiektowe**
Zaprojektowane do przechowywania danych w formie obiektów używanych w programowaniu obiektowym.

**Cechy:**
- Naturalne odwzorowanie obiektów programowych na dane w bazie.
- Przechowywanie hierarchii obiektów.

**Przykłady:**
- **db4o**: Obiektowa baza danych dla programowania w Javie.
- **ObjectDB**: Rozwiązanie dla Javy i JPA.
- **ZODB**: Baza danych dla Pythona.

---

### **3.7. Porównanie typów baz danych**

| **Typ bazy danych**          | **Przykład**       | **Zastosowanie**                                     |
|------------------------------|-------------------|----------------------------------------------------|
| Relacyjne                   | SQLite, PostgreSQL | Aplikacje oparte na uporządkowanych danych.         |
| Dokumentowe (NoSQL)         | MongoDB            | Przechowywanie dynamicznych, nieustrukturyzowanych danych. |
| Serii czasowych             | InfluxDB           | Monitorowanie IoT, metryki systemowe, dane finansowe. |
| Wektorowe                   | Milvus, Pinecone   | AI, wyszukiwanie semantyczne, systemy rekomendacyjne. |
| Grafowe                     | Neo4j, ArangoDB    | Sieci społecznościowe, grafy wiedzy, analizy relacji. |
| Klucz-wartość               | Redis              | Cache, szybkie przechowywanie konfiguracji.         |

---

### **Podsumowanie**
Wybór bazy danych zależy od specyfiki aplikacji i rodzaju przechowywanych danych. Relacyjne bazy danych są świetne dla tradycyjnych aplikacji, podczas gdy NoSQL i bardziej specjalistyczne bazy (np. grafowe czy wektorowe) znajdują zastosowanie w nowoczesnych systemach, takich jak AI, IoT i Big Data.


## **Podstawowe pojęcia dla różnych typów baz danych**

### **Bazy relacyjne**
- **Baza danych**: System przechowywania danych.
- **Tabela**: Główna struktura w relacyjnej bazie danych, składa się z kolumn (atrybutów) i wierszy (rekordów).
- **Kolumna**: Pojedynczy atrybut w tabeli, reprezentujący określony typ danych (np. imię, nazwisko, wiek).
- **Wiersz (rekord)**: Pojedynczy wpis w tabeli, który zawiera dane zgodne z kolumnami tabeli.
- **Klucz główny (Primary Key)**: Unikalny identyfikator rekordu w tabeli.
- **Klucz obcy (Foreign Key)**: Kolumna, która odwołuje się do klucza głównego w innej tabeli.

---

## **Dokumentowe bazy danych (NoSQL, np. MongoDB)**

- **Dokument**: Podstawowa jednostka przechowywania danych, zwykle w formacie JSON, BSON lub podobnym.
  - Przykład dokumentu w JSON:
    ```json
    {
        "name": "Alice",
        "age": 30,
        "hobbies": ["reading", "hiking"]
    }
    ```
- **Kolekcja (Collection)**: Grupa dokumentów podobna do tabeli w relacyjnej bazie danych, ale bez sztywnego schematu.
- **Schemat luźny (Schema-less)**: Brak konieczności definiowania struktury danych z góry. Dokumenty w jednej kolekcji mogą mieć różną strukturę.
- **Indeksowanie**: Tworzenie indeksów w celu przyspieszenia wyszukiwania dokumentów.
- **Sharding**: Podział bazy na mniejsze fragmenty (shardy) w celu skalowania poziomego.
- **Replica Set**: Zestaw replik, które zwiększają niezawodność i dostępność danych.

---

## **Klucz-wartość (Key-Value, np. Redis, DynamoDB)**

- **Klucz (Key)**: Unikalny identyfikator, który odwołuje się do wartości.
- **Wartość (Value)**: Dane przypisane do klucza, mogą być proste (np. liczby, łańcuchy) lub bardziej złożone (np. listy, hashe).
- **TTL (Time to Live)**: Czas, po którym klucz i jego wartość zostaną automatycznie usunięte.
- **Pub/Sub**: Mechanizm publikowania i subskrybowania wiadomości między procesami.
- **Cache**: Mechanizm szybkiego przechowywania danych w celu zwiększenia wydajności aplikacji.

---

## **Grafowe bazy danych (np. Neo4j, ArangoDB)**

- **Węzeł (Node)**: Podstawowy element grafu reprezentujący obiekt, np. osobę, produkt, miejsce.
  - Przykład węzła: `{name: "Alice", age: 30}`
- **Krawędź (Edge)**: Połączenie między węzłami, które reprezentuje relację, np. "przyjaciel", "kupuje".
  - Przykład krawędzi: `(:Person)-[:FRIEND]->(:Person)`
- **Atrybut (Property)**: Dodatkowe dane opisujące węzły lub krawędzie.
- **Graf skierowany**: Graf, w którym krawędzie mają kierunek.
- **Cykl (Cycle)**: Ścieżka w grafie, która wraca do punktu początkowego.
- **Zapytania grafowe**: Języki takie jak Cypher (Neo4j) lub Gremlin służące do analizy grafów.

---

## **Bazy serii czasowych (Time Series, np. InfluxDB, TimescaleDB)**

- **Punkt danych (Data Point)**: Podstawowa jednostka przechowywania, zawierająca znacznik czasu (timestamp) i wartość.
  - Przykład: `timestamp: 2024-11-30T10:00:00Z, temperature: 22.5`
- **Seria czasowa (Time Series)**: Kolekcja punktów danych, zwykle związana z tym samym źródłem lub typem pomiaru.
- **Tagi (Tags)**: Metadane dodawane do serii czasowej, ułatwiające filtrowanie i zapytania (np. lokalizacja, typ urządzenia).
- **Okno czasowe (Time Window)**: Przedział czasowy, w którym dane są agregowane lub analizowane.
- **Downsampling**: Redukcja liczby danych przez agregację (np. średnia dzienna zamiast minutowej).
- **Agregacje**: Funkcje obliczeniowe, takie jak suma, średnia, maksimum, używane do analizy serii czasowych.

---

## **Wektorowe bazy danych (np. Milvus, Pinecone)**

- **Wektor**: Numeryczna reprezentacja danych, często pochodząca z modelu uczenia maszynowego (np. embedding).
  - Przykład: `[0.12, 0.78, 0.54, 0.33]`
- **Przestrzeń wektorowa**: Wielowymiarowa przestrzeń, w której wektory są przechowywane i porównywane.
- **Wyszukiwanie najbliższych sąsiadów (Nearest Neighbor Search, NNS)**: Technika znajdowania wektorów najbardziej podobnych do danego wektora.
- **Podobieństwo kosinusowe (Cosine Similarity)**: Metryka określająca, jak podobne są dwa wektory.
- **HNSW (Hierarchical Navigable Small World)**: Algorytm optymalizujący szybkie wyszukiwanie w dużych zbiorach wektorów.
- **Embeddingi**: Wektory reprezentujące dane tekstowe, obrazy lub dźwięki, generowane przez modele AI.

---

## **Kolumnowe bazy danych (np. Cassandra, HBase)**

- **Kolumna (Column)**: Podstawowa jednostka przechowywania danych w kolumnowej bazie danych.
- **Rodzina kolumn (Column Family)**: Grupa kolumn logicznie powiązanych, odpowiednik tabeli w relacyjnej bazie danych.
- **Klucz wiersza (Row Key)**: Unikalny identyfikator wiersza, który grupuje kolumny.
- **Partycjonowanie**: Podział danych na fragmenty, które mogą być przechowywane na różnych serwerach.
- **Eventual Consistency**: Model spójności, w którym dane są ostatecznie spójne w systemie rozproszonym, ale mogą być tymczasowo niespójne.



### **Moduł szkoleniowy: Niskopoziomowa praca z bazą danych (SQLite)**

---

## **1. Wstęp: Co to jest SQLite i dlaczego warto go używać?**

SQLite to lekka, relacyjna baza danych, która działa bez potrzeby uruchamiania serwera. Przechowuje dane w pojedynczym pliku na dysku i jest zintegrowana z Pythonem jako moduł `sqlite3`.

### **Dlaczego warto używać SQLite?**
- **Łatwość użycia**: Brak potrzeby konfiguracji serwera.
- **Lekkość**: Cała baza danych jest przechowywana w jednym pliku.
- **Przenośność**: Możliwość łatwego kopiowania bazy danych między systemami.
- **Wbudowana obsługa w Pythonie**: Moduł `sqlite3` pozwala na natychmiastową integrację.
- **Idealne do prototypowania i małych projektów**.

---

## **2. Moduł `sqlite3` w Pythonie**

Python dostarcza wbudowany moduł `sqlite3`, który umożliwia interakcję z bazą SQLite.

---

### **2.1. Tworzenie i łączenie się z bazą danych**

Połączenie z bazą danych można utworzyć za pomocą funkcji `sqlite3.connect()`. Jeśli plik bazy danych nie istnieje, zostanie utworzony automatycznie.

**Kod przykładowy:**
```python
import sqlite3

# Tworzenie połączenia z bazą danych
connection = sqlite3.connect("example.db")

# Tworzenie kursora do wykonywania zapytań
cursor = connection.cursor()

# Zamykanie połączenia
connection.close()
```

**Wskazówka**: Zawsze zamykaj połączenie po zakończeniu pracy z bazą danych.

---

### **2.2. Tworzenie tabel i wstawianie danych**

**Tworzenie tabeli:**
Tabela jest strukturą w bazie danych, w której przechowujemy dane. Tworzymy ją za pomocą zapytania SQL `CREATE TABLE`.

**Kod przykładowy:**
```python
# Tworzenie tabeli
cursor.execute("""
CREATE TABLE IF NOT EXISTS users (
    id INTEGER PRIMARY KEY AUTOINCREMENT,
    name TEXT NOT NULL,
    age INTEGER NOT NULL
)
""")
connection.commit()  # Zapisanie zmian w bazie danych
```

**Wstawianie danych:**
Dane można wstawiać za pomocą zapytania `INSERT INTO`.

**Kod przykładowy:**
```python
# Dodawanie danych do tabeli
cursor.execute("""
INSERT INTO users (name, age) VALUES (?, ?)
""", ("Alice", 30))

connection.commit()
```

**Zwróć uwagę**: Używaj `?` jako placeholderów, aby uniknąć ataków SQL Injection.

---

### **2.3. Zapytania SQL**

**Pobieranie danych:**
Dane można pobierać za pomocą zapytania `SELECT`.

**Kod przykładowy:**
```python
# Pobieranie wszystkich danych
cursor.execute("SELECT * FROM users")
rows = cursor.fetchall()

# Wyświetlanie wyników
for row in rows:
    print(row)
```

**Filtrowanie danych:**
Dodanie klauzuli `WHERE` pozwala na filtrowanie wyników.

**Kod przykładowy:**
```python
# Pobieranie użytkowników w wieku powyżej 25 lat
cursor.execute("SELECT * FROM users WHERE age > ?", (25,))
filtered_rows = cursor.fetchall()
print(filtered_rows)
```

---

### **2.4. Praca z transakcjami**

Transakcje pozwalają na grupowanie operacji, które muszą zostać wykonane jako całość. Używamy `commit` do zapisania zmian i `rollback` do ich cofnięcia.

**Kod przykładowy:**
```python
try:
    # Rozpoczęcie transakcji
    cursor.execute("INSERT INTO users (name, age) VALUES (?, ?)", ("Bob", 25))
    cursor.execute("INSERT INTO users (name, age) VALUES (?, ?)", ("Eve", 35))

    # Zatwierdzenie transakcji
    connection.commit()
except sqlite3.Error as e:
    print("Błąd:", e)
    # Cofnięcie transakcji
    connection.rollback()
```

---

### **2.5. Obsługa błędów i wyjątków**

Praca z bazą danych wymaga obsługi wyjątków, aby radzić sobie z problemami, takimi jak błędy zapytań SQL czy brak połączenia z bazą danych.

**Kod przykładowy:**
```python
try:
    connection = sqlite3.connect("example.db")
    cursor = connection.cursor()

    # Błędne zapytanie
    cursor.execute("SELECT * FROM non_existing_table")
except sqlite3.Error as e:
    print("Błąd bazy danych:", e)
finally:
    connection.close()
```

**Wskazówka**: Używaj konstrukcji `try-finally` lub menedżera kontekstu.

---

### **2.6. Użycie menedżera kontekstu**

Menedżer kontekstu automatycznie zamyka połączenie z bazą danych po zakończeniu pracy.

**Kod przykładowy:**
```python
import sqlite3

with sqlite3.connect("example.db") as connection:
    cursor = connection.cursor()
    cursor.execute("SELECT * FROM users")
    print(cursor.fetchall())
```

---

## **3. Ćwiczenia**

1. **Tworzenie tabeli i wstawianie danych:**
   - Stwórz tabelę `products` z kolumnami: `id`, `name`, `price`.
   - Dodaj kilka produktów do tabeli.

2. **Pobieranie danych:**
   - Pobierz wszystkie produkty o cenie wyższej niż 100.

3. **Praca z transakcjami:**
   - Wstaw kilka rekordów w jednej transakcji i wycofaj zmiany, jeśli wystąpi błąd.

---

### **Podsumowanie**

SQLite jest prostym i wygodnym narzędziem do pracy z relacyjnymi bazami danych w Pythonie. Jego integracja z modułem `sqlite3` pozwala na szybkie i efektywne zarządzanie danymi. Umiejętność korzystania z SQLite stanowi podstawę dla bardziej zaawansowanych technologii baz danych.
   - Ćwiczenie:
     - Stworzenie prostej bazy danych dla książek (tytuł, autor, rok wydania) i wykonanie podstawowych operacji CRUD.



---

##### **1.2. Wysokopoziomowe podejście (ORM-y)**
   - Wprowadzenie do ORM (Object-Relational Mapping).
   - **SQLAlchemy**:
     - Konfiguracja i podstawowe użycie.
     - Definiowanie modeli danych.
     - Operacje CRUD z użyciem sesji.
     - Zaawansowane zapytania: filtrowanie, sortowanie, relacje między tabelami.
   - **Pony ORM**:
     - Porównanie z SQLAlchemy.
     - Definiowanie modeli danych i zapytania.
   - Ćwiczenie:
     - Stworzenie bazy danych dla systemu zamówień (klient, zamówienia, produkty) z użyciem SQLAlchemy lub Pony ORM.
   - Dyskusja: wady i zalety poszczególnych ORM-ów.

---

##### **1.3. Wprowadzenie do baz NoSQL**
   - Co to są bazy NoSQL i kiedy warto ich używać?
   - Praca z MongoDB w Pythonie:
     - Biblioteka `pymongo`: konfiguracja, tworzenie kolekcji, wstawianie danych.
     - Zapytania i filtrowanie.
     - Operacje agregacji.
   - Porównanie NoSQL z bazami relacyjnymi.
   - Ćwiczenie:
     - Zbudowanie prostej bazy danych użytkowników i ich aktywności w aplikacji.

---

#### **Część 2: Serializacja w Pythonie**

1. **Wprowadzenie do serializacji**
   - Co to jest serializacja i dlaczego jest potrzebna?
   - Format danych: JSON, XML, pickle.
   - Zastosowania w pracy z bazami danych, API, plikami.

---

##### **2.1. Serializacja z użyciem JSON**
   - Wbudowany moduł `json`:
     - Konwersja obiektów Python na JSON i odwrotnie.
     - Obsługa niestandardowych typów danych.
   - Serializacja obiektów z ORM:
     - Serializacja danych z baz relacyjnych.
   - Ćwiczenie:
     - Serializacja wyników zapytania SQLAlchemy do JSON.

---

##### **2.2. Serializacja z użyciem pickle**
   - Moduł `pickle`:
     - Tworzenie binarnych zapisów obiektów.
     - Wady i zalety stosowania pickle.
   - Ćwiczenie:
     - Zapisanie stanu aplikacji do pliku i jego odtworzenie.

---

##### **2.3. Inne formaty serializacji**
   - **XML**:
     - Biblioteka `xml.etree.ElementTree`.
     - Przykład konwersji danych do XML.
   - **MessagePack**:
     - Wprowadzenie do szybkiego binarnego formatu serializacji.
   - Dyskusja o różnych formatach serializacji i ich zastosowaniach.

---

#### **Część 3: Ćwiczenie końcowe**
   - Projekt: Tworzenie aplikacji, która:
     - Korzysta z ORM do zapisu danych do bazy relacyjnej.
     - Serializuje dane z bazy w formacie JSON.
     - Umożliwia zapis i odczyt danych w formacie pickle.
   - Możliwość rozszerzenia o obsługę bazy NoSQL i eksport do XML.

---

#### **Zasoby dodatkowe**
   - Dokumentacja SQLite, SQLAlchemy, Pony ORM, PyMongo.
   - Oficjalna dokumentacja modułów: `json`, `pickle`, `xml`.

