In [None]:
from IPython.display import display, HTML; display(HTML("<style>.container { width:80% !important; }</style>")) 
import numpy as np 

## Podstawy SQL

### Czym jest baza danych?

Relacyjna baza danych to model przechowywania danych, w którym dane te zorganizowane są w tabelach (zwanych również relacjami). Tabele posiadają wiersze i kolumny. Wiersze reprezentują rekordy (obserwacje) przechowywane w bazie, a kolumny odnoszą się do ich cech (atrybutów).

W praktyce można myśleć o bazie danych jak o zbiorze tabel. Aby dostać się do pojedynczej informacji należy określić nazwę tabeli, nazwę kolumny oraz tzw. klucz główny.

![image-4.png](attachment:image-4.png)

**Structured Query Language - ustrukturyzowany język zapytań**

Do wykonywania operacji na relacyjnej bazie danych służy język SQL. Kod SQLa to tak zwane zapytania (*queries*). Różne typy zapytań pozwalają wykonać różne operacje:

- CREATE - do tworzenia tabeli
- INSERT - do tworzenia nowych wierszy
- SELECT - do wyciągania danych z tabeli
- UPDATE - do edycji istniejących danych
- DELETE - do usuwania danych
- DROP - do usuwania tabel / baz danych

### CREATE

To zapytanie służy do tworzenia tabel. Poniższy kod utworzy tabelę przechowującą informacje o samochodach.

Uwaga: W PostgreSQL nazwy tabel oraz kolumn nie powinny zawierać:
- spacji
- wielkich liter (inaczej będziemy musieli pisać je w cudzysłowiach)

**Przykład zapytania typu CREATE**

``` SQL
CREATE TABLE cars (
    id          SMALLINT,              -- small integer (-32 768, +32 767)
    brand       VARCHAR(20),           -- varying length character with maximum characters number of 20
    price       NUMERIC,               -- any numerical value
    fuel_type   TEXT,                  -- text with any number of characters
    mileage     NUMERIC,
    is_new      BOOLEAN,               -- True or False
    prod_date   DATE                   -- yyyy-mm-dd               
);
```

Więcej na temat typów danych: https://www.postgresqltutorial.com/postgresql-data-types/

Oprócz typu danych dla każdej kolumny możemy określić dodatkowe parametry, tzw. constraints. Przykłady takich parametrów to:
- NOT NULL (wartość w danej kolumnie nie może być brakująca)
- UNIQUE  (wartość w danej kolumnie musi być unikalna)

Jest również specjalny typ danych, który często stosujemy dla kolumny id. Ten typ nazywa się SERIAL i jest autonumerowany, to znaczy że ładując dane do tabeli nie będziemy musieli podawać wartości dla takiej kolumny. Pojawi się ona automatycznie jako kolejna liczba całkowita: 1, 2, 3, ...

Wykorzystując powyższe informacje przebudujmy nasze zapytanie CREATE:

``` SQL
CREATE TABLE cars (
    id          SERIAL,             
    brand       VARCHAR(20) NOT NULL,          
    price       NUMERIC UNIQUE,              
    fuel_type   TEXT NOT NULL,                 
    mileage     NUMERIC,
    is_new      BOOLEAN,              
    prod_date   DATE                  
);
```

### INSERT

Tym zapytanie dodajemy dane do tabeli, a ściślej – tworzymy nowy wiersz. Możemy, ale nie musimy określać wartości dla każdej kolumny. Jeśli chcemy dodać kompletny wiersz, robimy to w taki sposób:

```sql

INSERT INTO cars
VALUES (1, 'Audi', 80000, 'Benzyna', 200000, True, '2015-09-12');
```

A jeśli tylko dla wybranych kolumn:

``` sql
INSERT INTO cars (id, brand, price, fuel_type, mileage, is_new, prod_date)
VALUES (1, 'Audi', 80000, 'Benzyna', 200000, True, '2015-09-12');

```

``` SQL
INSERT INTO cars (brand, price)
VALUES ('Volvo', 90000);
```

**Przykład generatora losowych zapytań typu INSERT**

In [None]:
brands = ["'Audi'", "'Ford'", "'Renault'", "'Fiat'"]
fuel_types = ["'Benzyna'", "'Diesel'", "'Benzyna+LPG'"]
true_false = ["'True'", "'False'"]

for i in range(200):
    brand = np.random.choice(brands)
    price = str(np.random.randint(10000, 100000))
    fuel = np.random.choice(fuel_types)
    mileage = str(np.random.randint(150000, 250000))
    is_new = np.random.choice(true_false)
    prod_date = f"'{np.random.randint(2000, 2020)}-{np.random.randint(1, 12)}-{np.random.randint(1, 25)}'"
    
    values = [brand, price, fuel, mileage, is_new, prod_date]
    query = f"INSERT INTO cars (brand, price, fuel_type, mileage, is_new, prod_date) VALUES ({','.join(values)});"
    
    print(query, '\n')

Jeśli wartość ma być pusta, należy wpisać NULL

### SELECT

Jest to prawdopodobnie najczęściej używane zapytanie w języku SQL. Służy do wyciągania danych z bazy.

**Przykłady zapytań typu SELECT**

``` SQL
SELECT * FROM cars; 
```

``` SQL
SELECT brand, price, mileage FROM cars; 
```

``` SQL
SELECT * FROM cars
WHERE price > 50000; 
```

``` SQL
SELECT * FROM cars
WHERE price > 50000 and is_new='False';   -- pojedynczy znak równości !
```

``` SQL
SELECT * FROM cars
WHERE fuel_type = 'Benzyna' or brand LIKE 'Fo%'; 
```

``` SQL
SELECT * FROM cars
WHERE price > 50000
ORDER BY mileage;  -- domyślnie sortuje rosnąco. Aby sortować malejąco dodaj DESC
```

**Podsumowanie:**

- gwiazdka - wszystkie kolumny. Alternatywnie można wypisać wybrane kolumny
- WHERE służy do stawiania warunków logicznych dla wyszukiwanych wierszy
- możliwe operatory dla WHERE: =, >, <, LIKE
- warunki logiczne łączymy poprzez *and* i *or*
- wyniki możemy szeregować poprzez ORDER BY

> **ZADANIA**

### UPDATE

W celu zmodyfikowania już istniejącej w tabeli wartości, korzystamy z zapytania UPDATE.

``` SQL
UPDATE cars SET brand = 'Opel' WHERE mileage > 150000;
```

``` SQL
UPDATE cars SET (mileage, is_new) = (1000, 'False') WHERE id = 4;
```

### DELETE

DELETE służy do usunięcia rekordów z tabeli.

``` SQL
DELETE FROM cars WHERE is_new = False
```

### DROP

DROP pozwala usunąć całą tabelę albo bazę danych.

``` SQL
DROP TABLE cars
```

> **ZADANIA**

## PostgreSQL + Python
### Łączenie się z bazą danych

In [None]:
import psycopg2

In [None]:
my_password = "postgres"

In [None]:
conn = psycopg2.connect(dbname="postgres", user="postgres", password=my_password, host='localhost', port=5432)

# port domyślnie jest równy 5432

In [None]:
conn

In [None]:
cursor = conn.cursor()

In [None]:
cursor

In [None]:
# ... operacje na bazie danych

In [None]:
conn.close()
cursor.close()

In [None]:
conn

In [None]:
cursor

Dobrą praktyką jest zamykanie kursora oraz połączenia kiedy kończymy wykonywać daną operację.

Inną dobrą praktyką jest trzymanie danych do logowania przynajmniej w zewnętrznym pliku zamiast w kodzie.

### Tworzenie zapytań w Pythonie
**CREATE**

In [None]:
conn = psycopg2.connect(dbname="postgres", user="postgres", password=my_password, host='localhost')
cursor = conn.cursor()

In [None]:
create_query = '''
CREATE TABLE cars (
    id          SMALLINT,              -- small integer (-32 768, +32 767)
    brand       VARCHAR(20),           -- varying length character with maximum characters number of 20
    price       NUMERIC,               -- any numerical value
    fuel_type   TEXT,                  -- text with any number of characters
    mileage     NUMERIC,
    is_new      BOOLEAN,               -- True or False
    prod_date   DATE                   -- yyyy-mm-dd               
);
'''

In [None]:
cursor.execute(create_query)
conn.commit()

In [None]:
conn.close()
cursor.close()

**INSERT**

In [None]:
conn = psycopg2.connect(dbname="postgres", user="postgres", password=my_password, host='localhost')
cursor = conn.cursor()

In [None]:
insert_query = '''
INSERT INTO cars (id, brand, price, fuel_type, mileage, is_new, prod_date) VALUES (1, 'Audi', 80000, 'Benzyna', 200000, True, '2015-09-12');
'''

In [None]:
cursor.execute(insert_query)
conn.commit()

In [None]:
conn.close()
cursor.close()

**SELECT**

In [None]:
conn = psycopg2.connect(dbname="postgres", user="postgres", password=my_password, host='localhost')
cursor = conn.cursor()

In [None]:
select_query = '''
SELECT * FROM cars;
'''

In [None]:
cursor.execute(select_query)
results = cursor.fetchall()

In [None]:
conn.close()
cursor.close()

In [None]:
results

In [None]:
results[0]

In [None]:
results[0][1]

---

In [None]:
import psycopg2.extras

In [None]:
conn = psycopg2.connect(dbname="postgres", user="postgres", password=my_password, host='localhost')
cursor = conn.cursor(cursor_factory=psycopg2.extras.RealDictCursor)

select_query = '''
SELECT * FROM cars;
'''

cursor.execute(select_query)
results = cursor.fetchall()

conn.close()
cursor.close()

In [None]:
results

In [None]:
results[0]['brand']

**UPDATE**

In [None]:
conn = psycopg2.connect(dbname="postgres", user="postgres", password=my_password, host='localhost')
cursor = conn.cursor()

update_query = '''
UPDATE cars SET brand = 'Opel' WHERE mileage > 150000;
'''

cursor.execute(update_query)
conn.commit()

conn.close()
cursor.close()

**DELETE**

In [None]:
conn = psycopg2.connect(dbname="postgres", user="postgres", password=my_password, host='localhost')
cursor = conn.cursor()

delete_query = '''
DELETE FROM cars WHERE is_new = True
'''

cursor.execute(delete_query)
conn.commit()

conn.close()
cursor.close()

**DROP**

In [None]:
conn = psycopg2.connect(dbname="postgres", user="postgres", password=my_password, host='localhost')
cursor = conn.cursor()

drop_query = '''
DROP TABLE cars
'''

cursor.execute(drop_query)
conn.commit()

conn.close()
cursor.close()

> **ZADANIA**

### ElephantSQL

https://elephantsql.com

https://customer.elephantsql.com/signup

## SQLAlchemy

ORM - object-relational mapping

In [None]:
from sqlalchemy import create_engine, Column, String, Integer
from sqlalchemy.orm import sessionmaker, declarative_base

### Tworzenie tabeli

In [None]:
Base = declarative_base()

In [None]:
class Person(Base):
    __tablename__ = "people"
    
    id_number = Column("id_number", Integer, primary_key=True)
    first_name = Column("first_name", String)
    last_name = Column("last_name", String)
    gender = Column("gender", String)
    age = Column("age", Integer)
    
    def __init__(self, id_number, first_name, last_name, gender, age):
        self.id_number = id_number
        self.first_name = first_name
        self.last_name = last_name
        self.gender = gender
        self.age = age
        
    def __repr__(self):
        return f"Person with id: {self.id_number}"

In [None]:
engine = create_engine("postgresql://postgres:postgres@localhost:5432/postgres")

In [None]:
Base.metadata.create_all(bind=engine)

### Dodawanie rekordów

In [None]:
p1 = Person(1, "Jan", "Kowalski", "M", 20)

In [None]:
Session = sessionmaker(bind=engine)
session = Session()

In [None]:
session.add(p1)
session.commit()

In [None]:
p2 = Person(2, "Anna", "Nowak", "K", 25)

session.add(p2)
session.commit()

### Wyciąganie danych

In [None]:
results = session.query(Person).all()
results

In [None]:
results = session.query(Person).filter(Person.gender == "K").all()
results

In [None]:
from sqlalchemy import or_, and_

In [None]:
results = session.query(Person).filter(or_(Person.gender == "K", Person.gender == "M")).all()
results

In [None]:
results = session.query(Person).filter(and_(Person.gender == "K", Person.first_name == "Anna")).all()
results

### Modyfikacja rekordów

In [None]:
result = session.query(Person).filter(Person.id_number == 1).first()
result

In [None]:
result.age = 22

In [None]:
session.commit()

### Usuwanie rekordów

In [None]:
result = session.query(Person).filter(Person.id_number == 1).first()
result

In [None]:
session.delete(result)

In [None]:
session.commit()

### Usuwanie tabeli

In [None]:
Person.__table__.drop(bind=engine)

> **ZADANIA**

## MongoDB

Kolekcja ~ tabela

Dokument ~ wiersz

Pole ~ kolumna

In [None]:
from pymongo import MongoClient

### Nawiązanie połączenia

In [None]:
client = MongoClient("localhost", 27017)

### Stworzenie bazy danych i kolekcji

In [None]:
db = client['my_db']

In [None]:
collection = db['my_collection']

### Dodanie danych

In [None]:
document = {"id_number": 1, "first_name": "Jan", "last_name": "Kowalski", "gender": "M", "age": 20}

In [None]:
collection.insert_one(document)

In [None]:
document = {"id_number": 2,"first_name": "Anna", "last_name": "Nowak", "gender": "K", "age": 25}
collection.insert_one(document)

### Wyciąganie danych

In [None]:
results = collection.find()
results

In [None]:
list(results)

---

In [None]:
results = collection.find({"id_number": 123})
results

In [None]:
list(results)

---

In [None]:
results = collection.find(projection={"_id": 0})  # "first_name": 1, "last_name": 1   <- tylko te pola
results

In [None]:
list(results)

---

In [None]:
results = collection.find({"$or": [{"id_number": 1}, {"id_number": 3}]})
list(results)

In [None]:
results = collection.find({"$and": [{"id_number": 1}, {"first_name": "Jan"}]})
list(results)

### Modyfikacja danych

In [None]:
collection.update_one({'id_number': 2}, {"$set": {"age": 30}})

### Usuwanie danych

In [None]:
collection.delete_one({"id_number": 1})

### Usuwanie kolekcji

In [None]:
collection.drop()