# Databáze

In [1]:
import pandas as pd

## Instalace a import SQLAlchemy

Instalaci knihovny [SQLAlchemy](https://www.sqlalchemy.org/) provedeme přes pip (nezapomeňte mít aktivovaný venv, do kterého to chcete instalovat):

```
pip install sqlalchemy
```

In [2]:
import sqlalchemy

## Stažení filmové databáze

Pro ukázku práce s databází použijeme data od Míry Brabence.
Jde o databázi typu SQLite - skládá se z jediného souboru, ve kterém jsou všecha data.
Soubor stáhneme knihovnou Requests, kterou už máte nainstalovanou (instrukce byly v první hodině)
a uložíme ho do souboru na disku (v pracovním adresáři, tj. tam, odkud jste spustili Jupyter Notebook).

In [3]:
from pathlib import Path
import requests

In [4]:
db_data = requests.get('https://github.com/brabemi/imper-ukol/raw/master/app.db').content
Path('filmy.db').write_bytes(db_data)

995328

## Otevření databáze, průzkum struktury

In [5]:
engine = sqlalchemy.create_engine('sqlite:///filmy.db')

Objekt `engine` obsahuje připojení do databáze a skrz něj budeme provádět operace s danou databází.

Začneme tím, že se podíváme, jaká je struktura té databáze - jaké tabulky obsahuje a co obsahují ty tabulky. Každá databáze na to má jiné finty, jak toto zjistit (někdy funguje SQL příkaz `SHOW TABLES`, jindy je zase potřeba `SELECT` z metadat), naštěstí SQLAlchemy nám s tím pomůže.

In [6]:
sqlalchemy.inspect(engine).get_table_names()

['actor', 'alembic_version', 'movie', 'movie_to_actor']

In [7]:
def prozkoumat(engine):
    inspector = sqlalchemy.inspect(engine)
    for schema in inspector.get_schema_names():
        print('Schema:', schema)
        for table_name in inspector.get_table_names(schema=schema):
            print()
            print('  Table:', table_name)
            print()
            for column in inspector.get_columns(table_name, schema=schema):
                print('      Column:', column['name'].ljust(12), column['type'])

In [8]:
prozkoumat(engine)

Schema: main

  Table: actor

      Column: id           INTEGER
      Column: name         TEXT
      Column: simple_name  TEXT
      Column: csfd_id      INTEGER

  Table: alembic_version

      Column: version_num  VARCHAR(32)

  Table: movie

      Column: id           INTEGER
      Column: name         TEXT
      Column: simple_name  TEXT
      Column: csfd_id      INTEGER

  Table: movie_to_actor

      Column: movie_id     INTEGER
      Column: actor_id     INTEGER


## SELECT

In [9]:
engine.execute('SELECT id, name, csfd_id FROM actor')

<sqlalchemy.engine.result.ResultProxy at 0x10eea55d0>

In [10]:
result = engine.execute('SELECT id, name, csfd_id FROM actor')
for row in result:
    print(row)

(1, 'Tim Robbins', 103)
(2, 'Morgan Freeman', 92)
(3, 'Bob Gunton', 202)
(4, 'William Sadler', 203)
(5, 'Clancy Brown', 204)
(6, 'Gil Bellows', 2392)
(7, 'Mark Rolston', 20260)
(8, 'James Whitmore', 2357)
(9, 'Jeffrey DeMunn', 5732)
(10, 'Larry Brandenburg', 37518)
(11, 'Neil Giuntoli', 37545)
(12, 'David Proval', 9120)
(13, 'Jude Ciccolella', 53688)
(14, 'Paul McCrane', 24350)
(15, 'Alfonso Freeman', 30899)
(16, 'Ned Bellamy', 20757)
(17, 'James Babson', 15400)
(18, 'Renee Blaine', 55721)
(19, 'Frank Medrano', 55722)
(20, 'Don McManus', 78011)
(21, 'Brian Libby', 88975)
(22, 'Dion Anderson', 237860)
(23, 'Joseph Ragno', 260579)
(24, 'Sergio Kato', 311428)
(25, 'Morgan Lund', 383496)
(26, 'Brian Brophy', 403538)
(27, 'V.J. Foster', 403542)
(28, 'Bill Bolender', 418947)
(29, 'Tom Hanks', 330)
(30, 'Robin Wright', 604)
(31, 'Gary Sinise', 491)
(32, 'Mykelti Williamson', 1903)
(33, 'Sally Field', 541)
(34, 'Haley Joel Osment', 52)
(35, 'Peter Dobson', 212)
(36, 'Siobhan Fallon Hogan', 198

(643, 'Chris Pattinson', 250914)
(644, 'Deni Gordon', 269571)
(645, 'Bill Young', 296508)
(646, 'Nash Edgerton', 44188)
(647, 'Eli Wallach', 6485)
(648, 'Lee Van Cleef', 9397)
(649, 'Aldo Giuffré', 250030)
(650, 'Luigi Pistilli', 10758)
(651, 'Rada Rassimov', 122548)
(652, 'Enzo Petito', 335421)
(653, 'Claudio Scarchilli', 335422)
(654, 'John Bartha', 21542)
(655, 'Livio Lorenzon', 71809)
(656, 'Antonio Casale', 335423)
(657, 'Sandro Scarchilli', 335424)
(658, 'Angelo Novi', 335425)
(659, 'Antonio Casas', 150230)
(660, 'Sergio Mendizábal', 327881)
(661, 'Mario Brega', 82273)
(662, 'Chelo Alonso', 68820)
(663, 'Fortunato Arena', 122961)
(664, 'Román Ariznavarreta', 342460)
(665, 'Silvana Bacci', 324609)
(666, 'Amerigo Castrighella', 353206)
(667, 'Tony Di Mitri', 353204)
(668, 'Alberigo Donadeo', 122756)
(669, 'Attilio Dottesio', 10564)
(670, 'Veriano Ginesi', 326188)
(671, 'Joyce Gordon', 354632)
(672, 'Jesús Guzmán', 327978)
(673, 'Víctor Israel', 122634)
(674, 'Nazzareno Natale', 352

(1169, 'Rami Malek', 53849)
(1170, 'Lucy Boynton', 170745)
(1171, 'Gwilym Lee', 115651)
(1172, 'Ben Hardy', 170464)
(1173, 'Joseph Mazzello', 1862)
(1174, 'Aidan Gillen', 14815)
(1175, 'Allen Leech', 15628)
(1176, 'Tom Hollander', 18731)
(1177, 'Mike Myers', 451)
(1178, 'Aaron McCusker', 160053)
(1179, 'Meneka Das', 427845)
(1180, 'Ace Bhatti', 145282)
(1181, 'Priya Blackburn', 427855)
(1182, 'Dermot Murphy', 339362)
(1183, 'Dickie Beau', 427858)
(1184, 'Tim Plester', 58929)
(1185, 'Jack Roth', 99700)
(1186, 'Max Bennett', 305254)
(1187, 'Neil Fox-Roberts', 427861)
(1188, 'Kieran Hardcastle', 88473)
(1189, 'Bruce Mackinnon', 304675)
(1190, 'Michelle Duncan', 68833)
(1191, 'Matt Greenwood', 441584)
(1192, 'Jess Radomska', 291252)
(1193, 'Philip Andrew', 427865)
(1194, 'John Ottman', 3029)
(1195, 'Adam Lambert', 60141)
(1196, 'Freddie Mercury', 16535)
(1197, 'Mark Hamill', 411)
(1198, 'Carrie Fisher', 542)
(1199, 'Billy Dee Williams', 1905)
(1200, 'Anthony Daniels', 1956)
(1201, 'David P

(2108, 'Kevin Will', 298024)
(2109, 'Edward Hibbert', 312786)
(2110, 'Roger Carel', 6739)
(2111, 'Pierre Tornade', 5866)
(2112, 'Henri Labussière', 6738)
(2113, 'Henri Poirier', 23867)
(2114, 'Pierre Tchernia', 39231)
(2115, 'Henri Virlojeux', 67340)
(2116, 'Odette Laure', 13245)
(2117, 'Alice Sapritch', 60391)
(2118, 'Nicole Vervil', 68770)
(2119, 'Oliver Postgate', 78337)
(2120, 'Pascal Mazzotti', 81167)
(2121, 'Roger Lumont', 81921)
(2122, 'Bernard Lavalette', 83492)
(2123, 'Gérard Hernandez', 83564)
(2124, 'Nicole Jonesco', 88130)
(2125, 'Jacques Morel', 97077)
(2126, 'Bill Oddie', 127211)
(2127, 'Georges Atlas', 165798)
(2128, 'Gisèle Grimm', 196066)
(2129, 'Claude Bertrand', 191958)
(2130, 'Caroline Clerc', 192024)
(2131, 'Michael Kilgarriff', 279584)
(2132, 'Gregory Peck', 873)
(2133, 'Audrey Hepburn', 811)
(2134, 'Eddie Albert', 11200)
(2135, 'Hartley Power', 11436)
(2136, 'Harcourt Williams', 11488)
(2137, 'Margaret Rawlings', 11622)
(2138, 'Tullio Carminati', 96821)
(2139, 'P

(2693, 'Charles Keating', 283158)
(2694, 'James Medina', 330179)
(2695, 'Steve Vinovich', 361334)
(2696, 'Mel Gorham', 362476)
(2697, 'Laura Esterman', 363934)
(2698, 'medvěd Bart', 14356)
(2699, 'medvěd Youk', 47031)
(2700, 'Tchéky Karyo', 299)
(2701, 'André Lacombe', 190232)
(2702, 'Jack Wallace', 218576)
(2703, 'Jan Werich', 2018)
(2704, 'Irena Kačírková', 4785)
(2705, 'Stella Májová', 24511)
(2706, 'František Černý', 1633)
(2707, 'Lubomír Lipský st.', 981)
(2708, 'Miloš Kopecký', 979)
(2709, 'Miroslav Horníček', 2335)
(2710, 'Terezie Brzková', 1113)
(2711, 'Zdeněk Dítě', 1654)
(2712, 'Josef Pehr', 22811)
(2713, 'Vladimír Ráž', 9185)
(2714, 'Fanda Mrázek', 21805)
(2715, 'František Hanus', 21688)
(2716, 'Gustav Hrdlička', 27579)
(2717, 'Eman Fiala', 1888)
(2718, 'Marcela Sedláčková', 29097)
(2719, 'Irena Bernátová', 29099)
(2720, 'Eva Klepáčová', 1217)
(2721, 'Slávka Rosenbergová', 1293)
(2722, 'Josef Bartůněk', 22839)
(2723, 'Vladimír Klemens', 29100)
(2724, 'Jiří Novotný', 37284)
(

(3767, 'Ladislav Potměšil', 1492)
(3768, 'Jan Přeučil', 1566)
(3769, 'Ivan Vyskočil', 1466)
(3770, 'Alois Švehlík', 1521)
(3771, 'Bronislav Poloczek', 1510)
(3772, 'Petr Pelzer', 26888)
(3773, 'Karel Smrž', 28231)
(3774, 'Jana Synková', 1346)
(3775, 'Zuzana Geislerová', 1163)
(3776, 'Jana Paulová', 1273)
(3777, 'Valerie Čižmárová', 46232)
(3778, 'Jana Marková', 1255)
(3779, 'Jiřina Jelenská', 1426)
(3780, 'Stanislav Zindulka', 7271)
(3781, 'Vladimír Pospíšil', 29255)
(3782, 'Petr Skarke', 29342)
(3783, 'Jindřich Hinke', 29305)
(3784, 'Roman Skamene', 998)
(3785, 'Stanislav Tříska', 21911)
(3786, 'Alena Mihulová', 1260)
(3787, 'Bohumila Dolejšová', 1131)
(3788, 'Eva Asterová', 35922)
(3789, 'Jan Jirásek', 62507)
(3790, 'Marta Krampolová', 59054)
(3791, 'Michal Herz', 65061)
(3792, 'Eva Kelemenová-Ziliziová', 43749)
(3793, 'Georg Tryphon', 174932)
(3794, 'Romana Kvapiková-Julinová', 50805)
(3795, 'Sean Penn', 270)
(3796, 'John Leguizamo', 435)
(3797, 'Luis Guzmán', 4905)
(3798, 'James Re

(5391, 'Maurice Illouz', 190884)
(5392, 'Marie Pillet', 216645)
(5393, 'Martine Ferrière', 223933)
(5394, 'Catherine Meurisse', 273939)
(5395, 'Jacqueline Bisset', 2190)
(5396, 'Vittorio Caprioli', 71718)
(5397, 'Monique Tarbès', 83234)
(5398, 'André Weber', 83254)
(5399, 'Philippe de Broca', 3975)
(5400, 'Maurice Auzel', 16301)
(5401, 'Jean-Pierre Rambal', 77764)
(5402, 'Robert Berri', 16324)
(5403, 'Hubert Deschamps', 80006)
(5404, 'Bernard Musson', 80573)
(5405, 'Lucienne Legrand', 81838)
(5406, 'Michel Thomass', 82781)
(5407, 'Henry Czarniak', 83102)
(5408, 'Micha Bayard', 83264)
(5409, 'Max Desrau', 87710)
(5410, 'Raoul Guylad', 102887)
(5411, 'Louis Navarre', 105552)
(5412, 'René Barrera', 284937)
(5413, 'Gaëtan Noël', 296974)
(5414, 'Rodrigo Puebla', 310368)
(5415, 'Helen Hunt', 553)
(5416, 'Greg Kinnear', 325)
(5417, 'Shirley Knight', 7664)
(5418, 'Skeet Ulrich', 9778)
(5419, 'Yeardley Smith', 11636)
(5420, 'Lupe Ontiveros', 4530)
(5421, 'Bibi Osterwald', 226651)
(5422, 'Leslie

(5881, 'Don Tilley', 94958)
(5882, 'Tim Hopper', 339055)
(5883, 'Roy Dupuis', 12084)
(5884, 'Tom McCamus', 72460)
(5885, 'Patrice Faye', 125448)
(5886, 'John Matshikiza', 285279)
(5887, 'Philip Akin', 298289)
(5888, 'Justin Craig', 343153)
(5889, 'David Calderisi', 349017)
(5890, 'Daniel Janks', 421731)
(5891, 'Yves Montand', 2318)
(5892, 'Gérard Depardieu', 295)
(5893, 'Daniel Auteuil', 2001)
(5894, 'Elisabeth Depardieu', 62085)
(5895, 'Margarita Lozano', 22645)
(5896, 'Ernestine Mazurowna', 62086)
(5897, 'Roger Souza', 105076)
(5898, 'Chantal Liennel', 145311)
(5899, 'Armand Meffre', 150942)
(5900, 'Marcel Champel', 155268)
(5901, 'Marc Betton', 195758)
(5902, 'Jean Maurel', 220867)
(5903, 'Didier Pain', 223561)
(5904, 'Marcel Berbert', 278803)
(5905, 'Fransined', 298567)
(5906, 'André Dupon', 337934)
(5907, 'Rudolf Jelínek', 1736)
(5908, 'Ladislav Mrkvička', 6345)
(5909, 'Josef Vinklář', 1477)
(5910, 'Siegfried Loyda', 38158)
(5911, 'Harry Studt', 39724)
(5912, 'Wolf Goette', 39725)

(6491, 'Vlasta Ziegner', 43693)
(6492, 'Pavel Stránský', 43694)
(6493, 'Michael Tarant', 29375)
(6494, 'Miloslava Dlhá', 43695)
(6495, 'Jaroslav Engelhart', 43696)
(6496, 'Stanislav Benda', 38396)
(6497, 'Vladimír Jelínek', 43697)
(6498, 'Jiří Kalenský', 29274)
(6499, 'Jiří Klenot', 29227)
(6500, 'Jan Váňa', 38349)
(6501, 'Jarmila Glosová', 43698)
(6502, 'Miroslav Jíra', 29245)
(6503, 'Vilém Kratochvíl', 43699)
(6504, 'Ladislav Havlák', 43700)
(6505, 'František Kokta', 43701)
(6506, 'Jana Fominová', 43702)
(6507, 'Věra Laňková', 29276)
(6508, 'Ladislav Lahoda', 38340)
(6509, 'Jiřina Zemanová', 38455)
(6510, 'Milena Kudrnová', 43703)
(6511, 'Jan Brokl', 43704)
(6512, 'Miroslav Brokl', 38518)
(6513, 'Pavel Jiras', 29285)
(6514, 'Rudolf Pešek', 32956)
(6515, 'Vladimír Linka', 29239)
(6516, 'Bohuslav Mládek', 43705)
(6517, 'Ota Robek', 43707)
(6518, 'Jarmila Schwarzová', 43708)
(6519, 'Zorka Adamíková', 43709)
(6520, 'Ivan Anthon', 39952)
(6521, 'Vítězslav Bouchner', 35143)
(6522, 'Hana La

(6880, 'Titus Welliver', 37148)
(6881, 'Gretchen Becker', 194491)
(6882, 'Eric Burdon', 54682)
(6883, 'Andrew Lauer', 58162)
(6884, 'Erik Dellums', 60069)
(6885, 'Rion Hunter', 73947)
(6886, 'Tay Brooks', 79862)
(6887, 'Charlie Spradling', 93831)
(6888, 'Christopher Lawford', 101994)
(6889, 'Annie McEnroe', 104308)
(6890, 'Robert F. Kennedy', 20104)
(6891, 'Robby Krieger', 152797)
(6892, 'John Densmore', 152802)
(6893, 'Frank Military', 289635)
(6894, 'Alan Manson', 291076)
(6895, 'Paul Williams', 89305)
(6896, 'Bonnie Bramlett', 413394)
(6897, 'Philip Seymour Hoffman', 4519)
(6898, 'Bethany Whitmore', 62104)
(6899, 'Michalina Łabacz', 244638)
(6900, 'Arkadiusz Jakubik', 23291)
(6901, 'Wasyl Wasylik', 405115)
(6902, 'Adrian Zaremba', 405117)
(6903, 'Jacek Braciak', 12070)
(6904, 'Tomasz Sapryk', 44337)
(6905, 'Izabela Kuna', 88303)
(6906, 'Kinga Preis', 60643)
(6907, 'Jarosław Gruda', 144970)
(6908, 'Wojciech Zieliński', 66120)
(6909, 'Lech Dyblik', 131945)
(6910, 'Gabriela Muskała', 8

In [11]:
result = engine.execute('SELECT id, name, csfd_id FROM actor LIMIT 5')
for row in result:
    print(row)

(1, 'Tim Robbins', 103)
(2, 'Morgan Freeman', 92)
(3, 'Bob Gunton', 202)
(4, 'William Sadler', 203)
(5, 'Clancy Brown', 204)


In [12]:
list(engine.execute('SELECT id, name, csfd_id FROM actor LIMIT 5'))

[(1, 'Tim Robbins', 103),
 (2, 'Morgan Freeman', 92),
 (3, 'Bob Gunton', 202),
 (4, 'William Sadler', 203),
 (5, 'Clancy Brown', 204)]

In [13]:
result = engine.execute('SELECT id, name, csfd_id FROM actor LIMIT 5')
for row in result:
    print(dict(row))

{'id': 1, 'name': 'Tim Robbins', 'csfd_id': 103}
{'id': 2, 'name': 'Morgan Freeman', 'csfd_id': 92}
{'id': 3, 'name': 'Bob Gunton', 'csfd_id': 202}
{'id': 4, 'name': 'William Sadler', 'csfd_id': 203}
{'id': 5, 'name': 'Clancy Brown', 'csfd_id': 204}


In [14]:
result = engine.execute('SELECT * FROM actor LIMIT 5')
for row in result:
    print(dict(row))

{'id': 1, 'name': 'Tim Robbins', 'simple_name': 'timrobbins', 'csfd_id': 103}
{'id': 2, 'name': 'Morgan Freeman', 'simple_name': 'morganfreeman', 'csfd_id': 92}
{'id': 3, 'name': 'Bob Gunton', 'simple_name': 'bobgunton', 'csfd_id': 202}
{'id': 4, 'name': 'William Sadler', 'simple_name': 'williamsadler', 'csfd_id': 203}
{'id': 5, 'name': 'Clancy Brown', 'simple_name': 'clancybrown', 'csfd_id': 204}


In [15]:
pd.read_sql_table('actor', engine)

Unnamed: 0,id,name,simple_name,csfd_id
0,1,Tim Robbins,timrobbins,103
1,2,Morgan Freeman,morganfreeman,92
2,3,Bob Gunton,bobgunton,202
3,4,William Sadler,williamsadler,203
4,5,Clancy Brown,clancybrown,204
...,...,...,...,...
7377,7378,Aaron Lustig,aaronlustig,93843
7378,7379,Alan Fudge,alanfudge,144251
7379,7380,Stuart Lancaster,stuartlancaster,374381
7380,7381,Mary Jane Heath,maryjaneheath,393710


In [16]:
pd.read_sql_query('SELECT id, name FROM actor LIMIT 5', engine)

Unnamed: 0,id,name
0,1,Tim Robbins
1,2,Morgan Freeman
2,3,Bob Gunton
3,4,William Sadler
4,5,Clancy Brown


## Průzkum dat ve filmové databázi

In [17]:
sqlalchemy.inspect(engine).get_table_names()

['actor', 'alembic_version', 'movie', 'movie_to_actor']

In [18]:
actor = pd.read_sql_table('actor', engine)
movie = pd.read_sql_table('movie', engine)
mta = pd.read_sql_table('movie_to_actor', engine)

In [19]:
actor.head()

Unnamed: 0,id,name,simple_name,csfd_id
0,1,Tim Robbins,timrobbins,103
1,2,Morgan Freeman,morganfreeman,92
2,3,Bob Gunton,bobgunton,202
3,4,William Sadler,williamsadler,203
4,5,Clancy Brown,clancybrown,204


In [20]:
movie.head()

Unnamed: 0,id,name,simple_name,csfd_id
0,1,Vykoupení z věznice Shawshank,vykoupenizvezniceshawshank,2294
1,2,Forrest Gump,forrestgump,10135
2,3,Zelená míle,zelenamile,2292
3,4,Přelet nad kukaččím hnízdem,preletnadkukaccimhnizdem,2982
4,5,Schindlerův seznam,schindleruvseznam,8653


In [21]:
mta.head()

Unnamed: 0,movie_id,actor_id
0,225,1944
1,225,1468
2,225,5830
3,225,3422
4,225,5831
