# Zkoušení sql dotazů nad databází

Jak je konstruován SQL dotaz nebudeme víc vysvětlovat. Vysvětlí vám to umělá inteligence (jazykový model) a pak si promluvíme o tom jak to chápeme a jestli vám model nenakecal nějaké nesmysly.

Pro dotazování doporučuji jeden z:
- ChatGPT: https://chatgpt.com 
- Claude 3.5 Sonnet: https://claude.ai/ (momentálně je to nejchytřejší free model, ale to se rychle mění)
- Mistral 2 Large: https://chat.mistral.ai/chat 
- Llama 3.1 7Ob: https://huggingface.co/chat/ (bez přihlášení)

Prosím, zaregistrujte se do jednoho z nich, pokud jste to ještě neudělali.

Tabulky v databázi, kterou zde budeme používat uvidíte nejlépe na [schematu databáze netflix_simple.png](database-diagrams/netflix_simple.png)

![](database-diagrams/netflix_simple.png)

In [1]:
%load_ext sql

In [2]:
# nactu sqlite databazi
%sql sqlite:///sqlite-databases/netflix_simple.db

In [3]:
# pripadne kdybych chtel mysql, tak odkomentovat
# from heslo import db_heslo
# %sql mysql+pymysql://jenda:{db_heslo}@chrys/jenda

In [4]:
# vypište deset názvů titulů s informací o tom, jestli jde o film, nebo o seriál
%sql SELECT title, type FROM titles LIMIT 10

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


title,type
Five Came Back: The Reference Films,SHOW
Taxi Driver,MOVIE
Deliverance,MOVIE
Monty Python and the Holy Grail,MOVIE
The Dirty Dozen,MOVIE
Monty Python's Flying Circus,SHOW
Life of Brian,MOVIE
Dirty Harry,MOVIE
Bonnie and Clyde,MOVIE
The Blue Lagoon,MOVIE


In [6]:
# vypiště pět názvů titulů s jejich popiskem a rokem vydání
%sql SELECT title, description FROM titles LIMIT 5

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


title,description
Five Came Back: The Reference Films,"This collection includes 12 World War II-era propaganda films — many of which are graphic and offensive — discussed in the docuseries ""Five Came Back."""
Taxi Driver,A mentally unstable Vietnam War veteran works as a night-time taxi driver in New York City where the perceived decadence and sleaze feed his urge for violent action.
Deliverance,"Intent on seeing the Cahulawassee River before it's turned into one huge lake, outdoor fanatic Lewis Medlock takes his friends on a river-rafting trip they'll never forget into the dangerous American back-country."
Monty Python and the Holy Grail,"King Arthur, accompanied by his squire, recruits his Knights of the Round Table, including Sir Bedevere the Wise, Sir Lancelot the Brave, Sir Robin the Not-Quite-So-Brave-As-Sir-Lancelot and Sir Galahad the Pure. On the way, Arthur battles the Black Knight who, despite having had all his limbs chopped off, insists he can still fight. They reach Camelot, but Arthur decides not to enter, as ""it is a silly place""."
The Dirty Dozen,"12 American military prisoners in World War II are ordered to infiltrate a well-guarded enemy château and kill the Nazi officers vacationing there. The soldiers, most of whom are facing death sentences for a variety of violent crimes, agree to the mission and the possible commuting of their sentences."


# Zamyslete se
Zamyslete se nad tím jak je ten dotaz složen. Zformulujte si to alespoň v hlavě. Ideálně zapište.
Jaké části má?

Jak určit které sloupce se zobrazí?

Jak omezíme počet řádků na výstupu?

In [16]:
# Vypište pět názvů filmů vydaných v roce 2000
%sql SELECT title, type, release_year\
     FROM titles\
     WHERE release_year = 2000 AND type = "MOVIE"\
     LIMIT 5

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


title,type,release_year
Snatch,MOVIE,2000
Mission: Impossible II,MOVIE,2000
The Replacements,MOVIE,2000
Phir Bhi Dil Hai Hindustani,MOVIE,2000
Fiza,MOVIE,2000


In [17]:
# Vypište pět názvů seriálů
%sql SELECT title, type FROM titles WHERE type = "SHOW" LIMIT 5

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


title,type
Five Came Back: The Reference Films,SHOW
Monty Python's Flying Circus,SHOW
Monty Python's Fliegender Zirkus,SHOW
Seinfeld,SHOW
Knight Rider,SHOW


In [20]:
# Vypište pět názvů seriálů, které mají více než 5 serií
%sql SELECT title, seasons\
     FROM titles\
     WHERE type = 'SHOW' AND seasons >= 5\
     LIMIT 5

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


title,seasons
Seinfeld,9.0
Thomas & Friends,24.0
Saved by the Bell,5.0
Wheel of Fortune,39.0
Danger Mouse,10.0


In [22]:
# Vypište 5 filmů, které trvají déle než 3 a půl hodiny
%sql SELECT title, runtime\
     FROM titles\
     WHERE type = 'MOVIE' AND runtime > 210\
     LIMIT 5

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


title,runtime
Lagaan: Once Upon a Time in India,224
Jodhaa Akbar,214
A Lion in the House,225
Bonnie & Clyde,240


# Zamyslete se
Jak se do příkazu zadávají podmínky?

Jak se kombinuje více podmínek dohromady?

Jaké druhy podmínek máme k dispozici?

In [23]:
# Jaké různé typy tituly můžou mít?
%sql SELECT DISTINCT type\
     FROM titles

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


type
SHOW
MOVIE


In [24]:
# Kolik filmů je v databázi?
%sql SELECT COUNT(*)\
     FROM titles\
     WHERE type = 'MOVIE'

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


COUNT(*)
3744


In [25]:
# Jaký poslední a první rok vydání filmu náš dataset obsahuje?
%sql SELECT MIN(release_year) AS first_year, MAX(release_year) AS last_year\
     FROM titles\
     WHERE type = 'MOVIE'

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


first_year,last_year
1954,2022


In [26]:
# Jaké je nejvyšší a nejnižší dosažené imdb skóre?
%sql SELECT MAX(imdb_score) AS highest_score, MIN(imdb_score) AS lowest_score\
     FROM titles

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


highest_score,lowest_score
9.6,1.5


In [27]:
# Jaké je průměrné dosažené imdb skóre mezi filmy z roku 2010?
%sql SELECT AVG(imdb_score) AS average_score\
     FROM titles\
     WHERE type = 'MOVIE' AND release_year = 2010

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


average_score
6.624444444444445


In [28]:
# Kolik filmů dosáhlo skóre vyšší než 9?
%sql SELECT COUNT(*)\
     FROM titles\
     WHERE type = 'MOVIE' AND imdb_score > 9

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


COUNT(*)
2


In [29]:
# Kolik různých věkových hodnocení (v US) je v naší databázi?
%sql SELECT COUNT(DISTINCT age_certification) AS unique_age_certifications\
     FROM titles

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


unique_age_certifications
11


In [30]:
# Jaké to jsou?
%sql SELECT DISTINCT age_certification\
     FROM titles

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


age_certification
TV-MA
R
PG
""
TV-14
PG-13
TV-PG
TV-Y
TV-G
TV-Y7


# Zamyslete se
A pokud si nejste jistí s odpovědí, vyzkoušejte si to. Nespoléhejte jen na to, co vám řekne model.

Jak je možné mít pojmenovaný sloupec ve vstupní tabulce jinak než ve výstupní?

Jaké funkce jsme využili k výpočtu statistik? Jak je souhrnně pojmenovat?

Jak interaguje podmínka WHERE s funkcemi v SELECT? Co se vyhodnocuje jako první?

In [31]:
# Který film má největší imdb skóre?
%sql SELECT title, imdb_score\
     FROM titles\
     WHERE type = 'MOVIE'\
     ORDER BY imdb_score DESC\
     LIMIT 1

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


title,imdb_score
Chhota Bheem & Krishna vs Zimbara,9.1


In [32]:
# Vypiš 10 nejstarších filmů s jejich rokem vydání
%sql SELECT title, release_year\
     FROM titles\
     WHERE type = 'MOVIE'\
     ORDER BY release_year ASC\
     LIMIT 10

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


title,release_year
White Christmas,1954
The Blazing Sun,1954
Dark Waters,1956
Cairo Station,1958
Ujala,1959
Singapore,1960
The Guns of Navarone,1961
Saladin the Victorious,1963
The Professionals,1966
The Dirty Dozen,1967


In [33]:
# Který seriál má největší imdb skóre?
%sql SELECT title, imdb_score\
     FROM titles\
     WHERE type = 'SHOW'\
     ORDER BY imdb_score DESC\
     LIMIT 1

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


title,imdb_score
#ABtalks,9.6


In [35]:
# Který seriál má nejnižší imdb skóre?
%sql SELECT title, imdb_score\
     FROM titles\
     WHERE type = 'SHOW' AND imdb_score IS NOT NULL\
     ORDER BY imdb_score\
     LIMIT 1

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


title,imdb_score
Thomas & Friends: All Engines Go!,2.0


# Zamysli se
Jak seřadit položky vzestupně?

Jak sestupně?

Jak vyřadit nevyplněné hodnoty?

In [36]:
# Vypiš 10 nejlépe hodnocených komedií
%sql SELECT title, imdb_score\
     FROM titles\
     WHERE type = 'MOVIE' AND genres LIKE '%comedy%'\
     ORDER BY imdb_score DESC\
     LIMIT 10

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


title,imdb_score
Anbe Sivam,8.7
Bo Burnham: Inside,8.7
Bill Hicks: Revelations,8.5
3 Idiots,8.4
Louis C.K.: Hilarious,8.4
Harishchandrachi Factory,8.4
Bo Burnham: Make Happy,8.4
Dave Chappelle: Sticks & Stones,8.4
Super Deluxe,8.4
Snatch,8.3


In [37]:
# Připiš k nim odkaz na jejich imdb stránku
%sql SELECT title, imdb_score, CONCAT('https://www.imdb.com/title/', imdb_id) AS imdb_link\
     FROM titles\
     WHERE type = 'MOVIE' AND genres LIKE '%Comedy%'\
     ORDER BY imdb_score DESC\
     LIMIT 10

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


title,imdb_score,imdb_link
Anbe Sivam,8.7,https://www.imdb.com/title/tt0367495
Bo Burnham: Inside,8.7,https://www.imdb.com/title/tt14544192
Bill Hicks: Revelations,8.5,https://www.imdb.com/title/tt0152183
3 Idiots,8.4,https://www.imdb.com/title/tt1187043
Louis C.K.: Hilarious,8.4,https://www.imdb.com/title/tt1421373
Harishchandrachi Factory,8.4,https://www.imdb.com/title/tt1524539
Bo Burnham: Make Happy,8.4,https://www.imdb.com/title/tt5192124
Dave Chappelle: Sticks & Stones,8.4,https://www.imdb.com/title/tt10810424
Super Deluxe,8.4,https://www.imdb.com/title/tt7822432
Snatch,8.3,https://www.imdb.com/title/tt0208092


In [40]:
# Napiš průměrné hodnocení, které filmy získaly rok po roku z let od 2000
%sql SELECT release_year, AVG(imdb_score) AS average_score\
     FROM titles\
     WHERE type = 'MOVIE' AND release_year >= 2000\
     GROUP BY release_year\
     ORDER BY release_year DESC

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


release_year,average_score
2022,5.945555555555556
2021,6.012587412587413
2020,6.012971698113208
2019,6.217419354838709
2018,6.20762331838565
2017,6.214713896457766
2016,6.223474178403755
2015,6.258064516129032
2014,6.634951456310679
2013,6.46304347826087


In [41]:
# Napiš průměrnou délku filmu a nejdelší délku filmu rok po roku od roku 2000
%sql SELECT release_year, AVG(runtime) AS average_runtime, MAX(runtime) AS longest_runtime\
     FROM titles\
     WHERE type = 'MOVIE' AND release_year >= 2000\
     GROUP BY release_year\
     ORDER BY release_year ASC

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


release_year,average_runtime,longest_runtime
2000,121.5,170
2001,124.71428571428572,224
2002,112.07692307692308,169
2003,111.8181818181818,186
2004,114.48387096774194,189
2005,120.27272727272728,208
2006,114.4375,225
2007,112.73684210526316,189
2008,108.06382978723404,214
2009,116.925,192


# Zamysli se
Jak fungují funkce? Kam se píšou?

Jak filtrovat podle podřetězce?

Jak používat agregační funkce, když chci agregovat různé skupiny?
Jak funguje definice skupin?

In [42]:
# Ve kterých filmech hrál Morgan Freeman?
%sql SELECT t.title\
     FROM titles t\
     JOIN credits c ON t.id = c.id\
     WHERE c.name = 'Morgan Freeman' AND t.type = 'MOVIE'

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


title
Lean On Me
Se7en
War of the Worlds
Wanted
The Bucket List
The Dark Knight Rises
Olympus Has Fallen
London Has Fallen
Dave Chappelle: The Kennedy Center Mark Twain Prize
Rita Moreno: Just a Girl Who Decided to Go for It


In [45]:
# Kdo všechno hrál ve filmu The Bucket List a jak se jmenovala jejich postava?
%sql SELECT c.name, c.character\
     FROM credits c\
     JOIN titles t ON c.id = t.id\
     WHERE t.title = 'The Bucket List' AND c.role = 'ACTOR'

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


name,character
Jack Nicholson,Edward Periman Cole
Morgan Freeman,Carter Chambers
Sean Hayes,Thomas
Beverly Todd,Virginia Chambers
Alfonso Freeman,Roger Chambers
Destiny Brownridge,Maya
Rob Morrow,Dr. Hollins
Dawn Lewis,Flight Attendant
Rowena King,Angelica
Annton Berry Jr.,Kai


In [46]:
# Které filmy režíroval Steven Spilberg?
%sql SELECT t.title\
     FROM titles t\
     JOIN credits c ON t.id = c.id\
     WHERE c.name = 'Steven Spielberg' AND c.role = 'DIRECTOR' AND t.type = 'MOVIE'

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


title
Catch Me If You Can
War of the Worlds
The Terminal


In [47]:
# Ve kterých filmech hrál Leonardo DiCaprio a režíroval je James Cameron?
%sql SELECT t.title\
     FROM titles t\
     JOIN credits c1 ON t.id = c1.id\
     JOIN credits c2 ON t.id = c2.id\
     WHERE c1.name = 'Leonardo DiCaprio' AND c1.role = 'ACTOR'\
     AND c2.name = 'James Cameron' AND c2.role = 'DIRECTOR'\
     AND t.type = 'MOVIE'

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


title
Titanic


In [48]:
# Které dvojice herců spolu hrají nejčastěji?
%sql SELECT c1.name AS actor1, c2.name AS actor2, COUNT(*) AS count_together\
     FROM credits c1\
     JOIN credits c2 ON c1.id = c2.id AND c1.name < c2.name\
     WHERE c1.role = 'ACTOR' AND c2.role = 'ACTOR'\
     GROUP BY c1.name, c2.name\
     ORDER BY count_together DESC\
     LIMIT 10

 * sqlite:///sqlite-databases/netflix_simple.db
Done.


actor1,actor2,count_together
Eric Idle,Terry Jones,15
Michael Palin,Terry Jones,15
Eric Idle,Michael Palin,14
John Cleese,Terry Jones,14
John Paul Tremblay,Robb Wells,14
Terry Gilliam,Terry Jones,14
Eric Idle,John Cleese,13
Eric Idle,Terry Gilliam,13
John Cleese,Michael Palin,13
John Paul Tremblay,Mike Smith,13


# Zamysli se
Jak se zeptat na dotaz napříč dvěma tabulkami?

Jak rozlišit ze které tabulky bereme data?

Dává smysl spojovat dvakrát se stejnou tabulkou? Proč?

Jak je v dotazu na dvojice herců zajištěno, že se každá dvojice započítá jen jednou?