# Joining data in SQL

## Inner Joins

In [2]:
import psycopg2
import pandas as pd
# Verbinding maken
# Database connection parameters
conn = psycopg2.connect(
    dbname="countries",  # of jouw database naam
    user="admin",  # standaard postgres gebruiker
    password="myPasswww00rD",  # wachtwoord dat je hebt ingesteld in de compose file
    host="mypostgres",  # de containernaam in het netwerk is de host
    port="5432"  # standaard PostgreSQL-poort
)

In [3]:
import pandas as pd
from sqlalchemy import create_engine
database_url = "postgresql+psycopg2://admin:myPasswww00rD@mypostgres:5432/countries"

# Maak een engine
engine = create_engine(database_url)

### Opgave: Je eerste SQL-Join

Je werkt met een database die twee tabellen bevat:
1. **cities**: Bevat informatie over de meest bevolkte steden ter wereld.
2. **countries**: Bevat landgegevens zoals economische cijfers, bevolkingsaantallen en geografische data.

In deze oefening ga je een inner join uitvoeren tussen de tabellen **cities** en **countries**. Deze oefening is verdeeld in drie stappen.


1. Begin met het toevoegen van een **inner join**.
   - **countries** (links) alias **c**
   - **economies** (rechts) alias **e**.

2. Gebruik de kolom **code** als koppelveld op regel 7, maar gebruik **NIET** het commando `USING`.

3. Selecteer tot slot de volgende kolommen in de aangegeven **volgorde** op regel 2:
   - **code** van de tabel **countries** (aliased als `country_code`),
   - **name**,
   - **year**,
   - en **inflation_rate**.

**SQL-oplossing**:

In [4]:
query = """

"""

df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,country_code,name,year,inflation_rate
0,AFG,Afghanistan,2010,2.179
1,AFG,Afghanistan,2015,-1.549
2,AGO,Angola,2010,14.48
3,AGO,Angola,2015,10.287
4,ALB,Albania,2010,3.605


### Opgave: USING in de praktijk

In vorige oefening heb je joins uitgevoerd met behulp van het `ON`-sleutelwoord. Onthoud dat wanneer **beide veldnamen die worden gekoppeld hetzelfde zijn**, je het `USING`-commando kunt gebruiken om de query te vereenvoudigen.

In deze oefening ga je de **languages**-tabel uit onze database verkennen. Je gaat onderzoeken:
- Welke talen officiële talen zijn,
- en welke talen niet-officieel zijn.

Je gebruikt `USING` om je query te vereenvoudigen bij het beantwoorden van deze vraag.

#### Instructies

1. Gebruik het veld **code** van de tabel **countries** om de **INNER JOIN** uit te voeren met behulp van `USING`.

2. Het resultaat moet een tabel zijn met country, language en official (true of false)

In [7]:
query = """

"""

df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,country,language,official
0,Afghanistan,Dari,True
1,Afghanistan,Pashto,True
2,Afghanistan,Turkic,False
3,Afghanistan,Other,False
4,Albania,Albanian,True


### Relaties onderzoeken

Je hebt zojuist vastgesteld dat de tabel **countries** een **veel-op-veel relatie** heeft met de tabel **languages**. Dat wil zeggen:
- Er kunnen meerdere talen in één land worden gesproken.
- Een taal kan in meerdere landen worden gesproken.

Maar wat is de beste manier om een query te schrijven die:
1. Alle verschillende talen ophaalt die in een bepaald land worden gesproken?
2. Of alle landen weergeeft waar een bepaalde taal wordt gesproken?

In [17]:
# Haal alle talen op die in een bepaald land worden gesproken

query = """

"""

df = pd.read_sql_query(query, database_url)
df.head(10)

Unnamed: 0,country,language
0,Afghanistan,Dari
1,Afghanistan,Pashto
2,Afghanistan,Turkic
3,Afghanistan,Other
4,Albania,Albanian
5,Albania,Greek
6,Albania,Other
7,Albania,unspecified
8,Algeria,Arabic
9,Algeria,French


In [18]:
# Haal alle landen op waar een bepaalde taal wordt gesproken

query = """

"""

df = pd.read_sql_query(query, database_url)
df.head(10)

Unnamed: 0,language,country
0,Afar,Ethiopia
1,Afar,Djibouti
2,Afar,Eritrea
3,Afrikaans,Namibia
4,Afrikaans,South Africa
5,Akyem,Ghana
6,Albanian,Switzerland
7,Albanian,Macedonia
8,Albanian,Albania
9,Alsatian,France


### Opgave: Joins met aliassen

In deze oefening ga je werken met aliassen voor tabellen om duidelijkere en kortere verwijzingen in je SQL-query te gebruiken. Je voert een join uit tussen de tabellen **countries** en **economies** om inflatiegegevens te onderzoeken.

#### Instructies:
1. Gebruik een **inner join** om de tabel **countries** (alias `c`) te combineren met de tabel **economies** (alias `e`).
2. Gebruik het veld `code` als de verbindende sleutel tussen de tabellen, en gebruik **ON** in plaats van **USING**°.
3. Selecteer de volgende kolommen in deze volgorde:
   - `code` (uit **countries**, als `country_code`)
   - `name` (uit **countries**)
   - `year` (uit **economies**)
   - `inflation_rate` (uit **economies**)

° USING wordt gebruikt als beide tabellen een kolom hebben met exact dezelfde naam (bijvoorbeeld code in zowel countries als economies).

#### Oplossing:

In [22]:
query = """

"""

df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,country_code,name,year,inflation_rate
0,AFG,Afghanistan,2010,2.179
1,AFG,Afghanistan,2015,-1.549
2,AGO,Angola,2010,14.48
3,AGO,Angola,2015,10.287
4,ALB,Albania,2010,3.605


In [5]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,country_code,name,year,inflation_rate
0,AFG,Afghanistan,2010,2.179
1,AFG,Afghanistan,2015,-1.549
2,AGO,Angola,2010,14.48
3,AGO,Angola,2015,10.287
4,ALB,Albania,2010,3.605


### Opgave: Gebruik van USING in een Join

In deze oefening onderzoek je de tabel **languages** om te ontdekken welke talen officieel zijn en welke niet. Je maakt gebruik van de **USING**-clausule om de query eenvoudiger te maken.

#### Instructies:
1. Gebruik een **INNER JOIN** om de tabellen **countries** (alias `c`) en **languages** (alias `l`) te combineren.
2. Gebruik de kolom `code` als verbindende sleutel tussen de tabellen en gebruik de **USING**-clausule.
3. Selecteer de volgende kolommen:
   - `c.name` als `country`
   - `l.name` als `language`
   - `official` (uit de tabel **languages**)

In [23]:
query = """

"""

df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,country,language,official
0,Afghanistan,Dari,True
1,Afghanistan,Pashto,True
2,Afghanistan,Turkic,False
3,Afghanistan,Other,False
4,Albania,Albanian,True


### Opgave: Meerdere Tabellen Combineren

In deze oefening ga je relaties onderzoeken tussen vruchtbaarheidscijfers en werkloosheidscijfers door meerdere tabellen te combineren. Je combineert gegevens uit de tabellen **countries**, **populations**, en **economies** in één query.

#### Instructies:
1. Maak een **inner join** tussen de tabel **countries** (alias `c`) en **populations** (alias `p`) op de kolom `code`.
   - Selecteer de kolommen `name` en `fertility_rate`.
2. Voeg een tweede **inner join** toe tussen **economies** (alias `e`) en de resulterende tabel. Combineer ze op de kolom `code`.
   - Selecteer de kolommen `year` en `unemployment_rate`.

#### Oplossing:

In [30]:
query = """

"""
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,name,fertility_rate,year,unemployment_rate
0,Afghanistan,4.653,2010,
1,Afghanistan,5.746,2010,
2,Afghanistan,4.653,2015,
3,Afghanistan,5.746,2015,
4,Angola,5.996,2010,


### Opgave: Meerdere Joins met Extra Voorwaarden

In deze oefening krijg je een probleem met een **multi-table join**. De query retourneert meerdere records voor hetzelfde jaar (2015 en 2010), omdat de join alleen is uitgevoerd op de **code**. 

Als er in de tabellen populations en economies namelijk records zijn voor meerdere jaren (bijvoorbeeld 2010 en 2015), worden alle combinaties van deze jaren gemaakt voor hetzelfde land. Dit verklaart waarom je dubbele rijen ziet in het resultaat.  Probeer maar even de bovenstaande query aan te passen door zowel het jaar uit **populations** als uit **economies** te selecteren en te zien dat deze onnodig worden gecombineerd!  

Je moet de query dus zo aanpassen dat **zowel de code als het jaar** overeenkomen voor de juiste resultaten.

#### Instructies:
1. Je hebt al een **inner join** tussen de tabellen **countries**, **populations**, en **economies**.
2. De oplossing is om een extra join-voorwaarde toe te voegen die ook de **jaar** kolom meeneemt in de join.

#### Oplossing:

In [33]:
query = """

"""

In [34]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,name,fertility_rate,year,unemployment_rate
0,Afghanistan,5.746,2010,
1,Afghanistan,4.653,2015,
2,Angola,6.416,2010,
3,Angola,5.996,2015,
4,Albania,1.663,2010,14.0


### Opgave: INNER JOIN versus LEFT JOIN

In deze oefening onderzoek je het verschil tussen een **INNER JOIN** en een **LEFT JOIN**. Dit zal je helpen bepalen welk type join geschikt is voor verschillende situaties.

#### Instructies:
1. Begin met een **INNER JOIN** tussen de tabellen **cities** (alias `c1`) en **countries** (alias `c2`) op de kolom `code`. Selecteer volgende kolommen: c1.name AS city, code, c2.name AS country, region, city_proper_pop.  Sorteer op code, aflopend.
2. Verander de query zodat deze een **LEFT JOIN** gebruikt in plaats van een **INNER JOIN**. Observeer het verschil in het aantal geretourneerde records.

#### Oplossing:
**INNER JOIN**:

In [38]:
query = """

"""
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,city,code,country,region,city_proper_pop
0,Harare,ZWE,Zimbabwe,Eastern Africa,1606000
1,Lusaka,ZMB,Zambia,Eastern Africa,1742979
2,Cape Town,ZAF,South Africa,Southern Africa,3740026
3,Johannesburg,ZAF,South Africa,Southern Africa,4434827
4,Durban,ZAF,South Africa,Southern Africa,3442361


In [39]:
df.shape

(230, 5)

**LEFT JOIN**:

In [40]:
query = """

"""

In [41]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,city,code,country,region,city_proper_pop
0,Taichung,,,,2752413
1,Tainan,,,,1885252
2,Kaohsiung,,,,2778918
3,Bucharest,,,,1883425
4,Taipei,,,,2704974


In [42]:
df.shape

(236, 5)

### Verschil:
- **INNER JOIN**: Retourneert alleen records waar een match bestaat in beide tabellen.
- **LEFT JOIN**: Retourneert alle records uit de linker tabel (**cities**) en vult ontbrekende waarden aan met `NULL` voor de rechter tabel (**countries**), als er geen match is.

### Opgave: LEFT JOIN met Aggregatie

In deze oefening combineer je een **LEFT JOIN** met de functie **AVG()** om de gemiddelde bruto binnenlands product (GDP) per hoofd van de bevolking per regio in 2010 te berekenen.  

Ter herinnering: de SQL-regels eisen dat **alle** kolommen in de SELECT-clausule *óf onderdeel zijn van de GROUP BY-clausule óf zijn samengevat met een aggregatiefunctie*

#### Instructies:
1. Maak een **LEFT JOIN** tussen de tabel **countries** (alias `c`) en de tabel **economies** (alias `e`) op de kolom `code`.
2. Filter de resultaten zodat alleen gegevens uit het jaar **2010** worden meegenomen.
3. Gebruik **AVG()** om het gemiddelde GDP per hoofd van de bevolking (`gdp_percapita`) per regio te berekenen.

#### Oplossing:

In [50]:
query = """

"""
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,region,avg_gdp_percapita
0,Southern Africa,5051.598
1,Caribbean,11413.339462
2,Eastern Africa,1757.348187
3,Southern Europe,22926.410909
4,Eastern Asia,24962.808


### Uitleg:
- **LEFT JOIN**: Zorgt ervoor dat alle regio's uit de tabel **countries** worden weergegeven, ook als er geen overeenkomstige gegevens in **economies** zijn.
- **WHERE**: Beperkt de resultaten tot het jaar 2010.
- **AVG()**: Berekent het gemiddelde GDP per hoofd van de bevolking.
- **GROUP BY**: Groepeert de resultaten per regio.

### Opgave: Gebruik van RIGHT JOIN

**Right joins** worden minder vaak gebruikt dan **left joins**. Een belangrijke reden hiervoor is dat **right joins** altijd herschreven kunnen worden als **left joins**, en omdat joins meestal van links naar rechts worden geschreven, voelt het intuïtiever om vanaf links te joinen bij het opstellen van queries.

Het kan lastig zijn om te begrijpen wanneer **left joins** en **right joins** equivalente resultaten opleveren. Dit ga je in deze oefening verkennen!

In deze oefening onderzoek je hoe een **RIGHT JOIN** hetzelfde resultaat kan opleveren als een **LEFT JOIN**, maar met een andere volgorde van tabellen. Dit helpt om beter te begrijpen hoe verschillende soorten joins werken.  De gegeven *LEFT JOIN*:  

SELECT countries.name AS country, languages.name AS language, percent  
FROM countries  
LEFT JOIN languages  
USING(code)  
ORDER BY language;  

#### Instructies:
1. Schrijf een query die een **RIGHT JOIN** gebruikt om een identiek resultaat te produceren als de gegeven **LEFT JOIN**.
2. Combineer de tabellen **languages** en **countries** op de kolom `code` met behulp van **USING(code)**.
3. Sorteer het resultaat op de kolom `language`.

#### Oplossing:

In [51]:
query = """

"""
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,country,language,percent
0,Djibouti,Afar,
1,Ethiopia,Afar,1.7
2,Eritrea,Afar,
3,Namibia,Afrikaans,10.4
4,South Africa,Afrikaans,13.5


### Uitleg:
- **RIGHT JOIN**: Hier wordt de **countries**-tabel de "rechter" tabel in de join, wat betekent dat alle records uit de **countries**-tabel worden opgenomen, zelfs als er geen overeenkomstige records in de **languages**-tabel zijn.
- **USING(code)**: Verbindt de tabellen op de gemeenschappelijke kolom `code`.
- **ORDER BY**: Sorteert de resultaten op de naam van de taal (`language`).

### Opgave: Vergelijking van Joins

In deze oefening onderzoek je de verschillen tussen een **FULL JOIN**, een **LEFT JOIN**, en een **INNER JOIN** door de tabellen **countries** en **currencies** te combineren. Je richt je op records in de **North American** regio en landen met ontbrekende namen.

#### Instructies:
1. Begin met een **FULL JOIN**:
   - Combineer de tabellen **countries** (links) en **currencies** (rechts) met de kolom `code` als sleutel.
   - Filter de resultaten zodat alleen records worden weergegeven waar de regio `North America` is of waar de landnaam (`name`) `NULL` is.
2. Voer dezelfde query uit met een **LEFT JOIN** en observeer de verschillen.
3. Voer vervolgens dezelfde query uit met een **INNER JOIN** en vergelijk de resultaten met de eerdere queries.

#### Oplossing:
**FULL JOIN**:

In [23]:
query = """

"""

In [24]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,country,code,region,basic_unit
0,Bermuda,BMU,North America,Bermudian dollar
1,United States,USA,North America,United States dollar
2,Canada,CAN,North America,Canadian dollar
3,Greenland,GRL,North America,
4,,TMP,,United States dollar


**LEFT JOIN**:

In [25]:
query = """

"""

In [26]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,country,code,region,basic_unit
0,Bermuda,BMU,North America,Bermudian dollar
1,Canada,CAN,North America,Canadian dollar
2,United States,USA,North America,United States dollar
3,Greenland,GRL,North America,


**INNER JOIN**:

In [27]:
query = """

"""

In [28]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,country,code,region,basic_unit
0,Bermuda,BMU,North America,Bermudian dollar
1,Canada,CAN,North America,Canadian dollar
2,United States,USA,North America,United States dollar


### Uitleg:
- **FULL JOIN**: Toont alle records uit beide tabellen, zelfs als er geen overeenkomst is (met `NULL` in plaats van ontbrekende waarden).
- **LEFT JOIN**: Toont alle records uit de linker tabel (**countries**) en de overeenkomstige records uit de rechter tabel (**currencies**), of `NULL` als er geen overeenkomst is.
- **INNER JOIN**: Toont alleen de records waar een overeenkomst is tussen beide tabellen.

Vergelijk de output van de verschillende joins om de invloed van de gekozen join te begrijpen.

### Opgave: FULL JOINs Chainen

In deze oefening ga je data uit meerdere tabellen combineren door twee opeenvolgende **FULL JOINs** uit te voeren. Je richt je op gegevens uit de regio's **Melanesia** en **Micronesia**, waarbij je informatie over talen en valuta's toevoegt aan de landeninformatie.

#### Instructies:
1. Voer een **FULL JOIN** uit tussen de tabel **countries** (alias `c1`) en **languages** (alias `l`) met de kolom `code` als sleutel.
2. Voeg een tweede **FULL JOIN** toe met de tabel **currencies** (alias `c2`), opnieuw op de kolom `code`.
3. Filter de resultaten zodat alleen records worden weergegeven waar de regio overeenkomt met `Melanesia` of `Micronesia` (gebruik een patroon met `LIKE`).
4. Selecteer de volgende kolommen:
   - De landnaam (`c1.name`) als `country`
   - De regio
   - De taalnaam (`l.name`) als `language`
   - De basiseenheid (`basic_unit`)
   - De fractie-eenheid (`frac_unit`)

#### Oplossing:

In [29]:
query = """

"""

In [30]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,country,region,language,basic_unit,frac_unit
0,Kiribati,Micronesia,English,Australian dollar,Cent
1,Kiribati,Micronesia,Kiribati,Australian dollar,Cent
2,Marshall Islands,Micronesia,Other,United States dollar,Cent
3,Marshall Islands,Micronesia,Marshallese,United States dollar,Cent
4,Nauru,Micronesia,Other,Australian dollar,Cent


### Uitleg:
- **FULL JOIN**: Zorgt ervoor dat alle records uit beide tabellen worden opgenomen, zelfs als er geen overeenkomst is, met `NULL` voor ontbrekende waarden.
- **USING(code)**: Verbindt de tabellen op de gemeenschappelijke kolom `code`.
- **WHERE region LIKE '%mesia'**: Filtert de resultaten zodat alleen regio's die eindigen op `mesia` worden opgenomen, zoals `Melanesia` en `Micronesia`.  Let op %%!!

### Opgave: Historie en Talen

In deze oefening onderzoek je de talen die gesproken worden in twee landen: Pakistan en India. Je gebruikt zowel een **INNER JOIN** als een **CROSS JOIN** om de volgende vragen te beantwoorden:
1. Welke talen worden momenteel gesproken in beide landen?
2. Welke talen hadden potentieel in beide landen gesproken kunnen worden gedurende hun geschiedenis?

#### Instructies:
1. Gebruik een **INNER JOIN** tussen de tabellen **countries** (alias `c`) en **languages** (alias `l`) met de kolom `code` als sleutel om de talen te vinden die momenteel in beide landen worden gesproken.
2. Gebruik een **CROSS JOIN** om alle mogelijke combinaties van talen te onderzoeken die in beide landen hadden kunnen worden gesproken.

#### Oplossing:
**INNER JOIN** (voor huidige talen):

In [31]:
query = """

"""

In [32]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,country,language
0,India,Hindi
1,India,Bengali
2,India,Telugu
3,India,Marathi
4,India,Tamil


**CROSS JOIN** (voor historische combinaties):

In [33]:
query = """

"""

In [34]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,country_1,country_2,language_1,language_2
0,India,India,Dari,Dari
1,India,India,Dari,Pashto
2,India,India,Dari,Turkic
3,India,India,Dari,Other
4,India,India,Dari,Albanian


### Uitleg:
- **INNER JOIN**: Toont de huidige talen door alleen overeenkomsten tussen landen en talen weer te geven.
- **CROSS JOIN**: Creëert een kaart van alle mogelijke taalcombinaties tussen de twee landen.
- **WHERE**-filter: Beperkt de query tot de landen **Pakistan** (`PAK`) en **India** (`IND`).

### Opgave: Kies je Join

In deze uitdaging gebruik je jouw kennis van joins, filtering, sortering en limieten om de namen van de vijf landen te bepalen met de laagste levensverwachting in 2010, samen met hun respectieve regio's.

#### Instructies:
1. **Voer een join uit** tussen de tabel **countries** (alias `c`) en **populations** (alias `p`) op de kolom `code` en `country_code`.
2. **Filter** de resultaten om alleen gegevens voor het jaar **2010** te behouden.
3. **Sorteer** de resultaten op levensverwachting (`life_expectancy`) in oplopende volgorde.
4. **Beperk** de output tot de vijf landen met de laagste levensverwachting.

#### Oplossing:

In [35]:
query = """

"""

In [36]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,country,region,life_exp
0,Lesotho,Southern Africa,47.483414
1,Central African Republic,Central Africa,47.625317
2,Sierra Leone,Western Africa,48.22895
3,Swaziland,Southern Africa,48.345757
4,Zimbabwe,Eastern Africa,49.574657


### Uitleg:
- **INNER JOIN**: Combineert de tabellen **countries** en **populations** zodat gegevens per land worden gekoppeld.
- **WHERE**: Filtert de resultaten voor het jaar 2010.
- **ORDER BY**: Sorteert de landen op basis van levensverwachting in oplopende volgorde.
- **LIMIT 5**: Beperkt de uitvoer tot de vijf landen met de laagste levensverwachting.

Laat weten als je verdere verduidelijking nodig hebt!

## Self joins

### Opgave: Een Land Vergelijken met Zichzelf

In deze oefening gebruik je een **self join** om de populatieverandering van landen te analyseren tussen 2010 en 2015. Door dezelfde tabel twee keer te gebruiken en te aliassen, kun je gegevens uit verschillende jaren vergelijken.

#### Instructies:
1. Maak een **INNER JOIN** van de tabel **populations** met zichzelf:
   - Alias de eerste instantie als `p1`.
   - Alias de tweede instantie als `p2`.
   - Verbind beide op de kolom `country_code`.
2. Selecteer de volgende velden:
   - De `country_code` van `p1`.
   - De kolom `size` van `p1` als `size2010`.
   - De kolom `size` van `p2` als `size2015`.

#### Oplossing:

In [37]:
query = """

"""

In [38]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,country_code,size2010,size2015
0,ABW,101597.0,103889.0
1,AFG,27962208.0,32526562.0
2,AGO,21219954.0,25021974.0
3,ALB,2913021.0,2889167.0
4,AND,84419.0,70473.0


### Uitleg:
- **Self Join**: De tabel **populations** wordt met zichzelf gecombineerd om gegevens uit verschillende jaren te vergelijken.
- **Aliases (p1 en p2)**: Hierdoor kun je onderscheid maken tussen de twee instanties van dezelfde tabel.
- **WHERE**: Filtert de data zodat `p1` de gegevens van 2010 bevat en `p2` die van 2015.

## Set theory

### Opgave: Wereldwijde Economieën Vergelijken

In deze oefening gebruik je een **set-operatie** om records uit twee tabellen, **economies2015** en **economies2019**, te combineren. Je doel is om alle records te stapelen zonder duplicaten.

#### Instructies:
1. Schrijf een query die alle velden uit de tabel **economies2015** selecteert.
2. Schrijf een tweede query die alle velden uit de tabel **economies2019** selecteert.
3. Combineer de resultaten van beide queries met een **UNION**-operatie, zodat duplicaten worden uitgesloten.
4. Sorteer het gecombineerde resultaat op `code` en `year`.

#### Oplossing:

In [39]:
query = """

"""

In [40]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,code,year,income_group,gross_savings
0,ABW,2015,High income,14.867851
1,AGO,2015,Lower middle income,25.021326
2,AGO,2019,Lower middle income,25.524847
3,ALB,2015,Upper middle income,16.863981
4,ALB,2019,Upper middle income,14.499826


### Uitleg:
- **SELECT ***: Selecteert alle velden uit beide tabellen.
- **UNION**: Combineert de records uit beide queries en verwijdert duplicaten. Als je duplicaten wilt behouden, kun je **UNION ALL** gebruiken.
- **ORDER BY**: Sorteert de gecombineerde output op `code` en `year` voor een georganiseerde weergave.

### Opgave: Twee Set-Operaties Vergelijken

In deze oefening onderzoek je het verschil tussen **UNION** en **UNION ALL** door landcodes en jaren te combineren uit de tabellen **economies** en **populations**.

#### Instructies:
1. Gebruik een **UNION**-operatie om alle unieke combinaties van landcodes (`code` of `country_code`) en jaren (`year`) te combineren uit de tabellen **economies** en **populations**.
2. Pas de query aan om in plaats daarvan **UNION ALL** te gebruiken en alle combinaties, inclusief duplicaten, te tonen.
3. Sorteer de resultaten in beide gevallen op `code` en `year`.

#### Oplossing:

**Met UNION (exclusief duplicaten):**

In [41]:
query = """

"""

In [42]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,code,year
0,ABW,2010
1,ABW,2015
2,AFG,2010
3,AFG,2015
4,AGO,2010


**Met UNION ALL (inclusief duplicaten):**

In [43]:
query = """

"""

In [44]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,code,year
0,ABW,2010
1,ABW,2015
2,AFG,2010
3,AFG,2010
4,AFG,2015


### Uitleg:
- **UNION**: Combineert de resultaten van beide queries en verwijdert duplicaten.
- **UNION ALL**: Combineert de resultaten van beide queries, maar behoudt duplicaten.
- **ORDER BY**: Sorteert de resultaten op `code` en `year` voor overzichtelijkheid.

Met **UNION** zie je unieke combinaties van landcodes en jaren, terwijl **UNION ALL** een volledig overzicht geeft inclusief duplicaten. Laat weten of je meer hulp nodig hebt!

### INTERSECT

### Opgave: Gebruik van INTERSECT

In deze oefening gebruik je de **INTERSECT**-operatie om te bepalen welke steden dezelfde naam hebben als landen. Dit is een eenvoudige toepassing van verzamelingen in SQL.

#### Instructies:
1. Selecteer alle namen (`name`) uit de tabel **countries**.
2. Selecteer alle namen (`name`) uit de tabel **cities**.
3. Gebruik **INTERSECT** om alleen de namen terug te geven die in beide tabellen voorkomen.

#### Oplossing:

In [46]:
query = """

"""

In [47]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,name
0,Singapore


### Uitleg:
- **INTERSECT**: Retourneert alleen de records die in beide queries voorkomen.
- **SELECT name FROM countries**: Selecteert alle landnamen.
- **SELECT name FROM cities**: Selecteert alle stadsnamen.

Het resultaat bevat namen die zowel land- als stadsnamen zijn.

### EXCEPT

### Opgave: Gebruik van EXCEPT

In deze oefening gebruik je de **EXCEPT**-operatie om te bepalen welke steden **niet** dezelfde naam hebben als een land. Dit is het tegenovergestelde van de **INTERSECT**-operatie.

#### Instructies:
1. Selecteer alle namen (`name`) uit de tabel **cities**.
2. Selecteer alle namen (`name`) uit de tabel **countries**.
3. Gebruik **EXCEPT** om alleen de namen terug te geven die in **cities** staan, maar niet in **countries**.
4. Sorteer de resultaten op de kolom `name`.

#### Oplossing:

In [50]:
query = """

"""

In [51]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,name
0,Abidjan
1,Abu Dhabi
2,Abuja
3,Accra
4,Addis Ababa


### Uitleg:
- **EXCEPT**: Retourneert records uit de eerste query die niet voorkomen in de tweede query.
- **SELECT name FROM cities**: Selecteert alle stadsnamen.
- **SELECT name FROM countries**: Selecteert alle landnamen.
- **ORDER BY name**: Sorteert de resultaten alfabetisch.

Dit resulteert in een lijst van steden die unieke namen hebben, niet gedeeld met landen.

## Subqueries

### Opgave: Semi Join

In deze oefening gebruik je een **semi join** om talen te identificeren die worden gesproken in landen in de regio **Midden-Oosten**. De tabel **languages** bevat informatie over talen en landen, maar niet over regio's. Je combineert gegevens uit de tabellen **countries** en **languages** om dit probleem op te lossen.

#### Instructies:
1. Selecteer de landcodes (`code`) van landen in de regio **Midden-Oosten** uit de tabel **countries**.
2. Gebruik deze selectie om de tabel **languages** te filteren op talen die worden gesproken in landen in de regio **Midden-Oosten**.

#### Oplossing Stap 1: Selecteer landcodes

In [52]:
query = """

"""

In [53]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,code
0,ARE
1,ARM
2,AZE
3,BHR
4,GEO


In [54]:
#### Oplossing Stap 2: Gebruik Semi Join

In [55]:
query = """

"""

In [56]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,language
0,Georgian
1,Filipino
2,Indian
3,Arabic
4,Syriac


### Uitleg:
- **Stap 1**: Selecteer de landcodes van landen in het **Midden-Oosten**.
- **Stap 2**: Gebruik deze landcodes om de **languages**-tabel te filteren op relevante talen.
- **DISTINCT**: Zorgt ervoor dat elke taal maar één keer wordt weergegeven in de resultaten.

Met een **semi join** filter je de gegevens op basis van een subquery, zonder een volledige join uit te voeren.

### Opgave: Problemen Opsporen met Anti Join

In deze oefening gebruik je een **anti join** om te controleren of alle landen van Oceanië correct in een **INNER JOIN** worden opgenomen. Je wilt zien welke landen mogelijk ontbreken in de resultaten van een join met de tabel **currencies**.

#### Instructies:
1. Begin met een query om de `code` en `name` van alle landen in de tabel **countries** te selecteren waar het continent **Oceanië** is.
2. Vergelijk dit met de landen die voorkomen in de resultaten van een **INNER JOIN** met de tabel **currencies**.
3. Gebruik een **anti join** (met behulp van **NOT IN**) om landen van Oceanië te vinden die ontbreken in de **INNER JOIN**-resultaten.

#### Oplossing Stap 1: Controleer landen in Oceanië

In [57]:
query = """

"""

In [58]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,code,name
0,ASM,American Samoa
1,AUS,Australia
2,FJI,Fiji Islands
3,PYF,French Polynesia
4,GUM,Guam


In [59]:
#### Oplossing Stap 2: Gebruik Anti Join

In [60]:
query = """

"""

In [61]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,code,name
0,ASM,American Samoa
1,FJI,Fiji Islands
2,GUM,Guam
3,FSM,"Micronesia, Federated States of"
4,MNP,Northern Mariana Islands


### Uitleg:
- **Stap 1**: Selecteer alle landen in Oceanië uit de tabel **countries**.
- **Stap 2**: Gebruik een subquery om de landcodes te verkrijgen die al zijn opgenomen in de **INNER JOIN**.
- **NOT IN**: Zorgt ervoor dat alleen de landen worden weergegeven die niet in de subquery-resultaten voorkomen.

Met deze aanpak kun je eventuele ontbrekende records in de join opsporen.

### Subqueries inside WHERE en SELECT

### Opgave: Subquery binnen WHERE

In deze oefening gebruik je een subquery in de **WHERE**-clausule om landen te identificeren waar de levensverwachting in 2015 significant hoger was dan het gemiddelde. Je schrijft een query die records filtert op basis van een berekening uitgevoerd door een subquery.

#### Instructies:
1. Bereken de gemiddelde levensverwachting (`avg_life_expectancy`) uit de tabel **populations** voor het jaar 2015.
2. Gebruik deze berekening in een subquery binnen de **WHERE**-clausule om records te filteren waarbij de levensverwachting meer dan 1,15 keer het gemiddelde is.

#### Oplossing Stap 1: Bereken gemiddelde levensverwachting

In [64]:
query = """

"""

In [65]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,avg_life_expectancy
0,71.676342


#### Oplossing Stap 2: Gebruik Subquery in WHERE

In [66]:
query = """

"""

In [67]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,country_code,life_expectancy
0,AUS,82.45122
1,CHE,83.19756
2,ESP,83.380486
3,FRA,82.67073
4,HKG,84.278046


### Uitleg:
- **Stap 1**: De eerste query berekent het gemiddelde van de kolom `life_expectancy` voor records uit 2015.
- **Stap 2**: Deze berekening wordt gebruikt in een subquery binnen de **WHERE**-clausule om records te filteren.
- **life_expectancy > 1.15 * avg_life_expectancy**: Filtert alleen records waar de levensverwachting 15% boven het gemiddelde ligt.
- **AND year = 2015**: Zorgt ervoor dat alleen records uit 2015 worden opgenomen.

### Opgave: Waar Wonen Mensen?

In deze oefening gebruik je een subquery om de bevolkingsomvang van stedelijke gebieden te vinden, beperkt tot hoofdsteden. Je ordent de resultaten van groot naar klein op basis van de stedelijke bevolking.

#### Instructies:
1. Selecteer de kolommen `name`, `country_code`, en `urbanarea_pop` uit de tabel **cities**.
2. Filter de steden op basis van een subquery die alleen hoofdsteden (`capital`) uit de tabel **countries** retourneert.
3. Sorteer de resultaten in aflopende volgorde van stedelijke bevolking (`urbanarea_pop`).

#### Oplossing:

In [68]:
query = """

"""

In [69]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,name,country_code,urbanarea_pop
0,Beijing,CHN,21516000.0
1,Dhaka,BGD,14543124.0
2,Tokyo,JPN,13513734.0
3,Moscow,RUS,12197596.0
4,Cairo,EGY,10230350.0


### Uitleg:
- **Subquery**: De subquery `SELECT capital FROM countries` haalt een lijst van hoofdsteden op uit de tabel **countries**.
- **WHERE name IN (...)**: Filtert de steden om alleen die steden te selecteren die voorkomen in de lijst van hoofdsteden.
- **ORDER BY urbanarea_pop DESC**: Sorteert de resultaten op bevolkingsomvang in aflopende volgorde, zodat de grootste steden bovenaan staan.

### Opgave: Subquery in SELECT

In deze oefening gebruik je een **LEFT JOIN** in combinatie met een **GROUP BY** om de landen met de meeste steden te identificeren. Daarna herschrijf je dezelfde query met een geneste subquery in de **SELECT**-clausule.

#### Instructies:
1. Schrijf een query die een **LEFT JOIN** gebruikt om de landen en hun aantal steden te combineren:
   - Gebruik een **GROUP BY** om het aantal steden per land te tellen.
   - Selecteer de landnaam als `country` en het aantal steden als `cities_num`.
2. Sorteer de resultaten op `cities_num` in aflopende volgorde en beperk de output tot de eerste negen records.
3. In de volgende stap herschrijf je de query met een geneste subquery in de **SELECT**-clausule.

#### Oplossing Stap 1: Met **LEFT JOIN** en **GROUP BY**

In [70]:
query = """

"""

In [71]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,country,cities_num
0,China,36
1,India,18
2,Japan,11
3,Brazil,10
4,Pakistan,9


#### Oplossing Stap 2: Met een Subquery

In [72]:
query = """

"""

In [73]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,country,cities_num
0,China,36
1,India,18
2,Japan,11
3,Brazil,10
4,Pakistan,9


### Uitleg:
- **Stap 1 (JOIN)**:
  - **LEFT JOIN**: Combineert de landen en steden tabellen.
  - **GROUP BY**: Groepeert de resultaten per land om het aantal steden te tellen.
  - **COUNT(*)**: Tel alle steden per land.
- **Stap 2 (Subquery)**:
  - Een subquery in de **SELECT**-clausule telt de steden direct voor elk land.
  - Deze aanpak vervangt de **JOIN** en **GROUP BY**, maar geeft hetzelfde resultaat.

Met beide benaderingen kun je de landen met de meeste steden bepalen.

### Subqueries binnen FROM

### Opgave: Subquery in FROM

In deze oefening gebruik je een subquery in de **FROM**-clausule om het aantal talen per land te tellen en deze informatie samen te voegen met de lokale namen van landen uit de tabel **countries**.

#### Instructies:
1. Begin met een query die alle talen groepeert per land (`code`) uit de tabel **languages** en telt hoeveel talen er per land worden gesproken. Alias dit resultaat als `lang_num`.
2. Combineer deze subquery met de tabel **countries** om de `local_name` van elk land samen met het aantal talen (`lang_num`) te retourneren.
3. Sorteer de resultaten op het aantal talen in aflopende volgorde.

#### Oplossing Stap 1: Taal Telling

In [75]:
query = """

"""

In [76]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,code,lang_num
0,PRY,2
1,NRU,3
2,MDG,3
3,ASM,5
4,TZA,4


#### Oplossing Stap 2: Subquery in FROM

In [77]:
query = """

"""

In [78]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,local_name,lang_num
0,Zambia,19
1,YeItyop´iya,16
2,Zimbabwe,16
3,Nepal,14
4,Bharat/India,14


### Uitleg:
- **Stap 1**:
  - Groepeer alle talen per land (`code`) in de tabel **languages**.
  - **COUNT(*)**: Tel het aantal talen per land.
- **Stap 2**:
  - Gebruik een subquery in de **FROM**-clausule (genaamd `lang_data`) om het resultaat van Stap 1 te combineren met de tabel **countries**.
  - **JOIN**: Koppel de subquery met de tabel **countries** op basis van de gemeenschappelijke kolom `code`.
  - **ORDER BY**: Sorteer de resultaten op het aantal talen (`lang_num`) in aflopende volgorde.

### Opgave: Subquery Challenge

In deze oefening combineer je het gebruik van een subquery met filtering om landen te identificeren die een regeringsvorm van "Republic" of "Monarchy" hebben. Vervolgens analyseer je de inflatie- en werkloosheidscijfers van deze landen voor het jaar 2015.

#### Instructies:
1. Selecteer de kolommen `code`, `inflation_rate`, en `unemployment_rate` uit de tabel **economies**.
2. Filter op landen (`code`) waarvan de regeringsvorm (`gov_form`) "Republic" of "Monarchy" bevat. Gebruik hiervoor een subquery op de tabel **countries**.
3. Beperk de gegevens tot het jaar 2015.
4. Sorteer de resultaten op `inflation_rate` in oplopende volgorde.

#### Oplossing:

In [None]:
query = """

"""

In [80]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,local_name,lang_num
0,Zambia,19
1,YeItyop´iya,16
2,Zimbabwe,16
3,Nepal,14
4,Bharat/India,14


### Uitleg:
- **Subquery**:
  - De subquery `SELECT code FROM countries` filtert landcodes voor landen met een regeringsvorm die "Republic" of "Monarchy" bevat.
  - **LIKE '%Republic%'** en **LIKE '%Monarchy%'**: Zoekt naar teksten die de woorden "Republic" of "Monarchy" bevatten in de kolom `gov_form`.
- **WHERE**:
  - Beperkt de hoofdtabel **economies** tot records uit 2015 en de landcodes die door de subquery zijn geretourneerd.
- **ORDER BY inflation_rate**:
  - Sorteert de resultaten op basis van inflatie in oplopende volgorde.

### Finale oefening

In deze laatste oefening bepaal je de top 10 hoofdsteden in Europa en de Amerika’s, gerangschikt op een percentage genaamd **city_perc**. Dit percentage wordt berekend als de verhouding van de "proper" stadsbevolking tot de bevolking in het bredere metrogebied, vermenigvuldigd met 100.

#### Instructies:
1. Selecteer de volgende kolommen uit de tabel **cities**:
   - `name` (naam van de stad)
   - `country_code`
   - `city_proper_pop` (de "proper" stadsbevolking)
   - `metroarea_pop` (de bevolking in het metrogebied)
   - Bereken een nieuwe kolom genaamd `city_perc` met de formule:  
     `city_proper_pop / metroarea_pop * 100`.
2. Gebruik een subquery om alleen hoofdsteden te filteren uit de tabel **countries**, waarbij het continent eindigt op `'Europe'` of `'America'`.
3. Voeg een filter toe om alleen records te behouden waar de kolom `metroarea_pop` niet `NULL` is.
4. Sorteer de resultaten op `city_perc` in aflopende volgorde.
5. Beperk de uitvoer tot de top 10 steden.

#### Oplossing:

In [84]:
query = """

"""

In [85]:
df = pd.read_sql_query(query, database_url)
df.head()

Unnamed: 0,name,country_code,city_proper_pop,metroarea_pop,city_perc
0,Lima,PER,8852000.0,10750000.0,82.344186
1,Bogota,COL,7878783.0,9800000.0,80.395746
2,Moscow,RUS,12197596.0,16170000.0,75.433493
3,Vienna,AUT,1863881.0,2600000.0,71.687728
4,Montevideo,URY,1305082.0,1947604.0,67.009616


### Uitleg:
- **city_perc**: Wordt berekend door de "proper" stadsbevolking te delen door de metrobevolking, en te vermenigvuldigen met 100.
- **Subquery in WHERE**: Filtert alleen hoofdsteden van landen in continenten die eindigen op `'Europe'` of `'America'`.
- **IS NOT NULL**: Zorgt ervoor dat alleen records met een geldige waarde voor `metroarea_pop` worden meegenomen.
- **ORDER BY city_perc DESC**: Sorteert de steden op percentage in aflopende volgorde.
- **LIMIT 10**: Beperkt de uitvoer tot de top 10 steden.