# Import libraries

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import folium

import os
from dotenv import load_dotenv

import warnings
warnings.filterwarnings('ignore')

# Load database

In [24]:
load_dotenv()

host = "localhost"
database = "educational_institutions"
user = os.getenv('SQL_USER')
password = os.getenv('SQL_PASSWORD')

connection_string = f"postgresql://{user}:{password}@{host}/{database}"

In [None]:
%load_ext sql
%sql $connection_string

# EDA

## Porównanie wyników z podziałem na gminy wiejskie i miejsce

##### Zdawalność

In [4]:
sql_query = """
    SELECT
        powiat_nazwa,
        ROUND(
            SUM(liczba_ktorzy_przystapili_do_wszystkich_egzaminow_wymaganych * zdawalnosc) /
            SUM(liczba_ktorzy_przystapili_do_wszystkich_egzaminow_wymaganych),
            1
        ) AS zdawalnosc
    FROM matura
    WHERE
        zdawalnosc IS NOT NULL
        AND
        rok = 2021
    GROUP BY powiat_nazwa;
"""
df = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions
368 rows affected.


In [5]:
df = df.DataFrame()
df.head()

Unnamed: 0,powiat_nazwa,zdawalnosc
0,aleksandrowski,71.1
1,augustowski,90.2
2,bartoszycki,74.1
3,bełchatowski,80.2
4,będziński,71.8


In [6]:
sql_query = """
    SELECT
        typ_gminy,
        ROUND(
            SUM(liczba_ktorzy_przystapili_do_wszystkich_egzaminow_wymaganych * zdawalnosc) /
            SUM(liczba_ktorzy_przystapili_do_wszystkich_egzaminow_wymaganych),
            1
        ) AS zdawalnosc
    FROM matura
    WHERE
        zdawalnosc IS NOT NULL
        AND
        rok = 2021
    GROUP BY typ_gminy;
"""
df = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions
4 rows affected.


In [7]:
df = df.DataFrame()
df.head()

Unnamed: 0,typ_gminy,zdawalnosc
0,gmina miejska,84.0
1,gmina wiejska,69.6
2,miasto,79.8
3,obszar wiejski,62.5


##### Średnie wyniki (szkoły podstawowe)

In [29]:
sql_query = """
    SELECT
        typ_gminy,
        ROUND(
            SUM(matematyka_liczba_zdajacych * matematyka_wynik_sredni) /
            SUM(matematyka_liczba_zdajacych),
            1
        ) AS sredni_wynik_matematyka,
        ROUND(
            SUM(jezyk_polski_liczba_zdajacych * jezyk_polski_wynik_sredni) /
            SUM(jezyk_polski_liczba_zdajacych),
            1
        ) AS sredni_wynik_polski,
        ROUND(
            SUM(jezyk_angielski_liczba_zdajacych * jezyk_angielski_wynik_sredni) /
            SUM(jezyk_angielski_liczba_zdajacych),
            1
        ) AS sredni_wynik_angielski
    FROM eighth_grade_exam
    WHERE
        matematyka_wynik_sredni IS NOT NULL AND
        jezyk_polski_wynik_sredni IS NOT NULL AND
        jezyk_angielski_wynik_sredni IS NOT NULL
    GROUP BY typ_gminy;
"""
df = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions
4 rows affected.


In [30]:
df = df.DataFrame()
df.head()

Unnamed: 0,typ_gminy,sredni_wynik_matematyka,sredni_wynik_polski,sredni_wynik_angielski
0,Obszar wiejski,51.9,58.1,59.8
1,Miasto,51.4,57.4,63.8
2,Gmina wiejska,52.6,58.7,60.6
3,Gmina miejska,58.2,61.9,72.5


In [36]:
sql_query = """
    SELECT
        powiat_nazwa,
        ROUND((
            ROUND(
                SUM(matematyka_liczba_zdajacych * matematyka_wynik_sredni) /
                SUM(matematyka_liczba_zdajacych),
                1
            ) +
            ROUND(
                SUM(jezyk_polski_liczba_zdajacych * jezyk_polski_wynik_sredni) /
                SUM(jezyk_polski_liczba_zdajacych),
                1
            ) +
            ROUND(
                SUM(jezyk_angielski_liczba_zdajacych * jezyk_angielski_wynik_sredni) /
                SUM(jezyk_angielski_liczba_zdajacych),
                1
            )
        ) / 3, 1) AS sredni_wynik
    FROM eighth_grade_exam
    WHERE
        matematyka_wynik_sredni IS NOT NULL AND
        jezyk_polski_wynik_sredni IS NOT NULL AND
        jezyk_angielski_wynik_sredni IS NOT NULL
    GROUP BY powiat_nazwa;
"""
df = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions
370 rows affected.


In [37]:
df = df.DataFrame()
df.head()

Unnamed: 0,powiat_nazwa,sredni_wynik
0,Wieruszowski,56.3
1,Sztumski,51.4
2,Golubsko-Dobrzyński,53.1
3,Bydgoski,61.8
4,Sochaczewski,58.9


##### Średnie wyniki (szkoły średnie)

In [52]:
# STEM
sql_query = """
    SELECT
        typ_gminy,
        ROUND(
            SUM(biologia_poziom_rozszerzony_liczba_zdajacych * biologia_poziom_rozszerzony_sredni_wynik) /
            SUM(biologia_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_biologia,
        ROUND(
            SUM(chemia_poziom_rozszerzony_liczba_zdajacych * chemia_poziom_rozszerzony_sredni_wynik) /
            SUM(chemia_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_chemia,
        ROUND(
            SUM(fizyka_poziom_rozszerzony_liczba_zdajacych * fizyka_poziom_rozszerzony_sredni_wynik) /
            SUM(fizyka_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_fizyka,
        ROUND(
            SUM(geografia_poziom_rozszerzony_liczba_zdajacych * geografia_poziom_rozszerzony_sredni_wynik) /
            SUM(geografia_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_geografia,
        ROUND(
            SUM(informatyka_poziom_rozszerzony_liczba_zdajacych * informatyka_poziom_rozszerzony_sredni_wynik) /
            SUM(informatyka_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_informatyka,
        ROUND(
            SUM(matematyka_poziom_rozszerzony_liczba_zdajacych * matematyka_poziom_rozszerzony_sredni_wynik) /
            SUM(matematyka_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_matematyka,
        count(*) AS liczba
    FROM matura
    GROUP BY typ_gminy;
"""
df = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions


4 rows affected.


In [53]:
df = df.DataFrame()
df.head()

Unnamed: 0,typ_gminy,sredni_wynik_biologia,sredni_wynik_chemia,sredni_wynik_fizyka,sredni_wynik_geografia,sredni_wynik_informatyka,sredni_wynik_matematyka,liczba
0,gmina wiejska,14.6,9.5,8.6,15.6,4.7,13.2,870
1,miasto,22.9,20.1,19.0,24.4,11.1,22.9,3403
2,gmina miejska,32.6,34.4,34.0,31.5,28.8,31.3,10595
3,obszar wiejski,9.3,,,11.7,,0.6,196


In [55]:
sql_query = """
    SELECT
        powiat_nazwa,
        ROUND(
            SUM(matematyka_poziom_rozszerzony_liczba_zdajacych * matematyka_poziom_rozszerzony_sredni_wynik) /
            SUM(matematyka_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_matematyka
    FROM matura
    GROUP BY powiat_nazwa;
"""
df = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions


370 rows affected.


In [56]:
df = df.DataFrame()
df.head()

Unnamed: 0,powiat_nazwa,sredni_wynik_matematyka
0,myślenicki,26.9
1,koniński,
2,ropczycko-sędziszowski,29.2
3,dębicki,29.6
4,bolesławiecki,21.5


In [57]:
# Językowe
sql_query = """
    SELECT
        typ_gminy,
        ROUND(
            SUM(jezyk_angielski_poziom_rozszerzony_liczba_zdajacych * jezyk_angielski_poziom_rozszerzony_sredni_wynik) /
            SUM(jezyk_angielski_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_angielski,
        ROUND(
            SUM(jezyk_francuski_poziom_rozszerzony_liczba_zdajacych * jezyk_francuski_poziom_rozszerzony_sredni_wynik) /
            SUM(jezyk_francuski_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_francuski,
        ROUND(
            SUM(jezyk_hiszpanski_poziom_rozszerzony_liczba_zdajacych * jezyk_hiszpanski_poziom_rozszerzony_sredni_wynik) /
            SUM(jezyk_hiszpanski_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_hiszpanski,
        ROUND(
            SUM(jezyk_niemiecki_poziom_rozszerzony_liczba_zdajacych * jezyk_niemiecki_poziom_rozszerzony_sredni_wynik) /
            SUM(jezyk_niemiecki_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_niemiecki,
        ROUND(
            SUM(jezyk_rosyjski_poziom_rozszerzony_liczba_zdajacych * jezyk_rosyjski_poziom_rozszerzony_sredni_wynik) /
            SUM(jezyk_rosyjski_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_rosyjski,
        ROUND(
            SUM(jezyk_wloski_poziom_rozszerzony_liczba_zdajacych * jezyk_wloski_poziom_rozszerzony_sredni_wynik) /
            SUM(jezyk_wloski_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_wloski,
        count(*) AS liczba
    FROM matura
    GROUP BY typ_gminy;
"""
df = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions
4 rows affected.


In [58]:
df = df.DataFrame()
df.head()

Unnamed: 0,typ_gminy,sredni_wynik_angielski,sredni_wynik_francuski,sredni_wynik_hiszpanski,sredni_wynik_niemiecki,sredni_wynik_rosyjski,sredni_wynik_wloski,liczba
0,gmina wiejska,41.5,,,,14.4,,870
1,miasto,55.2,,,9.4,21.0,,3403
2,gmina miejska,64.7,18.6,13.4,24.1,16.1,8.3,10595
3,obszar wiejski,32.6,,,,,,196


In [59]:
sql_query = """
    SELECT
        powiat_nazwa,
        ROUND(
            SUM(jezyk_angielski_poziom_rozszerzony_liczba_zdajacych * jezyk_angielski_poziom_rozszerzony_sredni_wynik) /
            SUM(jezyk_angielski_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_angielski
    FROM matura
    GROUP BY powiat_nazwa;
"""
df = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions
370 rows affected.


In [60]:
df = df.DataFrame()
df.head()

Unnamed: 0,powiat_nazwa,sredni_wynik_angielski
0,myślenicki,57.7
1,koniński,41.3
2,ropczycko-sędziszowski,56.0
3,dębicki,59.5
4,bolesławiecki,58.5


## Porównanie wyników z podziałem na szkoły prywatne oraz publiczne

In [16]:
sql_query = """
    SELECT
        czy_publiczna,
        ROUND(
            SUM(liczba_ktorzy_przystapili_do_wszystkich_egzaminow_wymaganych * zdawalnosc) /
            SUM(liczba_ktorzy_przystapili_do_wszystkich_egzaminow_wymaganych),
            1
        ) AS zdawalnosc
    FROM matura
    WHERE
        zdawalnosc IS NOT NULL AND
        czy_publiczna IS NOT NULL AND
        rok = 2021
    GROUP BY czy_publiczna;
"""
df = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions
2 rows affected.


In [17]:
df = df.DataFrame()
df.head()

Unnamed: 0,czy_publiczna,zdawalnosc
0,Nie,60.8
1,Tak,85.2


In [20]:
# STEM
sql_query = """
    SELECT
        czy_publiczna,
        ROUND(
            SUM(biologia_poziom_rozszerzony_liczba_zdajacych * biologia_poziom_rozszerzony_sredni_wynik) /
            SUM(biologia_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_biologia,
        ROUND(
            SUM(chemia_poziom_rozszerzony_liczba_zdajacych * chemia_poziom_rozszerzony_sredni_wynik) /
            SUM(chemia_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_chemia,
        ROUND(
            SUM(fizyka_poziom_rozszerzony_liczba_zdajacych * fizyka_poziom_rozszerzony_sredni_wynik) /
            SUM(fizyka_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_fizyka,
        ROUND(
            SUM(geografia_poziom_rozszerzony_liczba_zdajacych * geografia_poziom_rozszerzony_sredni_wynik) /
            SUM(geografia_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_geografia,
        ROUND(
            SUM(informatyka_poziom_rozszerzony_liczba_zdajacych * informatyka_poziom_rozszerzony_sredni_wynik) /
            SUM(informatyka_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_informatyka,
        ROUND(
            SUM(matematyka_poziom_rozszerzony_liczba_zdajacych * matematyka_poziom_rozszerzony_sredni_wynik) /
            SUM(matematyka_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_matematyka,
        count(*) AS liczba
    FROM matura
    WHERE
        czy_publiczna IS NOT NULL
    GROUP BY czy_publiczna;
"""
df = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions
2 rows affected.


In [21]:
df = df.DataFrame()
df.head()

Unnamed: 0,czy_publiczna,sredni_wynik_biologia,sredni_wynik_chemia,sredni_wynik_fizyka,sredni_wynik_geografia,sredni_wynik_informatyka,sredni_wynik_matematyka,liczba
0,Tak,31.6,33.3,32.7,30.9,27.0,30.4,11415
1,Nie,14.6,16.0,13.0,13.2,8.9,19.7,3588


In [22]:
# Językowe
sql_query = """
    SELECT
        czy_publiczna,
        ROUND(
            SUM(jezyk_angielski_poziom_rozszerzony_liczba_zdajacych * jezyk_angielski_poziom_rozszerzony_sredni_wynik) /
            SUM(jezyk_angielski_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_angielski,
        ROUND(
            SUM(jezyk_francuski_poziom_rozszerzony_liczba_zdajacych * jezyk_francuski_poziom_rozszerzony_sredni_wynik) /
            SUM(jezyk_francuski_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_francuski,
        ROUND(
            SUM(jezyk_hiszpanski_poziom_rozszerzony_liczba_zdajacych * jezyk_hiszpanski_poziom_rozszerzony_sredni_wynik) /
            SUM(jezyk_hiszpanski_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_hiszpanski,
        ROUND(
            SUM(jezyk_niemiecki_poziom_rozszerzony_liczba_zdajacych * jezyk_niemiecki_poziom_rozszerzony_sredni_wynik) /
            SUM(jezyk_niemiecki_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_niemiecki,
        ROUND(
            SUM(jezyk_rosyjski_poziom_rozszerzony_liczba_zdajacych * jezyk_rosyjski_poziom_rozszerzony_sredni_wynik) /
            SUM(jezyk_rosyjski_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_rosyjski,
        ROUND(
            SUM(jezyk_wloski_poziom_rozszerzony_liczba_zdajacych * jezyk_wloski_poziom_rozszerzony_sredni_wynik) /
            SUM(jezyk_wloski_poziom_rozszerzony_liczba_zdajacych),
            1
        ) AS sredni_wynik_wloski,
        count(*) AS liczba
    FROM matura
    WHERE
        czy_publiczna IS NOT NULL
    GROUP BY czy_publiczna;
"""
df = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions
2 rows affected.


In [23]:
df = df.DataFrame()
df.head()

Unnamed: 0,czy_publiczna,sredni_wynik_angielski,sredni_wynik_francuski,sredni_wynik_hiszpanski,sredni_wynik_niemiecki,sredni_wynik_rosyjski,sredni_wynik_wloski,liczba
0,Tak,63.8,19.5,13.3,22.6,12.3,8.2,11415
1,Nie,50.5,,6.5,5.2,46.1,,3588


## Sprawdzenie szkoł, w których nazwie znajduje się słowo montesorri

In [28]:
sql_query = """
    SELECT DISTINCT
        nazwa_szkoly,
        czy_publiczna,
        ROUND(AVG(jezyk_polski_wynik_sredni), 1) AS jezyk_polski_wynik_sredni,
        ROUND(AVG(matematyka_wynik_sredni), 1) AS matematyka_wynik_sredni,
        ROUND(AVG(jezyk_angielski_wynik_sredni), 1) AS jezyk_angielski_wynik_sredni
    FROM eighth_grade_exam
    WHERE
        nazwa_szkoly LIKE '%MONTESSORI%'
    GROUP BY nazwa_szkoly, czy_publiczna;
"""
df_elementary_school = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions
43 rows affected.


In [30]:
sql_query = """
    SELECT DISTINCT
        nazwa_szkoly,
        czy_publiczna,
        ROUND(AVG(jezyk_polski_poziom_podstawowy_sredni_wynik), 1) AS jezyk_polski_sredni_wynik,
        ROUND(AVG(jezyk_angielski_poziom_podstawowy_sredni_wynik), 1) AS jezyk_angielski_sredni_wynik,
        ROUND(AVG(matematyka_poziom_podstawowy_sredni_wynik), 1) AS matematyka_sredni_wynik
    FROM matura
    WHERE
        nazwa_szkoly LIKE '%MONTESSORI%'
    GROUP BY 
        nazwa_szkoly, czy_publiczna
    ;
"""
df_high_school = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions
6 rows affected.


In [31]:
df_elementary_school = df_elementary_school.DataFrame()
df_high_school = df_high_school.DataFrame()

## Przeanalizowanie liczby psychologów w placówkach publicznych

In [66]:
sql_query = """
    SELECT
        czy_zatrudnia_psychologa,
        COUNT(*)
    FROM
    (
        SELECT DISTINCT
            rspo.numer_rspo,
            rspo.nazwa,
            rspo.czy_zatrudnia_psychologa
        FROM rspo
        INNER JOIN eighth_grade_exam ON rspo.numer_rspo = eighth_grade_exam.rspo

        UNION

        SELECT DISTINCT
            rspo.numer_rspo,
            rspo.nazwa,
            rspo.czy_zatrudnia_psychologa
        FROM rspo
        INNER JOIN matura ON rspo.numer_rspo = matura.rspo_szkoly
    )
    GROUP BY czy_zatrudnia_psychologa
    ;
"""
df = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions
2 rows affected.


In [67]:
df.DataFrame()

Unnamed: 0,czy_zatrudnia_psychologa,count
0,Nie,4785
1,Tak,12930


In [64]:
sql_query = """
    SELECT
        LOWER(typ_gminy),
        czy_zatrudnia_psychologa,
        COUNT(*)
    FROM
    (
        SELECT DISTINCT
            rspo.numer_rspo,
            rspo.nazwa,
            rspo.czy_zatrudnia_psychologa,
            eighth_grade_exam.typ_gminy
        FROM rspo
        INNER JOIN eighth_grade_exam ON rspo.numer_rspo = eighth_grade_exam.rspo

        UNION

        SELECT DISTINCT
            rspo.numer_rspo,
            rspo.nazwa,
            rspo.czy_zatrudnia_psychologa,
            matura.typ_gminy
        FROM rspo
        INNER JOIN matura ON rspo.numer_rspo = matura.rspo_szkoly
    )
    GROUP BY LOWER(typ_gminy), czy_zatrudnia_psychologa
    ;
"""
df_typ_szkoly = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions
8 rows affected.


In [65]:
df_typ_szkoly.DataFrame()

Unnamed: 0,lower,czy_zatrudnia_psychologa,count
0,gmina wiejska,Tak,3859
1,gmina miejska,Nie,1533
2,obszar wiejski,Nie,742
3,gmina miejska,Tak,5754
4,miasto,Tak,1871
5,miasto,Nie,603
6,obszar wiejski,Tak,1446
7,gmina wiejska,Nie,1907


In [68]:
sql_query = """
    SELECT
        czy_publiczna,
        czy_zatrudnia_psychologa,
        COUNT(*)
    FROM
    (
        SELECT DISTINCT
            rspo.numer_rspo,
            rspo.nazwa,
            rspo.czy_zatrudnia_psychologa,
            eighth_grade_exam.czy_publiczna
        FROM rspo
        INNER JOIN eighth_grade_exam ON rspo.numer_rspo = eighth_grade_exam.rspo

        UNION

        SELECT DISTINCT
            rspo.numer_rspo,
            rspo.nazwa,
            rspo.czy_zatrudnia_psychologa,
            matura.czy_publiczna
        FROM rspo
        INNER JOIN matura ON rspo.numer_rspo = matura.rspo_szkoly
    )
    GROUP BY czy_publiczna, czy_zatrudnia_psychologa
    ;
"""
df_czy_publiczna = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions
4 rows affected.


In [69]:
df_czy_publiczna.DataFrame()

Unnamed: 0,czy_publiczna,czy_zatrudnia_psychologa,count
0,Nie,Nie,1173
1,Nie,Tak,1201
2,Tak,Tak,11666
3,Tak,Nie,3595


In [70]:
sql_query = """
    SELECT
        wojewodztwo_nazwa,
        czy_zatrudnia_psychologa,
        COUNT(*)
    FROM
    (
        SELECT DISTINCT
            rspo.numer_rspo,
            rspo.nazwa,
            rspo.czy_zatrudnia_psychologa,
            eighth_grade_exam.wojewodztwo_nazwa
        FROM rspo
        INNER JOIN eighth_grade_exam ON rspo.numer_rspo = eighth_grade_exam.rspo

        UNION

        SELECT DISTINCT
            rspo.numer_rspo,
            rspo.nazwa,
            rspo.czy_zatrudnia_psychologa,
            matura.wojewodztwo_nazwa
        FROM rspo
        INNER JOIN matura ON rspo.numer_rspo = matura.rspo_szkoly
    )
    GROUP BY wojewodztwo_nazwa, czy_zatrudnia_psychologa
    ;
"""
df_wojewodztwo = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions
34 rows affected.


In [71]:
df_wojewodztwo.DataFrame()

Unnamed: 0,wojewodztwo_nazwa,czy_zatrudnia_psychologa,count
0,Lubelskie,Tak,862
1,Dolnośląskie,Nie,275
2,Świętokrzyskie,Tak,508
3,Wielkopolskie,Nie,408
4,Lubuskie,Nie,142
5,Podkarpackie,Nie,413
6,Kujawsko-Pomorskie,Nie,257
7,Lubelskie,Nie,240
8,Świętokrzyskie,Nie,144
9,Mazowieckie,Tak,1757


## Zobrazowanie jak wiek szkoły wpływa na wyniki uczniów

In [90]:
sql_query = """
    SELECT
        rspo.data_zalozenia,
        ROUND((jezyk_polski_wynik_sredni + matematyka_wynik_sredni + jezyk_angielski_wynik_sredni) / 3, 1) AS sredni_wynik
    FROM rspo
    INNER JOIN eighth_grade_exam ON rspo.numer_rspo = eighth_grade_exam.rspo
    WHERE
        jezyk_polski_wynik_sredni IS NOT NULL AND
        matematyka_wynik_sredni IS NOT NULL AND
        jezyk_angielski_wynik_sredni IS NOT NULL
    ;
"""
df_elementary_schools = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions
33394 rows affected.


In [91]:
df_elementary_schools.DataFrame().head()

Unnamed: 0,data_zalozenia,sredni_wynik
0,1924-09-01,60.3
1,1995-03-21,85.0
2,1959-07-22,51.7
3,1985-04-24,61.3
4,2000-09-01,84.7


In [86]:
sql_query = """
    SELECT
        rspo.data_zalozenia,
        matura.zdawalnosc
    FROM rspo
    INNER JOIN matura ON rspo.numer_rspo = matura.rspo_szkoly
    WHERE
        matura.zdawalnosc IS NOT NULL
    ;
"""
df_high_schools = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions
4651 rows affected.


In [87]:
df_high_schools.DataFrame().head()

Unnamed: 0,data_zalozenia,zdawalnosc
0,2016-02-08,50.0
1,1951-09-01,76.0
2,2006-04-28,67.0
3,1975-12-15,97.0
4,1961-09-01,85.0


## Zobrazowanie jak liczba uczniów szkoły wpływa na wyniki uczniów

In [92]:
sql_query = """
    SELECT
        rspo.liczba_uczniow,
        ROUND((jezyk_polski_wynik_sredni + matematyka_wynik_sredni + jezyk_angielski_wynik_sredni) / 3, 1) AS sredni_wynik
    FROM rspo
    INNER JOIN eighth_grade_exam ON rspo.numer_rspo = eighth_grade_exam.rspo
    WHERE
        jezyk_polski_wynik_sredni IS NOT NULL AND
        matematyka_wynik_sredni IS NOT NULL AND
        jezyk_angielski_wynik_sredni IS NOT NULL
    ;
"""
df_elementary_schools = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions
33394 rows affected.


In [94]:
df_elementary_schools.DataFrame().head()

Unnamed: 0,liczba_uczniow,sredni_wynik
0,303,60.3
1,265,85.0
2,309,51.7
3,431,61.3
4,66,84.7


In [95]:
sql_query = """
    SELECT
        rspo.liczba_uczniow,
        matura.zdawalnosc
    FROM rspo
    INNER JOIN matura ON rspo.numer_rspo = matura.rspo_szkoly
    WHERE
        matura.zdawalnosc IS NOT NULL
    ;
"""
df_high_schools = %sql $sql_query

 * postgresql://postgres:***@localhost/educational_institutions
4651 rows affected.


In [96]:
df_high_schools.DataFrame().head()

Unnamed: 0,liczba_uczniow,zdawalnosc
0,103,50.0
1,725,76.0
2,79,67.0
3,897,97.0
4,277,85.0
