In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from scipy import stats

from sklearn.preprocessing import LabelEncoder

In [2]:
polaznici = pd.read_csv("df_polaznici.csv")
tecajevi = pd.read_csv("df_tecajevi.csv")
upisi = pd.read_csv("df_upisi.csv")

In [3]:
polaznici
tecajevi
upisi

Unnamed: 0,UpisID,PolaznikID,TecajID,Datum_Upisa,Status_Upisa
0,10,1156.0,5095.0,07/20/2023,Aktivan
1,41,1400.0,6202.0,11-10-2023,Završen
2,456,1065.0,5091.0,07/10/2024,Na čekanju
3,404,1314.0,5033.0,2023-11-12,Završen
4,592,1272.0,5090.0,24-02-2022,Aktivan
...,...,...,...,...,...
610,424,1048.0,5047.0,06/13/2024,Aktivan
611,533,1119.0,5012.0,09/25/2022,Aktivan
612,224,1149.0,5044.0,27-10-2023,Aktivan
613,70,1088.0,5084.0,18-05-2024,Aktivan


In [4]:
### merge tablica polaznici i upisi

In [5]:
polaznici_upisi = pd.merge (polaznici, upisi, on ="PolaznikID", how = "inner")

In [6]:
### merge prethodne tablice i upisi

In [7]:
polaznici_UT = pd.merge (polaznici_upisi, tecajevi, on ="TecajID", how = "inner")

In [8]:
#### dodajemo novu kolonu koja računa starost polaznika

In [9]:
polaznici_UT['Starost'] = 2025 - polaznici_UT['Godina_Rodjenja']

In [10]:
polaznici_UT

Unnamed: 0,PolaznikID,Godina_Rodjenja,Regija,Jezik_Platforme,UpisID,TecajID,Datum_Upisa,Status_Upisa,Naziv_Tecaja,Razina,Trajanje_Sati,Cijena_USD,Starost
0,1377,1979,Europa,Španjolski,495,5089.0,12-08-2024,Završen,Cloud Computing,Srednji,19.1,20.00,46
1,1221,1973,Europa,Francuski,168,5068.0,2022-03-05,Završen,Strojno učenje osnove,Srednji,30.6,81.00,52
2,1221,1973,Europa,Francuski,449,5083.0,2024-06-16,Aktivan,Cloud Computing,Napredni,22.5,61.05,52
3,1221,1973,Europa,Francuski,335,5025.0,26-09-2022,Aktivan,Uvod u Python,Početni,,66.03,52
4,1221,1973,Europa,Francuski,30,5033.0,2023-11-11,Aktivan,Data Storytelling,Početni,30.6,,52
...,...,...,...,...,...,...,...,...,...,...,...,...,...
546,1044,1952,,Engleski,58,5094.0,2022-12-25,Odustao,Excel za analizu,Početni,31.8,121.47,73
547,1126,1991,Azija,Engleski,112,5081.0,04/24/2023,Završen,Vizualizacija podataka,početni,31.5,136.03,34
548,1186,1971,Sjeverna Amerika,Španjolski,398,5001.0,03/03/2024,Na čekanju,Vizualizacija podataka,Srednji,40.2,185.49,54
549,1035,1991,Sjeverna Amerika,Engleski,313,5095.0,03/02/2024,Aktivan,Uvod u Python,Početni,42.7,100.04,34


In [11]:
polaznici_UT.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 551 entries, 0 to 550
Data columns (total 13 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   PolaznikID       551 non-null    int64  
 1   Godina_Rodjenja  551 non-null    int64  
 2   Regija           522 non-null    object 
 3   Jezik_Platforme  551 non-null    object 
 4   UpisID           551 non-null    int64  
 5   TecajID          551 non-null    float64
 6   Datum_Upisa      548 non-null    object 
 7   Status_Upisa     551 non-null    object 
 8   Naziv_Tecaja     551 non-null    object 
 9   Razina           551 non-null    object 
 10  Trajanje_Sati    491 non-null    float64
 11  Cijena_USD       497 non-null    float64
 12  Starost          551 non-null    int64  
dtypes: float64(3), int64(4), object(6)
memory usage: 56.1+ KB


In [12]:
### Zaključak: imamo 551 zapis, ali i neke kolone s praznim ćelijama

In [13]:
polaznici_UT.describe()

Unnamed: 0,PolaznikID,Godina_Rodjenja,UpisID,TecajID,Trajanje_Sati,Cijena_USD,Starost
count,551.0,551.0,551.0,551.0,491.0,497.0,551.0
mean,1199.150635,1977.361162,300.297641,5051.77677,93.280652,200.990986,47.638838
std,111.303847,15.77761,172.284243,28.62083,778.407554,905.118388,15.77761
min,1001.0,1950.0,1.0,5001.0,-10.0,0.0,20.0
25%,1100.5,1964.0,152.0,5028.0,22.5,63.93,35.0
50%,1203.0,1977.0,302.0,5051.0,30.1,108.08,48.0
75%,1290.5,1990.0,448.5,5077.0,38.0,136.03,61.0
max,1400.0,2005.0,600.0,5100.0,9999.0,10000.0,75.0


In [14]:
### Zaključak: godina rođenja se čini ok, a sukladno tome i starost. Trajanje ima jednu anomalije 
### (min = -10) te (max = 9999). Cijena se čini ok u pretpostavku da imamo bespaltnih tečaja i 
### specijalitičkih koji mogu koštati više tisuća USD

In [15]:
polaznici_UT.isna().sum()

PolaznikID          0
Godina_Rodjenja     0
Regija             29
Jezik_Platforme     0
UpisID              0
TecajID             0
Datum_Upisa         3
Status_Upisa        0
Naziv_Tecaja        0
Razina              0
Trajanje_Sati      60
Cijena_USD         54
Starost             0
dtype: int64

In [16]:
### Zaključak: Regija, Datum_Upisa, Trajanje_sati i Cijena_USD imaju prazne ćelije koje treba 
### nekako riješiti

In [17]:
polaznici_UT["Regija"].value_counts()

Regija
Europa              167
Sjeverna Amerika    125
Azija                86
Afrika               63
Južna Amerika        46
Australija           35
Name: count, dtype: int64

In [18]:
### Zaključak: Regija nema krive zapise, pa nema potrebe uređivati, ali je potrebno popuniti prazne
### ćelije

In [19]:
polaznici_UT["Regija"].mode()

0    Europa
Name: Regija, dtype: object

In [20]:
polaznici_UT["Regija"] = polaznici_UT["Regija"].fillna(value="Europa")

In [21]:
polaznici_UT["Regija"].value_counts()

Regija
Europa              196
Sjeverna Amerika    125
Azija                86
Afrika               63
Južna Amerika        46
Australija           35
Name: count, dtype: int64

In [22]:
polaznici_UT.isna().sum()

PolaznikID          0
Godina_Rodjenja     0
Regija              0
Jezik_Platforme     0
UpisID              0
TecajID             0
Datum_Upisa         3
Status_Upisa        0
Naziv_Tecaja        0
Razina              0
Trajanje_Sati      60
Cijena_USD         54
Starost             0
dtype: int64

In [23]:
### Zaključak: Regija je sad uređena i nema više praznih ćelija 

In [24]:
polaznici_UT

Unnamed: 0,PolaznikID,Godina_Rodjenja,Regija,Jezik_Platforme,UpisID,TecajID,Datum_Upisa,Status_Upisa,Naziv_Tecaja,Razina,Trajanje_Sati,Cijena_USD,Starost
0,1377,1979,Europa,Španjolski,495,5089.0,12-08-2024,Završen,Cloud Computing,Srednji,19.1,20.00,46
1,1221,1973,Europa,Francuski,168,5068.0,2022-03-05,Završen,Strojno učenje osnove,Srednji,30.6,81.00,52
2,1221,1973,Europa,Francuski,449,5083.0,2024-06-16,Aktivan,Cloud Computing,Napredni,22.5,61.05,52
3,1221,1973,Europa,Francuski,335,5025.0,26-09-2022,Aktivan,Uvod u Python,Početni,,66.03,52
4,1221,1973,Europa,Francuski,30,5033.0,2023-11-11,Aktivan,Data Storytelling,Početni,30.6,,52
...,...,...,...,...,...,...,...,...,...,...,...,...,...
546,1044,1952,Europa,Engleski,58,5094.0,2022-12-25,Odustao,Excel za analizu,Početni,31.8,121.47,73
547,1126,1991,Azija,Engleski,112,5081.0,04/24/2023,Završen,Vizualizacija podataka,početni,31.5,136.03,34
548,1186,1971,Sjeverna Amerika,Španjolski,398,5001.0,03/03/2024,Na čekanju,Vizualizacija podataka,Srednji,40.2,185.49,54
549,1035,1991,Sjeverna Amerika,Engleski,313,5095.0,03/02/2024,Aktivan,Uvod u Python,Početni,42.7,100.04,34


In [25]:
polaznici_UT["Jezik_Platforme"].value_counts()

Jezik_Platforme
Engleski      292
Španjolski     55
Francuski      55
Njemački       45
Hrvatski       36
engleski       28
španjolski     14
ENG             8
hrvatski        7
francuski       6
ŠPA             3
njemački        1
HRV             1
Name: count, dtype: int64

In [26]:
### Zaključak: Jezik platforme nema praznih ćelija, ali zato ima više riječi napisanih raznim stilovima

In [27]:
polaznici_UT["Jezik_Platforme"] = polaznici_UT["Jezik_Platforme"].str.title()

In [28]:
polaznici_UT["Jezik_Platforme"].value_counts()

Jezik_Platforme
Engleski      320
Španjolski     69
Francuski      61
Njemački       46
Hrvatski       43
Eng             8
Špa             3
Hrv             1
Name: count, dtype: int64

In [29]:
### Zaključak: metodom titile() sredili smo nazive jezika, ali ostale su još neke kratice 

In [30]:
polaznici_UT["Jezik_Platforme"] = polaznici_UT["Jezik_Platforme"].replace({
    "Eng": "Engleski",
    "Špa": "Španjolski",
    "Hrv": "Hrvatski" 
})

In [31]:
polaznici_UT["Jezik_Platforme"].value_counts()

Jezik_Platforme
Engleski      328
Španjolski     72
Francuski      61
Njemački       46
Hrvatski       44
Name: count, dtype: int64

In [32]:
### Zaključak: ispravljene su sve nepravilnosti u stringovima

In [33]:
polaznici_UT

Unnamed: 0,PolaznikID,Godina_Rodjenja,Regija,Jezik_Platforme,UpisID,TecajID,Datum_Upisa,Status_Upisa,Naziv_Tecaja,Razina,Trajanje_Sati,Cijena_USD,Starost
0,1377,1979,Europa,Španjolski,495,5089.0,12-08-2024,Završen,Cloud Computing,Srednji,19.1,20.00,46
1,1221,1973,Europa,Francuski,168,5068.0,2022-03-05,Završen,Strojno učenje osnove,Srednji,30.6,81.00,52
2,1221,1973,Europa,Francuski,449,5083.0,2024-06-16,Aktivan,Cloud Computing,Napredni,22.5,61.05,52
3,1221,1973,Europa,Francuski,335,5025.0,26-09-2022,Aktivan,Uvod u Python,Početni,,66.03,52
4,1221,1973,Europa,Francuski,30,5033.0,2023-11-11,Aktivan,Data Storytelling,Početni,30.6,,52
...,...,...,...,...,...,...,...,...,...,...,...,...,...
546,1044,1952,Europa,Engleski,58,5094.0,2022-12-25,Odustao,Excel za analizu,Početni,31.8,121.47,73
547,1126,1991,Azija,Engleski,112,5081.0,04/24/2023,Završen,Vizualizacija podataka,početni,31.5,136.03,34
548,1186,1971,Sjeverna Amerika,Španjolski,398,5001.0,03/03/2024,Na čekanju,Vizualizacija podataka,Srednji,40.2,185.49,54
549,1035,1991,Sjeverna Amerika,Engleski,313,5095.0,03/02/2024,Aktivan,Uvod u Python,Početni,42.7,100.04,34


In [34]:
polaznici_UT["Datum_Upisa"].value_counts()

Datum_Upisa
Unknown Date    4
12/03/2024      4
2023-11-04      3
08/18/2024      3
05/02/2023      3
               ..
11/04/2024      1
04/07/2023      1
22-08-2022      1
2023-06-09      1
16-03-2022      1
Name: count, Length: 478, dtype: int64

In [35]:
### Zaključak: Datum upisa ima 3 NaN value, 4 Unknown date te više različitih formata zapisa datuma....

In [36]:
polaznici_UT[pd.isna(polaznici_UT["Datum_Upisa"])]

Unnamed: 0,PolaznikID,Godina_Rodjenja,Regija,Jezik_Platforme,UpisID,TecajID,Datum_Upisa,Status_Upisa,Naziv_Tecaja,Razina,Trajanje_Sati,Cijena_USD,Starost
150,1302,1972,Sjeverna Amerika,Engleski,44,5078.0,,Aktivan,Vizualizacija podataka,početni,,112.62,53
165,1199,1960,Sjeverna Amerika,Francuski,307,5005.0,,Aktivan,Statistika za Data Science,Početni,,0.01,65
463,1078,1953,Europa,Španjolski,90,5009.0,,Aktivan,Cloud Computing,Srednji,35.2,104.36,72


In [37]:
polaznici_UT["Datum_Upisa"] = polaznici_UT["Datum_Upisa"].replace("Unknown Date", pd.NaT)

In [38]:
polaznici_UT[pd.isna(polaznici_UT["Datum_Upisa"])]

Unnamed: 0,PolaznikID,Godina_Rodjenja,Regija,Jezik_Platforme,UpisID,TecajID,Datum_Upisa,Status_Upisa,Naziv_Tecaja,Razina,Trajanje_Sati,Cijena_USD,Starost
143,1124,1982,Sjeverna Amerika,Engleski,75,5070.0,NaT,Aktivan,Napredni SQL,Srednji,31.1,92.61,43
150,1302,1972,Sjeverna Amerika,Engleski,44,5078.0,,Aktivan,Vizualizacija podataka,početni,,112.62,53
165,1199,1960,Sjeverna Amerika,Francuski,307,5005.0,,Aktivan,Statistika za Data Science,Početni,,0.01,65
272,1320,2004,Sjeverna Amerika,Hrvatski,416,5024.0,NaT,Odustao,Cloud Computing,Srednji,26.9,133.22,21
307,1049,1958,Europa,Engleski,155,5026.0,NaT,Aktivan,Vizualizacija podataka,Početni,19.7,58.79,67
463,1078,1953,Europa,Španjolski,90,5009.0,,Aktivan,Cloud Computing,Srednji,35.2,104.36,72
497,1034,1976,Afrika,Engleski,156,5037.0,NaT,Aktivan,Excel za analizu,Srednji,,0.0,49


In [39]:
polaznici_UT['Datum_Upisa'] = polaznici_UT['Datum_Upisa'].ffill()

In [40]:
polaznici_UT[pd.isna(polaznici_UT["Datum_Upisa"])]

Unnamed: 0,PolaznikID,Godina_Rodjenja,Regija,Jezik_Platforme,UpisID,TecajID,Datum_Upisa,Status_Upisa,Naziv_Tecaja,Razina,Trajanje_Sati,Cijena_USD,Starost


In [41]:
### Zaključak: Datum upisa više nema praznih ćelija. Ostaje za srediti mješovoti format datuma.

In [42]:
polaznici_UT["Datum_Upisa"]

0      12-08-2024
1      2022-03-05
2      2024-06-16
3      26-09-2022
4      2023-11-11
          ...    
546    2022-12-25
547    04/24/2023
548    03/03/2024
549    03/02/2024
550    01/31/2022
Name: Datum_Upisa, Length: 551, dtype: object