# EDA ...

In [1]:
import pandas as pd
import chardet

path = "../data/2024_kurser/studerande_examinerad_yrkeshogskola.csv"
with open(path, 'rb') as f:
    result = chardet.detect(f.read())

df = pd.read_csv(path,
                 encoding=result['encoding'],
                 sep=';') 

print(f"Encoding som används: {result['encoding']}")
df

Encoding som används: ISO-8859-1


Unnamed: 0,kön,utbildningens inriktning,ålder,2005,2006,2007,2008,2009,2010,2011,...,2015,2016,2017,2018,2019,2020,2021,2022,2023,2024
0,totalt,Totalt,totalt,24789,29556,33684,36657,39417,41597,42484,...,46633,47983,50373,52741,61393,75371,82753,84871,84560,87225
1,totalt,Totalt,-24 år,9987,12301,13932,14916,15601,15910,15729,...,12291,11277,10939,11486,13231,16118,17315,17951,18228,19116
2,totalt,Totalt,25-29 år,5593,6381,7477,8461,9451,10097,10646,...,13020,13398,14039,14441,16338,19463,20419,19968,18994,19106
3,totalt,Totalt,30-34 år,3289,3722,4033,4314,4740,5186,5500,...,7527,8237,9012,9631,11423,14605,16476,17107,16870,16913
4,totalt,Totalt,35-39 år,2549,2967,3253,3470,3763,4003,4112,...,5133,5639,6136,6520,7680,9578,10945,11589,11689,12327
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
379,män,Övrigt,30-34 år,..,..,..,..,3,0,0,...,19,16,18,21,28,41,52,49,35,24
380,män,Övrigt,35-39 år,..,..,..,0,0,3,4,...,9,13,14,10,22,24,26,27,17,14
381,män,Övrigt,40-44 år,..,..,..,..,0,3,3,...,11,15,13,13,14,16,13,16,19,16
382,män,Övrigt,45+ år,..,..,..,..,3,3,4,...,3,8,15,17,31,39,25,35,33,29


In [2]:
print("Kolumnnamn och datatypes:")
print(df.dtypes)

years = ['2020', '2021', '2022', '2023', '2024']
for year in years:
    df[year] = pd.to_numeric(df[year].str.replace('..', '0'), errors='coerce')

print("\nEfter konvertering:")
print(df[years].dtypes)

Kolumnnamn och datatypes:
kön                         object
utbildningens inriktning    object
ålder                       object
2005                        object
2006                        object
2007                        object
2008                        object
2009                        object
2010                        object
2011                        object
2012                        object
2013                        object
2014                        object
2015                        object
2016                        object
2017                        object
2018                        object
2019                        object
2020                        object
2021                        object
2022                        object
2023                        object
2024                        object
dtype: object

Efter konvertering:
2020    int64
2021    int64
2022    int64
2023    int64
2024    int64
dtype: object


In [3]:
df_filtered = df[df['ålder'] == 'totalt']
print(df_filtered[['utbildningens inriktning', 'ålder'] + years].head())

                   utbildningens inriktning   ålder   2020   2021   2022  \
0                                    Totalt  totalt  75371  82753  84871   
8                                   Data/It  totalt  10283  12852  14255   
16  Ekonomi, administration och försäljning  totalt  18491  18540  17818   
24                 Friskvård och kroppsvård  totalt    335    372    408   
32            Hotell, restaurang och turism  totalt   3094   3314   3007   

     2023   2024  
0   84560  87225  
8   15162  16447  
16  17354  17380  
24    460    366  
32   2753   2800  


In [4]:
df_grouped = df_filtered.groupby('utbildningens inriktning')[years].sum().reset_index()
df_grouped

Unnamed: 0,utbildningens inriktning,2020,2021,2022,2023,2024
0,Data/It,20566,25704,28510,30324,32894
1,"Ekonomi, administration och försäljning",36982,37080,35636,34708,34760
2,Friskvård och kroppsvård,670,744,816,920,732
3,"Hotell, restaurang och turism",6188,6628,6014,5506,5600
4,Hälso- och sjukvård samt socialt arbete,21808,24104,25760,25042,23832
5,Journalistik och information,1934,1872,1646,1504,1292
6,Juridik,968,976,832,692,692
7,"Kultur, media och design",6864,7832,8446,8914,9272
8,"Lantbruk, djurvård, trädgård, skog och fiske",3226,3620,3900,4182,4692
9,Pedagogik och undervisning,3056,3612,3952,3020,2190


In [7]:
import plotly.graph_objects as go

fig = go.Figure()
for utbildning in df_grouped['utbildningens inriktning']:
    fig.add_trace(go.Scatter(
        x=df_grouped.columns[1:],
        y=df_grouped[df_grouped['utbildningens inriktning'] == utbildning][years].values.flatten(),
        mode='lines+markers',
        name=utbildning
    ))

fig.update_layout(
    title="Antal studerande per utbildningsinriktning (2020-2024)",
    xaxis_title="År",
    yaxis_title="Antal studerande",
    legend_title="Utbildningsinriktning",
    template="plotly_white", 
    hovermode="x unified", 
    height=600
)
fig.show()

In [6]:
utbildning_att_ta_bort = "Totalt"
df_grouped = df_grouped[df_grouped['utbildningens inriktning'] != utbildning_att_ta_bort]
df_grouped

Unnamed: 0,utbildningens inriktning,2020,2021,2022,2023,2024
0,Data/It,20566,25704,28510,30324,32894
1,"Ekonomi, administration och försäljning",36982,37080,35636,34708,34760
2,Friskvård och kroppsvård,670,744,816,920,732
3,"Hotell, restaurang och turism",6188,6628,6014,5506,5600
4,Hälso- och sjukvård samt socialt arbete,21808,24104,25760,25042,23832
5,Journalistik och information,1934,1872,1646,1504,1292
6,Juridik,968,976,832,692,692
7,"Kultur, media och design",6864,7832,8446,8914,9272
8,"Lantbruk, djurvård, trädgård, skog och fiske",3226,3620,3900,4182,4692
9,Pedagogik och undervisning,3056,3612,3952,3020,2190
