### Kapitel 1 - Introduktion till maskininlärning

# 1. Hur hänger AI, ML och DL ihop?
AI, ML, DL:
AI är breda tekniker för att göra system “intelligenta”.
ML är en AI-gren där modeller lärs från data.
DL är en ML-underdel som använder djupa neuronnät för komplexa uppgifter.

# 2. Vilka är de fyra problemkategorierna inom ML?
Klassificering, regression, klustring, rekommendation/associationsanalys

# 3. Förklara följande:
a) Vad är syftet med att dela upp data i träningsdata, valideringsdata och
testdata?
# Träning passar modellen, validering justerar hyperparametrar och tidig stoppning, test ger opartisk uppskattning 

b) Vad är k-delad korsvalidering för något?
# Dela datan i k lika foldar; träna på k-1, validera på 1, rotera och medelvärdesbilda resultat för robustare skattning.

c) Vad är root mean squared error (RMSE) för något?
# Roten ur medelvärdet av kvadrerade fel: RMSE = Straffar stora fel extra och mäts i samma enhet som målet.

d) Vad är en hyperparameter för något? Vad är en parameter för något?
# Hyperparametrar styr inlärningsprocessen (t.ex. antal träd, regulariseringsstyrka); parametrar är modellens lärda vikter.

e) Vad är grid search och hur hänger namnet “grid” och “search” ihop med
processen som genomförs? Läser vi dokumentationen: https://scikit-learn.
org/stable/modules/generated/sklearn.model_selection.GridSearchCV så
ser vi att hyperparametern refit har standardvärdet True, vad innebär
det?
# Grid search provar alla kombinationer av hyperparametrar i ett rutnät (“grid”), utvärderar (“search”) och väljer bästa. refit=True betyder att modellen tränas om på hela träningsdatan med de bästa hyperparametrarna så att vi kan använda best_estimator_.

f) Vad är kategorisk data och hur hanteras det? I ditt svar, använd begreppen
nominal data, ordinal data, one-hot-encoding, dummy-variable-encoding
och ordinal encoding.
# Nominal (ingen ordning, t.ex. färg)
# one-hot-encoding eller dummy-variable-encoding (en kolumn kan droppas för att undvika full kollinearitet). Ordinal (naturlig ordning, t.ex. “låg/medel/hög”
# ordinal encoding som mappar till rangtal.
# (Rangtal = sätt att ordna data, från lägst till högst (eller tvärtom), där det minsta värdet får rang 1, näst minst 2, och så vidare.)

g) Vad är feature engineering för något?
# Skapa eller göra om variabler för att förbättra modeller.

h) Vad menas med principle of parsimony?
# Välj enklaste modell som förklarar datan tillräckligt väl.. undvik onödig komplexitet

# 4. Vad menas med att “en modell är en förenkling av verkligheten”?
Den tar bort många detaljer i verkligheten och fångar bara mönster som finns i tillgänglig data.

# 5. Vad menas med att en modell är “överanpassad” eller overfitted på engelska?
Presterar sämre på ny data, hög träff på träning, låg på test.

# 6. Högre är bättre i scikit-learn scoring, vad innebär det?
Scorer är definierade så att större värde betyder bättre. För felmått används ofta negativa värden (neg RMSE) 

# 7. Vad är tvärsnittsdata, tidsseriedata och paneldata? Exemplifiera när respektive datakategori kan uppstå.
Tvärsnittsdata flera enheter vid en tidpunkt (elpriser under år 2025).
Tidsseriedata en enhet över tid (dagliga bilpriser). 
Paneldata flera enheter över tid (kvartalsvisa försäljningssiffror per butik).

# 8. Ge några exempel på verkliga tillämpningsområden inom ML. Sök gärna på nätet för att besvara frågan.
Hälso- och sjukvård: bilddiagnostik (t.ex. cancerdetektion), triagering och riskprediktion för återinläggning.
Finansiella tjänster: kreditbedömning, bedrägeriidentifiering, algoritmisk handel och kundbortfallsprognoser.
Transport och logistik: ruttoptimering, ETA-prognoser, efterfrågeprognoser och autonom körning.
Handel/marknadsföring: rekommendationssystem, dynamisk prissättning och lageroptimering.

# 9. Generellt sett gäller det att högre är bättre i scikit-learn scoring, därför används exempelvis scoring='neg_mean_squared_error'. Förklara logiken bakom detta, det vill säga att vi använder “negative” mean squared error.
scikit-learns scorer-konvention är att “större värde är bättre”. Felmått som MSE blir då inverterade till negativa tal så att lägre fel motsvarar högre (mindre negativt) score.
Exempel: två modeller med MSE 4 och 9 får scorer -4 och -9; -4 > -9, alltså väljs modellen med lägre MSE.

### Kapitel 2 - Ett ML projekt från början till slut

# 1. checklista med sju steg. Beskriv de sju stegen översiktligt. I verkligheten, följs dessa steg i en rak progression eller arbetar man generellt sett mer iterativt?
1) Problemformulering och mål. 
2) Datainsamling. 
3) Dataförberedelse (rensning, hantering av saknade värden, kodning, skalning). 
4) Explorativ analys och feature engineering. 
5) Modellval och träning (inkl. hyperparametertuning). 
6) Utvärdering/validering. 
7) Deployment/övervakning. Loopar tillbaka när insikter eller driftkrav kräver justeringar.

# 2. Vad menas med att en modell produktionssätts?
Att modellen görs tillgänglig i en driftmiljö där den kan användas av riktiga användare eller system (API, batchjobb, app), med rutiner för skalning, säkerhet, övervakning och uppdatering.



# 3. Vad är scikit-learn för något? Biblioteket följer några centrala designprinciper. Vilka är dessa? Vad är estimators, predictors och transformers?
scikit-learn är ett Pythonbibliotek för ML med enhetligt API. Designprinciper: konsekvent API (`fit`, `transform`, `predict`), kompositionsbarhet (pipelines), rimliga standarder (sane defaults), tydlig separation mellan hyperparametrar och lärda parametrar, samt verktyg för validering och sök (CV, grid/random search). Estimators: objekt som kan `fit` data. Predictors: estimators med `predict`/`predict_proba`. Transformers: estimators med `transform`/`fit_transform` som ändrar features.


# 4. Vad är TensorFlow och Keras?
TensorFlow är ett ramverk för numeriska beräkningar och djupinlärning med stöd för CPU/GPU/TPU och deployment (serving, mobile, edge). Keras är ett högre API-lager ovanpå TensorFlow (default) för att bygga och träna neuronnät enklare, sekventiellt eller funktionellt.

# 5. Kalle och Stina diskuterar maskininlärning över en lunch. Kalle säger “om jag tränat en modell och den inte presterar bra nog på testdatan så justerar jag den tills den gör det.” Stina säger “det är ett stort fel att göra så, det enda du då åstadkommer är att du överanpassar testdatan. Hela syftet med testdatan försvinner då”. Vad säger du om deras dialog?
Testdatan ska vara helt oberoende tills alla modell- och hyperparameterbeslut är klara. Att iterera mot testresultat gör att testet slutar vara en opartisk generaliseringskoll. Man riskerar "overfitt" till just det testsetet. Man ska i stället använda valideringsdata eller korsvalidering för justeringar, och spara testsetet till absolut sist.


# 6. Många AI/ML-projekt uppnår inte målen eller lämnar aldrig prototypstadiet. Vad beror det på och hur bör vi förhålla oss?
Vanliga orsaker: otydligt eller rörligt mål, bristande eller dålig data, felvalda mätetal.

Förhållningssätt: lås mål och mätetal tidigt, gör datakvalitetsarbete först och håll produktägare löpande.

### Kapitel 3 - Regression

# 1. Vad kännetecknar regressionsproblem? Ge några exempel på tillämpningsområden.
Regression förutsäger ett kontinuerligt numeriskt värde (inte kategorier). Exempel: bosprisförutsägelse (baserat på storlek, läge), elprisförutsägelse, temperaturbortfall, börskursförutsägelse, leveranstidsprognos, hälsoriskpoäng.

# 2. Förklara utvärderingsmåtten RMSE, MSE och MAE.
MSE (Mean Squared Error): medelvärde av kvadrerade fel, $\text{MSE} = \frac{1}{n}\sum(y_i - \hat{y}_i)^2$. Straffar stora avvikelser extra.

RMSE (Root Mean Squared Error): roten ur MSE, $\text{RMSE} = \sqrt{\text{MSE}}$. Samma enhet som målvariabel, tolkbart.

MAE (Mean Absolute Error): medelvärde av absoluta fel, $\text{MAE} = \frac{1}{n}\sum|y_i - \hat{y}_i|$. Robust mot extremvärden, linjär bestrafning.

# 3. Om vi ska rangordna olika modeller, spelar det någon roll om RMSE eller MSE används? Varför?
Nej, det spelar ingen roll. Eftersom $\text{RMSE} = \sqrt{\text{MSE}}$ och kvadratroten är en monoton stegvis växande funktion, rangordningen av modeller förblir densamma. Den modell med lägst MSE har också lägst RMSE.

# 4. Förklara mycket översiktligt vad gradient descent är.
Gradient descent är en optimeringsalgoritm som minimerar en förlustfunktion genom att gradvis uppdatera modellens parametrar i riktningen motsatt gradienten (brantaste nedstigningen). Startar från slumpmässiga parametrar och justerar iterativt för att nå ett lägre värde på förlusten.

# 5. Vad är the bias variance trade-off? Varför är mer komplexa modeller inte alltid bättre?
Bias är felet från att anta ett för förenklat samband; variance är känsligheten för små variationer i träningsdata. Enkla modeller har högt bias (kan inte fånga mönstret) men lågt variance. Komplexa modeller har lågt bias men högt variance (overfit). Totalt test-fel = bias² + variance + irreducible error. En alltför komplex modell kan lära brus istället för mönster, och presterar sämre på ny data.

# 6. Några vanligt förekommande modeller för regressionsproblem är enligt nedan. Förklara översiktligt hur respektive modell fungerar.

a) Linjär regression: anpassar en linjär funktion $y = \beta_0 + \beta_1 x_1 + ... + \beta_p x_p$ till data genom att minimera summan av kvadrerade residualer. Enkel, tolkbar, antar linjärt samband.

b) Ridge regression: linjär regression med L2-regularisering (kvadrerad norm av koefficienter läggs till förlusten). Krymper stora koefficienter för att minska variance och hantera multikollinearitet.

c) Lasso regression: linjär regression med L1-regularisering (absolut norm). Kan sätta vissa koefficienter exakt till noll, vilket ger automatisk feature selection.

d) Elastic net: kombinerar L1 och L2-regularisering (Ridge + Lasso). Balanserar båda regulariseringsfördelarna.

e) Support Vector Machines (SVR): hittar en hyperplan som minimerar fel inom en $\epsilon$-marginal, med möjlighet för kärnor (kernels) för icke-linjär regression. Robust, fungerar bra i höga dimensioner.

f) Beslutsträd (Decision Trees): rekursiv uppdelning av feature-utrymmet i rektangulära områden. Enkla, icke-linjära, tolka bara, men lätta att overfitta.

g) Ensemble learning (Voting, Bagging): kombinerar flera modeller (voting tar medelvärde av prediktioner). Minskar variance och kan förbättra generalisering.

h) Random Forest: ensemble av besluttträd tränade på slumpmässiga delmängder av data och features. Robust, höga dimensioner, reducerar overfit genom ensemble.

# 7. Vad menas med white box modeller och black box modeller?
White box: modeller vars beslut är tolka bara och förklara bara. 

Black box: modeller som är svåra eller omöjliga att förklara intuitivt. Valet mellan dem beror på krav på tolkbarhet vs prestanda.

# 8. Vad är skillnaden mellan bagging och pasting?
Bagging: träna flera modeller på slumpmässiga delmängder av träningsdata DÖM BORTFATTNING.
Minskar variance genom diversitet och nästa möjlighet för träning på samma sampel flera gånger.

Pasting: träna flera modeller på slumpmässiga delmängder ÖGA UTAN ÅTERLÄGGNING.
Mindre diversitet men snabbare beräkning; båda är ensemble-metoder som använder voting/medelvärde för slutlig prediktion.