# Maskinlæring og Prædiktiv Modellering for DLBCL

Dette læringsforløb vil introducere dig til maskinlæring og hvordan det kan bruges til at forudsige behandlingsresultater for Diffuse Large B-Cell Lymphoma (DLBCL). Vi vil bruge Python og nogle populære biblioteker til dataanalyse, modellering og visualisering.

## Modul 1: Introduktion til Maskinlæring

### Hvad er maskinlæring?
Maskinlæring er en metode, hvor computere lærer fra data og kan træffe beslutninger uden at være eksplicit programmeret til det. Der er forskellige typer af maskinlæring:
- **Supervised Learning**: Computeren lærer fra mærkede data og forudsiger udfald baseret på inputdata.
- **Unsupervised Learning**: Computeren finder mønstre i data uden mærkede udfald.
- **Reinforcement Learning**: Computeren lærer ved at interagere med et miljø og modtage feedback.

### Værktøjer og Biblioteker
Vi vil bruge følgende Python-biblioteker i dette forløb:
- **NumPy**: Til numeriske beregninger.
- **Pandas**: Til datamanipulation og analyse.
- **Scikit-learn**: Til maskinlæring.
- **Matplotlib**: Til visualisering.

### Øvelse: Opstilling af Miljø
Lad os først sikre, at vi har de nødvendige biblioteker installeret. Kør nedenstående kommando for at installere dem.

In [1]:
!pip install numpy pandas scikit-learn matplotlib

## Modul 2: Databehandling og Forberedelse

### Hentning af Data fra NCBI
Vi vil bruge et eksempel på et datasæt relateret til DLBCL. Vi henter datasættet `GSE10846` fra NCBI GEO.

In [2]:
import pandas as pd

# Indlæs data fra den downloadede fil
data = pd.read_csv('GSE10846_series_matrix.txt.gz', sep='\t', comment='!', index_col=0)

# Vis de første par rækker af datasættet
data.head()

### Dataforberedelse
Før vi kan bruge data til maskinlæring, skal vi rense og forberede det:
- Fjerne rækker med manglende værdier.
- Normalisere data, så de er på samme skala.

In [3]:
# Fjern rækker med manglende værdier
data = data.dropna()

# Standardiser data
data = (data - data.mean()) / data.std()
data.head()

## Modul 3: Feature Engineering og Selektion

### Feature Engineering
Vi kan skabe nye features baseret på eksisterende data. For eksempel kan vi kombinere eller transformere nogle kolonner.

### Feature Selektion
Vi kan bruge statistiske metoder til at vælge de mest relevante features til vores model. Her bruger vi ANOVA F-test.

In [4]:
from sklearn.feature_selection import SelectKBest, f_classif

# Antag at 'target' er vores målvariabel
X = data.drop('target', axis=1)
y = data['target']

# Vælg de 10 bedste features
X_new = SelectKBest(f_classif, k=10).fit_transform(X, y)
X_new

## Modul 4: Bygning af Maskinlæringsmodeller

### Supervised Learning Algoritmer
Vi vil fokusere på klassifikationsalgoritmer som Logistic Regression, Random Forest og Support Vector Machine.

### Modeltræning og Evaluering
Vi deler data i trænings- og test-sæt, træner en model og evaluerer dens ydeevne.

In [5]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

# Opdel data i trænings- og test-sæt
X_train, X_test, y_train, y_test = train_test_split(X_new, y, test_size=0.2, random_state=42)

# Træn en Random Forest model
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Evaluer modellen
y_pred = model.predict(X_test)
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
print(classification_report(y_test, y_pred))

## Modul 5: Avancerede Modeller og Hyperparameter Tuning

### Avancerede Modeller
Vi kan bruge avancerede modeller som Gradient Boosting og XGBoost samt neurale netværk med TensorFlow og Keras.

### Hyperparameter Tuning
Vi kan optimere modelparametre ved hjælp af Grid Search.

In [6]:
from sklearn.model_selection import GridSearchCV

# Definer parameterrum for Random Forest
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10]
}

# Grid Search med cross-validation
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, n_jobs=-1, verbose=2)
grid_search.fit(X_train, y_train)
print(f"Best Parameters: {grid_search.best_params_}")

## Modul 6: Model Implementering og Fortolkning

### Model Implementering
Vi kan implementere den trænede model i et produktionsmiljø og bruge den til prædiktiv analyse i kliniske indstillinger.

### Model Fortolkning
Vi kan bruge værktøjer som SHAP til at forklare modelens beslutningsprocesser og vurdere eventuel bias.

In [7]:
import shap

# Beregn SHAP værdier
explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(X_test)

# Plot SHAP værdier
shap.summary_plot(shap_values, X_test)

## Ressourcer og Referencer
- **NCBI**: [https://www.ncbi.nlm.nih.gov/](https://www.ncbi.nlm.nih.gov/)
- **Scikit-learn Dokumentation**: [https://scikit-learn.org/stable/documentation.html](https://scikit-learn.org/stable/documentation.html)
- **Kaggle**: [https://www.kaggle.com/](https://www.kaggle.com/) (Datasæt og konkurrencer)
- **Biopython Dokumentation**: [https://biopython.org/wiki/Documentation](https://biopython.org/wiki/Documentation)