La **régression à effets mixtes** (ou modèle linéaire à effets mixtes) est un modèle statistique qui combine des effets **fixes** et des effets **aléatoires**. Il est souvent utilisé pour analyser des données où les observations sont regroupées en sous-groupes, et où chaque groupe peut avoir une influence spécifique sur la variable à expliquer. 

Voyons maintenant la **logique** du modèle, étape par étape.

### 1. **Pourquoi un modèle à effets mixtes ?**
Dans de nombreux cas, les données que l’on veut modéliser ne sont pas indépendantes, c'est-à-dire qu'il existe des relations internes entre les données. Par exemple, dans une étude éducative, les élèves (observations) appartiennent à différentes écoles (groupes), et chaque école peut avoir une influence particulière sur les résultats des élèves. Un modèle de régression standard ne prendrait pas en compte cette variation spécifique à chaque école. C'est là que le modèle à effets mixtes entre en jeu.

- **Effets fixes** : Ce sont les effets qui sont communs à toutes les observations. Par exemple, si l'on veut modéliser la relation entre les résultats des élèves et le nombre d'heures de cours, le coefficient de cette relation est fixe pour tous les élèves.
  
- **Effets aléatoires** : Ce sont des effets spécifiques à chaque groupe ou à chaque sous-groupe. Par exemple, chaque école peut avoir un "intercept" différent, reflétant des facteurs propres à l'école (comme la qualité de l'enseignement, les ressources, etc.) qui influencent les résultats des élèves.

### 2. **Formule du modèle**
Le modèle à effets mixtes s’écrit comme suit :

\[
y = X \beta + Zb + \epsilon
\]

- \( y \) : est le vecteur des observations (ou des résultats).
- \( X \) : est la matrice des prédicteurs pour les effets fixes (les variables explicatives pour la partie fixe du modèle).
- \( \beta \) : est le vecteur des coefficients des effets fixes (comme dans une régression linéaire classique).
- \( Z \) : est la matrice des prédicteurs pour les effets aléatoires (elle lie les observations à leurs groupes respectifs).
- \( b \) : est le vecteur des coefficients des effets aléatoires. Ces effets sont considérés comme des variables aléatoires, souvent modélisées comme étant distribuées normalement, avec une moyenne de zéro et une variance \(\sigma_b^2\).
- \( \epsilon \) : est l’erreur résiduelle (bruit), supposée également distribuée normalement avec une moyenne de zéro et une variance \(\sigma_\epsilon^2\).

### 3. **Logique de génération des données (étape par étape)**
Dans l'implémentation, nous avons d'abord généré des données pour simuler un problème à effets mixtes :

1. **Groupes et effets aléatoires** : Nous générons 10 groupes (par exemple, 10 écoles), chacun ayant un **effet aléatoire** (ex. un intercept spécifique). Cet effet aléatoire est généré en tirant aléatoirement des valeurs selon une distribution normale centrée en zéro, avec une variance de 1.0 (paramètre \( \sigma_{\text{random}} \)).

2. **Effets fixes** : Chaque observation a aussi un effet fixe : ici, il s’agit d’une relation linéaire entre une variable explicative \( X \) et la variable de réponse \( y \) (par exemple, plus l'élève passe de temps à étudier, plus ses résultats augmentent). Le coefficient associé à cet effet fixe (\( \beta \)) est fixé à 2.0 dans l'exemple.

3. **Ajout du bruit** : Enfin, on ajoute du **bruit** aléatoire à chaque observation, pour modéliser les erreurs ou les variations non expliquées par le modèle.

La combinaison de ces trois composantes donne nos données synthétiques.

### 4. **Initialisation des paramètres**
Pour estimer notre modèle, nous devons initialiser plusieurs paramètres :
- \( \beta \) : Coefficient de l'effet fixe.
- \( b \) : Coefficients des effets aléatoires pour chaque groupe.
- \( \sigma_b \) : Variance des effets aléatoires.
- \( \sigma_\epsilon \) : Variance des résidus (erreurs).

Ces paramètres sont initialisés avec des valeurs aléatoires avant de les optimiser.

### 5. **Log-vraisemblance**
Le modèle à effets mixtes est ajusté en maximisant une fonction de **log-vraisemblance**. Celle-ci mesure à quel point le modèle (avec les paramètres actuels) est compatible avec les données observées.

La log-vraisemblance combine deux composantes :
- **Contribution des effets aléatoires** : Cela inclut la manière dont les effets aléatoires sont distribués (on suppose qu’ils suivent une loi normale).
- **Contribution des résidus** : C’est la partie qui mesure à quel point les résidus (différences entre les valeurs prédites par le modèle et les valeurs observées) suivent également une distribution normale.

### 6. **Descente de gradient**
Pour trouver les meilleurs paramètres (c'est-à-dire ceux qui maximisent la log-vraisemblance), nous utilisons la **descente de gradient**. Cette méthode ajuste progressivement les paramètres en calculant les dérivées de la log-vraisemblance par rapport à chaque paramètre, puis en les mettant à jour dans la direction qui améliore la log-vraisemblance.

Concrètement, à chaque itération :
- Les gradients (dérivées) de la log-vraisemblance sont calculés pour les paramètres \( \beta \), \( b \), \( \sigma_b \) et \( \sigma_\epsilon \).
- Les paramètres sont ajustés selon ces gradients (à l’aide d’un facteur d’apprentissage `lr` qui contrôle l’ampleur de la mise à jour).
- Le processus est répété jusqu’à convergence, c'est-à-dire jusqu’à ce que les mises à jour des paramètres deviennent très petites.

### 7. **Visualisation**
Une fois les paramètres ajustés, nous visualisons les résultats. Le graphique montre :
- Les **données observées** : Ce sont les points de données bruts (la relation entre \( X \) et \( y \) pour chaque observation).
- La **droite de régression des effets fixes** : C’est la droite correspondant à l'effet fixe global, qui est la même pour tous les groupes (ex. la relation générale entre \( X \) et \( y \) dans toutes les écoles).
- Les **droites spécifiques aux groupes** : Chaque groupe a une droite de régression légèrement différente, car chaque groupe a un intercept différent dû à son effet aléatoire.

### Pourquoi utiliser ce modèle ?
Le modèle à effets mixtes est très utile lorsque vous avez des **groupes hiérarchiques** ou des **variations non indépendantes** dans vos données. Par exemple :
- En éducation, les élèves peuvent être groupés par écoles, et chaque école peut avoir un effet différent sur la performance.
- En médecine, les patients peuvent être groupés par hôpitaux ou médecins, avec chaque hôpital ou médecin ayant un effet spécifique.

Le modèle à effets mixtes permet de capturer ces variations entre les groupes tout en estimant un effet fixe global.

### Conclusion
Le **modèle linéaire à effets mixtes** est une extension des modèles de régression classique qui permet de tenir compte de la variabilité entre groupes ou sous-groupes. Il est particulièrement adapté aux données hiérarchiques ou regroupées, où chaque groupe a ses propres caractéristiques tout en partageant une structure commune avec les autres groupes. Grâce à l'ajustement par descente de gradient, nous avons pu estimer à la fois les effets fixes et aléatoires, tout en maximisant la log-vraisemblance du modèle.

In [None]:
using LinearAlgebra
using Random
using Plots

# Generate synthetic data for mixed effects model
function generate_data(n_groups, n_per_group, σ_random, σ_noise)
    Random.seed!(123)
    n_samples = n_groups * n_per_group
    group_effects = randn(n_groups) * σ_random
    X = randn(n_samples)
    β = 2.0
    group = repeat(1:n_groups, inner=n_per_group)
    y = [β * X[i] + group_effects[group[i]] + randn() * σ_noise for i in 1:n_samples]
    return X, y, group
end

n_groups = 10
n_per_group = 20
σ_random = 1.0
σ_noise = 0.5
X, y, group = generate_data(n_groups, n_per_group, σ_random, σ_noise)

# Initialize model parameters
function initialize_params(n_groups)
    β = randn()
    b = randn(n_groups)
    σ_b = 1.0
    σ_noise = 0.5
    return β, b, σ_b, σ_noise
end

β, b, σ_b, σ_noise = initialize_params(n_groups)

# Log-likelihood function
function log_likelihood(X, y, group, β, b, σ_b, σ_noise)
    n = length(y)
    group_effects = [b[group[i]] for i in 1:n]
    residuals = y .- (X .* β .+ group_effects)
    ll_random = -0.5 * sum((b ./ σ_b).^2)
    ll_res

end 