## Fiche Explicative sur SGDClassifier et SGDRegressor

### 1. Intuition sur la Fonction Coût et le Fonctionnement Théorique

Fonction Coût : La fonction coût mesure l'écart entre les prédictions du modèle et les valeurs réelles. En utilisant la descente de gradient stochastique, les modèles SGDClassifier et SGDRegressor cherchent à minimiser cette fonction coût en ajustant itérativement les poids du modèle.

Fonctionnement : La descente de gradient stochastique effectue des mises à jour de poids à chaque itération en utilisant un seul exemple d'entraînement à la fois. Cela permet une convergence plus rapide et une meilleure adaptabilité aux variations dans les données.


### 2. Stratégie pour les Hyperparamètres

#### a. Hyperparamètres Importants

max_iter : Nombre maximal d'itérations. Il doit être suffisamment grand pour permettre la convergence.

eta0 : Taux d'apprentissage initial. Il influence la taille des pas de mise à jour des poids.

alpha : Terme de régularisation. Contrôle la complexité du modèle.


#### b. Ordres de Grandeur

max_iter : Typiquement entre 100 et 1000.

eta0 : Ordre de grandeur de 0.01 à 0.1.

alpha : Dépend du niveau de régularisation souhaité, peut varier de 0.0001 à 0.1.


#### c. Cas Spécifiques

Régression : Pour les tâches de régression, privilégiez la convergence rapide avec des valeurs modérées de max_iter et d'eta0.

Classification : Pour les tâches de classification, augmentez potentiellement max_iter pour des modèles plus complexes et ajustez alpha pour contrôler la régularisation.


### 3. Implémentation

#### a. Exemple d'Implémentation


SGD Regressor

In [None]:
from sklearn.linear_model import SGDRegressor
sgd_regressor = SGDRegressor(max_iter=1000, eta0=0.01, alpha=0.0001, random_state=42)
sgd_regressor.fit(X_train, y_train)

SGD Classifier

In [None]:
from sklearn.linear_model import SGDClassifier
sgd_classifier = SGDClassifier(max_iter=1000, eta0=0.01, alpha=0.0001, random_state=42)
sgd_classifier.fit(X_train, y_train)

### 4. Trucs et Astuces d'Utilisation
Surveillance de la Convergence : Utilisez partial_fit pour surveiller la convergence au fil du temps, particulièrement utile pour des ensembles de données volumineux.

Normalisation : Considérez la normalisation des caractéristiques, ce qui peut améliorer la convergence.

Choix de la Taille du Mini-Batch : Expérimentez avec différentes tailles de mini-batch pour trouver le bon équilibre entre efficacité et convergence rapide.


### 5. Conclusion
En utilisant les modèles SGDClassifier et SGDRegressor, nous bénéficions de la rapidité de convergence et de l'adaptabilité des méthodes stochastiques. En ajustant soigneusement les hyperparamètres, surveillant la convergence, et en expérimentant avec différentes tailles de mini-batch, nous pouvons maximiser l'efficacité de ces modèles dans une variété de tâches en apprentissage automatique.


## Documentation des modèles 

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDRegressor.html#sklearn.linear_model.SGDRegressor

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html#sklearn.linear_model.SGDClassifier

