A series of fix for notebooks that were bugging (#545)

linogaliana · web-flow · commit c641de05bc37 · 2024-08-22T11:37:13.000+02:00
* up

* correction

* spacy download

* solve intro problem

* up

* pd should be defined
diff --git a/content/NLP/01_intro.qmd b/content/NLP/01_intro.qmd
@@ -37,14 +37,11 @@ Les chapitres suivants seront utiles au cours de ce chapitre:
 
 ```{python}
 #| echo: true
-
 !pip install pywaffle
 !pip install spacy
 !pip install plotnine
 !pip install great_tables
 !pip install wordcloud
-!pip install cleantext
-
 ```
 
 
@@ -307,6 +304,7 @@ la ligne de commande:
 
 ```{python}
 #| output: false
+#| echo: true
 !python -m spacy download fr_core_news_sm
 !python -m spacy download en_core_web_sm
 ```
diff --git a/content/NLP/04_word2vec.qmd b/content/NLP/04_word2vec.qmd
@@ -42,6 +42,11 @@ print_badges("content/NLP/04_word2vec.qmd", ssp_cloud_service="pytorch")
 :::
 
 
+::: {.warning}
+Ce chapitre va évoluer prochainement.
+:::
+
+
 
 Cette page approfondit certains aspects présentés dans la
 [partie introductive](/content/NLP/02_exoclean.qmd). Après avoir travaillé sur le
@@ -710,18 +715,22 @@ Ces *embeddings* sont produits par des architectures très complexes,
 de type Transformer (`BERT`, etc.).
 
 
+_TODO: approfondir le sujet_
+
 ```{python}
 #| output: hide
 model = SentenceTransformer('all-mpnet-base-v2')
 ```
 
 
 ```{python}
+#| echo: false
 X_train_vectors = model.encode(X_train)
 ```
 
 
 ```{python}
+#| echo: false
 scores = cross_val_score(clf, X_train_vectors, y_train, 
                          cv=4, scoring='f1_micro', n_jobs=4)
 
@@ -730,6 +739,7 @@ print(f"Mean F1 {np.mean(scores)}")
 ```
 
 ```{python}
+#| echo: false
 perfs = pd.concat(
   [perfs,
   pd.DataFrame(
diff --git a/content/manipulation/03_geopandas_intro.qmd b/content/manipulation/03_geopandas_intro.qmd
@@ -1410,4 +1410,11 @@ base = (
 )
 ctx.add_basemap(base, source = ctx.providers.OpenStreetMap.Mapnik)
 base.set_axis_off()
-```
+```
+
+
+::: {.content-visible when-profile="fr"}
+# Références
+:::::: {.content-visible when-profile="fr"}
+# References
+:::
diff --git a/content/manipulation/03_geopandas_intro/_exo2.qmd b/content/manipulation/03_geopandas_intro/_exo2.qmd
@@ -2,6 +2,7 @@
 #| output: false
 #| echo: true
 #| label: load-france-data
+from cartiflette import carti_download
 france = carti_download(
       values = ["France"],
       crs = 4326,
diff --git a/content/manipulation/04_webscraping/_exo1_solution.qmd b/content/manipulation/04_webscraping/_exo1_solution.qmd
@@ -155,6 +155,7 @@ dico_participants
 
 ```{python}
 #| echo: true
+import pandas as pd
 data_participants = pd.DataFrame.from_dict(dico_participants,orient='index')
 data_participants.head()
 ```
diff --git a/content/modelisation/0_preprocessing.qmd b/content/modelisation/0_preprocessing.qmd
@@ -169,7 +169,6 @@ par comté x année avec en colonnes les résultats de chaque candidat dans cet
 
 Si vous ne faites pas l'exercice 1, pensez à charger les données en executant la fonction `get_data.py` :
 
-::: {.python}
 ```{python}
 #| echo: true
 #| output: false
@@ -183,7 +182,6 @@ open('getdata.py', 'wb').write(r.content)
 import getdata
 votes = getdata.create_votes_dataframes()
 ```
-:::
 
 
 Ce code introduit une base nommée `votes` dans l'environnement. Il s'agit d'une
@@ -700,6 +698,7 @@ onehot_enc.transform(df)
 Pour faire vos premiers pas en modélisation, notamment sur le preprocessing de données, vous pouvez également consulter le sujet 3 d'un hackathon organisé par l'Insee en 2023, *Explorer les habitudes alimentaires de nos compatriotes*, sur le [SSP Cloud](https://www.sspcloud.fr/formation?search=funath&path=%5B%22Funathon%202023%22%5D) ou sur [Github](https://github.com/InseeFrLab/funathon2023_sujet3/).
 
 Le but du sujet est de travailler sur les données de consommations et habitudes alimentaires de l'étude INCA 3. Vous y travaillerez plusieurs thèmes :
+
 - Analyse exploratoire de données et visualisations
 - Clustering d'individus : du preprocessing jusqu'aux méthodes classiques d'apprentissage non supervisé (ACP, K-moyennes, Clustering Ascendant Hiérarchique)
 - Prédiction de l'IMC : Premiers pas vers les méthodes d'apprentissage supervisé et les _preprocessings_ associés
diff --git a/content/modelisation/4_featureselection.qmd b/content/modelisation/4_featureselection.qmd
@@ -106,25 +106,22 @@ En adoptant le principe d'une fonction objectif pénalisée,
 le LASSO permet de fixer un certain nombre de coefficients à 0.
 Les variables dont la norme est non nulle passent ainsi le test de sélection. 
 
-::: {.cell .markdown}
-```{=html}
-<div class="alert alert-warning" role="alert">
-<h3 class="alert-heading"><i class="fa-solid fa-pencil"></i> Hint</h3>
-```
+::: {.tip}
 Le LASSO est un programme d'optimisation sous contrainte. On cherche à trouver l'estimateur $\beta$ qui minimise l'erreur quadratique (régression linéaire) sous une contrainte additionnelle régularisant les paramètres:
 $$
 \min_{\beta} \frac{1}{2}\mathbb{E}\bigg( \big( X\beta - y  \big)^2 \bigg) \\
 \text{s.t. } \sum_{j=1}^p |\beta_j| \leq t
 $$
+
 Ce programme se reformule grâce au Lagrangien est permet ainsi d'obtenir un programme de minimisation plus maniable : 
+
 $$
 \beta^{\text{LASSO}} = \arg \min_{\beta} \frac{1}{2}\mathbb{E}\bigg( \big( X\beta - y  \big)^2 \bigg) + \alpha \sum_{j=1}^p |\beta_j| = \arg \min_{\beta} ||y-X\beta||_{2}^{2} + \lambda ||\beta||_1
 $$
+
 où $\lambda$ est une réécriture de la régularisation précédente qui dépend de $\alpha$. La force de la pénalité appliquée aux modèles non parcimonieux dépend de ce paramètre. 
 
-```{=html}
-</div>
-```
+
 :::
 
 ## Première régression LASSO
@@ -455,7 +452,6 @@ rmse_nonparci, rsq_nonparci = print_regression_metrics(
 Le modèle parcimonieux est (légèrement) plus performant:
 
 ```{python}
-#| output: asis
 pd.DataFrame({
   "parcimonieux": [rmse_parci, rsq_parci, len(features_selected)],
   "non parcimonieux": [rmse_nonparci, rsq_nonparci, ols_pipeline[-1].coef_.shape[1] + 1]},
diff --git a/content/modelisation/6_pipeline.qmd b/content/modelisation/6_pipeline.qmd
@@ -838,6 +838,8 @@ Reprendre les codes précédents et reconstruire notre _pipeline_ sur
 la nouvelle base en mettant en oeuvre une méthode de _boosting_
 plutôt qu'une forêt aléatoire. 
 
+_La correction de cet exercice est apparente pour simplifier les prochaines étapes mais essayez de faire celui-ci de vous-même_.
+
 ```{=html}
 </div>
 ```
@@ -849,6 +851,7 @@ de celles-ci :
 
 ```{python}
 #| label: estim-model-paris
+#| echo: true
 from sklearn.ensemble import GradientBoostingRegressor
 
 mutations_paris = mutations.drop(
@@ -908,6 +911,7 @@ la profondeur de l'arbre mais c'était un choix au doigt mouillé.
 ❓️ Quels sont les hyperparamètres qu'on peut essayer d'optimiser ? 
 
 ```{python}
+#| echo: true
 pipe['boosting'].get_params()
 ```
 
@@ -917,6 +921,7 @@ absurde de jouer sur le paramètre `random_state` qui est la racine du générat
 pseudo-aléatoire. 
 
 ```{python}
+#| echo: true
 X = pd.concat((X_train, X_test), axis=0)
 Y = np.concatenate([y_train,y_test])
 ```
@@ -977,7 +982,7 @@ param_grid = {
     "boosting__max_depth": [2,4]
 }
 grid_search = GridSearchCV(pipe, param_grid=param_grid)
-grid_search.fit(X, Y)
+grid_search.fit(X_train, y_train)
 
 end_time = time.time()