diff --git a/jupyter_russian/topic08_sgd_hashing_vowpal_wabbit/topic8_sgd_hashing_vowpal_wabbit.ipynb b/jupyter_russian/topic08_sgd_hashing_vowpal_wabbit/topic8_sgd_hashing_vowpal_wabbit.ipynb index 6115891faa..89ef4000ba 100644 --- a/jupyter_russian/topic08_sgd_hashing_vowpal_wabbit/topic8_sgd_hashing_vowpal_wabbit.ipynb +++ b/jupyter_russian/topic08_sgd_hashing_vowpal_wabbit/topic8_sgd_hashing_vowpal_wabbit.ipynb @@ -1304,7 +1304,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Теперь посмотрим, как в действительности Vowpal Wabbit справляется с большими выборками. Имеются 10 Гб вопросов со StackOverflow – [ссылка](https://cloud.mail.ru/public/3bwi/bFYHDN5S5) на данные, там аккурат 10 миллионов вопросов, и у каждого вопроса может быть несколько тегов. Данные довольно чистые, и не называйте это бигдатой даже в пабе :)\n", + "Теперь посмотрим, как в действительности Vowpal Wabbit справляется с большими выборками. Имеются 10 Гб вопросов со StackOverflow – [ссылка](https://disk.yandex.ru/d/1iJxJqlNKiXH0A) на данные, там 7.5 миллионов вопросов, и у каждого вопроса может быть несколько тегов. Данные довольно чистые, и не называйте это бигдатой даже в пабе :)\n", "\n", "\n", "\n", @@ -1327,7 +1327,7 @@ "metadata": {}, "outputs": [], "source": [ - "!du -hs $PATH_TO_DATA/stackoverflow_10mln_*.vw" + "!du -hs $PATH_TO_DATA/stackoverflow_*.vw" ] }, { @@ -1343,7 +1343,7 @@ "metadata": {}, "outputs": [], "source": [ - "!head -1 $PATH_TO_DATA/stackoverflow_10mln_train.vw" + "!head -1 $PATH_TO_DATA/stackoverflow_train.vw" ] }, { @@ -1365,8 +1365,8 @@ "outputs": [], "source": [ "%%time\n", - "!vw --oaa 10 -d $PATH_TO_DATA/stackoverflow_10mln_train.vw \\\n", - "-f vw_model1_10mln.vw -b 28 --random_seed 17 --quiet" + "!vw --oaa 10 -d $PATH_TO_DATA/stackoverflow_train.vw \\\n", + "-f vw_model1.vw -b 28 --random_seed 17 --quiet" ] }, { @@ -1383,9 +1383,9 @@ "outputs": [], "source": [ "%%time\n", - "!vw -t -i vw_model1_10mln.vw \\\n", - "-d $PATH_TO_DATA/stackoverflow_10mln_test.vw \\\n", - "-p vw_valid_10mln_pred1.csv --random_seed 17 --quiet" + "!vw -t -i vw_model1.vw \\\n", + "-d $PATH_TO_DATA/stackoverflow_test.vw \\\n", + "-p vw_valid_pred1.csv --random_seed 17 --quiet" ] }, { @@ -1399,9 +1399,9 @@ "import numpy as np\n", "from sklearn.metrics import accuracy_score\n", "\n", - "vw_pred = np.loadtxt(\"vw_valid_10mln_pred1.csv\")\n", + "vw_pred = np.loadtxt(\"vw_valid_pred1.csv\")\n", "test_labels = np.loadtxt(\n", - " os.path.join(PATH_TO_DATA, \"stackoverflow_10mln_test_labels.txt\")\n", + " os.path.join(PATH_TO_DATA, \"stackoverflow_test_labels.txt\")\n", ")\n", "accuracy_score(test_labels, vw_pred)" ] @@ -1413,7 +1413,7 @@ "# Домашнее задание\n", "В этот раз задание будет большим. В первой части, чтоб вам не казалось, что Vowpal Wabbit – это какая-то магия, вы реализуете самостоятельно классификатор и регрессор, обучаемые стохастическим градиентным спуском.\n", "\n", - "Во второй части вам предлагается взять набор данных (10 Гб), содержащий вопросы на StackOverflow и теги этих вопросов, предобработать данные (подумав над эффективность совершаемых операций) и построить классификатор вопросов по 10 тегам (по 10 языкам программирования). Возможно, вы уже удивились, как простая модель VW может обучиться на такой выборке за секунды или минуты на простом железе, без всяких Hadoop-кластеров. " + "Во второй части вам предлагается взять набор данных (~ 7 Гб), содержащий вопросы на StackOverflow и теги этих вопросов, предобработать данные (подумав над эффективность совершаемых операций) и построить классификатор вопросов по 10 тегам (по 10 языкам программирования). Возможно, вы уже удивились, как простая модель VW может обучиться на такой выборке за секунды или минуты на простом железе, без всяких Hadoop-кластеров. " ] }, { @@ -1432,7 +1432,7 @@ "metadata": { "anaconda-cloud": {}, "kernelspec": { - "display_name": "Python 3", + "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, @@ -1446,7 +1446,7 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.6.1" + "version": "3.10.8" } }, "nbformat": 4, diff --git a/mlcourse_ai_jupyter_book/book/extra/contributors.md b/mlcourse_ai_jupyter_book/book/extra/contributors.md index 1b205644eb..cd561f6410 100644 --- a/mlcourse_ai_jupyter_book/book/extra/contributors.md +++ b/mlcourse_ai_jupyter_book/book/extra/contributors.md @@ -16,4 +16,4 @@ Although led by [Yury Kashnitsky](https://yorko.github.io/), the course is devel - [Kirill Vlasov](https://vlasov.info/) for continuous help with org stuff; - [Tatiana Arkhipova](https://t.me/tatyana_arkhiipova) for org help with the [version of the course](https://ods.ai/tracks/mlcourse_ai) hosted at ods.ai. -Many thanks for your support, guys! It was great to see your dedication and enthusiasm, just for the sake of doing the right thing, not to earn money. +Many thanks for your support, guys! It was great to see your dedication and enthusiasm, for the greater good!