Skip to content

Commit

Permalink
fix links to StackOverflow data (#729)
Browse files Browse the repository at this point in the history
  • Loading branch information
Yorko committed Nov 13, 2022
1 parent 54cbc6a commit aecef98
Show file tree
Hide file tree
Showing 2 changed files with 14 additions and 14 deletions.
Expand Up @@ -1304,7 +1304,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"Теперь посмотрим, как в действительности Vowpal Wabbit справляется с большими выборками. Имеются 10 Гб вопросов со StackOverflow – [ссылка](https://cloud.mail.ru/public/3bwi/bFYHDN5S5) на данные, там аккурат 10 миллионов вопросов, и у каждого вопроса может быть несколько тегов. Данные довольно чистые, и не называйте это бигдатой даже в пабе :)\n",
"Теперь посмотрим, как в действительности Vowpal Wabbit справляется с большими выборками. Имеются 10 Гб вопросов со StackOverflow – [ссылка](https://disk.yandex.ru/d/1iJxJqlNKiXH0A) на данные, там 7.5 миллионов вопросов, и у каждого вопроса может быть несколько тегов. Данные довольно чистые, и не называйте это бигдатой даже в пабе :)\n",
"\n",
"<img src='../../img/say_big_data.jpg' width=50%>\n",
"\n",
Expand All @@ -1327,7 +1327,7 @@
"metadata": {},
"outputs": [],
"source": [
"!du -hs $PATH_TO_DATA/stackoverflow_10mln_*.vw"
"!du -hs $PATH_TO_DATA/stackoverflow_*.vw"
]
},
{
Expand All @@ -1343,7 +1343,7 @@
"metadata": {},
"outputs": [],
"source": [
"!head -1 $PATH_TO_DATA/stackoverflow_10mln_train.vw"
"!head -1 $PATH_TO_DATA/stackoverflow_train.vw"
]
},
{
Expand All @@ -1365,8 +1365,8 @@
"outputs": [],
"source": [
"%%time\n",
"!vw --oaa 10 -d $PATH_TO_DATA/stackoverflow_10mln_train.vw \\\n",
"-f vw_model1_10mln.vw -b 28 --random_seed 17 --quiet"
"!vw --oaa 10 -d $PATH_TO_DATA/stackoverflow_train.vw \\\n",
"-f vw_model1.vw -b 28 --random_seed 17 --quiet"
]
},
{
Expand All @@ -1383,9 +1383,9 @@
"outputs": [],
"source": [
"%%time\n",
"!vw -t -i vw_model1_10mln.vw \\\n",
"-d $PATH_TO_DATA/stackoverflow_10mln_test.vw \\\n",
"-p vw_valid_10mln_pred1.csv --random_seed 17 --quiet"
"!vw -t -i vw_model1.vw \\\n",
"-d $PATH_TO_DATA/stackoverflow_test.vw \\\n",
"-p vw_valid_pred1.csv --random_seed 17 --quiet"
]
},
{
Expand All @@ -1399,9 +1399,9 @@
"import numpy as np\n",
"from sklearn.metrics import accuracy_score\n",
"\n",
"vw_pred = np.loadtxt(\"vw_valid_10mln_pred1.csv\")\n",
"vw_pred = np.loadtxt(\"vw_valid_pred1.csv\")\n",
"test_labels = np.loadtxt(\n",
" os.path.join(PATH_TO_DATA, \"stackoverflow_10mln_test_labels.txt\")\n",
" os.path.join(PATH_TO_DATA, \"stackoverflow_test_labels.txt\")\n",
")\n",
"accuracy_score(test_labels, vw_pred)"
]
Expand All @@ -1413,7 +1413,7 @@
"# Домашнее задание\n",
"В этот раз задание будет большим. В первой части, чтоб вам не казалось, что Vowpal Wabbit – это какая-то магия, вы реализуете самостоятельно классификатор и регрессор, обучаемые стохастическим градиентным спуском.\n",
"\n",
"Во второй части вам предлагается взять набор данных (10 Гб), содержащий вопросы на StackOverflow и теги этих вопросов, предобработать данные (подумав над эффективность совершаемых операций) и построить классификатор вопросов по 10 тегам (по 10 языкам программирования). Возможно, вы уже удивились, как простая модель VW может обучиться на такой выборке за секунды или минуты на простом железе, без всяких Hadoop-кластеров. "
"Во второй части вам предлагается взять набор данных (~ 7 Гб), содержащий вопросы на StackOverflow и теги этих вопросов, предобработать данные (подумав над эффективность совершаемых операций) и построить классификатор вопросов по 10 тегам (по 10 языкам программирования). Возможно, вы уже удивились, как простая модель VW может обучиться на такой выборке за секунды или минуты на простом железе, без всяких Hadoop-кластеров. "
]
},
{
Expand All @@ -1432,7 +1432,7 @@
"metadata": {
"anaconda-cloud": {},
"kernelspec": {
"display_name": "Python 3",
"display_name": "Python 3 (ipykernel)",
"language": "python",
"name": "python3"
},
Expand All @@ -1446,7 +1446,7 @@
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.6.1"
"version": "3.10.8"
}
},
"nbformat": 4,
Expand Down
2 changes: 1 addition & 1 deletion mlcourse_ai_jupyter_book/book/extra/contributors.md
Expand Up @@ -16,4 +16,4 @@ Although led by [Yury Kashnitsky](https://yorko.github.io/), the course is devel
- [Kirill Vlasov](https://vlasov.info/) for continuous help with org stuff;
- [Tatiana Arkhipova](https://t.me/tatyana_arkhiipova) for org help with the [version of the course](https://ods.ai/tracks/mlcourse_ai) hosted at ods.ai.

Many thanks for your support, guys! It was great to see your dedication and enthusiasm, just for the sake of doing the right thing, not to earn money.
Many thanks for your support, guys! It was great to see your dedication and enthusiasm, for the greater good!

0 comments on commit aecef98

Please sign in to comment.