Skip to content
This repository has been archived by the owner on Sep 24, 2019. It is now read-only.

Latest commit

 

History

History
117 lines (62 loc) · 5.48 KB

Useful_resources.md

File metadata and controls

117 lines (62 loc) · 5.48 KB

Список полезных ресурсов

1 Машинное обучение

1.1 Общие правила

1.2 Градиентный бустинг

Общие слова про xgb http://blog.kaggle.com/2017/01/23/a-kaggle-master-explains-gradient-boosting/

Xgb parameters: https://github.com/dmlc/xgboost/blob/master/doc/parameter.md

Xgb tuning: https://github.com/dmlc/xgboost/blob/master/doc/how_to/param_tuning.md

Latest benchmarks: https://sites.google.com/view/lauraepp/new-benchmarks

1.3 Теоретические основы

Репозиторий с понятными питон-имплементациями известных алгоритмов: https://github.com/eriklindernoren/ML-From-Scratch

Интро в простые алгоритмы: https://medium.freecodecamp.org/the-hitchhikers-guide-to-machine-learning-algorithms-in-python-bfad66adb378

SVM для лохов: http://web.mit.edu/6.034/wwwbob/svm-notes-long-08.pdf

ML курс от Джереми: http://forums.fast.ai/t/another-treat-early-access-to-intro-to-machine-learning-videos/6826 Заметки (aka краткое содержание): https://medium.com/@hiromi_suenaga/machine-learning-1-lesson-1-84a1dc2b5236

1.4 Deep Learning

Основопологающий учебник: https://github.com/janishar/mit-deep-learning-book-pdf cs231n: http://cs231n.stanford.edu/ Продвинутая специализация от вышки: https://www.coursera.org/specializations/aml

2 Анализ данных

2.1 Графики

Plotly cheatsheet: https://images.plot.ly/plotly-documentation/images/python_cheat_sheet.pdf

Seaborn cheatsheet: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Seaborn_Cheat_Sheet.pdf

Matplotlib cheatsheet: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Matplotlib_Cheat_Sheet.pdf

GGplot cheatsheet: https://www.rstudio.com/wp-content/uploads/2015/03/ggplot2-cheatsheet.pdf

Несколько хороших примеров по визуализации, в т.ч. анимации: https://github.com/aaronpenne/data_visualization

Altair: https://github.com/altair-viz/altair

2.2 Pandas

Оптимизация по скорости (интро): https://engineering.upside.com/a-beginners-guide-to-optimizing-pandas-code-for-speed-c09ef2c6a4d6

Оптимизация в памяти: https://www.dataquest.io/blog/pandas-big-data/

3 Python

Качественное интро в питон для новичков: https://medium.freecodecamp.org/learning-python-from-zero-to-hero-120ea540b567

Python debugger: http://fastml.com/how-to-use-the-python-debugger/

Why Python is slow: https://jakevdp.github.io/blog/2014/05/09/why-python-is-slow/

4 Производительность

Dask

Документация: https://media.readthedocs.org/pdf/dask/latest/dask.pdf

Относительно подробный и понятный официальный туториал: https://github.com/dask/dask-tutorial

Рандомный туториал вместе с намба: https://medium.com/capital-one-developers/dask-numba-for-efficient-in-memory-model-scoring-dfc9b68ba6ce

5 Spark

Официальная документация: https://spark.apache.org/docs/1.6.2/programming-guide.html

PySpark intro: https://blog.sicara.com/get-started-pyspark-jupyter-guide-tutorial-ae2fe84f594f

Есть инфа, что H2o на спарке - самое нормальное, что можно здесь использовать для машинного обучения, но на данный момент никто не проверял

6 Production

Monitoring Production ML models: https://storage.googleapis.com/pub-tools-public-publication-data/pdf/45742.pdf

7 Теория / Математика

Матричный матан: http://parrt.cs.usfca.edu/doc/matrix-calculus/index.html

Теория информации: http://www.cl.cam.ac.uk/teaching/0809/InfoTheory/InfoTheoryLectures.pdf

Thinkstats (интро в статистику, объяснения в виде питон кода): http://greenteapress.com/thinkstats/thinkstats.pdf

Линейная алегбра (книжка, сам не пробовал, говорят что норм): http://www.math.hcmus.edu.vn/~bxthang/Linear%20algebra%20and%20its%20applications.pdf

Линейная алегбра (и остальные курсы, там много полезного на новичковом уровне с отличными объяснениями): https://www.khanacademy.org/math/linear-algebra/

Лучший ютуб канал с видео по математике: https://www.youtube.com/channel/UCYO_jab_esuFRV4b17AJtAw

Линейная алгебра (кратко): https://web.stanford.edu/class/cs231a/section/section1.pdf

ML (ESLII): https://web.stanford.edu/~hastie/Papers/ESLII.pdf

Stats 36700 (CMU): http://www.stat.cmu.edu/~siva/700/main.html

Stats 36705 (CMU): http://www.stat.cmu.edu/~larry/=stat705/

H2O

http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science.html Может работать как локально, так и распределенно на кластере. Есть интерфейсы для Python, Scala, R.

99 Другое

Markdown Cheatsheet: https://github.com/adam-p/markdown-here/wiki/Markdown-Cheatsheet#code

Сессии датабрикс: https://databricks.com/sparkaisummit/sessions

A/B Tests: https://towardsdatascience.com/data-science-you-need-to-know-a-b-testing-f2f12aff619a