<center>
<img src="../img/python_theme.png">
# MLClass. "Прикладной анализ данных"
# Модуль "Инструментарий Data Science"
<img src="../img/mlclass_logo.jpg" height="240" width="240">

## Автор материала: Юрий Кашницкий, ФКН НИУ ВШЭ
</center>
Материал распространяется на условиях лицензии <a href="https://opensource.org/licenses/MS-RL">Ms-RL</a>. Можно использовать в любых целях, кроме коммерческих, но с обязательным упоминанием автора материала.

"Инструментарий Data Science" - первый курс серии, посвящённый изучению основ и методологии программирования на языке Python, который широко используется для разработки и реализации методов анализа данных. Рассматриваются основные структуры и алгоритмы, работа с данными разного вида (тексты, бинарные файлы, изображения), инструменты и средства разработки программ. Конечно, также после каждого урока даются задачи для самостоятельного решения, которые обсуждаются на следующем уроке. 

## Содержание курса
 - Урок 1. Введение в Python и средства разработки
     - Установка Anaconda и знакомство с интерпретатором Python
     - Обзор и настройка среды разработки PyCharm
     - IPython и Jupyter для воспроизводимых исследований
     - Введение в систему контроля версий git и веб-сервис GitHub 
     - Обзор возможностей сборки библиотек Anaconda
     - Регистрация на сайте дистанционного курса по информатике
 - Урок 2. Основы языка Python
     - Типы объектов языка Python
     - Основные операции с типами
     - Обзор стандартной библиотеки
     - Операторы, условные конструкции, циклы
     - Практика решения простейших задач
 - Урок 3. Структуры данных I
     - Последовательности: строки, списки, кортежи
     - Алгоритмы поиска в одномерных списках
     - Обзор стандартной библиотеки
     - Методы сортировки одномерных списков
     - Алгоритмы на строках
     - Разбор самых распространенных задач на списки и строки
 - Урок 4. Структуры данных II
     - Введение в продвинутые структуры данных
     - Словари
     - Стек, очередь, куча, дерево, граф
     - Поиск в глубину и поиск в ширину
     - Обзор классических алгоритмов на графах
     - Разбор задач на слова и множества. Задачи на стек и очередь
 - Урок 5. Функции. Рекурсия
     - Понятие функции, ее сигнатуры
     - Модули
     - Понятие индукции
     - Рекурсия
     - Парадигма "Разделяй и Властвуй"
     - Разбор практических задач на рекурсию
 

## Урок 1. Введение в Python и средства разработки
### Часть 1. Установка Anaconda и знакомство с интерпретатором Python

Python - это свободный интерпретируемый объектно-ориентированный расширяемый встраиваемый язык программирования очень высокого уровня (Г.Россум, Ф.Л.Дж.Дрейк, Д.С.Откидач "Язык программирования Python")
 - свободный - все исходные тексты открыты для любого использования, даже коммерческого
 - интерпретируемый - использует "позднее связывание"
 - объектно-ориентированный - классическая ОО модель с множественным наследованием
 - расширяемый - имеет строго определенные API для создания модулей, типов и классов на C или C++
 - встраиваемый - имеет строго определенные API для встраивания интерпретатора в другие программы
 - очень высокого уровня - динамическая типизация, встроенные типы данных высокого уровня (например, словари), классы, модули, исключения

Код на Python чаще всего намного более читаемый, чем на C или C++, потому что:
- типы данных высокого уровня позволяют выражать сложные операции одной или несколькими простыми командами
- группирование инструкций выполняется отступами, а не фигурными скобками
- не надо объявлять переменные

<img src="../img/anaconda.png">

В этом курсе мы используем сборку библиотек <a href="https://www.anaconda.com/download">Anaconda</a> версии 2.3.0, включающую интерпретатор Python версии 2.7 (но эти тетрадки можно выполнять и с Python 3.4), библиотеки для научных вычислений NumPy и SciPy, анализа данных Pandas, машинного обучения Scikit-learn и около 200 других. 

Следуем инструкциям, проверяем установку. В командной строке набираем

<p><i><b>>> python</b></i></p>

Дзен языка Python

In [1]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


Немного настроек для совместимости Python разных версий:

In [2]:
# Python 2 and 3 compatibility
# pip install future
from __future__ import (absolute_import, division,
                        print_function, unicode_literals)
from builtins import *

Интерпретатор можно использовать в качестве настольного калькулятора

In [3]:
print(2 + 2)
print(3 ** 7)
import math
print(round(math.sqrt(17), 2))

4
2187
4.12


Но Python способен и на большее. Выведем все двузначные члены последовательности Фиббоначи (используя функцию вывода print из Python версии 3):

In [4]:
a, b = 1, 1
while a < 100:
    print(a, end=',')
    a, b = b, a + b

1,1,2,3,5,8,13,21,34,55,89,

Изучать Python продолжим на следующем уроке, а пока настроим среду для грамотной работы с кодом и решения задач.

### Часть 2. Обзор и настройка среды разработки PyCharm

<a href="https://www.jetbrains.com/pycharm/">PyCharm</a> компании JetBrains - одна из самых популярных сред разработки (IDE) на языке Python. Из плюсов, перечисленных в одном из <a href="http://habrahabr.ru/post/122018/">обзоров</a> и важных для нас в этом курсе:
 - интуитивно понятная интеграция с Git
 - удобное автоматическое дополнение текста
 - множество "горячих клавиш" для перехода к определения сущности, списка упоминаний конструкции, подсказок по сигнатуре функций и прочих мелочей
 - встроенная проверка кода на соответствие стандарту PEP
 
 <img src="../img/pycharm_screen.png">
 
 <a href="http://pythonworld.ru/osnovy/pycharm-python-tutorial.html">Введение в PyCharm</a>

### Часть 3. IPython и Jupyter для воспроизводимых исследований

То, что Вы сейчас видите - это тетрадка IPython (IPython notebook), интерактивная среда для вычислений, способная совмещать код, картинки, markdown-разметку и графики.

<img src="../img/ipython_ex.png">
Пример с сайта http://ipython.org/

Тетрадка IPython имеет расширение *.ipynb* и запускается локально командой
<p><i><b>>> ipython notebook</b></i></p>

Выполнять и редактировать тетрадку можно в браузере http://localhost:8888/

Начиная с версии IPython 4.0, большая часть проекта перешла в Jupyter. <a href="http://jupyter.org/">Jupyter</a> - это веб-приложение для обмена документами, в которых можно выполнять код на 40 популярных в анализе данных языках, включая Python, R, Julia и Scala. 

Тетрадки IPython - отличный способ представить идею, сразу поделиться кодом, хороши для воспроизводимости исследований, включающих написание кода.

### Часть 4. Введение в систему контроля версий git и веб-сервис GitHub 

Git - популярная система контроля версий, GitHub - популярный веб-сервис для совместной работы над IT-проектами.
<a href="http://sixrevisions.com/git/interactive-git-tutorials/">Обзор</a> трех ресурсов для интерактивного введения в Git. <a href="http://githowto.com/">Еще один</a>.

Скачиваем (клонируем) какой-нибудь репозиторий:

<p><i><b>>> git clone https://github.com/Yorko/mlclass_kaggle_car_insurance.git</b></i></p>

Добавим файл. Например, файл primes_sum_1000.py с кодом для подсчета суммы всех простых чисел, не превосходящих 1000.  

<p><i><b>>> git add primes_sum_1000.py</b></i></p>

Внесем локально изменения (зафиксируем их в локальном репозитории)

<p><i><b>>> git commit -m "add primes sum calculator"</b></i></p>

Отправим изменения на сервер в ветку master

<p><i><b>>> git push -u origin master</b></i></p>

То же самое можно делать используя графический интерфейс, например <a href="http://www.syntevo.com/smartgit/">SmartGit</a>.

<img src="../img/smart_git.png">

При использовании Git и GitHub приходится иметь дело с разделением ветвей кода (branching), слиянием изменений (merging), восстановлением потерянного кода и другими вопросами, многие из которых рассмотрены в <a href="https://www.udacity.com/course/how-to-use-git-and-github--ud775">курсе</a> на Udacity. <a href="http://habrahabr.ru/post/125799/">Введение</a> в GitHub на русском на Хабрахабре.

### Часть 5. Обзор возможностей сборки библиотек Anaconda

Сборка Anaconda включает очень много полезных для анализа данных библиотек. Посмотреть все установленные можно с помощью команды

<p><i><b>>> conda list</b></i></p>

Среди библиотек, которыми мы будем пользоваться в курсе:
 - <a href="http://numpy.org">Numpy</a> - эффективные вычисления с векторами и матрицами, преобразования Фурье, линейная алгебра, интеграция с C/C++ и Fortran и прочее.
 - <a href="http://numpy.org">SciPy</a> - научные вычисления. Методы оптимизации, интегрирования, модули обработки сигналов и изображений, статистика, линейная алгебра, сплайны, кластеризация и многое другое. 
 -  <a href="http://pandas.pydata.org/">Pandas</a> - реализация эффективных структур для анализа данных, в том числе популярного аналога *DataFrame* из языка R. Предназначена для данных разной природы - матричных, панельных данных, временных рядов. Претендует на звание самого мощного и гибкого средства для анализа данных с открытым исходным кодом.
 - <a href="http://scikit-learn.org/stable/">Scikit-learn</a> - реализация очень многих методов машинного обучения и интеллекуального анализа данных (data mining) с отличной документацией. 
 - <a href="http://http://matplotlib.org/">matplotlib</a> - для визаулизации данных, в основном двухмерная графика. Построена на принципах ООП, но имеет процедурный интерфейс *pylab*, который предоставляет аналоги команд *MATLAB*.

### Часть 6. Регистрация на сайте дистанционного курса по информатике

Сдача и прием задач курса будет проходить на базе платформы МЦНМО.

#### Регистрация учетной записи на http://informatics.mccme.ru/.

1)	Необходимо зайти на сайт http://informatics.mccme.ru/ и в боковом  меню нажать ссылку *Регистрация*

2)	На открывшейся странице необходимо ввести:

a.	*Логин* и *Пароль* для авторизации в системе (придумайте и запомните),

b.	Ваши *Фамилию*, *Имя*, *Отчество*, *Город* (Москва), *Страну* (Россия).

c.	в поле *email* введите Вашу почту

d.	в поле *Школа* укажите *MLClass*

e.	Класс 11 и год выпуска 2015

f.	Поставьте галочку, что Вы не робот, и нажмите кнопку *Сохранить*

3)	Далее в открывшемся окне введите Ваш логин и пароль и нажмите кнопку *Вход*.

4)	После удачной авторизации Вы будете перенаправлены на страницу курсов, можете найти в списке Курсов “MLClass” или пройти сразу на страницу http://informatics.mccme.ru/course/view.php?id=1165. По мере наступления практических занятий там будут появляться задачи.


<a href="http://informatics.mccme.ru/mod/statements/view.php?id=1129">Пример</a> одной из задач. 
<img src="../img/mccme_task.png" >
Не только формулируется условие задачи, но и даются примеры входных и выходных данных, ограничения по времени и памяти, а также статистика времени выполнения кода на разных языках. 

#### Домашние задания
После некоторых уроков Вы получите задачи для самостоятельного решения. 
Решенную задачу (код на Python) необходимо загрузить в систему автоматического приема задач  на http://informatics.mccme.ru/.
