In [7]:
from sys import getrefcount

# Data science & Python & Machine Learning

### Цели курса

- Заинтересовать
- Дать необходимый обзор области
- Научить выполнять полный цикл задачи по анализу данных
- Приобщить к изучению ML через Kaggle

### Логистика курса

- Вас ждут 8 занятий по 3 часа
- В начале каждого занятия мы будем разбирать домашнее задание
- Каждый час мы будем делать перерыв
- Между занятиями я предложу вам домашние задания
- Все материалы будут приходить вам по почте

### Содержание курса

- Введение в Python
- Обработка данных и визуализация
- Линейные модели 
- Деревья решений
- Нейронные сети

### Вне курса

- Промышленное программирование на Python
- Системы контроля версий, работа в команде
- Реляционные базы данных
- Работа с большими данными
- Необязательная на практике теория

# Python

### Язык Python

- Появился в начале 1990-х
- Действительно стал широко использоваться уже ближе к 2010-ым
- Интерпретируемый язык
- Простой синтаксис
- Динамическая (утиная) типизация

### Распространение

- Python в разных целях используют все большие компании: Google, Yandex, Facebook, ...
- На Python были запущены такие сервисы как YouTube и Instagram
- Основной язык Kaggle — это Python

###  Zen of Python

- Beautiful is better than ugly
- Explicit is better than implicit
- Readability counts
- ...

### Преимущества

- Простой синтаксис и высокая скорость разработки
- Кросс-платформенность
- Легкая интеграция с С и С++ кодом
- Огромное число библиотек: http://pypi.python.org/

### Недостатки

- Производительность ниже, чем в компилируемых языках
- Динамическая типизация иногда скорее мешает
- Мелкие неприятности вроде GIL и несовместимости версий

### Почему не ...?

- **R?** Python — более универсальный язык и для него больше интересных библиотек
- **Matlab, Mathematica, ..?** Почти нет хороших библиотек
- **C++? Java?** Приходится писать слишком много кода
- **Excel?** Возможности программирования слишком ограничены
- **Платформы для анализа данных?** Ни один Kaggle не был выигран таким образом

### Установка

- Может быть, Python уже установлен у вас
- Окружений Python (фактически копий Python) в системе может быть много
- Самый удобный способ установки Python и его библиотек в 2018 году — использовать **Anaconda**: https://www.anaconda.com/download/

### Python 2, Python 3

- Существуют две несовместимые версии Python
- Так *пришлось сделать*, чтобы исправить недостатки языка
- Различия для прикладного кода на самом деле минимальны
- Используйте Python 3, если можете

 ### Среды разработки (IDE)
 
 - **Python** — динамический язык, поэтому код на нем трудно анализировать, пока он не был запущен
 - Тем не менее, самая лучшая IDE — **PyCharm**
 - Для анализа данных практически все используют **Jupyter**

### Jupyter

- Вместо программы пишется воспроизводимый отчет, содержащий код, таблицы, графики
- Эта презентация сделана в **Jupyter**
- Это **сильно** ускоряет разработку
- Идея напоминает *literate programming* Дональда Кнута
- Похожая идея воспроизводится в **Mathematica** и **Sage**
- Мы будем использовать Jupyter

### Переменные

- В Python в переменной может находиться все что угодно: число, строка, класс, функция, модуль
- При этом всё — это объект

In [5]:
var = 321312
print(var)

321312


### Управление памятью

- В некоторых языках памятью нужно *управлять*, в Python все проще
- Ссылки объектов считаются
- Объект удаляется, когда на него нет ссылок
- Переменную можно явно удалить через `del`

In [14]:
x = 9
y = x
x = 3
x, y
del x
x

NameError: name 'x' is not defined

### Простые типы данных


In [60]:
str_var = "строчка"
str_var = 'стро\nчка'
float_var = 2.1734234234234234234234234234343423
int_var = 100
print(float_var)

# floating point paper


"sadsa sadasd    asdsa".split()

2.1734234234234235


['sadsa', 'sadasd', 'asdsa']

### Словари (dict)

In [29]:
dict = {'a': 1}
dict

{'a': 1}

In [33]:
'a' in dict

True

In [40]:
dict.get('b', 0)

0

### Функции

- Обязательный элемент в *настоящих* программах
- Полезны и в Jupyter для именования и группировки похожих действий
- Функцию можно определить где угодно, но лучше это делать вначале

In [52]:
def power(x, d=2):
    return x**d

power(x=5)

25

### Циклы

- Циклы можно делать с помощью **for** или **while**
- Итерироваться можно по совершенно разным объектам (паттерн *iterator*):

In [71]:
for x in [1, 2, 3]:
    print(x, end=" ")

1 2 3 

In [55]:
for x in "123":
    print(x, end=" ")

1 2 3 

In [10]:
for x in range(1, 4):
    print(x, end=" ")

1 2 3 

### List comprehensions
Элемент функционального стиля программирования

In [65]:
[x + x for x in ['a', 'b', 'c']]

['aa', 'bb', 'cc']

In [67]:
for x in (x**2 for x in range(100000000000)):
    print(x)
    break

0


### PEP 8

- Принятый сообществом стиль кода
- Стандарт можно найти здесь: https://www.python.org/dev/peps/pep-0008/
- Делает ваш код понятнее остальным
- `имя_функции`, `ИМЯ_КОНСТАНТЫ`, `ИмяКласса`

### Pythonic

- Так называют код, следующий идиомам языка **Python**
- Следование идиомам позволяет делать проще, понятнее и без ошибок
- Подробнее здесь: http://docs.python-guide.org/en/latest/writing/style/
   

### Исключения

Ошибки будут происходить:

In [74]:
try:
    value = int("число")
except Exception as e:
    print(e)
    value = 0.0
    
print(value)

invalid literal for int() with base 10: 'число'
0.0


### Открытие файлов

In [75]:
for line in open('file.txt'):
    print(line, end="")

line 1
line 2
line 3
line 4


### Домашнее задание

- Загрузите в Jupyter файл с некоторым текстовым документом
- Считайте файл по строкам и посчитайте как часто встречается каждое слово

Более подробная инструкция будет в почте.