# Модуль 2. Спам не пройдет

## 2.0. Sendmemail ставит задачу

### Где я?

Несколько дней назад вы приступили к работе в стартапе Sendmemail.ru на позиции Junior Data Scientist. Компания занимается разработкой почтового сервиса. Так как неотъемлемой частью почты является спам, то с ним вам и предстоит поработать в ближайшие несколько часов.

Ваше первое задание — написать классификатор спама, которым смогут пользоваться разработчики вашей компании.

Классификатор, который вы напишете, будет выглядеть примерно так:

![alt_image](pic/image7.png)

### Организационная информация
#### Что нужно сделать на этом шаге?

Написать модель, которая по тексту предсказывает, спам это или нет.
Обернуть модель в сервис, чтобы почтовые сервисы могли общаться с моделью – присылать ей письма и получать в ответ «спам/не спам».
Убедиться, что все работает.
#### Какой результат вы получите?
Напишете свой собственный классификатор спама, который сможете продемонстрировать в качестве кейса своему работодателю.
Напишете свой сервер и узнаете, как серверы общаются друг с другом.
Познакомитесь с такими инструментами и библиотеками, как Flask, CURL и Postman.
Самостоятельно обучите модель и будете более уверенно чувствовать себя в области машинного обучения.
#### Важно!
Чтобы успешно решить задачу, необходимо пройти Модуль 5. Теория вероятности в курсе по Математике и Статистике для Data Science.

## 2.1. Как устроены спам-фильтры?

Разберемся, как устроено большинство спам-фильтров и как их работа связана с теорией вероятностей.

В основе большинства спам-фильтров лежит теорема Байеса, которая изучается в разделе 5.8 курса Математика и Статистика для Data Science. Она позволяет найти вероятность одного события при условии, что случилось другое событие. В нашем случае событие — это вероятность встретить текст. Условие — текст является спамом.

![alt_image](pic/image9.png)

#### Как определить, что текст — это спам?
Для этого нам необходимо произвести несколько действий:
1. Посчитать вероятность того, что это спам.
2. Посчитать вероятность того, что это не спам.
3. Сравнить вероятности и определить, является наш текст спамом, или нет. 

### Как посчитать вероятности?
Для того, чтобы посчитать вероятности, мы будем пользоваться Наивным байесовским классификатором. Он основан на применении теоремы Байеса.

Почему он называется наивным? Может быть, потому что он не отличает плохое от хорошего?

![alt_image](pic/Naive_Bayes.png)

Не совсем так :) Байесовский классификатор построен на допущении о том, что признаки какого-либо класса независимы друг от друга. В реальности же почти все признаки чего угодно зависят друг от друга, и допустить такое — ну очень наивно. Но при классификации спама байесовский алгоритм оказывается очень эффективен (и это несмотря на то, что слова в тексте всегда зависят друг от друга). Дело в том, что при определении «спамовости» текста мы оперируем вероятностями. А если мы считаем, что эти вероятности независимы, у нас в руках оказывается очень мощное оружие — независимые вероятности можно перемножать! 

Чтобы посчитать вероятность, что данное предложение — это спам, мы считаем вероятность спама для каждого слова в предложении, а затем просто перемножаем эти вероятности. Таким образом, вероятность того, что данный текст является спамом — это произведение вероятности встретить спам в принципе и вероятности встретить данный текст среди набора всех возможных вариантов спама.

![alt_image](pic/image8.png)

### 2.1.1 Вопрос для самопроверки
Для чего в нашем случае необходим Наивный байесовский классификатор?
#Чтобы посчитать вероятности верно

### Шаг 1 завершен!
#### Что мы сделали на этом шаге?
1. Вспомнили теорему Байеса.
2. Узнали, как применить теорему Байеса при создании спам-фильтра.

## 2.2. Spam Detected! Вычисляем спам

Попробуем вычислить спам. Для этого нужно выполнить несколько последовательных шагов.

### Шаг 1. Определяем переменные
Определим набор ключевых переменных, которые нам пригодятся.

Чтобы написать классификатор, нам понадобятся переменные, в которых будет храниться значение вероятностей A и not A — вероятность встретить спам и не встретить спам. Назовем эти переменные pA и pNotA. Также нам будут нужны словари для хранения количеств спам-слов и неспам-слов.

### Шаг 2. Заполняем словари
Когда мы считаем вероятность встретить спам (не спам) в выборке, мы обучаем наш классификатор спама.

Соответственно, данные, которые используются при обучении — это пары (текст, метка), где метка может быть спам и неспам.

Для начала нужно написать функцию calculate_word_frequencies(body, label), которая будет заполнять словари. Она будет принимать на вход письмо и его метку — спам это или не спам.

Чтобы заполнить словари спам-слов и неспам-слов, нужно будет для каждого слова в каждом письме посчитать, сколько раз данное слово встречается в спам-письмах и в неспам-письмах.

#### Важно!
Подумайте о том, что будет, если мы во время предсказания встретим слово, которое ни разу не встречали. Обработку такого случая тоже нужно добавить в эту функцию.

Вероятность того, что перед нами спам-слово — это процент встречаемости этого слова среди всех спам-текстов. То же самое справедливо в отношении вероятности того, что это неспам-слово. В этой функции мы заполняем словари количеством случаев, когда данное слово встретилось среди спама.

### Шаг 3. Пишем функцию для обучения
Когда вы написали функцию заполнения словарей, осталось написать функцию train(). После этого код для обучения модели будет готов, останется только написать код для предсказания.

В функции train() вам нужно посчитать значения переменных pA и pNotA. Для этого надо посчитать, какая доля писем в обучающей выборке содержит спам, а какая содержит неспам. Также в функции train() нужно реализовать заполнение словарей спам-слов и неспам-слов. Эта функция у вас уже реализована.

### 2.2.1 Вопрос для самопроверки
Как вы думаете, что произойдет, если модель встретит слово, которое она никогда не видела?
#Классификатор всегда будет говорить, что встретил не спам верно

#### Ответ
Верно: Если модель встречает слово, которое раньше не видела, то его вероятность будет равна нулю. Что будет, если умножить вероятности других слов в тексте на 0, вы, наверное, уже догадались.

#### Что делать с нулевой вероятностью (zero tolerance to zero frequency)?
Да, Хьюстон, у нас проблема... Если мы умножим вероятности всех слов в тексте на 0, то получим нулевую вероятность. Даже если в тексте есть спам-слова, наличие всего одного незнакомого слова испортит весь анализ.

Самый простой способ исправить проблему незнакомых слов — считать, что любое слово по умолчанию уже встречается в словаре и исключить возможность получить нулевую вероятность.

Давайте прибавим единицу (+ 1) к количеству случаев, когда мы встретили данное слово среди спама и не спама.

### Шаг 4. Считаем вероятности для каждого слова
Итак, мы посчитали вероятности спама и неспама для каждого слова. Теперь нам нужен метод, который получит вероятность для текста с помощью умножения вероятностей отдельных слов.

Как вы помните из описания наивного байесовского алгоритма, вам нужно уметь считать для каждого слова вероятности того, что это спам, и того, что это не спам. Реализуйте функцию calculate_P_Bi_A(word, label), чтобы это сделать. Она будет принимать на вход слово и его метку — спам это или не спам.

### Шаг 5. Считаем вероятности для строки
Теперь вам нужно реализовать функцию calculate_P_B_A(text, label), которая будет подсчитывать вероятность спама и неспама для строки. Функция принимает на вход текст и метку — спам это или неспам. Для реализации этой функции вам нужно воспользоваться формулой из наивного байесовского алгоритма и использовать функцию для подсчета вероятности спама и неспама для слова.

### Шаг 6. Пишем последнюю функцию
Вам осталось реализовать последнюю функцию classify(email), которая принимает на вход письмо и говорит, спам это или нет. Для этого вам нужно воспользоваться наивным байесовским алгоритмом и использовать те функции и переменные, которые вы реализовали выше.

В этой функции вы считаете вероятности и проверяете, какая из вероятностей больше.

### 2.2.2 Вопрос для самопроверки
Чем опасна нулевая вероятность?
#может испортить весь анализ - верно

## 2.3. Обучаем классификатор

Ну что ж, пора приступить к самому интересному: обучению алгоритма.

Для этого вызываем метод train() и начинаем готовить данные для обучения.

Обучающая выборка — это код на Python. Она должна находиться в том же файле, в котором у вас лежат методы классификатора, иначе классификатор их просто не найдет.

Вы можете дать алгоритму любые данные. При этом важно помнить, что сначала необходимо пометить их как спам и не спам.

### Задание 1: Мы составили для вас небольшой датасет. Обучите алгоритм на этих данных

In [46]:
SPAM = 1
NOT_SPAM = 0

train_data = [  
    ['Купите новое чистящее средство', SPAM],   
    ['Купи мою новую книгу', SPAM],  
    ['Подари себе новый телефон', SPAM],
    ['Добро пожаловать и купите новый телевизор', SPAM],
    ['Привет давно не виделись', NOT_SPAM], 
    ['Довезем до аэропорта из пригорода всего за 399 рублей', SPAM], 
    ['Добро пожаловать в Мой Круг', NOT_SPAM],  
    ['Я все еще жду документы', NOT_SPAM],  
    ['Приглашаем на конференцию Data Science', NOT_SPAM],
    ['Потерял твой телефон напомни', NOT_SPAM],
    ['Порадуй своего питомца новым костюмом', SPAM]
]

В реальной жизни, скорее всего, вы будете скачивать датасеты с помощью обращения к сервису или с помощью чтения файла из pandas. Как общаться с сервисами, мы разберемся совсем скоро, не переключайтесь!

### 2.3.1 Вопросы к заданию
Проверьте эти сообщения. Что говорит наш классификатор спама?

#Развивай бизнес на дому с услугой "Безлимитный Интернет"
#не спам  - верно


#Мы получили ваше сообщение о пропаже багажа и домашнего питомца в здании аэропорта. Конечно, нам жаль. Но что мы можем с этим сделать?
#спам - верно


#Перезвони по номеру +799999999 в течение 6 секунд и выиграй миллион рублей!
#спам верно

### 2.3.2 Вопросы для самопроверки
Почему наш классификатор спама называется наивным?
#Классификатор использует предположение о независимости слов в предложении - верно

Что будет, если для какого-то текста вероятность спама будет равна вероятности не спама?
#Классификатор скажет, что это не спам - верно

Вы уже знаете, что байесовский классификатор подходит не только для определения спама. Для решения каких задач вы будете использовать байесовский классификатор?
#Определение тона текста — нейтральный или агрессивный - верно

### Шаг 2 завершен!
Подведем итоги этого блока:
1. вы написали свой классификатор спама;
2. обучили классификатор с нуля;
3. дообучили классификатор на новых данных.

### 2.3. Итоги вашей работы над шагом 2

In [47]:
# (-inf, 25.03.2020] - 3 ч.
# 26.03.2020 - 2 ч.
# 27.03.2020 - 4 ч.
# 28.03.2020 - 4 ч.

## 2.4. Тестируем модель машинного обучения

Наша следующая задача — протестировать модель машинного обучения и позволить другим посмотреть на то, как она работает.

Для этого мы создадим свой сервер, который затем можно будет встроить в чат-бот или в сайт. Внутри этого сервера будет находиться наша модель. В нашем случае речь пойдет о минималистичном приложении, которое будет принимать и обрабатывать простой POST-запрос.

Вне зависимости от того, что именно вы будете разрабатывать в будущем, понимание того, как работают серверы, пригодится вам для более целостного понимания архитектуры проекта и взаимодействия с коллегами. Давайте разберем этот вопрос подробнее.

С серверами мы сталкиваемся каждый день (разве что в тайге, где не ловит связь, можно от них укрыться). Серверы общаются между собой на языке запросов.
![alt_image](pic/запрос-сервер.png)
Каждый запрос, который клиент (чаще всего браузер) передает серверу, содержит:
- HTTP-метод, обычно глагол подобно GET, POST и PUT)
- Путь к ресурсу
- Версию HTTP-протокола
- Заголовки  (опционально), предоставляющие дополнительную информацию для сервера.
- Тело (опционально), для некоторых методов, таких как POST, которое содержит отправленный ресурс.

Ответ сервера содержит:
- Версию HTTP-протокола.
- HTTP код состояния, сообщающий об успешности запроса или причине неудачи.
- Сообщение состояния -- краткое описание кода состояния.
- HTTP заголовки, подобно заголовкам в запросах.
- Тело, содержащее пересылаемый ресурс (опционально).

### Ошибки сервера
Встречались ли вы с ошибкой 404?
![alt_image](pic/b2b916a908fb0ee0cce790841a54d394.png)
Такое случается, когда вы заходите на страницу, которую сервер не может найти. По ответу сервера можно быстро понять, что что-то работает не так, как нужно.

Группы кодов состояния ответа HTTP сервера делятся на следующие группы:

1. информационные (100–199);
2. успешно (200–299);
3. перенаправление (300–399);
4. ошибка клиента (400–499);
5. ошибка сервера (500–599).

### HTTP-запросы
Тип HTTP-запроса (его также называют HTTP-методом) указывает серверу на то, какое действие мы хотим произвести с ресурсом.

Для разграничения действий с ресурсами на уровне HTTP-методов и были придуманы следующие варианты:
- GET — получение ресурса
- POST — создание ресурса
- PUT — обновление ресурса
- DELETE — удаление ресурса

### 2.4.1 Вопросы для самопроверки
С помощью чего общаются серверы?
#с помощью запросов - верно

Что из перечисленного НЕ содержится в запросе, который клиент инициирует серверу:
#Сообщение состояния — краткое описание кода состояния - верно

## 2.5. Пишем сервер

### Пишем проект приложения на Flask
Приступим к написанию сервера. Для этого воспользуемся удобным приложением Flask — микрофреймворком для разработки веб-приложений. Этот фреймворк стоит на втором месте по популярности после Django, но при этом он более легковесный и удобный.

Давайте сразу установим Flask последней версии:

In [48]:
# !pip install flask==1.1.1

Посмотрим, какие пакеты в нём установлены:

In [49]:
!pip list

Package                           Version            
--------------------------------- -------------------
asn1crypto                        1.2.0              
attrs                             19.3.0             
backcall                          0.1.0              
beautifulsoup4                    4.8.1              
bleach                            3.1.0              
branca                            0.3.1              
certifi                           2019.11.28         
cffi                              1.13.2             
chardet                           3.0.4              
chart-studio                      1.0.0              
click                             7.1.1              
colorama                          0.4.1              
colorlover                        0.3.0              
conda                             4.8.0              
conda-package-handling            1.6.0              
cryptography                      2.8                
cufflinks                   

Так вы сможете понять, какие версии библиотеки сейчас установлены в вашей среде и установить другие, если нужно.

Ещё нам потребуется создать директорию application. Создадим директорию проекта:

In [50]:
# !mkdir classifier
# !mkdir classifier\application

Структура проекта будет выглядеть так:

classifier/

  application/

    __init__.py

    routes.py

  run.py

Структура проекта выглядит избыточной, но это хорошая базовая структура для написания больших приложений. Если вы привыкнете к хорошему стилю создания проектов сразу, вам будет проще жить в будущем.

В __init__.py будет лежать следующий код:

    from flask import Flask
    app = Flask(__name__)
    from application import routes

Cкрипт run.py находится на верхнем уровне и содержит всего одну строку, которая импортирует экземпляр приложения:

#classifier/run.py

from application import app

Создадим объект приложения как экземпляр класса Flask.

Переменная __name__ — это предопределенная переменная Python. В ней хранится имя модуля, в котором она используется.

Чтобы посмотреть, как это работает, напишем небольшой сервер, который будет говорить нам: «Привет, мир!».

In [51]:
# Можно/нужно копировать прямо этот текстБ убрав комментарии с команд - он оттестирован
# #classifier/application/routes.py

# from application import app 
# Cкрипт run.py находится на верхнем уровне и содержит всего одну строку, которая
# импортирует экземпляр приложения: from application import app

# @app.route('/') 
# Декоратор @app.route создает связь между URL-адресом, заданным как 
# аргумент (/), и функцией hello_world().  Это означает, что когда веб-браузер
# запрашивает этот URL-адрес, Flask будет вызывать эту функцию и передавать ее 
# возвращаемое значение обратно в браузер в качестве ответа.

# def hello_world():
#     return 'Hello, World!'#возвращает приветствие в виде строки.

### Мега-Учебник Flask Глава 1: Привет, мир! ( издание 2018 )
https://habr.com/ru/post/346306/
Читал и делал в том числе и по этому руководству. Текст нашего модуля по сути скопирован из этой статьи

### Запускаем приложение

Для запуска вернитесь в терминал и убедитесь, что вы находитесь в корне проекта, где лежит скрипт run.py.

#### Примечание О.Киселева: 
 1. В Windows я запускал из Anaconda prompt
 2. Вместо "$ export" необходимо использовать "set"

Для того, чтобы не перезапускать вручную сервер каждый раз после изменений, добавляем в окружение переменную FLASK_DEBUG:
$ export FLASK_DEBUG=1

    Windows: set FLASK_DEBUG=1

Чтобы наше приложение было обнаружено скриптом запуска flask, установим переменную среды FLASK_APP и запустим приложение:
$ export FLASK_APP=run.py

    Windows: set FLASK_APP=run.py

Запуск:
$ python -m flask run

    Windows: python -m flask run

![alt_image](pic/photo_2019-11-29_14.21.jpg)
Копируем ссылку http://127.0.0.1:5000/ в браузер. Эта ссылка означает, что сервер в данный момент доступен только с вашей машины. В терминале мы видим логи обращений к серверу в реальном времени:
![alt_image](pic/photo_2019-11-29_14.22__.jpg)
Расшифровываем логи: 
- 127.0.0.1 — IP хоста (здесь может быть доменное имя хоста);
- 25/Oct/2019 15:25:03 — дата и время запроса;
- GET — тип запроса;
- HTTP/1.1 — тип протокола и его версия;
- / — URI (путь к ресурсу, resource path);
- 200 — код ответа сервера (OK).

Когда вы запускаете сервер командой flask run, вы используете ту версию веб-сервера, которая поставляется с Flask. Этот сервер удобно использовать во время разработки, но для использования на рабочем сервере он не подходит.

Причина: этот веб-сервер не был спроектирован с учетом производительности и надежности. Именно об этом говорит красная строка в терминале, начинающаяся со слова WARNING.

Этот сервер называется development сервер, он используется во время разработки, чтобы можно было легко поднять и отладить приложение, не устанавливая дополнительные библиотеки. 

### 2.5.1 Вопросы для самопроверки
С помощью какой переменной окружения мы просим сервер перезапускаться автоматически после изменений?
#FLASK_DEBUG - верно

Зачем мы задаем переменную FLASK_APP?
#Чтобы flask при запуске смог обнаружить, что именно ему запускать - верно

Доступен ли сервер в интернете после запуска?
#Нет - верно

## 2.6. Проверяем сервер

Настало время проверить, как написанный нами сервер обрабатывает входящие запросы. Давайте посмотрим, как можно отправить запрос серверу и как автоматизировать этот процесс.

### Приложение POSTMAN и консольная утилита CURL
Когда мы переходим по ссылке в браузере, выполняется GET-запрос к серверу.

Мы рекомендуем вам выполнить его с помощью приложения Postman и консольной утилиты CURL.

Postman имеет очень удобный интерфейс и довольно прост в использовании. Кроме того, у него много полезных функций, например, возможность сохранять запросы, которые вы часто используете.
![alt_image](pic/image5.png)
В дальнейшем нам это потребуется для совершения POST-запросов, которые нельзя сделать через браузер.

Установите Postman по ссылке (https://www.getpostman.com/downloads/).

### CURL 
пригодится на сервере,  когда нет интерфейса, и в bash-скриптах (сценарии командной строки, написанные для оболочки bash). Она будет полезна, например, когда по расписанию нужно скачивать обновление.

Начиная  с Windows 10 v1803, операционная система уже поставляется с копией CURL.

Если Windows более старой версии, скачать CURL можно с официального сайта.
В последних версиях Ubuntu CURL также предустановлена.

Синтаксис утилиты curl:

curl [options] [url]

Если не указывать тип запроса явно, CURL делает GET-запрос.  Аргумент -I говорит CURL выводить только HTTP-заголовки ответа, без этого ключа вы не увидите то, что видите сейчас ниже:
![alt_image](pic/image2.png)
Попробуйте выполнить запрос без аргумента -I, и посмотрите, как будет отличаться вывод

### 2.6.1 Вопрос для самопроверки
Что будет, если вы не добавите ключ -I при отправке запроса через CURL?
#Не будет видно заголовок ответа - верно

### По умолчанию в параметр methods декоратора @app.route передается тип запроса GET.  Если мы хотим обрабатывать другие типы запросов (POST, PUT, DELETE), то их нужно указывать явно:

    @app.route('/', methods=['POST', 'GET'])
Пока тип запроса не указан, наш сервер будет возвращать 405-ю ошибку (Method Not Allowed).

Что мы делаем дальше? Отдаем обработку URL '/hello_user' одноименной функции. Указываем, что по этому адресу сервер принимает только POST-запросы. В request.json лежат параметры тела запроса. С помощью f-string возвращаем форматированную строку с параметром. После внесения изменений в код сервер автоматически перезапустится, вы увидите это в терминале.

    from flask import Flask, request
    from application import app

    @app.route('/hello_user', methods=['POST'])
    def hello_user():
        data = request.json
        user = data['user']
        return f'hello {user}'

### 2.6.2 Вопрос для самопроверки
Поменяйте код вашего hello world сервиса на сервис, говорящий «привет» и обращающийся к вам по имени. Сохраните изменения. Вы увидели в терминале, что сервер перезагрузился?
#Да - верно

### Делаем POST-запрос

Теперь сделаем POST запрос: выбираем тип запроса POST, в Body (тело запроса) выбираем raw и Json. Передаем параметр user и его значение:
![alt_image](pic/image6.png)
Видим, что сервер распознал параметр и вернул его в ответе.

    Теперь мы умеем работать с POST-запросами и можем написать более сложную логику для их обработки.

### 2.6.3 Вопросы для самопроверки
Какой способ отправки запросов лучше использовать?
    #POSTMAN, так как он имеет удобный графический интерфейс и легок в использовании
    #CURL, так как с его помощью можно автоматизировать отправку запросов в скрипте

Что нужно сделать, чтобы сервер мог принимать PUT-запросы?
    #Передать PUT в аргумент methods декоратора app.route

### 2.6.4 Задание для самостоятельной работы
Напишите сервис, который принимает на вход число, увеличивает его на 1 и возвращает ответ. Скопируйте код в поле ниже. Это задание не проверяется, но в будущем вам пригодятся эти наработки.

    from flask import Flask, request
    from application import app

    @app.route('/')
    @app.route('/calc', methods=['POST'])
    def calc():
        if not request.json:
            return 'error!'
        data = request.json
        num_old = int(data['num'])
        num_new = num_old + 1
        return f'old number = {num_old}, new number = {num_new}'

### Шаг 3 завершен!
Подведем итоги этого шага:
1. Вы узнали, как отправлять запросы с помощью curl и postman;
2. научились обрабатывать на сервере разные типы запросов;
3. сделали сервис, приветствующий вас по имени

In [52]:
# 28.03.2020 - 2 ч.
# 30.03.2020 - 3 ч.
# 31.03.2020 - 1 ч.

## 2.7. Собираем все элементы вместе

Чтобы наш классификатор спама заработал, необходимо обернуть его внутрь сервера. 

#### Что для этого необходимо сделать?
- Скопируйте код классификатора в файл spam_classifier.py в директорию проекта.
- Обязательно добавьте данные, на которых будет проходить обучение.
- Чтобы не запускать каждый раз обучение модели при новом запросе, выполните train() один раз при запуске приложения. Для этого поместите выполнение функции в скрипт run.py:

        from application import app
        from spam_classifier import train

        train()

- Затем импортируйте  нужные функции в routes.py:

        from flask import request, jsonify
        from spam_classifier import classify

Функция classify_text похожа на hello_user, только теперь мы вызываем функцию classify, чтобы распознать, является ли значение параметра text спамом.

    @app.route('/classify_text', methods=['POST'])
    def classify_text():
        data = request.json
        text = data['text']
        train()
        result = classify(text)
        return jsonify({'result': result})
        
Все объекты python в ответе сервера необходимо сериализовать: функция jsonify преобразовывает dict в JSON.

Для того, чтобы получить содержимое POST-запроса, мы обращаемся к атрибуту json объекта request. Имя параметра является ключом, по нему мы достаем значение, то есть искомый текст, который отправили в сервис.

### 2.7.1 Вопрос для самопроверки
Какая строчка лишняя в предыдущем блоке кода?
    
    train() - верно

#### Проверим, 
является ли заголовок "Купите три по цене двух" спамом? Введите текст "Купите три по цене двух!" в качестве запроса и отправьте его на сервер. Является ли этот текст спамом?
![alt_image](pic/image7.png)

### Как обрабатывать ошибки?
Если вместо параметра text передать любой другой параметр, вы получите ошибку с выводом в виде большого, нечитаемого и совершенно неинформативного для пользователя html.

В случае получения неправильного параметра сервер должен отдавать ошибку 400 (Bad Request) и информативное сообщение. Рассмотрим на примере, как это сделать. 

    @app.route('/classify_text', methods=['POST'])
    def classify_text():
        data = request.json
        text = data.get('text') 
    #Метод возвращает None, если запрашиваемого ключа нет
        if text is None:
            params = ', '.join(data.keys()) 
    #Преобразуем все полученные параметры в строку
            return jsonify({'message': f'Parametr "{params}" is invalid'}), 400 
    #Ранее мы не указывали код ответа HTTP явно,
    #но на самом деле Flask выполнял эту работу за нас. 
    #По умолчанию возвращается 200
        else:
            result = classify(text)
            return jsonify({'result': result})

### 2.7.3 Вопросы для самопроверки
Когда нужно вызывать метод train?

    При старте сервера - верно

Если мы отправим POST запрос, как получить его содержимое в коде?

    С помощью атрибута json в объекте request - верно

Какой код нужно возвращать, если нет ошибок при вызове запроса?

    200 - верно

### Шаг 4 завершен!
Подведем итоги:

Вы завершили свое первое рабочее задание – написали классификатор спама. 

Теперь вы можете не просто написать модель машинного обучения, но и обернуть ее в сервис, написав буквально 5 строк кода на Flask.

Такой сервер можно интегрировать в общую экосистему серверов любой компании. Помните, что flask в данном случае — это средство для ускорения разработки и прототипирования, и модель вы оборачивали в него для того, чтобы была возможность ее быстро протестировать.

## 2.7. Итоги вашей работы над шагом 4

In [53]:
# 31.03.2020 - 2 ч.

## 2.8. Итоговое задание

### Первая рабочая задача — done! Поздравляем!

#### Чему вы научились в этом модуле:
- Повторили теорему Байеса и узнали, как применить ее в реальном мире.
- Узнали, зачем нужны запросы и как серверы общаются друг с другом.
- Написали свой собственный классификатор спама, который уже сейчас можно использовать.

#### Что теперь?
Теперь пора отправить свою работу ментору.

#### А если я хочу задание посложнее?
Если вы хотите проверить свои силы и проявить креативность, переходите к следующей главе 2.9. 

## 2.8. Итоги вашей работы

## 2.9. Итоговое задание (для упорных)

### Задание для тех, кто любит рисковать
Прежде чем вы перейдете к выполнению этого задания, хотим напомнить: если вы столкнулись со сложностями, не можете найти ответы (при этом уже произвели множество самостоятельных действий), потеряли всякую надежду, вы всегда можете обратиться за консультацией к ментору или к своим одногруппникам. Именно так, в поиске совместных решений, формируется сообщество профессионалов!

### ВАШЕ ЗАДАНИЕ
В этом задании мы предлагаем вам обучить классификатор спама на данных, собранных американской анти-спам платформой Apache SpamAssassin Project. Для чего? Чтобы Sendmemail спасал своих пользователей не только от русскоязычного спама.

### Что нужно будет сделать?
1. Скачать датасет по ссылке и ознакомиться с данными.
2. Преобразовать данные в нужный формат (SPAM or NOT_SPAM).
3. Обучить модель на новых данных.
4. Запустить сервер
5. Настроить обработку ошибок.
6. Проверить точность классификатора.
7. Отрефакторить код.
8. Отправить полученный результат ментору.

Так как цель всех дополнительных заданий — дать вам возможность выйти за рамки базовых умений и проявить себя, то относитесь к этим заданиям творчески и экспериментируйте.

Подумайте, для каких ещё задач можно применить модель Наивного Байеса? Может быть, вы захотите обучить уже не классификатор спама, а какую-то другую модель?..

Вы также можете поделиться результатом работы и получить обратную связь от своих одногруппников (помните о том, что это ценный ресурс!)

In [54]:
import pandas as pd

df = pd.read_csv('data/spam_or_not_spam.csv')
df.head(10)

Unnamed: 0,email,label
0,date wed NUMBER aug NUMBER NUMBER NUMBER NUMB...,0
1,martin a posted tassos papadopoulos the greek ...,0
2,man threatens explosion in moscow thursday aug...,0
3,klez the virus that won t die already the most...,0
4,in adding cream to spaghetti carbonara which ...,0
5,i just had to jump in here as carbonara is on...,0
6,the scotsman NUMBER august NUMBER playboy want...,0
7,martin adamson wrote isn t it just basically a...,0
8,the scotsman thu NUMBER aug NUMBER meaningful ...,0
9,i have been trying to research via sa mirrors ...,0


In [55]:
train_data = df.values.tolist()

In [56]:
df.tail(10)

Unnamed: 0,email,label
2990,get NUMBER free vhs or dvds click hyperlink h...,1
2991,get NUMBER free vhs or dvds click hyperlink h...,1
2992,wealth without risk discover the best kept se...,1
2993,attn sir madan strictly confidential i am plea...,1
2994,from mr desmond stevens urgent assistance you...,1
2995,abc s good morning america ranks it the NUMBE...,1
2996,hyperlink hyperlink hyperlink let mortgage le...,1
2997,thank you for shopping with us gifts for all ...,1
2998,the famous ebay marketing e course learn to s...,1
2999,hello this is chinese traditional 子 件 NUMBER世...,1


In [60]:
df.iloc[0].email

' date wed NUMBER aug NUMBER NUMBER NUMBER NUMBER NUMBER from chris garrigues cwg dated NUMBER NUMBERfaNUMBERd deepeddy com message id NUMBER NUMBER tmda deepeddy vircio com i can t reproduce this error for me it is very repeatable like every time without fail this is the debug log of the pick happening NUMBER NUMBER NUMBER pick_it exec pick inbox list lbrace lbrace subject ftp rbrace rbrace NUMBER NUMBER sequence mercury NUMBER NUMBER NUMBER exec pick inbox list lbrace lbrace subject ftp rbrace rbrace NUMBER NUMBER sequence mercury NUMBER NUMBER NUMBER ftoc_pickmsgs NUMBER hit NUMBER NUMBER NUMBER marking NUMBER hits NUMBER NUMBER NUMBER tkerror syntax error in expression int note if i run the pick command by hand delta pick inbox list lbrace lbrace subject ftp rbrace rbrace NUMBER NUMBER sequence mercury NUMBER hit that s where the NUMBER hit comes from obviously the version of nmh i m using is delta pick version pick nmh NUMBER NUMBER NUMBER compiled on URL at sun mar NUMBER NUMBER 

In [None]:
train_data[0]#[1]

### Проверочные письма для классификатора
А для того, чтобы вы смогли сразу оценить качество классификатора, мы подготовили для вас три проверочных письма. Возможно, из текста придется удалить символы, которые НЕ являются буквами.

### ПИСЬМО 1
Письмо счастья от Уоррена Баффета:
    
Hi, My name is Warren E. Buffett an American business magnate, investor and philanthropist. am the most successful investor in the world. I believe strongly in‘giving while living’ I had one idea that never changed in my mind? that you should use your wealth to help people and i have decided to give {$1,500,000.00} One Million Five Hundred Thousand United Dollars, to randomly selected individuals worldwide. On receipt of this email, you should count yourself as the lucky individual. Your email address was chosen online while searching at random. Kindly get back to me at your earliest convenience before i travel to japan for my treatment , so I know your email address is valid. Thank you for accepting our offer, we are indeed grateful You Can Google my name for more information: God bless you. Best Regard Mr.Warren E. Buffett Billionaire investor !

### ПИСЬМО 2
Запрос обратной связи:
    
Hi guys I want to build a website like REDACTED and I wanted to get your perspective of whether that site is good from the users' perspective before I go ahead and build something similar. I think that the design of the site is very modern and nice but I am not sure how people would react to a similar site? I look forward to your feedback. Many thanks!

### ПИСЬМО 3
Приглашение на интервью на позицию Data Engineer:
    
As a result of your application for the position of Data Engineer, I would like to invite you to attend an interview on May 30, at 9 a.m. at our office in Washington, DC. You will have an interview with the department manager, Moris Peterson. The interview will last about 45 minutes. If the date or time of the interview is inconvenient, please contact me by phone or email to arrange another appointment. We look forward to seeing you.

### 2.9.1 Небольшая самопроверка
Небольшая самопроверка перед отправкой вашего кода ментору. Давайте проверим, правильно ли ваш классификатор идентифицировал проверочные письма.

Письмо 1:

    спам верно
Письмо 2:

    спам верно
Письмо 3:

    не спам верно

### 2.9. Итоги вашей работы (для упорных)

Проверьте, что ничего не забыли — должен быть и классификатор, и сервер.

Убедитесь, что код работает: сервер запускается без ошибок, принимает запросы, отвечает на них корректно и возвращает правильные сообщения об ошибках.

Запакуйте весь код в zip-архив, загрузите его на Google Диск и вставьте ссылку на него в поле ниже. Не забудьте проверить доступ по ссылке!

Поздравляем! Вы написали свой классификатор спама, которым можно пользоваться в работе. 

На завершающем этапе мы просим вас проанализировать свои достижения и сложности, с которыми вы столкнулись в ходе работы. После проведения этого анализа мы рекомендуем принять решение о том, какие из пройденных тем нужно повторить ещё раз, а также на какие вопросы в предстоящих курсах нужно обратить наиболее пристальное внимание.

In [58]:
# 25.04.2020 - 5 + ... ч.