# Классификация sms сообщений

In [None]:
%matplotlib inline
# служебная команда для отображения графиков

В этом задании мы будем использовать данные SMS Spam collection из репозитория UCI.
Файл с данными расположен [по ссылке](https://archive.ics.uci.edu/ml/machine-learning-databases/00228/), он уже скачан и разархивирован.

При выполнении заданий, отмеченных жирным __Задание__, используйте примеры кода, разобранные в ноутбуках про анализ домов Бостона и кредитный скоринг.

### 1. Загрузка, визуализация и предварительный анализ данных


Загрузим данные, используя модуль pandas:

In [None]:
import pandas as pd

In [None]:
data = pd.read_csv("sms.txt", sep="\t", header=None, names=["label", "sms"])

__Задание:__ Выведите первые несколько строк данных:

В первом столбце хранятся метки (спам или не спам), во втором - текст сообщения.

Посмотрим, сколько всего объектов:

In [None]:
len(data)

Посмотрим, сколько объектов каждого класса:

In [None]:
counts = data["label"].value_counts()
counts.plot(kind='bar', title="Число сообщений спам / не спам")

In [None]:
counts

В выборке гораздо больше не-спама, чем спама.

### 2. Подготовка данных

В данных пока что нет выделенных признаков. Вспомним, что тексты можно превратить в "мешок слов". Для каждого объекта-текста мы получим столько признаков, сколько слов в словаре, и каждый признак содержит 1 (слово входит в текст) или 0 (слово не входит). Для этого в sklearn есть специальный инструмент:

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(data["sms"])

__Задание:__ Сколько получилось объектов и признаков?

А что в самой матрице?

In [None]:
X[:5].todense()

Мы почти не видим единиц в этой матрице, потому что их очень мало.

А вот какие в текстах были слова:

In [None]:
vectorizer.vocabulary_

У нас есть еще одна небольшая проблем: классы обозначены не числами, а буквами. Перекодируем:

In [None]:
data["label"] = data["label"].map({"spam":1, "ham":0})

In [None]:
data["label"].head()

In [None]:
y = data["label"]

Теперь у нас есть X и y!

__Задание:__ Разделите данные на обучение и контроль в пропорции 3:1:

In [None]:
from sklearn.model_selection import train_test_split

### Обучение линейной модели

__Задание:__ Обучите логистическую регрессию:

In [None]:
from sklearn.linear_model import LogisticRegression

Создадим таблицу весов и отсортируем. Какие веса самые большие и какие самые маленькие?

In [None]:
# создаем список слов в том порядке, в котором они идут в X
words = pd.Series(vectorizer.vocabulary_).sort_values().index
words

__Задание:__ выведите таблицу с признаками и их весами, отсортированную по возрастанию веса. Чтобы извлечь веса, используйте команду model.coef\_[0].

Можно ли сказать, что топ слова действительно характеризуют каждый из двух классов?

### Оценивание качества

__Задание:__ Вычислите точность (accuracy) на обучающей и тестовой выборках:

In [None]:
from sklearn.metrics import accuracy_score

Поскольку в данных класс 1 редкий, лучше использовать точность и полноту. 

__Задание:__ Вычислите точность и полноту на тестовых данных:

In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score

Точность выше, чем полнота. Это означает, что почти все СМС, которые мы назвали спамовыми, действительно таковыми являются (высокая точность). Однако, мы находим не все спамовые сообщения (более низкая полнота).