# Занятие 4. Введение в Машинное обучение

**Цель данного занятия** заключается в том, что бы научить вас работать с табличными данными с использованием модуля [pandas](https://pandas.pydata.org/), а также делать агрегаты и визуализировать их, что бы вы могли лучше понять природу тех данных, с которыми работаете.

## Чтение таблицы

Далее **загрузим таблицу** `Netflix.csv`, которая содержит информацию о статьях, опубликованных в различных изданиях. 

Для загрузки данных из csv-таблиц используется метод [pandas.read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

In [1]:
import pandas as pd
import numpy as np

ModuleNotFoundError: No module named 'pandas'

Для того, что бы посмотреть на первые несколько строк таблицы, с которой вы начинаете работать, воспользуйтесь методом [pandas.DataFrame.head](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html)

Данная таблица содержит следующие колонки:
    
    show_id : идентификатор для каждого фильма/ шоу
    
    type : Movie или TV Show
    
    title : заголовок 
    
    director : имя режиссёра
    
    cast : задействованные актёры
    
    country : страна где фильм/ шоу продюссировалось
    
    date_added : дата добавления на Netflix
    
    release_year : год релиза фильма/ шоу
    
    rating : телевизионный рейтинг
    
    duration : продолжительность в минутах или в числе сезонов
    
    listed_in : набор тэгов 
    
    description : описание

Видим, что в таблицы содержится идентификатор для каждого фильма/ шоу. Далее будем использовать его в качестве индекса таблицы.

Для этого можно воспользоваться методом [pandas.DataFrame.set_index](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.set_index.html), если таблица уже прочитана.

**Вопрос**: Для чего мы сменили значение аргумента `inplace` на `True` (по умолчанию `False`)?

Также мы можем указать, какую колонку хотим использовать в качестве индекса в момент прочтения таблицы, передав индекс нужной колонки в качестве аргумента `index_col`.

## Работа с пропусками

Теперь с помощью метода [pandas.DataFrame.isna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isna.html) посмотрим, в каких столбцах есть пропущенные значения, 

а также посчитаем их количество с помощью метода [pandas.Series.sum](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.sum.html?highlight=sum#pandas.Series.sum).

### Столбцы `duration` и `rating`

Выведем на экран все строчки, в которых пропущены значение в стобце `duration` или `rating`, используя методы [pandas.DataFrame.isna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isna.html) и [pandas.DataFrame.any](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.any.html?highlight=any#pandas.DataFrame.any)

Видим, что в первых трёх строчках перепутаны местами `duration` и `rating`. Получается, что во всех данных случаях пропущен именно рейтинг.

Сначала востановим правильный порядок значений в первых трёх строчках, используя [pandas.DataFrame.loc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html?highlight=loc#pandas.DataFrame.loc)

**Вопрос**: Что будем делать с данными пропусками? Почему?

Удалим данные строчки используя [pandas.DataFrame.notna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.notna.html#pandas.DataFrame.notna)

### Столбец `date_added`

Выведем на экран все строчки, в которых пропущены значение в стобце `date_added`, используя метод [pandas.Series.isna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.isna.html?highlight=isna#pandas.Series.isna)

Мы можем также удалить данные записи, так как эта группа не является многочисленной. 

Но только посмотрите, здесь же сериал **Friends** ;-) Давайте придумаем, что-то ещё!

**Вопрос**: Как можно востановить данные пропуски?

Давайте считать, что на Netflix данные сериалы были добавлены 31 декабря в год релиза, и 

сделаем соответсвующее заполнение воспользовавщись приёмами, рассмотренными ранее, а также [pandas.Series.apply](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.apply.html?highlight=apply#pandas.Series.apply)

### Столбец `country`

Пропуске в данном столбце содердатся уже в 10% данных, которые бы не хотелось терять. 

**Вопрос**: Может ли странна зависить от других данных в таблицы и от каких?

Проверим **гипотезу**, что страну можно востановить по режесёру. 

Для этого по всей таблицы сформируем словарь `director`:`country`

Сколько процентов пропусков удалось востановить?

Заменим оставшиеся пропуски на наиболее популярную странну, используя метод [pandas.Series.fillna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.fillna.html?highlight=fillna#pandas.Series.fillna)

### Столбец `director`

Попробуем обучить [KNN](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html) предсказывать режесёра для востановления пропущенных значений. 

    1. Выделим все строки, для которых извесны режесёры
       Вопрос: Для чего мы их будем использовать для обучения, теста или того и другого?

    2. Определимся с тем какая задача перед нами стоит: бинарная, многоклассовая или многозначная классификация?

    3. Определимся с тем, какие признаки будем использовать для обучения, а также с их корректным представлением

Для кодирования даты релиза и рейтинга воспользуемся [sklearn.preprocessing.LabelBinarizer](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelBinarizer.html).

Столбцы со страной и тэгами бинаризуем с помощью [sklearn.preprocessing.MultiLabelBinarizer](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MultiLabelBinarizer.html), для этого сначала разобъём их по разделителю.

    4. Разобьём выборку на train и test

    5. Обучаем модель на train

    6. Оцениваем качество на test