## Задание 1
Напишите функцию, которая классифицирует фильмы из материалов занятия по следующим правилам:
- оценка 2 и меньше - низкий рейтинг
- оценка 4 и меньше - средний рейтинг
- оценка 4.5 и 5 - высокий рейтинг

Результат классификации запишите в столбец class

___
## Решение задания 1

In [26]:
# В этой задаче предлагается определить текстовое наименование рейтинга.
# Поскольку в списке рейтингов у одного и того же фильма оценки разных 
# пользователей отличаются, необходимо для каждого фильма посчитать среднюю оценку.
# По условиям задачи заданные диапазоны определения оценок не покрывают всю шкалу
# (выпадают значения от 4 до 4.5)
# В этой связи я принял решение округлять средний рейтинг до целого, и фактическая
# шкала определяется по следующему правилу:
# 0..2.4999 - низкая оценка
# 2.5..4.4999 - средняя оценка
# 4.5..5 - высокая оценка

import pandas as pd

# Определяем функцию для выбора текстового определения рейтинга
def groupby_rating(data): 
    if round(data['rating'], 0) <= 2:
        ret = 'низкий рейтинг'
    elif round(data['rating'], 0) <= 4:
        ret = 'средний рейтинг'
    else:
        ret = 'высокий рейтинг'
    return ret

# Загружаем файл ratings.csv с рейтингами фильмов
ratings_dataset = pd.read_csv('ml-latest-small/ratings.csv', engine='python')
# после чтения датасета группируем его, подсчитывая среднее значение рейтинга
grouped_rating = ratings_dataset.groupby('movieId').mean()[['rating']]
grouped_rating['class'] = grouped_rating.apply(groupby_rating, axis=1)
grouped_rating.head(200)


Unnamed: 0_level_0,rating,class
movieId,Unnamed: 1_level_1,Unnamed: 2_level_1
1,3.920930,средний рейтинг
2,3.431818,средний рейтинг
3,3.259615,средний рейтинг
4,2.357143,низкий рейтинг
5,3.071429,средний рейтинг
...,...,...
229,3.428571,средний рейтинг
230,3.395833,средний рейтинг
231,3.060150,средний рейтинг
232,3.892857,средний рейтинг


## Задание 2
Используем файл keywords.csv.

Необходимо написать гео-классификатор, который каждой строке сможет выставить географическую принадлежность определенному региону. Т. е. если поисковый запрос содержит название города региона, то в столбце ‘region’ пишется название этого региона. Если поисковый запрос не содержит названия города, то ставим ‘undefined’.

Правила распределения по регионам Центр, Северо-Запад и Дальний Восток:

geo_data = {

'Центр': ['москва', 'тула', 'ярославль'],

'Северо-Запад': ['петербург', 'псков', 'мурманск'],

'Дальний Восток': ['владивосток', 'сахалин', 'хабаровск']

}

Результат классификации запишите в отдельный столбец region.

___
## Решение задания 2

In [43]:
# Реализованный алгоритм не учитывает ситуации, при которой 
# в одном запросе могут упоминаться города из разных регионов 
# В этом случае можно доработать функцию, чтобы она возвращала список регионов или undefined
# Кроме того, в алгоритме не производится перевод символов в нижний регистр
# поскольку в файле с ключевыми словами всё уже переведено в нижний регистр.
# 
import pandas as pd
geo_data = {
    'Центр': ['москва', 'тула', 'ярославль'],
    'Северо-Запад': ['петербург', 'псков', 'мурманск'],
    'Дальний Восток': ['владивосток', 'сахалин', 'хабаровск']
}

def define_region(row):
    ret = 'undefined'
    for geo, towns in geo_data.items():
        for town in towns:
            if town in row['keyword']:
                ret = geo
                break
    return ret

# Загружаем файл с ключевыми словами
kw_dataset = pd.read_csv('ml-latest-small/keywords.csv', engine='python')
kw_dataset['geo'] = kw_dataset.apply(define_region, axis=1)
# Ниже несколько строк для проверки решения
#kw_dataset[ kw_dataset.geo == 'Центр' ].head(50)
#kw_dataset[ kw_dataset.geo == 'Северо-Запад' ].head(50)
kw_dataset[ kw_dataset.geo == 'Дальний Восток' ].head(50)
#kw_dataset.to_csv('ml-latest-small/keywords_mod.csv')
#kw_dataset.head(50)


Unnamed: 0,keyword,shows,geo
1063,фарпост владивосток,176951,Дальний Восток
2175,дром хабаровск,98361,Дальний Восток
3206,дром владивосток,73084,Дальний Восток
3275,100 сп владивосток,76418,Дальний Восток
3687,авито хабаровск,63736,Дальний Восток
5858,владивосток,43038,Дальний Восток
6260,фарпост хабаровск,40962,Дальний Восток
8039,погода в хабаровске,33437,Дальний Восток
9084,хабаровск,29655,Дальний Восток
9293,100 сп хабаровск,29475,Дальний Восток


## Задание 3 (бонусное)
Есть мнение, что “раньше снимали настоящее кино, не то что сейчас”. Ваша задача проверить это утверждение, используя файлы с рейтингами фильмов из прошлого домашнего занятия (файл movies.csv и ratings.csv из базы grouplens.org.../movielens). Т. е. проверить верно ли, что с ростом года выпуска фильма его средний рейтинг становится ниже.

При этом мы не будем затрагивать субьективные факторы выставления этих рейтингов, а пройдемся по следующему алгоритму:

В переменную years запишите список из всех годов с 1950 по 2010.

Напишите функцию production_year, которая каждой строке из названия фильма выставляет год выпуска. Не все названия фильмов содержат год выпуска в одинаковом формате, поэтому используйте следующий алгоритм:

для каждой строки пройдите по всем годам списка years
если номер года присутствует в названии фильма, то функция возвращает этот год как год выпуска
если ни один из номеров года списка years не встретился в названии фильма, то возвращается 1900 год
Запишите год выпуска фильма по алгоритму пункта 2 в новый столбец ‘year’

Посчитайте средний рейтинг всех фильмов для каждого значения столбца ‘year’ и отсортируйте результат по убыванию рейтинга

P.S. все файлы находятся в архиве «дополнительные файлы к лекции и дз»

___
## Решение задания 3

In [30]:
import pandas as pd

# инициализируем список годов с 1950 по 2010
years = range(1950, 2011)

# Функция для определения года выпуска фильма
def define_year(data):
    # задаем значение года по умолчанию
    ret = 1900
    for year in years:
        if str(year) in data:
            ret = year
            break
    return ret

# загружаем файл с названиями фильмов
movies_dataset = pd.read_csv('ml-latest-small/movies.csv', engine='python')

# добавляем в датафрейм колонку year, значение которой вычисляется в функции define_year
movies_dataset['year'] = movies_dataset['title'].apply(define_year)

# Получаем словарь, где ключами является год, а значениями - списки id фильмов соответствующего года
movies_by_year = movies_dataset.groupby('year').groups

# Функция, которая добавит год выпуска фильма в каждую строку датафрейма с рейтингами
def set_year(film):
    # задаем значение по умолчанию
    f_year = 1900
    for year_, films_ in movies_by_year.items():
        if film in films_:
            f_year = year_
            break
    return f_year

# Загружаем файл ratings.csv с рейтингами фильмов
ratings_dataset = pd.read_csv('ml-latest-small/ratings.csv', engine='python')

# после чтения датасета добавляем в него колонку year
ratings_dataset['year'] = ratings_dataset['movieId'].apply(set_year)
# Создаем фрейм с двумя колонками year и rating, помещая в колонку rating среднее значение рейтинга
grouped_ratings = ratings_dataset[['year', 'rating']].groupby('year').mean()
# Вытаскиваем из индекса год в отдельную колонку, сортируем результат по убыванию рейтинга
grouped_ratings.reset_index().sort_values('rating', ascending=False).head(10)




Unnamed: 0,year,rating
48,1997,3.927552
21,1970,3.717277
32,1981,3.716854
60,2009,3.678468
17,1966,3.648958
35,1984,3.613818
38,1987,3.603044
16,1965,3.600432
20,1969,3.591093
14,1963,3.582237
