Для решения задач нам понадобится выделить из признака title год выпуска фильма. Для этого напишем функцию get_year_release(arg).

In [3]:
import pandas as pd

ratings_movies = pd.read_csv('data/ratings_movies.csv')
ratings_movies.head()

Unnamed: 0.1,Unnamed: 0,userId,movieId,rating,date,title,genres
0,0,1,1,4.0,2000-07-30 18:45:03,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,1,1,3,4.0,2000-07-30 18:20:47,Grumpier Old Men (1995),Comedy|Romance
2,2,1,6,4.0,2000-07-30 18:37:04,Heat (1995),Action|Crime|Thriller
3,3,1,47,5.0,2000-07-30 19:03:35,Seven (a.k.a. Se7en) (1995),Mystery|Thriller
4,4,1,50,5.0,2000-07-30 18:48:51,"Usual Suspects, The (1995)",Crime|Mystery|Thriller


In [8]:
#библиотека для регулярных выражений
import re 
def get_year_release(arg):
    #находим все слова по шаблону "(DDDD)"
    candidates = re.findall(r'\(\d{4}\)', arg) 
    # проверяем число вхождений
    if len(candidates) > 0:
        #если число вхождений больше 0,
	#очищаем строку от знаков "(" и ")"
        year = candidates[0].replace('(', '')
        year = year.replace(')', '')
        return int(year)
    else:
        #если год не указан, возвращаем None
        return None

Данная функция основана на регулярных выражениях и использует модуль re, с которым мы пока не работали.

→ Модуль re предназначен для поиска шаблонов в тексте и встроен в язык, поэтому не нуждается в установке.

Из модуля re нам понадобится только функция findall(), которая позволяет найти в строке все слова, удовлетворяющие шаблону. Мы находим в строке с названием фильма шаблон "(DDDD)" — четыре цифры, обёрнутых в скобки, что соответствует году выпуска фильма. Если такого шаблона не было найдено (год выпуска не указан), функция возвращает None (в таблице это будет помечено как пропуск).

## Задачи

Задание 1

Создайте в таблице новый признак year_release, который соответствует году выпуска фильма.\
У скольких фильмов не указан год их выпуска?

In [5]:

# Извлекаем год выпуска из названия фильма
ratings_movies['year_release'] = ratings_movies['title'].str.extract(r'\((\d{4})\)').astype(float)

# Считаем количество фильмов, у которых год выпуска отсутствует
missing_year_count = ratings_movies['year_release'].isna().sum()

# Выводим таблицу и результат
print(ratings_movies)
print(f"Количество фильмов без указанного года выпуска: {missing_year_count}")

        Unnamed: 0  userId  movieId  rating                 date  \
0                0       1        1     4.0  2000-07-30 18:45:03   
1                1       1        3     4.0  2000-07-30 18:20:47   
2                2       1        6     4.0  2000-07-30 18:37:04   
3                3       1       47     5.0  2000-07-30 19:03:35   
4                4       1       50     5.0  2000-07-30 18:48:51   
...            ...     ...      ...     ...                  ...   
100831      100831     610   166534     4.0  2017-05-03 21:53:22   
100832      100832     610   168248     5.0  2017-05-03 22:21:31   
100833      100833     610   168250     5.0  2017-05-08 19:50:47   
100834      100834     610   168252     5.0  2017-05-03 21:19:12   
100835      100835     610   170875     3.0  2017-05-03 21:20:15   

                                 title  \
0                     Toy Story (1995)   
1              Grumpier Old Men (1995)   
2                          Heat (1995)   
3          Seve

Задание 2

Какой фильм, выпущенный в 1999 году, получил наименьшую среднюю оценку зрителей?\
В качестве ответа запишите название этого фильма без указания года его выпуска.

In [11]:
# Извлекаем год выпуска из названия фильма
ratings_movies['year'] = ratings_movies['title'].str.extract(r'\((\d{4})\)')

# Преобразуем год в числовой формат, игнорируя ошибки
ratings_movies['year'] = pd.to_numeric(ratings_movies['year'], errors='coerce')

# Фильтруем фильмы, выпущенные в 1999 году
movies_1999 = ratings_movies[ratings_movies['year'] == 1999]

# Вычисляем средние оценки для каждого фильма
average_ratings = movies_1999.groupby('title')['rating'].mean().reset_index()

# Находим фильм с наименьшей средней оценкой
lowest_rated_movie = average_ratings.loc[average_ratings['rating'].idxmin()]

# Вывод результата
print(f"Фильм с наименьшей средней оценкой: {lowest_rated_movie['title']}")


Фильм с наименьшей средней оценкой: Bloodsport: The Dark Kumite (1999)


In [12]:
# Если нужно узнать количество фильмов без года:
# Перед фильтрацией можно посчитать строки, где year равен NaN:


missing_years_count = ratings_movies['year'].isna().sum()
print(f"Количество фильмов без указания года выпуска: {missing_years_count}")


Количество фильмов без указания года выпуска: 18


Задание 3

Какое сочетание жанров фильмов (genres), выпущенных в 2010 году, получило наименьшую среднюю оценку (rating)?\
Запишите сочетание так же, как оно указано в таблице (через разделитель |, без пробелов).

In [48]:
# Фильтруем данные по году выпуска (2010)
movies_2010 = ratings_movies[ratings_movies['year'] == 2010]

# Группируем по жанрам и вычисляем средний рейтинг
average_ratings_genres = movies_2010.groupby('genres')['rating'].mean().reset_index()

# Сортируем по возрастанию среднего рейтинга
sorted_ratings = average_ratings_genres.sort_values(by='rating')

# Находим жанр с наименьшей средней оценкой
lowest_rated_genres = sorted_ratings.iloc[0]

# Выводим результат
print(f"Сочетание жанров с наименьшей средней оценкой: {lowest_rated_genres['genres']}")


Сочетание жанров с наименьшей средней оценкой: Неизвестно


Задание 4

Какой пользователь (userId) посмотрел наибольшее количество различных (уникальных) комбинаций жанров (genres) фильмов? В качестве ответа запишите\ идентификатор этого пользователя.

In [56]:
# Создаем столбец с уникальной комбинацией жанров для каждого фильма
ratings_movies['genre_combination'] = ratings_movies['genres'].apply(lambda x: tuple(sorted(x.split('|'))))

# Сгруппируем по пользователям и посчитаем количество уникальных комбинаций жанров
unique_genre_combinations_per_user = ratings_movies.groupby('userId')['genre_combination'].nunique()

# Сортируем по убыванию
sorted_unique_genre_combinations = unique_genre_combinations_per_user.sort_values(ascending=False)

# Индекс первой строки будет пользователем с наибольшим количеством уникальных жанров
user_with_most_genre_combinations = sorted_unique_genre_combinations.idxmax()

# Выводим результат
print(f"Пользователь с наибольшим количеством уникальных жанров: {user_with_most_genre_combinations}")

Пользователь с наибольшим количеством уникальных жанров: 610


Задание 5

Найдите пользователя, который выставил наименьшее количество оценок, но его средняя оценка фильмам наибольшая.\
В качестве ответа укажите идентификатор этого пользователя.\
Чтобы рассчитать несколько параметров для каждого пользователя (количество оценок и среднюю оценку), можно воспользоваться методом agg() на сгруппированных данных.

In [57]:
# Группируем данные по userId и рассчитываем количество оценок и среднюю оценку
user_stats = ratings_movies.groupby('userId').agg(
    count_ratings=('rating', 'count'),
    avg_rating=('rating', 'mean')
).reset_index()

# Сортируем по средней оценке (по убыванию) и по количеству оценок (по возрастанию)
sorted_user_stats = user_stats.sort_values(by=['avg_rating', 'count_ratings'], ascending=[False, True])

# Извлекаем пользователя с наибольшей средней оценкой и наименьшим количеством оценок
user_with_best_rating = sorted_user_stats.iloc[0]

# Выводим идентификатор этого пользователя
print(user_with_best_rating['userId'])

53.0


адание 6

Найдите сочетание жанров (genres) за 2018 год, которое имеет наибольший средний рейтинг (среднее по столбцу rating), и при этом число выставленных ему оценок (количество значений в столбце rating) больше 10.\
Запишите сочетание так же, как оно указано в таблице (через разделитель |, без пробелов).


In [59]:
# Фильтруем данные по году выпуска 2018
movies_2018 = ratings_movies[ratings_movies['year'] == 2018]

# Группируем по жанрам и рассчитываем средний рейтинг и количество оценок
genre_stats = movies_2018.groupby('genres').agg(
    avg_rating=('rating', 'mean'),
    count_ratings=('rating', 'count')
).reset_index()

# Фильтруем сочетания жанров с количеством оценок больше 10
genre_stats_filtered = genre_stats[genre_stats['count_ratings'] > 10]

# Сортируем по среднему рейтингу по убыванию
genre_stats_sorted = genre_stats_filtered.sort_values(by='avg_rating', ascending=False)

# Индекс первой строки будет содержать сочетание жанров с наибольшим рейтингом
best_genre_combination = genre_stats_sorted.iloc[0]['genres']

# Выводим результат
print(best_genre_combination)

Неизвестно


Задание 8.7

Добавьте в таблицу новый признак year_rating — год выставления оценки. Создайте сводную таблицу, которая иллюстрирует зависимость среднего рейтинга фильма от года выставления оценки и жанра. 

In [64]:
import pandas as pd

# Загружаем данные
ratings_movies = pd.read_csv('data/ratings_movies.csv')

# Преобразуем столбец 'date' в формат datetime и извлекаем год
ratings_movies['year_rating'] = pd.to_datetime(ratings_movies['date']).dt.year

# Создаем сводную таблицу с зависимостью среднего рейтинга от года и жанра
pivot_table = ratings_movies.pivot_table(
    values='rating', 
    index='year_rating', 
    columns='genres', 
    aggfunc='mean', 
    fill_value=0
)

# Выводим сводную таблицу
print(pivot_table)


genres       (no genres listed)    Action  Action|Adventure  \
year_rating                                                   
1996                   0.000000  2.730769          3.454545   
1997                   0.000000  3.538462          4.150000   
1998                   0.000000  0.000000          4.200000   
1999                   0.000000  0.000000          4.000000   
2000                   0.000000  2.588235          3.738462   
2001                   0.000000  3.000000          3.500000   
2002                   0.000000  2.750000          4.304348   
2003                   0.000000  3.833333          3.277778   
2004                   0.000000  2.700000          4.136364   
2005                   0.000000  3.357143          3.413043   
2006                   0.000000  2.166667          4.090909   
2007                   0.000000  2.583333          3.666667   
2008                   0.000000  3.000000          3.656250   
2009                   0.000000  0.000000          3.71

In [65]:
# Проверка A: Минимальная оценка для сочетания Action|Adventure
action_adventure = pivot_table['Action|Adventure']
min_action_adventure = action_adventure.min()

# Проверка B: Средний рейтинг для сочетания Action|Adventure|Animation|Children|Comedy|IMAX в 2010 году
rating_2010 = pivot_table.loc[2010, 'Action|Adventure|Animation|Children|Comedy|IMAX']

# Проверка C: Наивысшие средние оценки для 2018 года
rating_2018 = pivot_table.loc[2018]
max_rating_2018 = rating_2018.max()
genres_max_rating_2018 = rating_2018[rating_2018 == max_rating_2018].index.tolist()

# Проверка D: Тренд изменения среднего рейтинга для жанра Comedy
comedy_rating_trend = pivot_table['Comedy']

# Вывод результатов
(min_action_adventure, rating_2010, genres_max_rating_2018, comedy_rating_trend)


(np.float64(3.2777777777777777),
 np.float64(3.5),
 ['Action|Comedy|Documentary',
  'Action|Crime|Sci-Fi|Thriller',
  'Action|Crime|Thriller|Western',
  'Adventure|Children|Comedy|Fantasy|Mystery',
  'Adventure|Fantasy|Musical',
  'Animation|Children|Mystery',
  'Animation|Comedy|Drama',
  'Animation|Comedy|Drama|Fantasy|Sci-Fi',
  'Animation|Comedy|Fantasy|Musical',
  'Animation|Crime|Drama',
  'Comedy|Crime|Fantasy',
  'Comedy|Crime|Horror|Thriller',
  'Comedy|Drama|Fantasy|Mystery|Romance',
  'Comedy|Fantasy|Horror|Musical|Thriller',
  'Comedy|Horror|Mystery',
  'Crime|Fantasy|Horror',
  'Crime|Mystery',
  'Drama|Horror|Mystery|Sci-Fi|Thriller',
  'Drama|Romance|War',
  'Mystery|Romance|Sci-Fi|Thriller',
  'Romance|Sci-Fi'],
 year_rating
 1996    3.228571
 1997    3.409091
 1998    3.000000
 1999    3.606061
 2000    3.141291
 2001    3.318408
 2002    3.198556
 2003    3.120066
 2004    3.356877
 2005    2.963325
 2006    3.347534
 2007    2.928187
 2008    3.426667
 2009    3.2732

In [66]:
# Переводим столбец 'date' в формат datetime
ratings_movies['date'] = pd.to_datetime(ratings_movies['date'])

# Извлекаем год из столбца 'date' и создаем новый столбец 'year_rating'
ratings_movies['year_rating'] = ratings_movies['date'].dt.year

# Создаем сводную таблицу: годы (year_rating), жанры (genres), средняя оценка (rating)
pivot_table = pd.pivot_table(ratings_movies, 
                             values='rating', 
                             index='year_rating', 
                             columns='genres', 
                             aggfunc='mean')

# Выводим сводную таблицу
print(pivot_table)

genres       (no genres listed)    Action  Action|Adventure  \
year_rating                                                   
1996                        NaN  2.730769          3.454545   
1997                        NaN  3.538462          4.150000   
1998                        NaN       NaN          4.200000   
1999                        NaN       NaN          4.000000   
2000                        NaN  2.588235          3.738462   
2001                        NaN  3.000000          3.500000   
2002                        NaN  2.750000          4.304348   
2003                        NaN  3.833333          3.277778   
2004                        NaN  2.700000          4.136364   
2005                        NaN  3.357143          3.413043   
2006                        NaN  2.166667          4.090909   
2007                        NaN  2.583333          3.666667   
2008                        NaN  3.000000          3.656250   
2009                        NaN       NaN          3.71