Для решения задач нам понадобится выделить из признака title год выпуска фильма. Для этого напишем функцию get_year_release(arg).

Из модуля re нам понадобится только функция findall(), которая позволяет найти в строке все слова, удовлетворяющие шаблону. Мы находим в строке с названием фильма шаблон "(DDDD)" — четыре цифры, обёрнутых в скобки, что соответствует году выпуска фильма. Если такого шаблона не было найдено (год выпуска не указан), функция возвращает None (в таблице это будет помечено как пропуск).

In [7]:
import re
import pandas as pd

def get_year_release(arg):
    # находим все слова по шаблону "(DDDD)"
    candidates = re.findall(r'\(\d{4}\)', arg) 
    # проверяем число вхождений
    if len(candidates) > 0:
        # если число вхождений больше 0, очищаем строку от знаков "(" и ")"
        return candidates[0].strip('()')
    else:
        return None

ratings = pd.read_csv('data/ratings_movies.csv')
ratings['year_release'] = ratings['title'].apply(get_year_release)
ratings['year_release'] = pd.to_datetime(ratings['year_release'])

# Фильтруем фильмы, выпущенные в 1999 году
movies_1999 = ratings[ratings['year_release'] == '1999']

# Группируем фильмы по названию и вычисляем среднюю оценку зрителей
average_ratings = movies_1999.groupby('genres')['rating'].mean()

# Находим фильм с наименьшей средней оценкой
film_with_lowest_rating = average_ratings.idxmin()

# Выводим информацию о фильме с наименьшей средней оценкой
film_info = ratings[ratings['genres'] == film_with_lowest_rating]
# display(film_info)

# ratings.groupby('title')['rating'].min().sort_values(ascending=False)

# mask = (ratings['year_release'] == '1999')

# ratings_mask = ratings[mask]

# ratings_mask.groupby('title')['rating'].agg(
#     ['count', 'sum', 'min']
# ).sort_values(by='min', ascending=False) 
c = pd.to_datetime(ratings['date']).dt.year

ratings['year_rating'] = c
# display(ratings)
# ratings.groupby(['year_rating','genres'])[['rating']].mean()
pivot_table_data = ratings.pivot_table(
    values='rating',
    index='year_rating',
    columns='genres',
    aggfunc=['mean'],
    fill_value=0
)

specific_column_data = pivot_table_data['mean']['Animation|Children|Mystery']

display(specific_column_data)




year_rating
1996    0
1997    0
1998    0
1999    0
2000    0
2001    0
2002    0
2003    0
2004    0
2005    0
2006    0
2007    0
2008    0
2009    0
2010    0
2011    0
2012    0
2013    0
2014    0
2015    0
2016    0
2017    0
2018    5
Name: Animation|Children|Mystery, dtype: int64

In [3]:
# # Фильтруем фильмы, выпущенные в 1999 году
# movies_1999 = ratings[ratings['year_release'] == '2010']

# # Группируем фильмы по названию и вычисляем среднюю оценку зрителей
# average_ratings = movies_1999.groupby('userId')

# # Находим фильм с наименьшей средней оценкой
# film_with_lowest_rating = average_ratings.nunique()

# # Выводим информацию о фильме с наименьшей средней оценкой
# film_info = ratings[ratings['userId'] == film_with_lowest_rating]
# display(film_info)

average_ratings = ratings.groupby('userId')['genres'].nunique()
average_ratings_sorted = average_ratings.sort_values(ascending=False)
display(average_ratings_sorted)

# user_with_max_unique_genres = movies_1999.groupby('userId')['genres'].nunique().idxmax()
# display(user_with_max_unique_genres)

userId
599    524
414    482
448    403
380    399
474    395
      ... 
578     15
12      15
85      13
214     13
245     13
Name: genres, Length: 610, dtype: int64

In [4]:
ratings.groupby('userId')['rating'].agg(
    ['count', 'mean', 'min']
).sort_values(by='count', ascending=False)

Unnamed: 0_level_0,count,mean,min
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
414,2698,3.391957,0.5
599,2478,2.642050,0.5
474,2108,3.398956,0.5
448,1864,2.847371,0.5
274,1346,3.235884,0.5
...,...,...,...
442,20,1.275000,0.5
569,20,4.000000,3.0
320,20,3.525000,0.5
576,20,3.100000,1.0


In [5]:
movies_1999 = ratings[ratings['year_release'] == '2018']
movies_1999.groupby('genres')['rating'].agg(
    ['count', 'mean', 'max']
).sort_values(by='count', ascending=False)

Unnamed: 0_level_0,count,mean,max
genres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Action|Adventure|Sci-Fi,14,3.928571,5.0
Action|Comedy|Sci-Fi,12,3.875,5.0
Comedy,8,3.3125,4.5
Action|Adventure|Children|Sci-Fi,5,3.9,5.0
Animation|Comedy,5,3.5,5.0
Drama|Horror|Thriller,4,2.75,4.5
Action|Adventure|Animation|Children,4,3.0,4.0
Action|Adventure|Fantasy,4,2.5,3.5
Adventure|Mystery|Sci-Fi|Thriller,3,3.833333,4.0
Action|Adventure|Comedy|Fantasy|Sci-Fi,3,3.666667,4.0


In [12]:
orders = pd.read_csv('data/orders.csv', sep=';')
products = pd.read_csv('data/products.csv', sep=';')

display(orders)



Unnamed: 0,Дата создания,Order ID,ID Покупателя,Статус,Оплачен,Отменен,Отгружен,ID товара,Количество
0,09.11.2019 21:55:51,9,10,"Принят, ожидается оплата",Нет,Нет,Нет,103,5
1,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,86,100
2,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,104,10
3,09.11.2019 12:50:07,7,8,"Принят, ожидается оплата",Нет,Нет,Нет,104,7
4,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,104,5
5,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,103,5
6,08.11.2019 08:36:22,5,5,Отменён,Нет,Да,Нет,124,1
7,08.11.2019 08:36:22,4,9,"Принят, ожидается оплата",Нет,Нет,Да,91,1
8,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,103,3
9,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,104,3


In [13]:
display(products)


Unnamed: 0,Product_ID,Name,Price,CURRENCY
0,47,Шатны Полосатый рейс,2999,RUR
1,51,Платье Аленький цветочек,4999,RUR
2,53,Штаны Цветочная Поляна,4999,RUR
3,71,Платье Ночная Жизнь,7999,RUR
4,74,Платье Ночная Жизнь XXXL,8999,RUR
5,86,"Носки Простые, муж",45,RUR
6,91,"Носки Честные, муж",50,RUR
7,103,"Носки Подарочные, муж",199,RUR
8,104,"Носки Подарочные, жен",249,RUR
9,124,Носки беговые Camino,999,RUR
