### Задача - проверить мнение “раньше снимали настоящее кино, не то что сейчас”. 
Используем файлы с рейтингами фильмов movies.csv и ratings.csv из базы https://grouplens.org/datasets/movielens)
и проверяем верно ли, что с ростом года выпуска фильма средний рейтинг становится ниже.

При этом мы не будем затрагивать субьективные факторы выставления этих рейтингов, а пройдемся по следующему алгоритму:

- в переменную years запишите список из всех годов с 1950 по 2010.
- пишем функцию production_year, которая каждой строке из названия фильма выставляет год выпуска. 

Не все названия фильмов содержат год выпуска в одинаковом формате, поэтому используем алгоритм:

- для каждой строки проходим по всем годам списка years
- если номер года присутствует в названии фильма, то функция возвращает этот год как год выпуска
- если ни один из номеров года списка years не встретился в названии фильма, то возвращается 1900 год

Записываем год выпуска фильма по алгоритму в новый столбец ‘year’

Считаем средний рейтинг всех фильмов для каждого значения столбца ‘year’ и сортируем результат по убыванию рейтинга

In [58]:
import pandas as pd

In [59]:
df_movies = pd.read_csv('ml-latest-small/movies.csv')
df_movies.head()

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


In [40]:
df_ratings = pd.read_csv('ml-latest-small/ratings.csv')
df_ratings.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [41]:
years = list(range(1950,2011))
print(years)

[1950, 1951, 1952, 1953, 1954, 1955, 1956, 1957, 1958, 1959, 1960, 1961, 1962, 1963, 1964, 1965, 1966, 1967, 1968, 1969, 1970, 1971, 1972, 1973, 1974, 1975, 1976, 1977, 1978, 1979, 1980, 1981, 1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010]


In [42]:
yearslist = list(map(str, years))
print(yearslist)

['1950', '1951', '1952', '1953', '1954', '1955', '1956', '1957', '1958', '1959', '1960', '1961', '1962', '1963', '1964', '1965', '1966', '1967', '1968', '1969', '1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977', '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995', '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010']


In [43]:
import re

In [44]:
df_movies['year_sep'] = df_movies['title'].str.extract('((?<=\()\d{4})')
df_movies.sort_values('year_sep').head()

Unnamed: 0,movieId,title,genres,year_sep
5868,32898,"Trip to the Moon, A (Voyage dans la lune, Le) ...",Action|Adventure|Fantasy|Sci-Fi,1902
6355,49389,The Great Train Robbery (1903),Crime|Western,1903
9020,140541,The Electric Hotel (1908),Animation|Comedy|Sci-Fi,1908
4743,7065,"Birth of a Nation, The (1915)",Drama|War,1915
8170,102747,"Rink, The (1916)",Comedy,1916


In [45]:
# NaN в столбце year_sep не удаляла, так как NaN не влияют на результаты вычислений

In [46]:
def production_year (df):
    if df['year_sep'] in yearslist:
        return df['year_sep']
    else:
        return '1900'   

In [47]:
df_movies['year'] = df_movies.apply(production_year, axis = 1)
df_movies.sort_values('year').head()

Unnamed: 0,movieId,title,genres,year_sep,year
7962,96283,Diary of a Wimpy Kid: Dog Days (2012),Children|Comedy,2012,1900
3590,4921,Little Women (1933),Drama|Romance,1933,1900
3589,4920,"Now, Voyager (1942)",Drama|Romance,1942,1900
4739,7061,Dark Victory (1939),Drama|Romance,1939,1900
8028,97988,"Bay, The (2012)",Horror|Sci-Fi|Thriller,2012,1900


In [48]:
joined = df_ratings.merge(df_movies, how = 'left', on = 'movieId')
joined.loc[:, ['rating', 'year']].head()

Unnamed: 0,rating,year
0,4.0,1995
1,4.0,1995
2,4.0,1995
3,5.0,1995
4,5.0,1995


In [56]:
# Топ-10 годов с лучшим средним рейтингом
joined.groupby('year').mean('rating').sort_values('rating', ascending = False).head(10)

Unnamed: 0_level_0,userId,movieId,rating,timestamp
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1957,315.865116,3012.213953,4.039535,1178092000.0
1954,315.735294,2426.022059,4.009191,1159430000.0
1962,328.343511,4645.015267,3.969466,1145154000.0
1952,356.708333,2687.71875,3.953125,1156213000.0
1964,321.351064,4900.795213,3.94016,1180442000.0
1972,321.382514,3825.718579,3.939891,1180299000.0
1974,319.420601,3556.620172,3.935622,1172035000.0
1967,312.167979,4951.223097,3.922572,1162747000.0
1975,329.66719,3207.897959,3.879121,1167952000.0
1958,341.042424,3267.648485,3.842424,1114448000.0


In [57]:
# Топ-10 годов с худшим средним рейтингом
joined.groupby('year').mean('rating').sort_values('rating', ascending = False).tail(10)

Unnamed: 0_level_0,userId,movieId,rating,timestamp
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1985,345.528698,3726.748585,3.434115,1153617000.0
1990,326.232087,3154.670301,3.42731,1129963000.0
1998,322.911161,2720.859994,3.427186,1167948000.0
1988,341.4049,4129.962605,3.418117,1155133000.0
2002,325.922845,6494.263866,3.414607,1250006000.0
2000,321.318182,4631.373946,3.398899,1211228000.0
2005,333.153723,37341.38791,3.359888,1309968000.0
1992,323.784401,3597.66766,3.354943,1133581000.0
1997,320.92067,2470.630524,3.347241,1153470000.0
1996,313.544688,1273.748281,3.335329,1067905000.0


####  Получается, что старые фильмы больше нравятся людям, которые ставят оценки. 
Ниже информация по количеству фильмов, снятых в 1957 году - с лучшим средним рейтингом и в 1996 - с худшим средним рейтингом.

In [51]:
df_movies.query("year == '1957'").count()

movieId     33
title       33
genres      33
year_sep    33
year        33
dtype: int64

In [52]:
df_movies.query("year == '1996'").count()

movieId     276
title       276
genres      276
year_sep    276
year        276
dtype: int64