In [None]:
# Предсказательные модели "metascore_rate"

# Создаем список уникальных жанров
genres = set()
for genre_list in df['genre']:
    genres.update(genre_list.split(', '))

# Создаем новые столбцы для каждого жанра и заполняем их нулями
for genre in genres:
    df[genre] = 0

# Обновляем значения столбцов жанров
for index, row in df.iterrows():
    genre_list = row['genre'].split(', ')
    for genre in genre_list:
        df.at[index, genre] = 1
df.head()

# Извлекаем год выпуска фильма и сохраняем его в отдельный столбец "release_year"
df['release_year'] = df['release_year'].str.extract(r'(\d{4})')

# Удаляем скобки и "(I)" из столбца "release_year"
df['release_year'] = df['release_year'].str.replace(r'\(I\)', '')

# Преобразуем столбец "release_year" в числовой формат
df['release_year'] = df['release_year'].astype(int)

# Удаление столбца "genre"
df_1 = df.drop({"name", "genre", "global_rate"}, axis=1)

# Удаление слова "min" и преобразование значения в числовой тип данных
df_1["duration"] = df_1["duration"].str.replace(" min", "")

# Замена пропущенных значений на нули
df_1["duration"].fillna(0, inplace=True)
df_1["duration"] = df_1["duration"].astype(int)

# Нормализация значений в столбцах
df_1["release_year"] = pd.to_numeric(df["release_year"], errors='coerce').astype(float)
df_1["imdb_rate"] = df_1["imdb_rate"].str.replace(',', '.').astype(float)
df_1["metascore_rate"] = pd.to_numeric(df["metascore_rate"], errors='coerce').astype(float)
df_1["votes"] = pd.to_numeric(df["votes"], errors='coerce').astype(float)

cols_to_normalize = ["release_year", "imdb_rate", "metascore_rate", "votes", "duration"]
df_1[cols_to_normalize] = df_1[cols_to_normalize].apply(lambda x: (x - x.min()) / (x.max() - x.min()))

df_train, df_test = train_test_split(df_1, test_size=0.2,  random_state=38)

# Выделение признаков и целевой переменной в обучающей выборке
X_train = df_train.drop("metascore_rate", axis=1)
y_train = df_train["metascore_rate"]

# Создание и обучение модели линейной регрессии
model = LinearRegression()
model.fit(X_train, y_train)

# Выделение признаков в тестовой выборке
X_test = df_test.drop("metascore_rate", axis=1)

# Выполнение предсказания для тестовой выборки
y_pred = model.predict(X_test)

# Вычисление метрик оценки модели
mse = mean_squared_error(df_test["metascore_rate"], y_pred)
r2 = r2_score(df_test["metascore_rate"], y_pred)
print('LinearRegression')

# Вывод значений метрик
print("Mean Squared Error:", mse)
print("R-squared:", r2)


# Построение гистограммы разницы
diff = y_test - y_pred
plt.hist(diff, bins='auto')
plt.xlabel('Difference (y_test - y_pred)')
plt.ylabel('Frequency')
plt.title('Histogram of Difference between y_test and y_pred')
plt.show()


print('______________')
print('GradientBoostingRegressor')
# Разделение данных на признаки и целевую переменную
X_train = df_train.drop("metascore_rate", axis=1)
y_train = df_train["metascore_rate"]

X_test = df_test.drop("metascore_rate", axis=1)
y_test = df_test["metascore_rate"]

# Создание и обучение модели градиентного бустинга
model = GradientBoostingRegressor()
model.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = model.predict(X_test)

mse = mean_squared_error(df_test["metascore_rate"], y_pred)
r2 = r2_score(df_test["metascore_rate"], y_pred)

print("Mean Squared Error:", mse)
print("R-squared:", r2)

diff = y_test - y_pred
plt.hist(diff, bins='auto')
plt.xlabel('Difference (y_test - y_pred)')
plt.ylabel('Frequency')
plt.title('Histogram of Difference between y_test and y_pred')
plt.show()


print('______________')
print('RandomForestRegressor')
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import accuracy_score, roc_auc_score, precision_score, recall_score

# Разделение данных на признаки и целевую переменную
X_train = df_train.drop("metascore_rate", axis=1)
y_train = df_train["metascore_rate"]

X_test = df_test.drop("metascore_rate", axis=1)
y_test = df_test["metascore_rate"]

# Создание и обучение модели случайного леса
model = RandomForestRegressor()
model.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = model.predict(X_test)

# Округление предсказанных значений до целых чисел
y_pred = y_pred.round()

mse = mean_squared_error(df_test["metascore_rate"], y_pred)
r2 = r2_score(df_test["metascore_rate"], y_pred)

print("Mean Squared Error:", mse)
print("R-squared:", r2)

diff = y_test - y_pred
plt.hist(diff, bins='auto')
plt.xlabel('Difference (y_test - y_pred)')
plt.ylabel('Frequency')
plt.title('Histogram of Difference between y_test and y_pred')
plt.show()


print('______________')
print('SVR')
# Разделение данных на признаки и целевую переменную
X_train = df_train.drop("metascore_rate", axis=1)
y_train = df_train["metascore_rate"]

X_test = df_test.drop("metascore_rate", axis=1)
y_test = df_test["metascore_rate"]

# Создание и обучение модели метода опорных векторов
model = SVR()
model.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = model.predict(X_test)

# Вычисление метрик
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Вывод результатов
print("Mean Squared Error:", mse)
print("R-squared:", r2)

diff = y_test - y_pred
plt.hist(diff, bins='auto')
plt.xlabel('Difference (y_test - y_pred)')
plt.ylabel('Frequency')
plt.title('Histogram of Difference between y_test and y_pred')
plt.show()

In [None]:
#Предсказательные модели "imdb_rate"

df = pd.read_csv('result_films.csv')
df = df.drop('description', axis=1)

from sklearn.metrics import mean_squared_error, r2_score

# Создаем список уникальных жанров
genres = set()
for genre_list in df['genre']:
    genres.update(genre_list.split(', '))

# Создаем новые столбцы для каждого жанра и заполняем их нулями
for genre in genres:
    df[genre] = 0

# Обновляем значения столбцов жанров
for index, row in df.iterrows():
    genre_list = row['genre'].split(', ')
    for genre in genre_list:
        df.at[index, genre] = 1
df.head()

# Извлекаем год выпуска фильма и сохраняем его в отдельный столбец "release_year"
df['release_year'] = df['release_year'].str.extract(r'(\d{4})')

# Удаляем скобки и "(I)" из столбца "release_year"
df['release_year'] = df['release_year'].str.replace(r'\(I\)', '')

# Преобразуем столбец "release_year" в числовой формат
df['release_year'] = df['release_year'].astype(int)

# Удаление столбца "genre"
df_1 = df.drop({"name", "genre", "global_rate"}, axis=1)

# Удаление слова "min" и преобразование значения в числовой тип данных
df_1["duration"] = df_1["duration"].str.replace(" min", "")

# Замена пропущенных значений на нули
df_1["duration"].fillna(0, inplace=True)
df_1["duration"] = df_1["duration"].astype(int)

# Нормализация значений в столбцах
df_1["release_year"] = pd.to_numeric(df["release_year"], errors='coerce').astype(float)
df_1["imdb_rate"] = df_1["imdb_rate"].str.replace(',', '.').astype(float)
df_1["metascore_rate"] = pd.to_numeric(df["metascore_rate"], errors='coerce').astype(float)
df_1["votes"] = pd.to_numeric(df["votes"], errors='coerce').astype(float)

cols_to_normalize = ["release_year", "imdb_rate", "metascore_rate", "votes", "duration"]
df_1[cols_to_normalize] = df_1[cols_to_normalize].apply(lambda x: (x - x.min()) / (x.max() - x.min()))

df_train, df_test = train_test_split(df_1, test_size=0.2,  random_state=38)

# Выделение признаков и целевой переменной в обучающей выборке
X_train = df_train.drop('imdb_rate', axis=1)
y_train = df_train['imdb_rate']

# Создание и обучение модели линейной регрессии
model = LinearRegression()
model.fit(X_train, y_train)

# Выделение признаков в тестовой выборке
X_test = df_test.drop('imdb_rate', axis=1)

# Выполнение предсказания для тестовой выборки
y_pred = model.predict(X_test)

# Вычисление метрик оценки модели
mse = mean_squared_error(df_test['imdb_rate'], y_pred)
r2 = r2_score(df_test['imdb_rate'], y_pred)
print('LinearRegression')

# Вывод значений метрик
print("Mean Squared Error:", mse)
print("R-squared:", r2)

print('______________')
print('GradientBoostingRegressor')
# Разделение данных на признаки и целевую переменную
X_train = df_train.drop('imdb_rate', axis=1)
y_train = df_train['imdb_rate']

X_test = df_test.drop('imdb_rate', axis=1)
y_test = df_test['imdb_rate']

# Создание и обучение модели градиентного бустинга
model = GradientBoostingRegressor()
model.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = model.predict(X_test)

mse = mean_squared_error(df_test['imdb_rate'], y_pred)
r2 = r2_score(df_test['imdb_rate'], y_pred)

print("Mean Squared Error:", mse)
print("R-squared:", r2)


print('______________')
print('RandomForestRegressor')
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import accuracy_score, roc_auc_score, precision_score, recall_score

# Разделение данных на признаки и целевую переменную
X_train = df_train.drop('imdb_rate', axis=1)
y_train = df_train['imdb_rate']

X_test = df_test.drop('imdb_rate', axis=1)
y_test = df_test['imdb_rate']

# Создание и обучение модели случайного леса
model = RandomForestRegressor()
model.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = model.predict(X_test)

# Округление предсказанных значений до целых чисел
y_pred = y_pred.round()

mse = mean_squared_error(df_test['imdb_rate'], y_pred)
r2 = r2_score(df_test['imdb_rate'], y_pred)

print("Mean Squared Error:", mse)
print("R-squared:", r2)

print('______________')
print('SVR')
# Разделение данных на признаки и целевую переменную
X_train = df_train.drop('imdb_rate', axis=1)
y_train = df_train['imdb_rate']

X_test = df_test.drop('imdb_rate', axis=1)
y_test = df_test['imdb_rate']

# Создание и обучение модели метода опорных векторов
model = SVR()
model.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = model.predict(X_test)

# Вычисление метрик
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Вывод результатов
print("Mean Squared Error:", mse)
print("R-squared:", r2)


In [None]:
# №1 Предсказательные модели года с "global_rate", если год - непрерывный, GradientBoostingClassifier
# удалены без фильмы global rate

df = pd.read_csv('result_films.csv')
df = df.drop('description', axis=1)

from sklearn.metrics import mean_squared_error, r2_score

# Создаем список уникальных жанров
genres = set()
for genre_list in df['genre']:
    genres.update(genre_list.split(', '))

# Создаем новые столбцы для каждого жанра и заполняем их нулями
for genre in genres:
    df[genre] = 0

# Обновляем значения столбцов жанров
for index, row in df.iterrows():
    genre_list = row['genre'].split(', ')
    for genre in genre_list:
        df.at[index, genre] = 1
df.head()

# Извлекаем год выпуска фильма и сохраняем его в отдельный столбец "release_year"
df['release_year'] = df['release_year'].str.extract(r'(\d{4})')

# Удаляем скобки и "(I)" из столбца "release_year"
df['release_year'] = df['release_year'].str.replace(r'\(I\)', '')

# Преобразуем столбец "release_year" в числовой формат
df['release_year'] = df['release_year'].astype(int)

# Удаление столбца "genre"
df_1 = df.drop({"name", "genre", "global_rate"}, axis=1)

# Удаление слова "min" и преобразование значения в числовой тип данных
df_1["duration"] = df_1["duration"].str.replace(" min", "")

# Замена пропущенных значений на нули
df_1["duration"].fillna(0, inplace=True)
df_1["duration"] = df_1["duration"].astype(int)

# Нормализация значений в столбцах
#df_1["release_year"] = pd.to_numeric(df["release_year"], errors='coerce').astype(float)
df_1["global_rate"] = pd.to_numeric(df["global_rate"], errors='coerce').astype(float)
df_1["imdb_rate"] = df_1["imdb_rate"].str.replace(',', '.').astype(float)
df_1["metascore_rate"] = pd.to_numeric(df["metascore_rate"], errors='coerce').astype(float)
df_1["votes"] = pd.to_numeric(df["votes"], errors='coerce').astype(float)

cols_to_normalize = ["imdb_rate", "metascore_rate", "votes", "duration","global_rate"]
df_1[cols_to_normalize] = df_1[cols_to_normalize].apply(lambda x: (x - x.min()) / (x.max() - x.min()))

# Замена значений NaN на медиану
df_1.dropna(subset=['global_rate'], inplace=True)

# Выделение признаков и целевой переменной
X = df_1.drop("release_year", axis=1)  # Признаки
y = df_1["release_year"]  # Целевая переменная

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение модели линейной регрессии
model = LinearRegression()
model.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = model.predict(X_test)


# Вычисление MSE
mse = mean_squared_error(y_test, y_pred)

# Вычисление RMSE
rmse = np.sqrt(mse)

# Вычисление MAE
mae = mean_absolute_error(y_test, y_pred)

# Вычисление R^2 Score
r2 = r2_score(y_test, y_pred)

# Вывод результатов
print("Mean Squared Error:", mse)
print("Root Mean Squared Error:", rmse)
print("Mean Absolute Error:", mae)
print("R^2 Score:", r2)

# Создание DataFrame с реальными значениями и предсказанными значениями
df_results = pd.DataFrame({'y_test': y_test, 'y_pred': y_pred})

# Вывод таблицы с результатами
print(df_results)

# Построение диаграммы рассеяния
plt.scatter(y_test, y_pred)
plt.xlabel('y_test')
plt.ylabel('y_pred')
plt.title('Scatter Plot: y_test vs y_pred')
plt.show()

# Построение гистограммы разницы
plt.hist(diff, bins='auto')
plt.xlabel('Difference (y_test - y_pred)')
plt.ylabel('Frequency')
plt.title('Histogram of Difference between y_test and y_pred')
plt.show()

# Создание DataFrame с реальными значениями, предсказанными значениями и разницей
df_results['difference'] = df_results['y_test'] - df_results['y_pred']

# Сортировка DataFrame по столбцу 'difference' в порядке убывания
df_results_sorted = df_results.sort_values('difference', ascending=False)

# Получение 5 наибольших и 5 наименьших разниц
top_5_largest_diff = df_results_sorted.head(5)
top_5_smallest_diff = df_results_sorted.tail(5)

# Получение названий фильмов по номерам из столбца 'name'
top_5_largest_diff_movies = df.loc[top_5_largest_diff.index, 'name']
top_5_smallest_diff_movies = df.loc[top_5_smallest_diff.index, 'name']

# Вывод результатов
print("Five largest differences:")
for i, movie in top_5_largest_diff_movies.iteritems():
    diff = top_5_largest_diff.loc[i, 'difference']
    y_test_val = top_5_largest_diff.loc[i, 'y_test']
    y_pred_val = top_5_largest_diff.loc[i, 'y_pred']
    print(f"Movie: {movie}, Difference: {diff}, y_test: {y_test_val}, y_pred: {y_pred_val}")

print("\nFive smallest differences:")
for i, movie in top_5_smallest_diff_movies.iteritems():
    diff = top_5_smallest_diff.loc[i, 'difference']
    y_test_val = top_5_smallest_diff.loc[i, 'y_test']
    y_pred_val = top_5_smallest_diff.loc[i, 'y_pred']
    print(f"Movie: {movie}, Difference: {diff}, y_test: {y_test_val}, y_pred: {y_pred_val}")

In [None]:
# №1 Предсказательные модели года с "global_rate", если год - катигориальный признак, RandomForestClassifier
# удалены без global rate

df = pd.read_csv('result_films.csv')
df = df.drop('description', axis=1)

# Создаем список уникальных жанров
genres = set()
for genre_list in df['genre']:
    genres.update(genre_list.split(', '))

# Создаем новые столбцы для каждого жанра и заполняем их нулями
for genre in genres:
    df[genre] = 0

# Обновляем значения столбцов жанров
for index, row in df.iterrows():
    genre_list = row['genre'].split(', ')
    for genre in genre_list:
        df.at[index, genre] = 1
df.head()

# Извлекаем год выпуска фильма и сохраняем его в отдельный столбец "release_year"
df['release_year'] = df['release_year'].str.extract(r'(\d{4})')

# Удаляем скобки и "(I)" из столбца "release_year"
df['release_year'] = df['release_year'].str.replace(r'\(I\)', '')

# Преобразуем столбец "release_year" в числовой формат
df['release_year'] = df['release_year'].astype(int)

# Удаление столбца "genre"
df_1 = df.drop({"name", "genre", "global_rate"}, axis=1)

# Удаление слова "min" и преобразование значения в числовой тип данных
df_1["duration"] = df_1["duration"].str.replace(" min", "")

# Замена пропущенных значений на нули
df_1["duration"].fillna(0, inplace=True)
df_1["duration"] = df_1["duration"].astype(int)

# Нормализация значений в столбцах
#df_1["release_year"] = pd.to_numeric(df["release_year"], errors='coerce').astype(float)
df_1["global_rate"] = pd.to_numeric(df["global_rate"], errors='coerce').astype(float)
df_1["imdb_rate"] = df_1["imdb_rate"].str.replace(',', '.').astype(float)
df_1["metascore_rate"] = pd.to_numeric(df["metascore_rate"], errors='coerce').astype(float)
df_1["votes"] = pd.to_numeric(df["votes"], errors='coerce').astype(float)

cols_to_normalize = ["imdb_rate", "metascore_rate", "votes", "duration","global_rate"]
df_1[cols_to_normalize] = df_1[cols_to_normalize].apply(lambda x: (x - x.min()) / (x.max() - x.min()))

# Замена значений NaN на медиану
df_1.dropna(subset=['global_rate'], inplace=True)

# Разделение данных на признаки (X) и целевую переменную (y)
X = df_1.drop("release_year", axis=1)
y = df_1["release_year"]

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Создание и обучение модели случайного леса
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# Предсказание года выпуска фильма на тестовой выборке
y_pred = model.predict(X_test)

# Вычисление accuracy
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy Score:", accuracy)

# Создание DataFrame с реальными значениями и предсказанными значениями
df_results = pd.DataFrame({'y_test': y_test, 'y_pred': y_pred})

# Вывод таблицы с результатами
print(df_results)

# Построение диаграммы рассеяния
plt.scatter(y_test, y_pred)
plt.xlabel('y_test')
plt.ylabel('y_pred')
plt.title('Scatter Plot: y_test vs y_pred')
plt.show()

# Вычисление разницы между y_test и y_pred
diff = y_test - y_pred

# Построение гистограммы разницы
plt.hist(diff, bins='auto')
plt.xlabel('Difference (y_test - y_pred)')
plt.ylabel('Frequency')
plt.title('Histogram of Difference between y_test and y_pred')
plt.show()

# Создание DataFrame с реальными значениями, предсказанными значениями и разницей
df_results['difference'] = df_results['y_test'] - df_results['y_pred']

# Сортировка DataFrame по столбцу 'difference' в порядке убывания
df_results_sorted = df_results.sort_values('difference', ascending=False)

# Получение 5 наибольших и 5 наименьших разниц
top_5_largest_diff = df_results_sorted.head(5)
top_5_smallest_diff = df_results_sorted.tail(5)

# Получение названий фильмов по номерам из столбца 'name'
top_5_largest_diff_movies = df.loc[top_5_largest_diff.index, 'name']
top_5_smallest_diff_movies = df.loc[top_5_smallest_diff.index, 'name']

# Вывод результатов
print("Five largest differences:")
for i, movie in top_5_largest_diff_movies.iteritems():
    diff = top_5_largest_diff.loc[i, 'difference']
    y_test_val = top_5_largest_diff.loc[i, 'y_test']
    y_pred_val = top_5_largest_diff.loc[i, 'y_pred']
    print(f"Movie: {movie}, Difference: {diff}, y_test: {y_test_val}, y_pred: {y_pred_val}")

print("\nFive smallest differences:")
for i, movie in top_5_smallest_diff_movies.iteritems():
    diff = top_5_smallest_diff.loc[i, 'difference']
    y_test_val = top_5_smallest_diff.loc[i, 'y_test']
    y_pred_val = top_5_smallest_diff.loc[i, 'y_pred']
    print(f"Movie: {movie}, Difference: {diff}, y_test: {y_test_val}, y_pred: {y_pred_val}")
