In [None]:
import pandas as pd
import statsmodels.api as sm
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_percentage_error

Для последующего построения предсказательных моделей нами был использован датасет, полученный по итогам проведения этапа EDA. Также сразу была определена целевая переменная - worldwide gross (кассовые сборы):

In [None]:
df = pd.read_csv('data_after_eda.csv')
df = df.iloc[:, 1:]

target = 'worldwide_gross'

Для устранения проблемы мультиколлинеарности нами была осуществлена проверка на кросс-корреляцию между рассматриваемыми числовыми признаками: признаки, продемонстрировавшие корреляцию между собой были удалены на основании логики их расчета

In [31]:
df.select_dtypes(['int', 'float']).corr() > 0.9
df = df.drop(columns=['profit_or_loss', 'p&l_rate'])

Далее производилась предобработка категориальных переменных. Ввиду того, что в ячейках содержалось сразу несколько категорий, использовать метод get_dummies к колонкам не представлялось возможным, вследствие чего нами было принято решение сначала разделить информацию на столбцы с кодированием, а затем добавить их к исходному датасету, удалив столбцы с полным описанием всех категорий, к которым относился фильм.

In [32]:
dir = df['director'].str.strip().str.get_dummies(sep=',')
wr = df['writer'].str.strip().str.get_dummies(sep=',')
cast = df['cast'].str.strip().str.get_dummies(sep=',')
coo = df['country_of_origin'].str.strip().str.get_dummies(sep=',')
lang = df['languages'].str.strip().str.get_dummies(sep=',')
genre = df['genre'].str.strip().str.get_dummies(sep=',')

In [33]:
dir_col = ['director_' + i for i in list(dir.columns)]
dir = dir.rename(columns=dict(zip(dir.columns, dir_col)))

wr_col = ['writer_' + i for i in list(wr.columns)]
wr = wr.rename(columns=dict(zip(wr.columns, wr_col)))

cast_col = ['cast_' + i for i in list(cast.columns)]
cast = cast.rename(columns=dict(zip(cast.columns, cast_col)))

coo_col = ['coo_' + i for i in list(coo.columns)]
coo = coo.rename(columns=dict(zip(coo.columns, coo_col)))

lang_col = ['lang_' + i for i in list(lang.columns)]
lang = lang.rename(columns=dict(zip(lang.columns, lang_col)))

genre_col = ['genre_' + i for i in list(genre.columns)]
genre = genre.rename(columns=dict(zip(genre.columns, genre_col)))

In [34]:
df = df.drop(columns=['director','writer', 'cast', 'country_of_origin', 'languages','genre', 'title'])

После подготовки датасета мы разделили его на части - столбец с данными о целевой переменной и датасет с независимыми переменными (признаками)

In [None]:
X = df.drop(columns=target)
y = df[target]

Для корректного построения модели приведем числовые признаки к единому виду с помощью функции Standard Scaler и применим ее к датасету с независимыми переменными

In [35]:
from sklearn.preprocessing import StandardScaler

scale = StandardScaler()
X_sc = scale.fit_transform(X)

In [36]:
X_sc = pd.DataFrame(data=X_sc, columns=X.columns)
X = pd.concat([X_sc, dir, wr, cast, coo, lang, genre], axis = 1)

Мы разделили выборку на тестовую и обучающую в процентном соотношении 20 к 80 и зафиксировали ее результат с помощью определения random state

In [37]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, random_state = 42)

In [96]:
X_train_OLS = X_train.copy()
X_test_OLS = X_test.copy()
X_train_OLS = sm.add_constant(X_train_OLS)
X_test_OLS = sm.add_constant(X_test_OLS)
model = sm.OLS(y_train, X_train_OLS).fit()
model.summary()

  return 1 - (np.divide(self.nobs - self.k_constant, self.df_resid)
  return 1 - (np.divide(self.nobs - self.k_constant, self.df_resid)
  return np.dot(wresid, wresid) / self.df_resid
  cov_p = self.normalized_cov_params * scale


0,1,2,3
Dep. Variable:,worldwide_gross,R-squared:,1.0
Model:,OLS,Adj. R-squared:,
Method:,Least Squares,F-statistic:,
Date:,"Sun, 15 Jun 2025",Prob (F-statistic):,
Time:,15:11:33,Log-Likelihood:,14849.0
No. Observations:,1164,AIC:,-27370.0
Df Residuals:,0,BIC:,-21480.0
Df Model:,1163,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,9.66e+07,inf,0,,,
average_rating,4.495e+07,inf,0,,,
metascore,5.589e+06,inf,0,,,
runtime,-7.85e+06,inf,-0,,,
budget,1.771e+08,inf,0,,,
release_year,1.317e+07,inf,0,,,
lang_cnt,8.595e+06,inf,0,,,
country_cnt,-8.79e+06,inf,-0,,,
coproduction,1.277e+07,inf,0,,,

0,1,2,3
Omnibus:,3.171,Durbin-Watson:,1.871
Prob(Omnibus):,0.205,Jarque-Bera (JB):,3.443
Skew:,0.033,Prob(JB):,0.179
Kurtosis:,3.258,Cond. No.,64.9


Далее мы построили модель линейной регрессии, обучили ее на обучающей выборке и построили предсказание на основании данных из тестовой выборки. Метрики, а именно коэффициент детерминации и среднеквадратическая ошибка, указали на то, что модель переобучилась вследствие большого количества признаков и чрезмерного подстраивания под них. На основании полученных результатов можно сделать вывод, что согласно разработанной модели наибольшую значимость (коэффициентную) для определения успеха масштабности кассовых сборов имело наличие в составе актеров Мишель Родригез, Джованни Рибиси, Стивена Ланга и Сигурни Уивер, в роли директора - Джеймса Кэмерона.

In [93]:
model = LinearRegression()
model.fit(X_train, y_train)
y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)
print(f'R^2 для обучающей выборки равен {r2_score(y_train, y_pred_train)}')
print(f'R^2 для тестовой выборки равен {r2_score(y_test, y_pred_test)}')
print(f'MSE для обучающей выборки равна {mean_squared_error(y_train, y_pred_train)}')
print(f'MSE для тестовой выборки равна {mean_squared_error(y_test, y_pred_test)}')
LR_res = pd.DataFrame(data=(zip(X.columns, model.coef_)), columns=['params', 'coefficients'])
display(LR_res.sort_values('coefficients', ascending=False).head(7))

R^2 для обучающей выборки равен 1.0
R^2 для тестовой выборки равен 0.6192562467965594
MSE для обучающей выборки равна 7.0967315643746206e-12
MSE для тестовой выборки равна 1.8300735149809656e+16


Unnamed: 0,params,coefficients
6053,cast_ Michelle Rodriguez,352549700.0
4591,cast_ Giovanni Ribisi,323140000.0
6997,cast_ Stephen Lang,255089500.0
270,director_James Cameron,249734400.0
6926,cast_ Sigourney Weaver,249284100.0
8524,cast_Zoe Saldana,221125200.0
3548,cast_ Billy Zane,201261400.0


Для улучшения качества прогнозовы мы решили построить модели Ridge и Lasso,  методика действия которых основана на приписывании штрафов за некорректное отражение коэффициентов, что позволяет обнулить незначимые из независимых переменных, а также улучшить качество прогноза.

In [91]:
model = Ridge(alpha=25)
model.fit(X_train, y_train)
y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)
print(f'R^2 для обучающей выборки равен {r2_score(y_train, y_pred_train)}')
print(f'R^2 для тестовой выборки равен {r2_score(y_test, y_pred_test)}')
print(f'MSE для обучающей выборки равна {mean_squared_error(y_train, y_pred_train)}')
print(f'MSE для тестовой выборки равна {mean_squared_error(y_test, y_pred_test)}')
Ridge_res = pd.DataFrame(data=(zip(X.columns, model.coef_)), columns=['params', 'coefficients'])
display(Ridge_res.sort_values('coefficients', ascending=False).head(7))

R^2 для обучающей выборки равен 0.8310525445891037
R^2 для тестовой выборки равен 0.6632658021853264
MSE для обучающей выборки равна 1.0894365742288516e+16
MSE для тестовой выборки равна 1.6185382736396964e+16


Unnamed: 0,params,coefficients
3,budget,177152000.0
270,director_James Cameron,87724790.0
2463,writer_James Cameron,72478640.0
6926,cast_ Sigourney Weaver,69630220.0
6997,cast_ Stephen Lang,68926410.0
8524,cast_Zoe Saldana,66310510.0
4591,cast_ Giovanni Ribisi,56757380.0


In [92]:
model = Lasso(alpha=1000)
model.fit(X_train, y_train)
y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)
print(f'R^2 для обучающей выборки равен {r2_score(y_train, y_pred_train)}')
print(f'R^2 для тестовой выборки равен {r2_score(y_test, y_pred_test)}')
print(f'MSE для обучающей выборки равна {mean_squared_error(y_train, y_pred_train)}')
print(f'MSE для тестовой выборки равна {mean_squared_error(y_test, y_pred_test)}')
Lasso_res = pd.DataFrame(data=(zip(X.columns, model.coef_)), columns=['params', 'coefficients'])
display(Lasso_res.sort_values('coefficients', ascending=False).head(7))

  model = cd_fast.enet_coordinate_descent(


R^2 для обучающей выборки равен 0.999986914540205
R^2 для тестовой выборки равен 0.5335662576000851
MSE для обучающей выборки равна 843799538532.2357
MSE для тестовой выборки равна 2.241948899430623e+16


Unnamed: 0,params,coefficients
6053,cast_ Michelle Rodriguez,956258700.0
1088,writer_ Erik Sommers,951329500.0
374,director_Kelsey Mann,949569400.0
3548,cast_ Billy Zane,910609200.0
1233,writer_ Jack Epps Jr.,686631800.0
1413,writer_ Kai Bird,574081200.0
270,director_James Cameron,573472200.0


Из построенных моделей наилучшей оказалась модель Ridge: ее коэффициент детерминации в сравнении с другими моделями выше, а среднеквадратическая ошибка, наоборот ниже. Согласно полученным результатам, на целевую переменную (объем кассовых сборов) значительно воздействие оказывает бюджет фильма, а также наличие в составе сценариста и директора Джеймса Кэмерона, в составе актеров - Джованни Рибиси, Стивена Ланга, Зои Салдана и Сигурни Уивер

Таким образом, наилучшее качество продемонстрировала модель Ridge с коэффициентом детерминации для тестовой выборки в 0.66 у.ед.