In [1]:
import pandas as pd
from sklearn.linear_model import LassoCV, RidgeCV
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score

# 1. Загрузите данные в DataFrame
df = pd.read_csv('house_price.csv')

# 2. Сколько строк и столбцов в данных? Есть ли пропуски?
print(df.info())  # Это покажет количество строк и столбцов, а также наличие пропущенных значений

# 3. Оставим только числовые признаки
numerical_df = df.select_dtypes(include=['number'])

# 4. Удалите столбец Id и пропущенные значения
numerical_df = numerical_df.drop(columns=['Id']).dropna()

# 5. Разделите на входные данные X и ответы y
X = numerical_df.drop(columns=['SalePrice'])
y = numerical_df['SalePrice']

# 6. Разделите данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 7. Обучите модель LassoCV
lasso = LassoCV(cv=5)  # Выбираем 5 блоков для перекрестной проверки
lasso.fit(X_train, y_train)

# Оцените качество полученной модели
y_pred_train = lasso.predict(X_train)
y_pred_test = lasso.predict(X_test)
r2_train = r2_score(y_train, y_pred_train)
r2_test = r2_score(y_test, y_pred_test)
print(f'LassoCV R2 на обучающей выборке: {r2_train}')
print(f'LassoCV R2 на тестовой выборке: {r2_test}')

# Посмотрите на коэффициенты модели и их количество, равное 0
coefficients = lasso.coef_
print(f'Количество нулевых коэффициентов в LassoCV: {sum(coefficients == 0)}')

# 8. Обучите модель RidgeCV
ridge = RidgeCV(cv=5)
ridge.fit(X_train, y_train)

# Оцените качество полученной модели RidgeCV
y_pred_train_ridge = ridge.predict(X_train)
y_pred_test_ridge = ridge.predict(X_test)
r2_train_ridge = r2_score(y_train, y_pred_train_ridge)
r2_test_ridge = r2_score(y_test, y_pred_test_ridge)
print(f'RidgeCV R2 на обучающей выборке: {r2_train_ridge}')
print(f'RidgeCV R2 на тестовой выборке: {r2_test_ridge}')

# 9. Сравните полученные результаты LassoCV и RidgeCV
print(f'LassoCV выбрало alpha: {lasso.alpha_}')
print(f'RidgeCV выбрало alpha: {ridge.alpha_}')

print(f'LassoCV коэффиценты: {lasso.coef_}')
print(f'RidgeCV коэффиценты: {ridge.coef_}')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1460 non-null   int64  
 1   MSSubClass     1460 non-null   int64  
 2   MSZoning       1460 non-null   object 
 3   LotFrontage    1201 non-null   float64
 4   LotArea        1460 non-null   int64  
 5   Street         1460 non-null   object 
 6   Alley          91 non-null     object 
 7   LotShape       1460 non-null   object 
 8   LandContour    1460 non-null   object 
 9   Utilities      1460 non-null   object 
 10  LotConfig      1460 non-null   object 
 11  LandSlope      1460 non-null   object 
 12  Neighborhood   1460 non-null   object 
 13  Condition1     1460 non-null   object 
 14  Condition2     1460 non-null   object 
 15  BldgType       1460 non-null   object 
 16  HouseStyle     1460 non-null   object 
 17  OverallQual    1460 non-null   int64  
 18  OverallC