# ИУ5-64Б
# Лавренов М.
# РК2 ТМО


In [26]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import LabelEncoder

df = pd.read_csv('/content/googleplaystore.csv')


print(df.head())

# Удаляем столбец 'Size'
df.drop('Size', axis=1, inplace=True)



for column in df.columns:
    # Для категориальных столбцов используем наиболее часто встречающееся значение
    if df[column].dtype == 'object':
        df[column] = df[column].fillna(df[column].mode()[0])
    else:
        # Для числовых столбцов можно использовать медиану
        df[column] = df[column].fillna(df[column].median())

df = df[df['Installs'] != 'Free']

# Преобразование формата 'Installs' к числовому
df['Installs'] = df['Installs'].str.replace('+', '').str.replace(',', '').astype(int)

# Преобразование 'Price'
df['Price'] = df['Price'].str.replace('$', '').astype(float)

# Кодирование категориальных признаков
label_encoder = LabelEncoder()
categorical_columns = ['Category', 'Type', 'Content Rating', 'Genres', "Last Updated", "Current Ver", "Android Ver"]

for col in categorical_columns:
    df[col] = label_encoder.fit_transform(df[col])

# Преобразуем 'Reviews' в числовой формат
df['Reviews'] = df['Reviews'].astype(int)

# Целевая переменная и признаки
X = df.drop(['App', 'Rating'], axis=1)
y = df['Rating']

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Модели
lin_reg = LinearRegression()
gb_reg = GradientBoostingRegressor(random_state=0)

# Обучение моделей
lin_reg.fit(X_train, y_train)
gb_reg.fit(X_train, y_train)

# Предсказания моделей
y_pred_lin = lin_reg.predict(X_test)
y_pred_gb = gb_reg.predict(X_test)

# Метрики качества моделей
lin_r2 = r2_score(y_test, y_pred_lin)
gb_r2 = r2_score(y_test, y_pred_gb)
lin_mse = mean_squared_error(y_test, y_pred_lin)
gb_mse = mean_squared_error(y_test, y_pred_gb)

print(f'Linear Regression R^2: {lin_r2:.2f}')
print(f'Gradient Boosting R^2: {gb_r2:.2f}')
print(f'Linear Regression MSE: {lin_mse:.2f}')
print(f'Gradient Boosting MSE: {gb_mse:.2f}')




                                                 App        Category  Rating  \
0     Photo Editor & Candy Camera & Grid & ScrapBook  ART_AND_DESIGN     4.1   
1                                Coloring book moana  ART_AND_DESIGN     3.9   
2  U Launcher Lite – FREE Live Cool Themes, Hide ...  ART_AND_DESIGN     4.7   
3                              Sketch - Draw & Paint  ART_AND_DESIGN     4.5   
4              Pixel Draw - Number Art Coloring Book  ART_AND_DESIGN     4.3   

  Reviews  Size     Installs  Type Price Content Rating  \
0     159   19M      10,000+  Free     0       Everyone   
1     967   14M     500,000+  Free     0       Everyone   
2   87510  8.7M   5,000,000+  Free     0       Everyone   
3  215644   25M  50,000,000+  Free     0           Teen   
4     967  2.8M     100,000+  Free     0       Everyone   

                      Genres      Last Updated         Current Ver  \
0               Art & Design   January 7, 2018               1.0.0   
1  Art & Design;Pretend 

Для оценки качества моделей будем использовать следующие метрики:

* Среднеквадратичная ошибка (MSE): Отражает среднее квадратичное отклонение предсказаний от фактических значений. Чем меньше MSE, тем лучше.
* R-квадрат (R^2): Определяет долю дисперсии зависимой переменной, объясняемую моделью. R^2 ближе к 1 указывает на лучшую модель.



По результатам оценки качества видно, что **градиентный бустинг превосходит линейную регрессию по обеим метрикам**