![](https://www.pata.org/wp-content/uploads/2014/09/TripAdvisor_Logo-300x119.png)
# Predict TripAdvisor Rating
## В этом соревновании нам предстоит предсказать рейтинг ресторана в TripAdvisor

# import

In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load in 

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import re
from datetime import datetime, timedelta 
import matplotlib.pyplot as plt
import seaborn as sns 
%matplotlib inline
from geopy.geocoders import Nominatim
geolocator = Nominatim(user_agent="example app")
import pycountry
import requests
import json

# Загружаем специальный удобный инструмент для разделения датасета:
from sklearn.model_selection import train_test_split

# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# Any results you write to the current directory are saved as output.

In [None]:
# всегда фиксируйте RANDOM_SEED, чтобы ваши эксперименты были воспроизводимы!
RANDOM_SEED = 42

In [None]:
# зафиксируем версию пакетов, чтобы эксперименты были воспроизводимы:
!pip freeze > requirements.txt

# DATA

In [None]:
DATA_DIR = '/kaggle/input/sf-dst-restaurant-rating/'
df_train = pd.read_csv(DATA_DIR+'/main_task.csv')
df_test = pd.read_csv(DATA_DIR+'kaggle_task.csv')
sample_submission = pd.read_csv(DATA_DIR+'/sample_submission.csv')

In [None]:
df_train.info()

In [None]:
df_train.head(5)

In [None]:
df_test.info()

In [None]:
df_test.head(5)

In [None]:
sample_submission.head(5)

In [None]:
sample_submission.info()

In [None]:
# ВАЖНО! дря корректной обработки признаков объединяем трейн и тест в один датасет
df_train['sample'] = 1 # помечаем где у нас трейн
df_test['sample'] = 0 # помечаем где у нас тест
df_test['Rating'] = 0 # в тесте у нас нет значения Rating, мы его должны предсказать, по этому пока просто заполняем нулями

data = df_test.append(df_train, sort=False).reset_index(drop=True) # объединяем

In [None]:
data.info()

Подробнее по признакам:
* City: Город 
* Cuisine Style: Кухня
* Ranking: Ранг ресторана относительно других ресторанов в этом городе
* Price Range: Цены в ресторане в 3 категориях
* Number of Reviews: Количество отзывов
* Reviews: 2 последних отзыва и даты этих отзывов
* URL_TA: страница ресторана на 'www.tripadvisor.com' 
* ID_TA: ID ресторана в TripAdvisor
* Rating: Рейтинг ресторана

## Первичный анализ DF

In [None]:
data.sample(5)

In [None]:
for i in list(data.columns):
    display(len(data[i].unique()))

Так как уникальных значений ID_TA и URL_TA меньше 50,000, данные могут содержать дубликаты

In [None]:
#Создание DF содежащего дубликаты по признаку ID_TA
duplicates=data[data.ID_TA.duplicated() == True].sort_values(by ='ID_TA')
duplicates

In [None]:
duplicates.City.unique()

Судя по всему, данные задвоеннны по City == Madrid|City == Warsaw

In [None]:
difference_check = []
for i in list(duplicates.ID_TA):
    # Ниже вычисление разницы в целевой переменной для дубликатов
    dif = list(data[data.ID_TA == i].Rating)[0] - list(data[data.ID_TA == i].Rating)[1]
    difference_check.append(dif)
difference_check

In [None]:
duplicates.Rating.value_counts()

Разница в целевой переменной между дублями варируется в том же диапазоне, что и переменная в срезе

In [None]:
data[data.ID_TA == duplicates.ID_TA.iloc[0]]

In [None]:
data[data.ID_TA == duplicates.ID_TA.iloc[1]]

Судя по всему, разница между некоторыми дублями объясняется тем, что они распределены между файлами kaggle_task и main_task.

Имеет смысл создать переменную, которая обозначит, что у строки есть дубль

### 1. Отметка дубликатов

In [None]:
# Помечаем новыми пизнаками превые и последние дубликаты
data['1'] = data.ID_TA.duplicated(keep='first')
data['2'] = data.ID_TA.duplicated(keep='last')

In [None]:
# Функция обрабатывает всмогательные столюцы и возвращает 1 для строк имеющих дубли
def duplicate(row):
    result = 0
    if row['1'] == True:
        result = 1
    elif row['2'] == True:
        result = 1
    return result

In [None]:
# Применение функции
data['has_duplicate'] = data.apply(duplicate, axis = 1)

In [None]:
# Удаление вспомогательных столбцов
data.drop(['1','2'], axis = 'columns', inplace = True)

# Cleaning and Prepping Data 
![](https://analyticsindiamag.com/wp-content/uploads/2018/01/data-cleaning.png)

## Анализ, преобразование и заполнение признаков

### Restaurant_id

### 2. Предположительные сети ресторанов

In [None]:
# Создание серии содержащей ID и кол-во ресторанов
id_vc = data.groupby(['Restaurant_id']).Ranking.count()
id_vc

In [None]:
# Добавление полученной информации в DF
data['id_amount'] = data.Restaurant_id.apply(lambda x: id_vc[x])

In [None]:
sns.scatterplot(x="id_amount", y="Rating",
                sizes=(1, 8), linewidth=0,
                data=data)

Для крупных сетей ниже разброс ненулевых значений

### Price Range

In [None]:
data['Price Range'].unique()

### 3. Преобразование и заполнение пропусков

In [None]:
# Пометка данных имеющих пропуски
data['price_class_nan'] = pd.isna(data['Price Range']).astype('uint8')

In [None]:
#Создание словоря для преобразования класса цены в число, где 1 - самые дешевые рестораны.
mapping_dict = {data['Price Range'].unique()[0]: 2,
                data['Price Range'].unique()[2]: 3,
                data['Price Range'].unique()[3]: 1}

In [None]:
# Преобразование признака в числовой формат для работы с пропусками
data['price_class'] = data['Price Range'].map(mapping_dict)

In [None]:
# Функция вычисления среднего класса по городу и квинтилю Ranking для города
def main_price(city, i):
    data_c = data[data.City == city]
    result = data_c[(data_c.Ranking.quantile(i) <= data_c.Ranking) & (data_c.Ranking < data_c.Ranking.quantile(i+0.2))].price_class.dropna().mean()
    return result

In [None]:
# Функция вычисляющая скрию значений по городам для определенного квинтиля
def quantile(quantile):
    series=[]
    for i in data.City.unique():
        series.append(main_price(i, quantile))
    return series

In [None]:
# Создание DF c итоговыми значениями
city_price = pd.DataFrame({'city': data.City.unique()})
quantiles = [x/10 for x in range(8, -1, -2)]
for i in quantiles:
    city_price[i]=quantile(i)

In [None]:
city_price

В большинстве случаев, среднеарифметический класс соответствует самому популярному значению в DF (средний). Тем не менее, иммется ряд исключений.

In [None]:
#Создание списка содержащего вложенный список [город-квинтиль],
#где преоблядают дешевые рестораны.
class1_price=[]
for i in quantiles:
    for j in city_price[city_price[i]<1.5].city:
        class1_price.append([j, i])
class1_price

In [None]:
#Заполнение соответствующих значений
class1_indexes=[]
if len(class1_price)>0:
    #Цикл достает индексы строк соответствующих парам [город-квинтиль]
    for pair in class1_price:
        city = pair[0]
        Q = pair[1]
        df = data[(data.City == city) & (data[data.City == city].Ranking.quantile(Q) <= data.Ranking) & (data[data.City == city].Ranking < data.Ranking.quantile(Q+0.2))]
        #Цикл оставляет только пустые ячейки
        for i in df[df.price_class.isna()].index:
            class1_indexes.append(i)
    #Цикл заполния пустых значений
    for i in class1_indexes:
        data.xs(i)['price_class'] = 1   

In [None]:
#Создание списка содержащего вложенный список [город-квинтиль], где преоблядают дорогие рестораны.
#Не сотря на то, что список пуст, он может быть актуален для других данных
class3_price=[]
for i in quantiles:
    for j in city_price[city_price[i]>=2.5].city:
        class1_price.append([j, i])
class3_price

In [None]:
#Заполнение соответствующих значений аналогично дешевым ресторанам
class3_indexes=[]
if len(class3_price)>0:
    for pair in class3_price:
        city = pair[0]
        Q = pair[1]
        df = data[(data.City == city) & (data[data.City == city].Ranking.quantile(Q) <= data.Ranking) & (data[data.City == city].Ranking < data.Ranking.quantile(Q+0.2))]
        for i in df[df.price_class.isna()].index:
            class3_indexes.append(i)
    for i in class3_indexes:
        data.xs(i)['price_class'] = 1 

In [None]:
#Заполнение оставшихся ячеек самым популярным значением
data.price_class.fillna(value = 2, inplace =True)

In [None]:
data.sample(5)

In [None]:
data['price_class'].hist()

In [None]:
sns.catplot(x='price_class', y='Rating',
            kind="violin", bw=.1, cut=0,
            data=data)

### Cuisine Style

### 4. Преобразование и заполнение пропусков

In [None]:
# Пометка данных имеющих пропуски
data['cuisine_nan'] = pd.isna(data['Cuisine Style']).astype('uint8')

In [None]:
#Создание списка из строки
data['Cuisine Style'] = data['Cuisine Style'].str.findall(r'\w+\s*\w*\s*\w*\s*\w*\s*\w*')

In [None]:
#Функция вычисляющая самую популярную кухню в городе.
#Значение "European" опущено, т.к. говорит о географическом происхождении не достаточно точно
def popular_cuisine(city):
    popular_values = pd.Series(data[data.City == city]['Cuisine Style'].dropna().sum()).value_counts()
    if popular_values.index[0] != 'European':
        result = popular_values.index[0]
    else:
        result = popular_values.index[1]
    return result

In [None]:
#Создание вспомогательного DF для более быстрого заполнения пропусков
city_cuisine = pd.DataFrame({'city': data.City.unique()})
city_cuisine['cuisine'] = city_cuisine.city.apply(popular_cuisine)
city_cuisine

In [None]:
#Функция заполнения пропусков популярным значением для города
def associated_cuisine(city):
    result = city_cuisine[city_cuisine.city == city].iloc[0][1]
    return result

In [None]:
#Функция преобразования заполненных строк в список
def making_list(cell):
    if type(cell) == list:
        result = cell
    elif type(cell) == str:
        result = re.findall(r'\w+\s*\w*\s*\w*\s*\w*\s*\w*', cell)
    return result

In [None]:
#Применение вышеописанных функций + создание столбца кол-ва кухонь
data['Cuisine Style'].fillna(value=data.City.apply(associated_cuisine), inplace=True)
data['Cuisine Style'] = data['Cuisine Style'].apply(making_list)
data['cuisine_amount'] = data['Cuisine Style'].apply(lambda x: len(x))

### Reviews

### 5. Преобразование и создание доп. парметров

In [None]:
# Пропусков всего 2, можно заполнить самым популярным(пустым списом) значением
data.Reviews.fillna(data.Reviews.value_counts().index[0], inplace = True)

In [None]:
# Функция преобразоватия строковой даты в формат datetime
def date_conversion(cell):
    resulting_list=[]
    for i in cell:
        if int(i[:i.find('/')])<=12:
            converted_time = datetime.strptime(i, '%m/%d/%Y')
            resulting_list.append(converted_time)
        else:
            if '/' in i[-4:]:
                converted_time = datetime.strptime(i, '%d/%m/%y')
                resulting_list.append(converted_time)
            else:
                converted_time = datetime.strptime(i, '%d/%m/%Y')
                resulting_list.append(converted_time)
    return resulting_list

In [None]:
# Создание параметра review_dates содержащего список дат отзывов
data['review_dates'] = data.Reviews.str.findall(r'\d+/\d+/\d+')
data.review_dates = data.review_dates.dropna().apply(date_conversion)

In [None]:
# Фунция вычисляет разницу между превым и последним отзывом
def review_t_dif(cell):
    if len(cell)>=2:
        dif=max(cell)-min(cell)
    else:
        dif=timedelta(days = 0)
    return dif

In [None]:
# Параметр review_time_span отбражает разницу между превым и последним отзывом
data['review_time_span'] = data.review_dates.dropna().apply(review_t_dif)

In [None]:
#Перевод результата в секунды
data.review_time_span = data.review_time_span.apply(lambda x: x.total_seconds())

In [None]:
# Параметр visible_reviews отбражает кол-во видимых отзывов
data['visible_reviews'] = data.review_dates.apply(lambda x: len(x))

In [None]:
data.sample(5)

In [None]:
sns.scatterplot(x='review_time_span', y='Rating',
                sizes=(1, 8), linewidth=0,
                data=data)

In [None]:
data['visible_reviews'].hist()

In [None]:
sns.catplot(x='visible_reviews', y='Rating',
            kind="violin", bw=.1, cut=0,
            data=data)

### 6. Применение списков ключевых слов для данных

In [None]:
# Параметр review_wordbox включает список слов используемых в Reviews
data.Reviews = data.Reviews.apply(lambda x: x.lower())
data['review_wordbox'] = data.Reviews.str.findall(r'\w[a-z]+')

In [None]:
# Все слова, встречающиеся более 2 раз у ресторанов с целевой переменной от 4.5
wordbox_positive = pd.Series(data[(data['sample'] == 1)&(data.Rating>=4.5)].review_wordbox.sum())
p_words = pd.DataFrame(wordbox_positive.value_counts())
p_words = p_words[p_words[0]>2]

In [None]:
# Все слова, встречающиеся более 2 раз у ресторанов с целевой переменной до 3.5
wordbox_negative = pd.Series(data[(data['sample'] == 1)&(data.Rating<=3.5)].review_wordbox.sum())
n_words = pd.DataFrame(wordbox_negative.value_counts())
n_words = n_words[n_words[0]>2]

In [None]:
# Слова, уникальные для ресторанов с высоким рейтингом
positive_review_predictors = []
for i in p_words.index:
    if i not in list(n_words.index):
        positive_review_predictors.append(i)

In [None]:
# Слова, уникальные для ресторанов с низким рейтингом
negative_review_predictors = []
for i in n_words.index:
    if i not in list(p_words.index):
        negative_review_predictors.append(i)

In [None]:
# Функция расчитывающая рейтинг по ключевым словам. Нейтральное значение = 0.5
def valued_review_score(wordbox):
    positives = 1
    negatives = 1
    for i in wordbox:
        if i in positive_review_predictors:
            positives += 1
        elif i in negative_review_predictors:
            negatives += 1
    result = positives/(positives + negatives)
    return result

In [None]:
# Параметр valued_review содержит условный рейтинг, расчитаный на осонове слов, содежащихся в Reviews
data['valued_review'] = data.review_wordbox.apply(valued_review_score)

In [None]:
sns.scatterplot(x='valued_review', y='Rating',
                sizes=(1, 8), linewidth=0,
                data=data)

### Number of Reviews

### 7. Заполнение пропусков

In [None]:
# Пометка данных имеющих пропуски
data['NoF_nan'] = pd.isna(data['Number of Reviews']).astype('uint8')

In [None]:
# Функция вычисления среднего класса по городу и квинтилю Ranking для города
def avg_reviews(city, i):
    data_c = data[data.City == city]
    result = data_c[(data_c.Ranking.quantile(i) <= data_c.Ranking) & (data_c.Ranking < data_c.Ranking.quantile(i+0.2))]['Number of Reviews'].dropna().mean()
    return result

In [None]:
# Функция вычисляющая серию значений по городам для определенного квинтиля
def quantile(quantile):
    series=[]
    for i in data.City.unique():
        series.append(avg_reviews(i, quantile))
    return series

In [None]:
# Создание DF c итоговыми значениями
city_rev = pd.DataFrame({'city': data.City.unique()})
quantiles = [x/10 for x in range(8, -1, -2)]
for i in quantiles:
    city_rev[i]=quantile(i)

In [None]:
city_rev

In [None]:
# Функция возвращает соответсвующее значение из city_rev по City и Ranking
def aprx_rev_amount(x):
    d = data[data.City == x['City']]
    quantiles = [n/10 for n in range(8, -1, -2)]
    for i in quantiles:
        if d.Ranking.quantile(i) <= x['Ranking'] <= d.Ranking.quantile(i+0.2):
            result = float(int(city_rev[city_rev.city == x['City']][i]))
    return result

In [None]:
# Создание серии, содержащей индексы пустых значений с соответствующее значение из city_rev
# fillna() не ипользовал, т.к. рачеты занимали больше времени
reviews_for_nan = data[data['Number of Reviews'].isna() == True].apply(aprx_rev_amount, axis=1)

In [None]:
# Заполнение пропусков в основном DF
for i in list(reviews_for_nan.index):
    data['Number of Reviews'].loc[i] = reviews_for_nan[i]

### Ranking

### 8. Нормолизация в зависимости от City

In [None]:
# Создание словаря, содержащего пары город: длинна вектора Ranking по городу
v_lengths = {}
for i in list(data.City.unique()):
    v_lengths[i] = np.linalg.norm(data[data.City == i].Ranking)

In [None]:
# Функция возражает произведение значения Ranking и длинны вектора Ranking по городу
def normalization(row):
    result = row.Ranking/v_lengths[row.City]
    return result

In [None]:
# Параметр ranking_norm содержит нормализованный Ranking
data['ranking_norm'] = data.apply(normalization, axis = 1)

In [None]:
sns.scatterplot(x='ranking_norm', y='Rating',
                sizes=(1, 8), linewidth=0,
                data=data)

### City

### 9. Создание доп. параметров на основе City

In [None]:
#Создание списка уникальных значений City
city_state = pd.DataFrame({'city': data.City.unique()})

In [None]:
# Функция возвращает код страны по названию города
def country(city):
    coordinates = geolocator.geocode(city)[1]
    location = geolocator.reverse(coordinates, exactly_one=True)
    address = location.raw['address']
    country = address.get('country_code', '')
    return country

In [None]:
# Функция возвращает население по названию города и коду страны 
def city_population(row):
    city = row.city
    country = row.country
    tmp = 'https://public.opendatasoft.com/api/records/1.0/search/?dataset=worldcitiespop&q=%s&sort=population&facet=country&refine.country=%s'
    cmd = tmp % (city, country)
    res = requests.get(cmd)
    dct = json.loads(res.content)
    info = dct['records'][0]['fields']
    if 'population' in info.keys():
        result = info['population']
    else:
        result = 0
    return result

In [None]:
# Применение функций, перевод кода страны в верхгий регистр, замена на название страны по коду
city_state['country'] = city_state.city.apply(country)
city_state['population'] = city_state.apply(city_population, axis = 1)
city_state.country = city_state.country.apply(lambda x: x.upper())
city_state.country = city_state.country.apply(lambda x: pycountry.countries.get(alpha_2=x).name)

In [None]:
# Список с GIT, содержащий пары страна, прилагательное
demonyms = pd.read_csv('/kaggle/input/country-adjective-pairs/demonyms.csv')

In [None]:
# Функция возвращает список прилагательных соответствующих стране
# Если функция возващает пустой список, сокращенное название страны меняется на официальное
def adjectives(country):
    result = list(demonyms[demonyms.Aalborg == country].Aalborgenser)
    if len(result) == 0:
        alternative = pycountry.countries.get(name=country).official_name
        result = list(demonyms[demonyms.Aalborg == alternative].Aalborgenser)
    return result

In [None]:
# Применение функции
city_state['adjectives'] = city_state.country.apply(adjectives)

In [None]:
city_state

In [None]:
# Функция заполняет параметр native_cuisine.
# ==1, если один из тегов Cuisine Style совпадает с прилагательными города
def native(row):
    result = 0
    for i in city_state[city_state.city == row.City].adjectives.sum():
        if i in row['Cuisine Style']:
            result = 1
    return result

In [None]:
# Параметр native_cuisine отбражает евляется ли кухня национальной
data['native_cuisine'] = data.apply(native, axis = 1)

In [None]:
#Создание словоря с парами город - население
mapping_population = {}
for i in city_state.index:
    mapping_population[city_state.city[i]]=city_state.population[i]

In [None]:
# Добавление населения
# Создания параметра отнашения населения и ранка ресторана.
# Таким образом, наибольшим значением обладают высокоранговые рестораны в больших городах
data['city_population'] = data.City.map(mapping_population)
data['feature_1']=data['city_population']/data['Ranking']

In [None]:
data.sample(5)

In [None]:
data['native_cuisine'].hist(bins=2)

In [None]:
sns.catplot(x='native_cuisine', y='Rating',
            kind="violin", bw=.1, cut=0,
            data=data)

In [None]:
data['city_population'].hist(bins=10)

In [None]:
sns.scatterplot(x='feature_1', y='Rating',
                sizes=(1, 8), linewidth=0,
                data=data)

# Промежуточный итог

In [None]:
data.info()

In [None]:
data.describe()

In [None]:
correlation = data.corr()
ax = plt.subplots(figsize=(15, 15))
sns.heatmap(correlation, annot=True, cmap='vlag', linewidths=1, center=0)

## 10. Dummy-variables

![](https://i.imgur.com/mtimFxh.png)

### 10.1 City

In [None]:
# Создаем сетку
data = pd.get_dummies(data, columns=[ 'City'], dummy_na=False)

In [None]:
data.sample(3)

### 10.2 Cuisine Style

In [None]:
# Функция для заполнения категории Cuisine Style
def dummy_cuisine(cell):
    if item in cell:
        return 1
    return 0

In [None]:
# Список уникальных значений переменной
all_cuisines = pd.Series(data['Cuisine Style'].sum()).unique()

In [None]:
# Применение функции
for item in all_cuisines:
    data[item] = data['Cuisine Style'].apply(dummy_cuisine)

In [None]:
data.sample(3)

### 10.3 Price Range

In [None]:
# Создаем сетку
data = pd.get_dummies(data, columns=[ 'price_class'], dummy_na=False)

In [None]:
data.sample(3)

> # Предобработка

Не стал писать футкцию для предобработки, т.к. задействованно достаточно много сторонних источников и вспомогательных таблиц.

## Очистка от строк/списков

In [None]:
object_columns = [s for s in data.columns if data[s].dtypes == 'object']

In [None]:
object_columns

In [None]:
data.drop(object_columns, axis = 1, inplace=True)

In [None]:
df_preproc = data
df_preproc.sample(5)

In [None]:
df_preproc.info()

## Разделение данных

In [None]:
# Теперь выделим тестовую часть
train_data = df_preproc.query('sample == 1').drop(['sample'], axis=1)
test_data = df_preproc.query('sample == 0').drop(['sample'], axis=1)

y = train_data.Rating.values            # наш таргет
X = train_data.drop(['Rating'], axis=1)

In [None]:
# Воспользуемся специальной функцие train_test_split для разбивки тестовых данных
# выделим 20% данных на валидацию (параметр test_size)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=RANDOM_SEED)

In [None]:
# Проверка
test_data.shape, train_data.shape, X.shape, X_train.shape, X_test.shape

# Model 
Сам ML

In [None]:
# Импортируем необходимые библиотеки:
from sklearn.ensemble import RandomForestRegressor # инструмент для создания и обучения модели
from sklearn import metrics # инструменты для оценки точности модели

In [None]:
# Создаём модель (НАСТРОЙКИ НЕ ТРОГАЕМ)
model = RandomForestRegressor(n_estimators=100, verbose=1, n_jobs=-1, random_state=RANDOM_SEED)

In [None]:
# Обучаем модель на тестовом наборе данных
model.fit(X_train, y_train)

# Используем обученную модель для предсказания рейтинга ресторанов в тестовой выборке.
# Предсказанные значения записываем в переменную y_pred
y_pred = model.predict(X_test)

In [None]:
# Сравниваем предсказанные значения (y_pred) с реальными (y_test), и смотрим насколько они в среднем отличаются
# Метрика называется Mean Absolute Error (MAE) и показывает среднее отклонение предсказанных значений от фактических.
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))

In [None]:
# в RandomForestRegressor есть возможность вывести самые важные признаки для модели
plt.rcParams['figure.figsize'] = (10,10)
feat_importances = pd.Series(model.feature_importances_, index=X.columns)
feat_importances.nlargest(15).plot(kind='barh')

# Submission
Если все устраевает - готовим Submission на кагл

In [None]:
test_data.sample(10)

In [None]:
test_data = test_data.drop(['Rating'], axis=1)

In [None]:
sample_submission

In [None]:
predict_submission = model.predict(test_data)

In [None]:
predict_submission

In [None]:
sample_submission['Rating'] = predict_submission
sample_submission.to_csv('submission.csv', index=False)
sample_submission.head(10)