In [38]:
import pandas as pd

# 1. Load the dataset into a Pandas DataFrame.

In [45]:
df = pd.read_csv('restaurant_reviews.csv')

# 2. Display the first 10 rows of the dataset.

In [46]:
df.head(10)

Unnamed: 0,id,restaurant_name,reviewer_name,review_text,rating,date_of_visit,location
0,0,Буфет,Тереза Дубас,Не вражений обслуговуванням та якістю їжі.,4,2022-09-13,Сніжне
1,1,Sowa,Тереза Демʼянюк,Смачні страви за доступною ціною.,5,2023-06-23,Селидове
2,2,Всі свої,Богуслава Чуприна,Не вражений обслуговуванням та якістю їжі.,5,2023-07-08,Хотин
3,3,Sowa,Ярина Рябченко,Чудова атмосфера та швидке обслуговування.,5,2023-09-22,Білопілля
4,4,Реберня,Богуслава Данькевич,Невідповідний сервіс та дорогі ціни на меню.,5,2022-12-17,Амвросіївка
5,5,Колос,Маруся Аронець,Дуже смачна кухня та привітний персонал.,4,2023-06-02,Глобине
6,6,Домашка,Микита Єсипенко,Швидке приготування та гарний вигляд страв.,4,2023-02-20,Первомайськ
7,7,Львівська майстерня,Роксолана Дацюк,Рекомендую це місце для гарного вечора,2,2022-07-30,Алмазна
8,8,Пузата хата,Аліна Тригуб,Завжди свіжі продукти та широкий вибір страв.,2,2023-12-20,Волочиськ
9,9,Пузата хата,Андрій Артим,Не вражений обслуговуванням та якістю їжі.,1,2023-05-16,Борислав


# 3. Set the 'id' column as the index of the dataframe

In [47]:
df.set_index('id', inplace=True)

In [48]:
df.head(10)

Unnamed: 0_level_0,restaurant_name,reviewer_name,review_text,rating,date_of_visit,location
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,Буфет,Тереза Дубас,Не вражений обслуговуванням та якістю їжі.,4,2022-09-13,Сніжне
1,Sowa,Тереза Демʼянюк,Смачні страви за доступною ціною.,5,2023-06-23,Селидове
2,Всі свої,Богуслава Чуприна,Не вражений обслуговуванням та якістю їжі.,5,2023-07-08,Хотин
3,Sowa,Ярина Рябченко,Чудова атмосфера та швидке обслуговування.,5,2023-09-22,Білопілля
4,Реберня,Богуслава Данькевич,Невідповідний сервіс та дорогі ціни на меню.,5,2022-12-17,Амвросіївка
5,Колос,Маруся Аронець,Дуже смачна кухня та привітний персонал.,4,2023-06-02,Глобине
6,Домашка,Микита Єсипенко,Швидке приготування та гарний вигляд страв.,4,2023-02-20,Первомайськ
7,Львівська майстерня,Роксолана Дацюк,Рекомендую це місце для гарного вечора,2,2022-07-30,Алмазна
8,Пузата хата,Аліна Тригуб,Завжди свіжі продукти та широкий вибір страв.,2,2023-12-20,Волочиськ
9,Пузата хата,Андрій Артим,Не вражений обслуговуванням та якістю їжі.,1,2023-05-16,Борислав


# 4. Check for missing values

In [49]:
missing_values = df.isnull().sum()
print("Missing Values:")
print(missing_values)

Missing Values:
restaurant_name    0
reviewer_name      0
review_text        0
rating             0
date_of_visit      0
location           0
dtype: int64


# 5. Ensure all ratings are within the 1 to 5 range

# 5.1. Count the number of rows with rating values outside the range [1, 5]

In [50]:
invalid_ratings_count = ((df['rating'] < 1) | (df['rating'] > 5)).sum()
print(f"Number of rows with invalid rating values: {invalid_ratings_count}")

Number of rows with invalid rating values: 5


# 5.2. Calculate the median rating

In [51]:
median_rating = df['rating'].median()
print(median_rating)

3.0


# 5.3. Replace invalid ratings with the median value

In [52]:
df['rating'] = df['rating'].clip(1, 5).replace({0: median_rating})

# 5.4. Verify that there are no more invalid ratings

In [53]:
invalid_ratings_count = ((df['rating'] < 1) | (df['rating'] > 5)).sum()
print(f"Number of rows with invalid rating values after correction: {invalid_ratings_count}")

Number of rows with invalid rating values after correction: 0


# 6. Create a new column "Review Length" that represents the number of words in the review text.

In [54]:
def count_words(row):
    return len(row['review_text'].split())

df['Review Length'] = df.apply(count_words, axis=1)

print(df.head(10))

        restaurant_name        reviewer_name  \
id                                             
0                 Буфет         Тереза Дубас   
1                  Sowa      Тереза Демʼянюк   
2              Всі свої    Богуслава Чуприна   
3                  Sowa       Ярина Рябченко   
4               Реберня  Богуслава Данькевич   
5                 Колос       Маруся Аронець   
6               Домашка      Микита Єсипенко   
7   Львівська майстерня      Роксолана Дацюк   
8           Пузата хата         Аліна Тригуб   
9           Пузата хата         Андрій Артим   

                                      review_text  rating date_of_visit  \
id                                                                        
0      Не вражений обслуговуванням та якістю їжі.       4    2022-09-13   
1               Смачні страви за доступною ціною.       5    2023-06-23   
2      Не вражений обслуговуванням та якістю їжі.       5    2023-07-08   
3      Чудова атмосфера та швидке обслуговування

# 7. Find the average rating for each restaurant and display the top 10 highest-rated restaurants.

In [55]:
df.groupby("restaurant_name")['rating'].mean().sort_values(ascending=False)

restaurant_name
Домашка                       3.450000
Реберня                       3.333333
Друзі                         3.250000
Копальня кави                 3.222222
Всі свої                      3.080000
Пʼяна вишня                   3.026316
Буфет                         3.000000
Колос                         3.000000
Штрудель                      3.000000
Львівська майстерня           2.935484
Shoco                         2.885714
Львівська мануфактура кави    2.884615
Sowa                          2.771429
Сто років тому вперед         2.736842
Пузата хата                   2.657143
Name: rating, dtype: float64

# 8. Identify the 5 most frequent reviewers and the average rating they give.

# 8.1. Choose the first 5 most frequent reviewers

In [85]:
top_reviewers = df["reviewer_name"].value_counts().head(5) 
print(top_reviewers)

reviewer_name
Володимира Ткач      2
Тереза Дубас         1
Соломія Оберемко     1
Мілена Ґерус         1
Тарас Башполченко    1
Name: count, dtype: int64


# 8.2. Calculate the average rating for each of the top reviewers

In [84]:
average_ratings_by_reviewer = df[df['reviewer_name'].isin(top_reviewers.index)].groupby('reviewer_name')['rating'].mean()
print(average_ratings_by_reviewer)

reviewer_name
Володимира Ткач      3.0
Мілена Ґерус         2.0
Соломія Оберемко     2.0
Тарас Башполченко    1.0
Тереза Дубас         4.0
Name: rating, dtype: float64


# 9. Calculate the average rating per month to see if there is a trend over time.

In [87]:
df['date_of_visit'] = pd.to_datetime(df['date_of_visit'])

df['month'] = df['date_of_visit'].dt.month 
df['year'] = df['date_of_visit'].dt.year

average_rating_per_month = df.groupby(['year', 'month'])['rating'].mean() 

print(average_rating_per_month)

year  month
2022  2        3.125000
      3        3.352941
      4        2.500000
      5        2.952381
      6        3.280000
      7        2.900000
      8        3.769231
      9        2.761905
      10       3.285714
      11       2.588235
      12       3.130435
2023  1        3.047619
      2        3.214286
      3        2.384615
      4        3.125000
      5        2.684211
      6        3.200000
      7        2.900000
      8        3.083333
      9        2.944444
      10       3.130435
      11       2.952381
      12       3.411765
2024  1        2.888889
      2        2.894737
Name: rating, dtype: float64


# 10. Find the restaurant with the most reviews.

In [91]:
most_reviews_restaurant = df['restaurant_name'].value_counts().idxmax()
most_reviews_count = df['restaurant_name'].value_counts().max()

print(f"The restaurant with the most reviews is '{most_reviews_restaurant}' with {most_reviews_count} reviews.")

The restaurant with the most reviews is 'Домашка' with 40 reviews.


# 11. Determine the city with the highest average rating.

In [96]:
average_rating_by_city = df.groupby('location')['rating'].mean()
highest_avg_rating_city = average_rating_by_city.idxmax()
highest_avg_rating = average_rating_by_city.max()

print(f"The city with the highest average rating is '{highest_avg_rating_city}' with an average rating of {highest_avg_rating}.")

The city with the highest average rating is 'Ізяслав' with an average rating of 5.0.


# 12. Save the cleaned and manipulated DataFrame to a new CSV file.

In [99]:
df.to_csv("updated_restaurant_reviews.csv")

# 13. Create a list of unique cities and save it new csv file

In [103]:
cities_df = pd.DataFrame.from_dict({'location': df['location'].unique()})
print(cities_df)

          location
0           Сніжне
1         Селидове
2            Хотин
3        Білопілля
4      Амвросіївка
..             ...
300       Харцизьк
301  Монастириська
302       Шаргород
303   Вільногірськ
304        Іллінці

[305 rows x 1 columns]


In [ ]:
cities_df.to_csv('cities.csv')