In [22]:
import pandas as pd

# Загрузка даних
dataframe = pd.read_csv('icecreamreviews.csv', delimiter=',', encoding='latin1')

# Видалення нульових значень
dataframe = dataframe.dropna()

# Вивід даних
dataframe

Unnamed: 0,key,author,date,stars,title,helpful_yes,helpful_no,text
0,0_bj,Ilovebennjerry,2017-04-15,3,Not enough brownies!,10,3,"Super good, don't get me wrong. But I came for..."
1,0_bj,Sweettooth909,2020-01-05,5,Iâm OBSESSED with this pint!,3,0,I decided to try it out although Iâm not a h...
2,0_bj,LaTanga71,2018-04-26,3,My favorite...More Caramel Please,5,2,My caramel core begins to disappear about half...
3,0_bj,chicago220,2018-01-14,5,Obsessed!!!,24,1,Why are people complaining about the blonde br...
4,0_bj,Kassidyk,2020-07-24,1,Worst Ice Cream Ever!,1,5,This ice cream is worst ice cream Iâve ever ...
...,...,...,...,...,...,...,...,...
7938,56_bj,Shellyshellzs,2020-04-30,5,Peanut butter fudge heaven,0,0,Oh man I use to be a whatever was on sale girl...
7939,56_bj,Or1234,2020-02-24,5,The best Chocolate Ice Cream Combo,0,0,This is the first chocolate ice cream Iâve t...
7940,56_bj,ava21,2020-01-31,5,PERFECT!!,0,0,This is the best pint of ice cream I've ever h...
7941,56_bj,yeee,2019-03-13,5,My favorite!,0,0,This is my favorite ice cream ever! Can't get ...


In [23]:
from sklearn.preprocessing import LabelEncoder

# Перетворення категоріальних даних на float

label_encoder = LabelEncoder()
dataframe['text'] = label_encoder.fit_transform(dataframe['text'])
dataframe['text'] = dataframe['text'].astype(float)

In [25]:
from sklearn.model_selection import train_test_split

X = dataframe['text'].to_numpy().reshape(-1, 1)
y = dataframe['stars'].to_numpy().reshape(-1, 1)

# Розбиття даних на навчальну та тестову групи, з відношенням 70/30
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [28]:
from sklearn.neighbors import KNeighborsClassifier

# Класифікація з допомогою KNN

knn = KNeighborsClassifier(n_neighbors=5, p=2, metric='minkowski')
knn.fit(X_train, y_train.ravel())

In [39]:
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
import numpy as np

# Передбачення
knn_y_pred = knn.predict(X_test)

# Обчислення precision, recall, f1-score
knn_precision = precision_score(y_test, knn_y_pred, average='micro')
knn_recall = recall_score(y_test, knn_y_pred, average='micro')
knn_f1 = f1_score(y_test, knn_y_pred, average='micro')

print(f"Precision: {knn_precision}")
print(f"Recall: {knn_recall}")
print(f"F1-score: {knn_f1}")

Precision: 0.6331626120358514
Recall: 0.6331626120358514
F1-score: 0.6331626120358514


In [40]:
import numpy as np
from sklearn.metrics import confusion_matrix, accuracy_score

neighbors = [4, 5, 6, 7]
best_accuracy = 0.0

# Підбір найкращої кількості сусідів
for neighbor in neighbors:
    optimized_knn = KNeighborsClassifier(neighbor, p=2, metric='minkowski')
    optimized_knn.fit(X_train, y_train.ravel())
    y_pred = optimized_knn.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)

    # Перевірка чи досягнуто нової найкращої точності
    if accuracy > best_accuracy:
        best_accuracy = accuracy
        best_value = neighbor

print("Best neighbors value:", best_value)
print("Best Accuracy:", best_accuracy)

Best neighbors value: 7
Best Accuracy: 0.6690140845070423


In [41]:
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
import numpy as np

# Передбачення
knn_y_pred_optimized = optimized_knn.predict(X_test)

# Обчислення precision, recall, f1-score
knn_precision_optimized = precision_score(y_test, knn_y_pred_optimized, average='micro')
knn_recall_optimized = recall_score(y_test, knn_y_pred_optimized, average='micro')
knn_f1_optimized = f1_score(y_test, knn_y_pred_optimized, average='micro')

print(f"Precision: {knn_precision_optimized}")
print(f"Recall: {knn_recall_optimized}")
print(f"F1-score: {knn_f1_optimized}")

Precision: 0.6690140845070423
Recall: 0.6690140845070423
F1-score: 0.6690140845070423


In [48]:
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.metrics import r2_score

# Класифікація з допомогою лійної регресії

# Створення та навчання моделі
lr = Ridge()
lr.fit(X_train, y_train)

In [50]:
# Передбачення
lr_y_pred = lr.predict(X_test)

# Обчислення коефіцієнту детермінації
lr_r2 = r2_score(y_test, lr_y_pred)

print("R^2:", lr_r2)

R^2: 0.001962643511144724


In [46]:
from sklearn.model_selection import GridSearchCV

# Підбір оптимальних параметрів для лінійної регресії

# Діапазон alpha
param_grid = {'alpha': [0.001, 0.01, 0.1, 1, 10, 100]}

# Створення нової моделі гребневої регресії
optimized_lr = Ridge()

# Перехресна перевірка та підбір гіперпараметрів
grid_search = GridSearchCV(optimized_lr, param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)

# Отримання найкращих параметрів та моделі з найкращими параметрами
best_alpha_lr = grid_search.best_params_['alpha']
best_model_lr = grid_search.best_estimator_

# Навчання моделі з найкращими параметрами
best_model_ridge.fit(X_train, y_train)

print("Найкращий параметр:", best_alpha_lr)

Найкращий параметр: 100


In [47]:
# Обрахунок коефіцієнта детермінації
optimized_lr_y_pred = best_model_ridge.predict(X_test)
optimized_lr_r2 = r2_score(y_test, optimized_lr_y_pred)

print("R^2:", optimized_lr_r2)

R^2: 0.0019626434982938923
