In [45]:
import pandas as pd

# Загрузка даних
data = pd.read_csv('avocado.csv', delimiter=',', encoding='latin1')

# Видалення нульових значень
data = data.dropna()

# Вивід даних
data

Unnamed: 0.1,Unnamed: 0,Date,AveragePrice,Total Volume,4046,4225,4770,Total Bags,Small Bags,Large Bags,XLarge Bags,type,year,region
0,0,2015-12-27,1.33,64236.62,1036.74,54454.85,48.16,8696.87,8603.62,93.25,0.0,conventional,2015,Albany
1,1,2015-12-20,1.35,54876.98,674.28,44638.81,58.33,9505.56,9408.07,97.49,0.0,conventional,2015,Albany
2,2,2015-12-13,0.93,118220.22,794.70,109149.67,130.50,8145.35,8042.21,103.14,0.0,conventional,2015,Albany
3,3,2015-12-06,1.08,78992.15,1132.00,71976.41,72.58,5811.16,5677.40,133.76,0.0,conventional,2015,Albany
4,4,2015-11-29,1.28,51039.60,941.48,43838.39,75.78,6183.95,5986.26,197.69,0.0,conventional,2015,Albany
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18244,7,2018-02-04,1.63,17074.83,2046.96,1529.20,0.00,13498.67,13066.82,431.85,0.0,organic,2018,WestTexNewMexico
18245,8,2018-01-28,1.71,13888.04,1191.70,3431.50,0.00,9264.84,8940.04,324.80,0.0,organic,2018,WestTexNewMexico
18246,9,2018-01-21,1.87,13766.76,1191.92,2452.79,727.94,9394.11,9351.80,42.31,0.0,organic,2018,WestTexNewMexico
18247,10,2018-01-14,1.93,16205.22,1527.63,2981.04,727.01,10969.54,10919.54,50.00,0.0,organic,2018,WestTexNewMexico


In [46]:
from sklearn.model_selection import train_test_split
import numpy as np

# Розділення даних для бінарної класифікації
X_binary = np.array(data['AveragePrice']).reshape(-1, 1)
y_binary = np.array(data['type'])
X_train_binary, X_test_binary, y_train_binary, y_test_binary = train_test_split(X_binary, y_binary, test_size=0.3, random_state=42)

In [47]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix

# Створення моделі логістичної регресії для бінарної класифікації
model_binary = LogisticRegression()

# Навчання моделі на навчальних даних
model_binary.fit(X_train_binary, y_train_binary)

# Передбачення класів для тестових даних
y_pred_binary = model_binary.predict(X_test_binary)

# Оцінка точності та інших метрик
accuracy_binary = accuracy_score(y_test_binary, y_pred_binary)
confusion_binary = confusion_matrix(y_test_binary, y_pred_binary)

print(f"Точність: {accuracy_binary}")
print(f"Матриця плутанин:\n{confusion_binary}")

Точність: 0.7888584474885845
Матриця плутанин:
[[2168  551]
 [ 605 2151]]


In [48]:
from sklearn.model_selection import train_test_split
import numpy as np

# Розділення даних для множинної класифікації
X_multiple = np.array(data[['AveragePrice', 'Small Bags']])
y_multiple = np.array(data['type'])
X_train_multiple, X_test_multiple, y_train_multiple, y_test_multiple = train_test_split(X_multiple, y_multiple, test_size=0.3, random_state=42)

In [49]:
# Створення моделі логістичної регресії для множинної класифікації
model_multiple = LogisticRegression()

# Навчання моделі на навчальних даних
model_multiple.fit(X_train_multiple, y_train_multiple)

# Передбачення класів для тестових даних
y_pred_multiple = model_multiple.predict(X_test_multiple)

# Оцінка точності та інших метрик
accuracy_multiple = accuracy_score(y_test_multiple, y_pred_multiple)
confusion_multiple = confusion_matrix(y_test_multiple, y_pred_multiple)

print(f"Точність: {accuracy_multiple}")
print(f"Матриця плутанин:\n{confusion_multiple}")

Точність: 0.8480365296803652
Матриця плутанин:
[[2078  641]
 [ 191 2565]]


In [50]:
from sklearn.model_selection import GridSearchCV

# Створення моделі логістичної регресії для перенавчання моделі бінарної класифікації
new_model_binary = LogisticRegression()

# Задаємо набір можливих значень для параметрів
param_grid_binary = {
    'penalty': ['l2'],
    'C': [0.01, 0.1, 1, 10],
    'solver': ['lbfgs']
}

# GridSearchCV для пошуку оптимальних параметрів
grid_search_binary = GridSearchCV(new_model_binary, param_grid_binary, cv=5, scoring='accuracy')
grid_search_binary.fit(X_train_binary, y_train_binary)

# Виведення оптимальних параметрів
print("Оптимальні параметри:", grid_search_binary.best_params_)

# Перенавчання моделі з оптимальними параметрами
best_model_binary = grid_search_binary.best_estimator_
best_model_binary.fit(X_train_binary, y_train_binary)

# Використання найкращої моделі для передбачень
new_y_pred_binary = best_model_binary.predict(X_test_binary)

# Оцінка точності та інших метрик
new_accuracy_binary = accuracy_score(new_y_pred_binary, new_y_pred_binary)
new_confusion_binary = confusion_matrix(new_y_pred_binary, new_y_pred_binary)

print(f"Точність: {new_accuracy_binary}")
print(f"Матриця плутанин:\n{new_confusion_binary}")

Оптимальні параметри: {'C': 0.1, 'penalty': 'l2', 'solver': 'lbfgs'}
Точність: 1.0
Матриця плутанин:
[[2773    0]
 [   0 2702]]


In [51]:
# Створення моделі логістичної регресії для перенавчання моделі множинної класифікації
new_model_multiple = LogisticRegression()

# Задаємо набір можливих значень для параметрів
param_grid_multiple = {
    'penalty': ['l2'],
    'C': [0.01, 0.1, 1, 10],
    'solver': ['lbfgs']
}

# GridSearchCV для пошуку оптимальних параметрів
grid_search_multiple = GridSearchCV(new_model_multiple, param_grid_multiple, cv=5, scoring='accuracy')
grid_search_multiple.fit(X_train_multiple, y_train_multiple)

# Виведення оптимальних параметрів
print("Оптимальні параметри:", grid_search_multiple.best_params_)

# Перенавчання моделі з оптимальними параметрами
best_model_multiple = grid_search_multiple.best_estimator_
best_model_multiple.fit(X_train_multiple, y_train_multiple)

# Використання найкращої моделі для передбачень
new_y_pred_multiple = best_model_multiple.predict(X_test_multiple)

# Оцінка точності та інших метрик
new_accuracy_multiple = accuracy_score(new_y_pred_multiple, new_y_pred_multiple)
new_confusion_multiple = confusion_matrix(new_y_pred_multiple, new_y_pred_multiple)

print(f"Точність: {new_accuracy_multiple}")
print(f"Матриця плутанин:\n{new_confusion_multiple}")

Оптимальні параметри: {'C': 0.01, 'penalty': 'l2', 'solver': 'lbfgs'}
Точність: 1.0
Матриця плутанин:
[[2278    0]
 [   0 3197]]
