In [3]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import LabelEncoder
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import StandardScaler

# Считывание данных
df = pd.read_csv('data.csv')

# Вывод информации о данных
print("Информация о данных:")
print(f"Количество строк: {df.shape[0]}")
print(f"Количество столбцов: {df.shape[1]}")
print("\nТипы данных по столбцам:")
print(df.dtypes)

Информация о данных:
Количество строк: 33725
Количество столбцов: 32

Типы данных по столбцам:
hotel                              object
is_canceled                         int64
lead_time                           int64
arrival_date_year                   int64
arrival_date_month                 object
arrival_date_week_number            int64
arrival_date_day_of_month           int64
stays_in_weekend_nights             int64
stays_in_week_nights                int64
adults                              int64
children                            int64
babies                              int64
meal                               object
country                            object
market_segment                     object
distribution_channel               object
is_repeated_guest                   int64
previous_cancellations              int64
previous_bookings_not_canceled      int64
reserved_room_type                 object
assigned_room_type                 object
booking_changes        

In [6]:
# Определение целевой переменной и признаков
X = df.drop('is_canceled', axis=1)
y = df['is_canceled']

# Преобразование категориальных признаков в числовые
label_encoder = LabelEncoder()
for column in X.columns:
    if X[column].dtype == 'object':
        X[column] = label_encoder.fit_transform(X[column])
        
# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Замена отсутсвующих и бесконечных значений на ноль
X_train = X_train.replace((np.inf, -np.inf, np.nan), 0).reset_index(drop=True)
X_test = X_test.replace((np.inf, -np.inf, np.nan), 0).reset_index(drop=True)

# Масштабирование признаков
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Инициализация модели наивного Байеса
nb = GaussianNB()

# Обучение модели на обучающем наборе данных
nb.fit(X_train_scaled, y_train)

# Предсказание на тестовых данных
predictions = nb.predict(X_test_scaled)

# Оценка качества модели на тестовом наборе
accuracy = accuracy_score(y_test, predictions)
print(f'Точность: {accuracy}')

# Вывод отчета о классификации
print(classification_report(y_test, predictions))

Точность: 0.9825055596738325
              precision    recall  f1-score   support

           0       1.00      0.97      0.99      4486
           1       0.95      1.00      0.97      2259

    accuracy                           0.98      6745
   macro avg       0.98      0.99      0.98      6745
weighted avg       0.98      0.98      0.98      6745

