#Ансамбли моделей машинного обучения.
Цель лабораторной работы: изучение ансамблей моделей машинного обучения.

##Требования к отчету:
Отчет по лабораторной работе должен содержать:

1. титульный лист;
2. описание задания;
3. текст программы;
4. экранные формы с примерами выполнения программы.

##Задание:
1. Выберите набор данных (датасет) для решения задачи классификации или регресии.

2. В случае необходимости проведите удаление или заполнение пропусков и кодирование категориальных признаков.

3. С использованием метода train_test_split разделите выборку на обучающую и тестовую.

4. Обучите следующие ансамблевые модели:

 - одну из моделей группы бэггинга (бэггинг или случайный лес или сверхслучайные деревья);
 - одну из моделей группы бустинга;
 - одну из моделей группы стекинга.

5. Оцените качество моделей с помощью одной из подходящих для задачи метрик. Сравните качество полученных моделей.


### Шаг 1: Предобработка данных

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import StackingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_auc_score
import matplotlib.pyplot as plt
from xgboost import XGBClassifier
from sklearn.ensemble import RandomForestClassifier

df = pd.read_csv('nasa.csv')

# Проверяем наличие пропусков и, в случае необходимости, заполняем или удаляем пропущенные значения
df.isnull().sum()
df.fillna(0, inplace=True)

# Преобразование строк с датами в datetime
df['Close Approach Date'] = pd.to_datetime(df['Close Approach Date'])
df['Orbit Determination Date'] = pd.to_datetime(df['Orbit Determination Date'])

# Перевод дат в количество дней с начала эпохи
df['Close Approach Date(days)'] = (df['Close Approach Date'] - pd.Timestamp('1970-01-01')) // pd.Timedelta('1D')
df['Orbit Determination Date(days)'] = (df['Orbit Determination Date'] - pd.Timestamp('1970-01-01')) // pd.Timedelta('1D')

df = df.drop(['Close Approach Date', 'Orbit Determination Date'], axis=1)
df = df.drop(['Equinox'], axis = 1)

# Кодирование категориальных признаков если они есть
# Пример кодирования для 'Orbiting Body' если в нем есть пропуски или не числовые значения
df = pd.get_dummies(df, columns=['Orbiting Body'])

###Шаг 2: Разделяем на обучающую и тестирующую выборку

In [None]:
X = df.drop('Hazardous', axis=1)
y = df['Hazardous']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


###Шаг 3: Обучим модели

- Беттинг ( случайный лес )

In [None]:
rf_clf = RandomForestClassifier(random_state=42)
rf_clf.fit(X_train, y_train)

- Бустинг ( XGBoost )

In [None]:
xgb_clf = XGBClassifier(random_state=42)
xgb_clf.fit(X_train, y_train)

- Стекинг

In [None]:
estimators = [
    ('rf', RandomForestClassifier(n_estimators=10, random_state=42)),
    ('xgb', XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42))
]
stack_clf = StackingClassifier(
    estimators=estimators, final_estimator=LogisticRegression()
)
stack_clf.fit(X_train, y_train)


###Шаг 4: Оценим качество моделей с помощью подходящий метрик


In [None]:
models = [rf_clf, xgb_clf, stack_clf]
model_names = ['Random Forest', 'XGBoost', 'Stacking']
accuracy_array = []
for model, name in zip(models, model_names):
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    accuracy_array.append(accuracy)
    print(f'{name} Accuracy: {accuracy:.4f}')


Random Forest Accuracy: 0.9950
XGBoost Accuracy: 0.9943
Stacking Accuracy: 0.9943


###Шаг 5: Сравним качество полученных моделей.

In [None]:
# Сравнение моделей
best_accuracy = max(accuracy_array)
for i in range (len(model_names)):
  if best_accuracy == accuracy_array[i]:
    print(f'Best model: {model_names[i]}\n Accuracy: {accuracy_array[i]}')


Best model: Random Forest
 Accuracy: 0.9950248756218906
