# Классификация типов звёзд и анализ данных

В данном ноутбуке представлен анализ данных о звёздах и построение моделей для классификации типа звезды.

## 1. Импорт библиотек

In [None]:
# Основные библиотеки
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Машинное обучение
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# Модели
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC

# Настройки отображения
pd.set_option('display.max_columns', None)
plt.style.use('seaborn-v0_8-whitegrid')
%matplotlib inline

## 2. Загрузка данных

In [None]:
# Загрузка данных
# Укажите путь к вашему файлу данных
# df = pd.read_csv('path/to/your/data.csv')

# Пример: создание тестовых данных
# Замените этот код на загрузку реальных данных
df = pd.DataFrame()

## 3. Исследовательский анализ данных (EDA)

In [None]:
# Просмотр первых строк данных
df.head()

In [None]:
# Информация о данных
df.info()

In [None]:
# Статистическое описание
df.describe()

In [None]:
# Проверка на пропущенные значения
df.isnull().sum()

In [None]:
# Проверка типов данных
df.dtypes

## 4. Визуализация данных

In [None]:
# Корреляционная матрица
# plt.figure(figsize=(12, 8))
# sns.heatmap(df.corr(), annot=True, cmap='coolwarm', center=0)
# plt.title('Корреляционная матрица')
# plt.show()

In [None]:
# Распределение целевой переменной
# plt.figure(figsize=(10, 6))
# sns.countplot(data=df, x='target_column')
# plt.title('Распределение типов звёзд')
# plt.xlabel('Тип звезды')
# plt.ylabel('Количество')
# plt.show()

In [None]:
# Гистограммы признаков
# df.hist(figsize=(15, 12), bins=20)
# plt.tight_layout()
# plt.show()

In [None]:
# Диаграмма Герцшпрунга-Рассела (HR-диаграмма)
# plt.figure(figsize=(10, 8))
# scatter = plt.scatter(df['Temperature'], df['Luminosity'], 
#                       c=df['Star type'], cmap='viridis', alpha=0.7)
# plt.colorbar(scatter, label='Тип звезды')
# plt.xlabel('Температура (K)')
# plt.ylabel('Светимость (L/Lo)')
# plt.title('HR-диаграмма')
# plt.gca().invert_xaxis()  # Традиционно температура отображается справа налево
# plt.yscale('log')
# plt.show()

## 5. Предобработка данных

In [None]:
# Выбор признаков и целевой переменной
# X = df.drop('target_column', axis=1)
# y = df['target_column']

In [None]:
# Кодирование категориальных переменных (если есть)
# le = LabelEncoder()
# y_encoded = le.fit_transform(y)

In [None]:
# Разделение на обучающую и тестовую выборки
# X_train, X_test, y_train, y_test = train_test_split(
#     X, y_encoded, test_size=0.2, random_state=42, stratify=y_encoded
# )

In [None]:
# Масштабирование признаков
# scaler = StandardScaler()
# X_train_scaled = scaler.fit_transform(X_train)
# X_test_scaled = scaler.transform(X_test)

## 6. Обучение моделей

In [None]:
# Словарь для хранения результатов
results = {}

### 6.1 Random Forest

In [None]:
# rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
# rf_model.fit(X_train_scaled, y_train)
# y_pred_rf = rf_model.predict(X_test_scaled)

# results['Random Forest'] = accuracy_score(y_test, y_pred_rf)
# print(f'Random Forest Accuracy: {results["Random Forest"]:.4f}')
# print('\nClassification Report:')
# print(classification_report(y_test, y_pred_rf))

### 6.2 Logistic Regression

In [None]:
# lr_model = LogisticRegression(max_iter=1000, random_state=42)
# lr_model.fit(X_train_scaled, y_train)
# y_pred_lr = lr_model.predict(X_test_scaled)

# results['Logistic Regression'] = accuracy_score(y_test, y_pred_lr)
# print(f'Logistic Regression Accuracy: {results["Logistic Regression"]:.4f}')
# print('\nClassification Report:')
# print(classification_report(y_test, y_pred_lr))

### 6.3 K-Nearest Neighbors

In [None]:
# knn_model = KNeighborsClassifier(n_neighbors=5)
# knn_model.fit(X_train_scaled, y_train)
# y_pred_knn = knn_model.predict(X_test_scaled)

# results['KNN'] = accuracy_score(y_test, y_pred_knn)
# print(f'KNN Accuracy: {results["KNN"]:.4f}')
# print('\nClassification Report:')
# print(classification_report(y_test, y_pred_knn))

### 6.4 Support Vector Machine

In [None]:
# svm_model = SVC(kernel='rbf', random_state=42)
# svm_model.fit(X_train_scaled, y_train)
# y_pred_svm = svm_model.predict(X_test_scaled)

# results['SVM'] = accuracy_score(y_test, y_pred_svm)
# print(f'SVM Accuracy: {results["SVM"]:.4f}')
# print('\nClassification Report:')
# print(classification_report(y_test, y_pred_svm))

## 7. Сравнение моделей

In [None]:
# Сравнение точности моделей
# plt.figure(figsize=(10, 6))
# plt.bar(results.keys(), results.values(), color='steelblue')
# plt.xlabel('Модель')
# plt.ylabel('Точность')
# plt.title('Сравнение точности моделей')
# plt.ylim(0, 1)
# for i, (model, acc) in enumerate(results.items()):
#     plt.text(i, acc + 0.02, f'{acc:.4f}', ha='center')
# plt.show()

## 8. Матрица ошибок

In [None]:
# Матрица ошибок для лучшей модели
# best_model_name = max(results, key=results.get)
# print(f'Лучшая модель: {best_model_name}')

# if best_model_name == 'Random Forest':
#     y_pred_best = y_pred_rf
# elif best_model_name == 'Logistic Regression':
#     y_pred_best = y_pred_lr
# elif best_model_name == 'KNN':
#     y_pred_best = y_pred_knn
# else:
#     y_pred_best = y_pred_svm

# plt.figure(figsize=(10, 8))
# cm = confusion_matrix(y_test, y_pred_best)
# sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
# plt.xlabel('Предсказанный класс')
# plt.ylabel('Истинный класс')
# plt.title(f'Матрица ошибок ({best_model_name})')
# plt.show()

## 9. Важность признаков

In [None]:
# Важность признаков (для Random Forest)
# feature_importance = pd.DataFrame({
#     'feature': X.columns,
#     'importance': rf_model.feature_importances_
# }).sort_values('importance', ascending=False)

# plt.figure(figsize=(10, 6))
# sns.barplot(data=feature_importance, x='importance', y='feature', palette='viridis')
# plt.xlabel('Важность')
# plt.ylabel('Признак')
# plt.title('Важность признаков (Random Forest)')
# plt.show()

## 10. Сохранение модели

In [None]:
# import joblib

# # Сохранение лучшей модели
# joblib.dump(rf_model, 'star_classification_model.pkl')
# joblib.dump(scaler, 'scaler.pkl')
# joblib.dump(le, 'label_encoder.pkl')

# print('Модель успешно сохранена!')

## 11. Выводы

В данной работе был проведён анализ данных о звёздах и построены модели классификации.

**Основные выводы:**
- Добавьте ваши выводы здесь
- ...
- ...