# Семинар 1: Загрузка и предварительная обработка данных

Этот ноутбук посвящён первому этапу проекта по классификации переменных звёзд. Ты будешь заниматься загрузкой данных, их очисткой и подготовкой для дальнейшего анализа.


### **1. Введение**

В этом семинаре рассмотрим:
- Импорт необходимых библиотек;
- Загрузка данных из файла;
- Предварительная обработка и очистка данных;
- Визуализация распределения фотометрической ошибки;
- Сохранение координат для последующего поиска в сервисе Vizier.

## 2. Импорт необходимых библиотек


In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Для работы с файлами
import os

Пояснение:

- NumPy и Pandas используются для работы с данными.
- Matplotlib и Seaborn — для визуализации данных.
- Scikit-learn — для предварительной обработки данных и построения модели.
- os — для работы с файловой системой.

## 3. Загрузка и предварительная обработка данных
### 3.1. Загрузка данных из файла 1603053657497A.csv
Загрузим данные и изучим их структуру.

In [2]:
# Загрузка данных


**Пояснение:**
- Загрузим данные из CSV-файла.
- Выберем только необходимые столбцы для дальнейшего анализа.
- Просматриваем первые несколько строк для понимания структуры данных.




---

#### **3.2. Таблица с пояснениями столбцов**

| Поле       | Описание                                                                          | Пример               |
|------------|-----------------------------------------------------------------------------------|----------------------|
| `RAJ2000`  | Правое восхождение в системе координат J2000 (в градусах)                         | 222.9965700          |
| `DEJ2000`  | Склонение в системе координат J2000 (в градусах)                                 | -02.4796400          |
| `nobs`     | Количество наблюдаемых ночей                                                       | 8                    |
| `Vmag`     | Калиброванная величина в V-диапазоне (оптический V-диапазон между 500 и 600 нм) | 13.551               |
| `e_Vmag`   | Неопределённость величины Vmag                                                     | 0.066                |
| `Bmag`     | Калиброванная величина в B-диапазоне (оптический B-диапазон между 400 и 500 нм) | 14.209               |
| `e_Bmag`   | Неопределённость величины Bmag                                                     | 0.075                |
| `fuv_mag`  | Калиброванная величина в FUV (ультрафиолетовый)                                   | 21.8688              |
| `nuv_mag`  | Калиброванная величина в NUV (ультрафиолетовый)                                   | 18.1355              |

---

#### **3.3. Расчёт фотометрической ошибки**

In [3]:
# Расчёт фотометрической ошибки


**Пояснение:**
Создадим новый столбец `err`, представляющий комбинированную неопределённость величин Vmag и Bmag. Это поможет оценить качество измерений.

#### **3.4. Очистка Данных**

Выполним несколько шагов по очистке данных для подготовки их к дальнейшему анализу:

1. **Удаление строк с пропущенными значениями:** Это необходимо для обеспечения целостности данных;
2. **Сортировка по столбцу `err` в порядке убывания:** Сортировка помогает при удалении дубликатов, сохраняя записи с наибольшей ошибкой;
3. **Удаление дубликатов по координатам `RAJ2000` и `DEJ2000`:** Сохраним первую запись для каждого уникального положения;
4. **Удаление столбцов `e_Vmag` и `e_Bmag`:** Эти столбцы больше не нужны после расчёта `err`;
5. **Фильтрация по количеству наблюдений (`nobs > 2`):** Удаляем объекты с недостаточным количеством наблюдений;
6. **Удаление столбца `nobs`:** Этот столбец больше не нужен после фильтрации.

**Пояснение:**
- Обеспечим чистоту и релевантность данных для дальнейшего анализа и моделирования.

#### **3.5. Визуализация распределения фотометрической ошибки**

**Пояснение:**
- Визуализируем распределение фотометрической ошибки, чтобы понять качество измерений.

### **4. Сохранение координат для поиска в Vizier**

Сохраним координаты `RAJ2000` и `DEJ2000` в текстовый файл без индексов и заголовков. Этот файл будет использоваться для загрузки в сервис Vizier для поиска информации в каталоге VSX.


### **5. Инструкция по использованию сервиса Vizier для поиска в VSX**

Для объединения наших данных с информацией о переменных звёздах из VSX воспользуемся сервисом Vizier. Следуй приведённым ниже шагам:

1. **Перейдите на сайт [Vizier](https://vizier.cds.unistra.fr/VizieR).**

2. **Выбор каталога VSX:**
    - Введи в поле поиска `VSX` или `B/vsx/vsx`.
    - Выбери каталог `B/vsx/vsx` (Variable Star Index, Version 2024-11-04).

3. **Запуск поиска:**
    - В левом меню выбери **"List Of Targets"**.
    - Загрузи файл `clean_data_coords.txt`:
        - Нажми на кнопку **"Browse"** и выбери файл `clean_data_coords.txt`.
    - Установи радиус совпадения **10 угловых секунд**.
    - В левом меню выбери **"Tab-Separated-Values"** в качестве формата вывода.

4. **Экспорт результатов:**
    - Нажми **"Submit"** для начала поиска.
    - После завершения загрузи полученный файл `asu.tsv`.

В ходе семинара будет предоставлен готовый файл `asu.tsv` с результатами поиска. Но рекомендуется самостоятельно повторить этот процесс для лучшего понимания.


### **6. Домашнее Задание**

Весь материал (код, визуализации, пояснения и результаты) необходимо оформить в Python Notebook или Google Colab. Итоговый Notebook должен быть загружен в систему отчётности для проверки работы.

### 1. Исследование дополнительных источников данных

- **Цель:**  
  Найти и подготовить новые источники данных для классификации переменных звёзд.

- **Требования и шаги:**
  1. **Исследование источников:**  
     - Проанализировать каталоги астрономических данных, такие как Gaia, 2MASS, Pan-STARRS и другие.
     - Описать, какие источники данных рассматриваются и почему они релевантны.
  2. **Выбор каталога(ов):**  
     - Определить один или несколько источников, содержащих необходимую информацию о звёздах.
  3. **Загрузка и предварительный анализ:**  
     - Загрузить выбранные данные (например, с использованием API или скачав CSV/JSON файлы).
     - Провести предварительный анализ (осмотр структуры данных, типов столбцов, наличие пропусков и т.д.).
     - Визуализировать распределение основных параметров (например, гистограммы или boxplot).
  4. **Приведение данных к требуемому виду:**  
     - Выбрать необходимые столбцы.
     - Провести очистку данных: обработать пропуски, привести типы данных, удалить некорректные записи.
     - Привести формат данных к тому, что используется в основном наборе.
  
- **Конечный результат:**  
  Подготовленный набор данных (например, DataFrame), готовый к объединению с основным набором данных. В Notebook должен присутствовать код с подробными комментариями, а также краткий отчёт с описанием проделанных шагов и полученных результатов.

---

### 2. Анализ влияния фотометрической ошибки

- **Цель:**  
  Определить, как фотометрическая ошибка (`err`) влияет на качество данных.

- **Требования и шаги:**
  1. **Построение диаграмм рассеяния:**  
     - Построить scatter plots, показывающие зависимость `err` от других признаков, таких как `Vmag` и `Bmag`.
     - Визуализировать полученные графики с подробными подписями осей и легендами.
  2. **Расчёт корреляций:**  
     - Рассчитать коэффициенты корреляции между `err` и выбранными признаками.
     - Сопоставить графические результаты с числовыми значениями корреляций.
  3. **Анализ:**  
     - Провести анализ зависимости между фотометрической ошибкой и измеренными величинами.
     - Сделать вывод о том, следует ли корректировать или исключать данные с высокой ошибкой.
  
- **Конечный результат:**  
  Набор визуализаций (графики) и числовых метрик (коэффициенты корреляции) с подробным пояснением, как фотометрическая ошибка влияет на данные. В Notebook должно быть описание анализа и полученные результаты (таблицы, графики).

---

### 3. Визуализация географического распределения объектов

- **Цель:**  
  Построить карту распределения объектов по координатам `RAJ2000` и `DEJ2000`.

- **Требования и шаги:**
  1. **Создание scatter plot:**  
     - Использовать библиотеки `matplotlib` или `seaborn` для построения диаграммы рассеяния по координатам `RAJ2000` и `DEJ2000`.
  2. **Отображение информации о переменных звёздах:**  
     - Применить различные цвета или маркеры для обозначения наличия переменных звёзд (например, используя столбец `present`).
  3. **Оформление графика:**  
     - Добавить подписи осей, заголовок и легенду, чтобы обеспечить понятное отображение информации.
  
- **Конечный результат:**  
  График (scatter plot) с наглядной картой распределения звёзд. В Notebook должны присутствовать комментарии с объяснением, как интерпретировать полученную визуализацию и выявленные закономерности (например, наличие кластеров).

---

### 4. Оптимизация процесса очистки данных

- **Цель:**  
  Исследовать различные методы очистки данных и оценить их влияние на итоговый набор.

- **Требования и шаги:**
  1. **Эксперименты с фильтрацией:**  
     - Провести эксперименты с изменением порога количества наблюдений (`nobs`), чтобы определить оптимальные параметры фильтрации.
  2. **Удаление дубликатов:**  
     - Применить различные методы удаления дубликатов, например, сохранение записи с наименьшей ошибкой.
     - Сравнить результаты, полученные разными методами.
  3. **Анализ влияния:**  
     - Проанализировать, как различные методы очистки влияют на размер и качество набора данных.
     - Документировать результаты экспериментов.
  
- **Конечный результат:**  
  Окончательная версия очищенного набора данных с документированными экспериментами по оптимизации процесса очистки. В Notebook должны быть приведены сравнительные анализы (например, таблицы, графики) и выводы о том, какой метод лучше всего сбалансировал качество и количество данных.

---

### 5. Подготовка данных для моделирования

- **Цель:**  
  Подготовить данные для построения модели классификации.

- **Требования и шаги:**
  1. **Разделение данных:**  
     - Разделить данные на обучающую и тестовую выборки с помощью функции `train_test_split`.
  2. **Масштабирование признаков:**  
     - Применить `StandardScaler` для нормализации числовых признаков.
  3. **Обработка категориальных переменных:**  
     - При наличии категориальных переменных выполнить их кодирование (например, One-Hot Encoding).
  
- **Конечный результат:**  
  Набор данных, разделённый на обучающую и тестовую выборки, с масштабированными числовыми признаками и обработанными категориальными переменными, готовый для обучения модели классификации. В Notebook должны быть приведены шаги с кодом и пояснениями, подтверждающими корректность проведённой подготовки данных.

---

## Итог

- **Требования к оформлению:**  
  - Все этапы выполнения задания должны быть оформлены в едином Python Notebook или Google Colab.
  - В Notebook/Colab необходимо разместить подробные комментарии, описания шагов, выводы, графики и промежуточные результаты.
  - Итоговый Notebook/Colab необходимо загрузить в систему отчётности для проверки.

- **Что требуется:**  
  - Исследовать и подготовить дополнительные источники данных.
  - Провести анализ влияния фотометрической ошибки.
  - Создать визуализацию распределения звёзд по координатам.
  - Оптимизировать процесс очистки данных с проведением экспериментов.
  - Подготовить данные для дальнейшего моделирования (разделение, масштабирование, обработка категориальных переменных).

Убедитесь, что каждая часть задания документирована и снабжена пояснениями, чтобы проверяющему было понятно, какие шаги были предприняты и каковы результаты каждого этапа.