# **АНАЛІЗ ДАНИХ**

## Встановлення потрібних бібліотек

In [1]:
import pandas as pd
import numpy as np

from IPython.display import HTML

import seaborn as sns
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings("ignore")

## Зчитування та аналіз набору даних

In [87]:
df = pd.read_csv("dataset.csv")

In [3]:
df.head()

Unnamed: 0,id,spkid,full_name,pdes,name,prefix,neo,pha,H,diameter,...,sigma_i,sigma_om,sigma_w,sigma_ma,sigma_ad,sigma_n,sigma_tp,sigma_per,class,rms
0,a0000001,2000001,1 Ceres,1,Ceres,,N,N,3.4,939.4,...,4.6089e-09,6.1688e-08,6.6248e-08,7.8207e-09,1.1113e-11,1.1965e-12,3.7829e-08,9.4159e-09,MBA,0.43301
1,a0000002,2000002,2 Pallas,2,Pallas,,N,N,4.2,545.0,...,3.4694e-06,6.2724e-06,9.1282e-06,8.8591e-06,4.9613e-09,4.6536e-10,4.0787e-05,3.6807e-06,MBA,0.35936
2,a0000003,2000003,3 Juno,3,Juno,,N,N,5.33,246.596,...,3.2231e-06,1.6646e-05,1.7721e-05,8.1104e-06,4.3639e-09,4.4134e-10,3.5288e-05,3.1072e-06,MBA,0.33848
3,a0000004,2000004,4 Vesta,4,Vesta,,N,N,3.0,525.4,...,2.1706e-07,3.8808e-07,1.7893e-07,1.2068e-06,1.6486e-09,2.6125e-10,4.1037e-06,1.2749e-06,MBA,0.3998
4,a0000005,2000005,5 Astraea,5,Astraea,,N,N,6.9,106.699,...,2.7408e-06,2.8949e-05,2.9842e-05,8.3038e-06,4.729e-09,5.5227e-10,3.4743e-05,3.4905e-06,MBA,0.52191


In [4]:
df.shape

(958524, 45)

In [6]:
print('columns count - ',len(df.columns), '\n')
print('columns: ',list(df.columns))

columns count -  45 

columns:  ['id', 'spkid', 'full_name', 'pdes', 'name', 'prefix', 'neo', 'pha', 'H', 'diameter', 'albedo', 'diameter_sigma', 'orbit_id', 'epoch', 'epoch_mjd', 'epoch_cal', 'equinox', 'e', 'a', 'q', 'i', 'om', 'w', 'ma', 'ad', 'n', 'tp', 'tp_cal', 'per', 'per_y', 'moid', 'moid_ld', 'sigma_e', 'sigma_a', 'sigma_q', 'sigma_i', 'sigma_om', 'sigma_w', 'sigma_ma', 'sigma_ad', 'sigma_n', 'sigma_tp', 'sigma_per', 'class', 'rms']


| #  | Column            | Description                                                                                               |
|----|--------------------|-----------------------------------------------------------------------------------------------------------|
| 1  | **id**            | Унікальний ідентифікатор об’єкта.                                                                         |
| 2  | **spkid**         | Числовий ідентифікатор об’єкта в базі даних NASA.                                                         |
| 3  | **full_name**     | Повна назва об’єкта, яка часто містить його номер і рік відкриття.                                        |
| 4  | **pdes**          | Первинне позначення об'єкта, що зазвичай включає рік відкриття та додаткові символи.                      |
| 5  | **name**          | Офіційне ім'я об'єкта, якщо воно присвоєне.                                                               |
| 6  | **prefix**        | Префікс, що позначає особливості відкриття, часто порожній.                                               |
| 7  | **neo**           | Ознака, чи є об'єкт "near-Earth object" (NEO).                                                            |
| 8  | **pha**           | Ознака потенційної небезпеки (Potentially Hazardous Asteroid).                                            |
| 9  | **H**             | Абсолютна зоряна величина об'єкта (показує його яскравість).                                              |
| 10 | **diameter**      | Діаметр об'єкта в кілометрах.                                                                            |
| 11 | **albedo**        | Альбедо або відбивна здатність поверхні об'єкта.                                                          |
| 12 | **diameter_sigma**| Похибка діаметра.                                                                                        |
| 13 | **orbit_id**      | Ідентифікатор орбіти, що визначає поточний розрахунок орбіти.                                            |
| 14 | **epoch**         | Часовий параметр епохи, для якої обчислена орбіта.                                                       |
| 15 | **epoch_mjd**     | Епоха в модифікованих юліанських днях (Modified Julian Date).                                            |
| 16 | **epoch_cal**     | Епоха в календарній формі.                                                                               |
| 17 | **equinox**       | Рівнодення для обчислень орбіти.                                                                         |
| 18 | **e**             | Ексцентриситет орбіти, який показує, наскільки орбіта відрізняється від кола.                            |
| 19 | **a**             | Велика піввісь орбіти (в астрономічних одиницях, а.о.).                                                  |
| 20 | **q**             | Перигелій орбіти (найближча точка до Сонця).                                                             |
| 21 | **i**             | Нахил орбіти об’єкта відносно екліптики (в градусах).                                                   |
| 22 | **om**            | Довгота висхідного вузла, де орбіта перетинає екліптику.                                                |
| 23 | **w**             | Аргумент перигелію, який описує орієнтацію орбіти в площині.                                            |
| 24 | **ma**            | Середня аномалія, що визначає положення об'єкта на орбіті в певний момент.                               |
| 25 | **ad**            | Афелій орбіти (найдальша точка від Сонця).                                                               |
| 26 | **n**             | Середня швидкість руху об’єкта орбітою.                                                                 |
| 27 | **tp**            | Час проходження через перигелій.                                                                         |
| 28 | **tp_cal**        | Час проходження через перигелій у календарній формі.                                                    |
| 29 | **per**           | Орбітальний період (тривалість одного повного оберту навколо Сонця).                                     |
| 30 | **per_y**         | Орбітальний період у роках.                                                                             |
| 31 | **moid**          | Мінімальна відстань між орбітами Землі та об'єкта.                                                      |
| 32 | **moid_ld**       | Мінімальна відстань між орбітами об'єкта та Землі у відстанях до Місяця.                                 |
| 33 | **sigma_e**       | Стандартне відхилення ексцентриситету.                                                                   |
| 34 | **sigma_a**       | Стандартне відхилення великої піввісі.                                                                  |
| 35 | **sigma_q**       | Стандартне відхилення перигелію.                                                                        |
| 36 | **sigma_i**       | Стандартне відхилення нахилу орбіти.                                                                    |
| 37 | **sigma_om**      | Стандартне відхилення довготи висхідного вузла.                                                         |
| 38 | **sigma_w**       | Стандартне відхилення аргументу перигелію.                                                              |
| 39 | **sigma_ma**      | Стандартне відхилення середньої аномалії.                                                               |
| 40 | **sigma_ad**      | Стандартне відхилення афелію.                                                                           |
| 41 | **sigma_n**       | Стандартне відхилення середньої швидкості руху по орбіті.                                               |
| 42 | **sigma_tp**      | Стандартне відхилення часу проходження через перигелій.                                                 |
| 43 | **sigma_per**     | Стандартне відхилення орбітального періоду.                                                             |
| 44 | **class**         | Класифікація об’єкта за типом орбіти (наприклад, MBA — Main Belt Asteroid).                              |
| 45 | **rms**           | Середньоквадратичне відхилення у точності обчислень орбіти.                                             |


###  Зменшення розміру датасету до 2 000 записів

In [88]:
# 1. Вибір рядків без жодного пропуску, але ігноруючи стовпець 'prefix'
complete_rows = df.dropna(subset=[col for col in df.columns if col != 'prefix'])

# Вибір значної частини з повних рядків (наприклад, 1700 рядків)
# Якщо менше 1500 повних рядків, вибираємо доступну кількість
n_complete = min(1700, len(complete_rows))
sample_complete = complete_rows.sample(n=n_complete, random_state=42)

# 2. Вибір рядків з невеликою кількістю пропусків (до 5 пропусків у всьому рядку)
max_missing = 25  # Дозволяємо до 5 пропусків
almost_complete_rows = df[df.isnull().sum(axis=1) <= max_missing]

# Відфільтруємо рядки, які вже були обрані як повні, щоб уникнути повторень
almost_complete_rows = almost_complete_rows.drop(sample_complete.index, errors='ignore')

# Вибір додаткових рядків з пропусками
n_almost_complete = min(2000 - n_complete, len(almost_complete_rows))
sample_almost_complete = almost_complete_rows.sample(n=n_almost_complete, random_state=42)

# 3. Об’єднуємо дві вибірки, що містять 1700 повних і 300 майже повних рядків
final_sample = pd.concat([sample_complete, sample_almost_complete]).drop_duplicates()

# Збереження відібраних даних
final_sample.to_csv("filtered_dataset.csv", index=False)

In [89]:
print(df_reduced.shape)

(2000, 45)


In [90]:
df = final_sample

### Перевірка наявності пропущених даних

In [91]:
print("Any missing sample in training set:", df.isnull().values.any())

Any missing sample in training set: True


In [92]:
for col in df.columns:
    if df[col].isnull().values.any():
        print("Missing data in ", col)

Missing data in  name
Missing data in  prefix
Missing data in  pha
Missing data in  H
Missing data in  diameter
Missing data in  albedo
Missing data in  diameter_sigma
Missing data in  moid
Missing data in  sigma_e
Missing data in  sigma_a
Missing data in  sigma_q
Missing data in  sigma_i
Missing data in  sigma_om
Missing data in  sigma_w
Missing data in  sigma_ma
Missing data in  sigma_ad
Missing data in  sigma_n
Missing data in  sigma_tp
Missing data in  sigma_per


In [93]:
missing = list()
for x in final_sample.columns:
    if final_sample[x].isnull().sum() != 0:
        print(x, final_sample[x].isnull().sum())
        missing.append(x)

name 290
prefix 2000
pha 6
H 2
diameter 246
albedo 247
diameter_sigma 246
moid 6
sigma_e 6
sigma_a 6
sigma_q 6
sigma_i 6
sigma_om 6
sigma_w 6
sigma_ma 6
sigma_ad 6
sigma_n 6
sigma_tp 6
sigma_per 6


### Підрахунок унікальних значень у кожному стовпці

In [94]:
df.nunique()

id                2000
spkid             2000
full_name         2000
pdes              2000
name              1710
prefix               0
neo                  2
pha                  2
H                  172
diameter          1650
albedo             473
diameter_sigma     727
orbit_id           129
epoch               19
epoch_mjd           19
epoch_cal           19
equinox              1
e                 2000
a                 2000
q                 2000
i                 2000
om                2000
w                 2000
ma                2000
ad                2000
n                 2000
tp                2000
tp_cal            2000
per               2000
per_y             2000
moid              1983
moid_ld           1984
sigma_e           1947
sigma_a           1955
sigma_q           1920
sigma_i           1934
sigma_om          1977
sigma_w           1971
sigma_ma          1946
sigma_ad          1946
sigma_n           1839
sigma_tp          1972
sigma_per         1968
class      

### Описова статистика

In [95]:
df.describe()

Unnamed: 0,spkid,H,diameter,albedo,diameter_sigma,epoch,epoch_mjd,epoch_cal,e,a,...,sigma_q,sigma_i,sigma_om,sigma_w,sigma_ma,sigma_ad,sigma_n,sigma_tp,sigma_per,rms
count,2000.0,1998.0,1754.0,1753.0,1754.0,2000.0,2000.0,2000.0,2000.0,2000.0,...,1994.0,1994.0,1994.0,1994.0,1994.0,1994.0,1994.0,1994.0,1994.0,2000.0
mean,2321909.0,13.8707,13.211319,0.191187,0.46482,2458968.0,58967.971,20199650.0,0.140176,2.746393,...,0.01690119,0.02007996,0.09802875,4.103544,4.189846,0.01295898,0.001527404,15.448868,9.874329,0.498894
std,3090022.0,2.078454,26.00189,0.130692,1.237902,361.6132,361.613208,10013.93,0.072654,1.370858,...,0.4438102,0.4271782,2.252885,135.4591,131.343155,0.348546,0.04294787,535.044306,266.530627,0.070549
min,2000004.0,3.0,1.343,0.0194,0.013,2452534.0,52533.0,20020920.0,0.001892,0.973945,...,1.9286e-09,2.1706e-07,3.8808e-07,1.7893e-07,1e-06,1.6486e-09,2.6125e-10,4e-06,1e-06,0.20888
25%,2004726.0,12.8,3.7915,0.0717,0.129,2459000.0,59000.0,20200530.0,0.088248,2.357281,...,8.52625e-08,3.85935e-06,2.337125e-05,3.296925e-05,1.3e-05,9.33445e-09,1.3232e-09,5.5e-05,7e-06,0.453863
50%,2012438.0,14.0,6.3175,0.175,0.223,2459000.0,59000.0,20200530.0,0.133909,2.612568,...,1.05535e-07,4.3831e-06,3.96995e-05,5.07725e-05,1.9e-05,1.37405e-08,1.5006e-09,8.3e-05,1.1e-05,0.497195
75%,2031296.0,15.0,11.89775,0.278,0.436,2459000.0,59000.0,20200530.0,0.181444,3.00528,...,1.336e-07,5.2904e-06,7.54155e-05,9.013525e-05,3.3e-05,2.0301e-08,1.869675e-09,0.000149,1.7e-05,0.535493
max,54015960.0,26.5,525.4,1.0,40.1,2459000.0,59000.0,20200530.0,0.959998,52.966678,...,17.756,14.874,71.797,5790.2,5456.8,14.301,1.7357,23429.0,11064.0,1.6666


### Опис типів значень

In [97]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2000 entries, 4718 to 576074
Data columns (total 45 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id              2000 non-null   object 
 1   spkid           2000 non-null   int64  
 2   full_name       2000 non-null   object 
 3   pdes            2000 non-null   object 
 4   name            1710 non-null   object 
 5   prefix          0 non-null      object 
 6   neo             2000 non-null   object 
 7   pha             1994 non-null   object 
 8   H               1998 non-null   float64
 9   diameter        1754 non-null   float64
 10  albedo          1753 non-null   float64
 11  diameter_sigma  1754 non-null   float64
 12  orbit_id        2000 non-null   object 
 13  epoch           2000 non-null   float64
 14  epoch_mjd       2000 non-null   int64  
 15  epoch_cal       2000 non-null   float64
 16  equinox         2000 non-null   object 
 17  e               2000 non-null   f