# Лабораторная работа №4
# Что такое tidy-данные?

Hadley в работе (http://vita.had.co.nz/papers/tidy-data.pdf) предлагает три основных принципа, определяющих, является ли набор данных опрятным:

1. Каждая переменная формирует столбец.

2. Каждое наблюдение формирует строку.

3. Каждый тип наблюдения формирует таблицу.

Рассмотрим каждый из этих пунктов относительно данного датасета:

1.  **"Каждая переменная формирует столбец"** - в данном датасете каждый столбец, кроме `Star type`, является признаком для обучения классификаторов на определение типа звезды. Есть как категориальные данные, так и числовые. Каждый описывает ту или иную характеристику звезды. Столбцы не нуждаются в изменении.
2. **"Каждое наблюдение формирует строку"** - в данном датасете каждая строка является отдельной звездой с представленными её характеристиками (столбцами таблицы). В таком случае можно создать отдельный столбец `Star ID` и поместить его в начало.
3. **"Каждый тип наблюдения формирует таблицу."** - так как все строки по сути являются одним типом наблюдения (*запись характеристик у каждой звезды*), то  смысла разделять их нет. ~~Разве что применить stack() относительно типа звезды или его ID, но читабельнее это таблицу не сделает.~~

Сами данные в ячейках не требуют редактирования, кроме замены номера типа звезды на название типа.

In [1]:
import pandas as pd
import numpy as np

### Star dataset to predict star types

A 6 class star dataset for star classification with Deep Learned approaches.

**Dataset Info:**

This is a dataset consisting of several features of stars.

Some of them are:

* __Integer__: Absolute Temperature **(in K)** - This column consists of the Surface temperatures of several stars
* __Real__: Relative Luminosity **(L/Lo)** - This column consists of the Luminosity of several stars calculated with respect to sun(L/Lo)
* __Real__: Relative Radius **(R/Ro)** - This column consists of the Radius of several stars calculated with respect to sun(R/Ro)
* __Real__: Absolute Magnitude **(Mv)** - This column consists of the Absolute Visual magnitude(Mv) of several stars
* __Categorical__: Star Color **(white,Red,Blue,Yellow,yellow-orange etc)** - This column contains the info about the colors of each star after Spectral Analysis
* __Categorical__: Spectral Class **(O,B,A,F,G,K,M)** - This column contains info about the spectral classes of each star(O,B,A,F,G,K,M) 
* __Categorical__: Star Type **(Red Dwarf, Brown Dwarf, White Dwarf, Main Sequence , SuperGiants, HyperGiants)** - This column is the output class (6 classes ranging from 0-5) 0 -> Brown Dwarf 1-> Red Dwarf 2 -> White Dwarf 3-> Main Sequence 4 -> Supergiant 5 -> Hypergiant

Lo = 3.828 x 10^26 Watts (Avg Luminosity of Sun)

Ro = 6.9551 x 10^8 m (Avg Radius of Sun)

In [2]:
data = pd.read_csv("../data/Star_dataset.csv")
data

Unnamed: 0,Temperature (K),Luminosity(L/Lo),Radius(R/Ro),Absolute magnitude(Mv),Star type,Star color,Spectral Class
0,3068,0.002400,0.1700,16.12,0,red,M
1,3042,0.000500,0.1542,16.60,0,red,M
2,2600,0.000300,0.1020,18.70,0,red,M
3,2800,0.000200,0.1600,16.65,0,red,M
4,1939,0.000138,0.1030,20.06,0,red,M
...,...,...,...,...,...,...,...
235,38940,374830.000000,1356.0000,-9.93,5,blue,O
236,30839,834042.000000,1194.0000,-10.63,5,blue,O
237,8829,537493.000000,1423.0000,-10.73,5,white,A
238,9235,404940.000000,1112.0000,-11.23,5,white,A


Поменяем номера типов звёзд на соответствующие названия

In [3]:
str_star_type_df = {0: 'Brown_Dwarf', 1: 'Red_Dwarf', 2: 'White_Dwarf', 3: 'Main_Sequence', 4: 'Supergiant', 5: 'Hypergiant'}
data1 = data.replace({'Star type': str_star_type_df})
data1['Star type'].unique()

array(['Brown_Dwarf', 'Red_Dwarf', 'White_Dwarf', 'Main_Sequence',
       'Supergiant', 'Hypergiant'], dtype=object)

Каждая строка датасета является наблюдением за конкретной звездой. Значит можно создать новый столбец `Star_ID`, который является копией номеров индексов и описанием номера каждой звезды.

In [4]:
data2 = data1.copy()
data2['Star_ID'] = data2.index
data2

Unnamed: 0,Temperature (K),Luminosity(L/Lo),Radius(R/Ro),Absolute magnitude(Mv),Star type,Star color,Spectral Class,Star_ID
0,3068,0.002400,0.1700,16.12,Brown_Dwarf,red,M,0
1,3042,0.000500,0.1542,16.60,Brown_Dwarf,red,M,1
2,2600,0.000300,0.1020,18.70,Brown_Dwarf,red,M,2
3,2800,0.000200,0.1600,16.65,Brown_Dwarf,red,M,3
4,1939,0.000138,0.1030,20.06,Brown_Dwarf,red,M,4
...,...,...,...,...,...,...,...,...
235,38940,374830.000000,1356.0000,-9.93,Hypergiant,blue,O,235
236,30839,834042.000000,1194.0000,-10.63,Hypergiant,blue,O,236
237,8829,537493.000000,1423.0000,-10.73,Hypergiant,white,A,237
238,9235,404940.000000,1112.0000,-11.23,Hypergiant,white,A,238


Перенесём столбец `Star_ID` в начало, а `Star type` в конец.

In [5]:
data3 = data2.copy()[["Star_ID", 'Temperature (K)', 'Luminosity(L/Lo)',	
                      'Radius(R/Ro)',	"Absolute magnitude(Mv)",	"Star color",	
                     "Spectral Class", "Star type"]]
data3

Unnamed: 0,Star_ID,Temperature (K),Luminosity(L/Lo),Radius(R/Ro),Absolute magnitude(Mv),Star color,Spectral Class,Star type
0,0,3068,0.002400,0.1700,16.12,red,M,Brown_Dwarf
1,1,3042,0.000500,0.1542,16.60,red,M,Brown_Dwarf
2,2,2600,0.000300,0.1020,18.70,red,M,Brown_Dwarf
3,3,2800,0.000200,0.1600,16.65,red,M,Brown_Dwarf
4,4,1939,0.000138,0.1030,20.06,red,M,Brown_Dwarf
...,...,...,...,...,...,...,...,...
235,235,38940,374830.000000,1356.0000,-9.93,blue,O,Hypergiant
236,236,30839,834042.000000,1194.0000,-10.63,blue,O,Hypergiant
237,237,8829,537493.000000,1423.0000,-10.73,white,A,Hypergiant
238,238,9235,404940.000000,1112.0000,-11.23,white,A,Hypergiant
