### Начало работы

In [1]:
# Подключаем библиотеки numpy, pandas и math (для числа ПИ)

import numpy as np
import pandas as pd
import math

In [2]:
# Считываем csv файл с GitHub

df_planets = pd.read_csv(r"https://raw.githubusercontent.com/YBI-Foundation/Dataset/refs/heads/main/Planets.csv")
df_planets.describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,1035.0,992.0,513.0,808.0,1035.0
mean,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,1.240976,26014.728304,3.818617,733.116493,3.972567
min,1.0,0.090706,0.0036,1.35,1989.0
25%,1.0,5.44254,0.229,32.56,2007.0
50%,1.0,39.9795,1.26,55.25,2010.0
75%,2.0,526.005,3.04,178.5,2012.0
max,7.0,730000.0,25.0,8500.0,2014.0


In [3]:
df_planets

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.300000,7.10,77.40,2006
1,Radial Velocity,1,874.774000,2.21,56.95,2008
2,Radial Velocity,1,763.000000,2.60,19.84,2011
3,Radial Velocity,1,326.030000,19.40,110.62,2007
4,Radial Velocity,1,516.220000,10.50,119.47,2009
...,...,...,...,...,...,...
1030,Transit,1,3.941507,,172.00,2006
1031,Transit,1,2.615864,,148.00,2007
1032,Transit,1,3.191524,,174.00,2007
1033,Transit,1,4.125083,,293.00,2008


### Написать функцию и применить её к сгруппированным данным с помощью .apply()

##### Не могу сказать точно в каких единицах представлены значения в столбцах, но для расчета предположим, что скорее всего orbital_period - в днях, distance - в млн. км. Посчитаем среднюю массу звезд для планет, сгруппированных по Методу открытия.
##### Формула для расчета массы звезды: $M=\frac{R^3 4 \pi^2}{T^2 G}$, где R - расстояние от планеты до звезды (в метрах), T - орбитальный период в секундах, G - гравитационная постоянная

In [4]:
def get_mass_stars(df):
    G = 6.6743 * 10**(-11)     # Это гравитационная постоянная
    R = df['distance'].mean() * 10**(9)     # Берем среднюю дистанцию и переводим дистанцию из млн км в метры
    T = df['orbital_period'].mean() * 24 * 60 * 60     # Берем средний орбитальный период и переводим орбитальный период из дней в секунды
    M = (R**(3) * 4 * math.pi**(2)) / (T**(2) * G)     # Считаем среднюю массу по формуле, измеряется в килограммах
    return M

In [5]:
(
    df_planets
    .groupby('method')     # Группируем строки по столбцу Method
    .apply(get_mass_stars, include_groups=False)
    .reset_index(drop = False)
    .rename(columns={0: 'Средняя масса звезд'})
)

Unnamed: 0,method,Средняя масса звезд
0,Astrometry,1.135947e+27
1,Eclipse Timing Variations,1.1006729999999998e+29
2,Imaging,1.759598e+24
3,Microlensing,5.6699660000000004e+32
4,Orbital Brightness Modulation,2.587644e+38
5,Pulsar Timing,2.539339e+30
6,Pulsation Timing Variations,
7,Radial Velocity,1.605857e+28
8,Transit,3.830055e+34
9,Transit Timing Variations,1.67649e+34


### Написать функцию и применить её к сгрупированным данным с помощью .transform()

In [7]:
# Найдем максимальный орбитальный период из группировки

def orbital_period_max(df):
    return df.max()

In [30]:
# Вызовем метод трансформ, чтобы найти максимальный орбитальный период по группам

df_planets['orbital_period_max'] = df_planets.groupby('method')['orbital_period'].transform(orbital_period_max)
df_planets

Unnamed: 0,method,number,orbital_period,mass,distance,year,orbital_period_max
0,Radial Velocity,1,269.300000,7.10,77.40,2006,17337.50000
1,Radial Velocity,1,874.774000,2.21,56.95,2008,17337.50000
2,Radial Velocity,1,763.000000,2.60,19.84,2011,17337.50000
3,Radial Velocity,1,326.030000,19.40,110.62,2007,17337.50000
4,Radial Velocity,1,516.220000,10.50,119.47,2009,17337.50000
...,...,...,...,...,...,...,...
1030,Transit,1,3.941507,,172.00,2006,331.60059
1031,Transit,1,2.615864,,148.00,2007,331.60059
1032,Transit,1,3.191524,,174.00,2007,331.60059
1033,Transit,1,4.125083,,293.00,2008,331.60059


##### Далее хочется посчитать, а сколько оборотов вокруг своей звезды делает каждая планета за время 1 оборота планеты, орбитальный период которой является максимальным в группе

In [25]:
# Напишем функцию, которая считает количество полных оборотов для всех планет относиетльно 1 оборота планеты с максимальным орбитальным периодом

def number_of_revolutions(df):
    df['number_of_revolutions'] = df['orbital_period_max'] // df['orbital_period']
    return df

In [29]:
# Применим функцию к сгруппированным данным по Методу открытия

(
    df_planets
    .groupby('method')
    .apply(number_of_revolutions, include_groups=False)
    .head(50)
    #.reset_index(drop = False)
    #.drop('level_1', axis = 1)
)

Unnamed: 0_level_0,Unnamed: 1_level_0,number,orbital_period,mass,distance,year,orbital_period_max,number_of_revolutions
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,113,1,246.36,,20.77,2013,1016.0,4.0
Astrometry,537,1,1016.0,,14.98,2010,1016.0,1.0
Eclipse Timing Variations,32,1,10220.0,6.05,,2009,10220.0,1.0
Eclipse Timing Variations,37,2,5767.0,,130.72,2008,10220.0,1.0
Eclipse Timing Variations,38,2,3321.0,,130.72,2008,10220.0,3.0
Eclipse Timing Variations,39,2,5573.55,,500.0,2010,10220.0,1.0
Eclipse Timing Variations,40,2,2883.5,,500.0,2010,10220.0,3.0
Eclipse Timing Variations,41,1,2900.0,,,2011,10220.0,3.0
Eclipse Timing Variations,42,1,4343.5,4.2,,2012,10220.0,2.0
Eclipse Timing Variations,43,2,5840.0,,,2011,10220.0,1.0


### Написать функцию и применить её ко всем данным с помощью .map()

In [6]:
# Сравним дистанцию планет от своих звезд с расстоянием Земли от Солнца (примерно 150 млн.км.)

a_chto_dalshe = lambda x: 'Ближе к своей звезде, чем Земля к Солнцу' if x <= 150 else 'Дальше от своей звезды, чем Земля от Солнца'

In [19]:
# Добавим столбец с аналитикой в исходный датафрэйм

df_planets['dist_analitika'] = (
    df_planets['distance']
    .map(a_chto_dalshe)
    #.reset_index(drop = False)
    #.rename(columns={0: 'Дальше/Ближе'})
    #.drop('level_0', axis = 1)
    #.drop('index', axis = 1)
)
df_planets

Unnamed: 0,method,number,orbital_period,mass,distance,year,dist_analitika
0,Radial Velocity,1,269.300000,7.10,77.40,2006,"Ближе к своей звезде, чем Земля к Солнцу"
1,Radial Velocity,1,874.774000,2.21,56.95,2008,"Ближе к своей звезде, чем Земля к Солнцу"
2,Radial Velocity,1,763.000000,2.60,19.84,2011,"Ближе к своей звезде, чем Земля к Солнцу"
3,Radial Velocity,1,326.030000,19.40,110.62,2007,"Ближе к своей звезде, чем Земля к Солнцу"
4,Radial Velocity,1,516.220000,10.50,119.47,2009,"Ближе к своей звезде, чем Земля к Солнцу"
...,...,...,...,...,...,...,...
1030,Transit,1,3.941507,,172.00,2006,"Дальше от своей звезды, чем Земля от Солнца"
1031,Transit,1,2.615864,,148.00,2007,"Ближе к своей звезде, чем Земля к Солнцу"
1032,Transit,1,3.191524,,174.00,2007,"Дальше от своей звезды, чем Земля от Солнца"
1033,Transit,1,4.125083,,293.00,2008,"Дальше от своей звезды, чем Земля от Солнца"


### Сгруппировать данные по дате (если применимо) и использовать resample для агрегирования в более крупный период. Если нет дат то испольовать БД dvdrental для выполнения этого пункта.