In [1]:
# Подключаем библиотеки numpy и pandas

import numpy as np
import pandas as pd

In [3]:
# Считываем csv файл с GitHub

df_planets = pd.read_csv(r"https://raw.githubusercontent.com/YBI-Foundation/Dataset/refs/heads/main/Planets.csv")
df_planets

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.300000,7.10,77.40,2006
1,Radial Velocity,1,874.774000,2.21,56.95,2008
2,Radial Velocity,1,763.000000,2.60,19.84,2011
3,Radial Velocity,1,326.030000,19.40,110.62,2007
4,Radial Velocity,1,516.220000,10.50,119.47,2009
...,...,...,...,...,...,...
1030,Transit,1,3.941507,,172.00,2006
1031,Transit,1,2.615864,,148.00,2007
1032,Transit,1,3.191524,,174.00,2007
1033,Transit,1,4.125083,,293.00,2008


##### Массив данных представлен в «широком» формате, так как каждая числовая переменная представлена в отдельном столбце

### Перевод из «широкого» формата в «длинный»

In [5]:
# Перевод с помощью функции pd.melt():

df_planets.melt(id_vars = ['year', 'method'], var_name = 'Показатель', value_name = 'Значение')

Unnamed: 0,year,method,Показатель,Значение
0,2006,Radial Velocity,number,1.0
1,2008,Radial Velocity,number,1.0
2,2011,Radial Velocity,number,1.0
3,2007,Radial Velocity,number,1.0
4,2009,Radial Velocity,number,1.0
...,...,...,...,...
4135,2006,Transit,distance,172.0
4136,2007,Transit,distance,148.0
4137,2007,Transit,distance,174.0
4138,2008,Transit,distance,293.0


### Использование функции pd.pivot_table() для одной числовой переменной

In [7]:
# Возьмем числовую переменную Орбитальный период

(
    df_planets
    .pivot_table(
        values = 'orbital_period', 
        index = 'year',
        columns = 'method', 
        aggfunc = 'count',
        fill_value = '-'
    )
)

method,Astrometry,Eclipse Timing Variations,Imaging,Microlensing,Orbital Brightness Modulation,Pulsar Timing,Pulsation Timing Variations,Radial Velocity,Transit,Transit Timing Variations
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1989,-,-,-,-,-,-,-,1,-,-
1992,-,-,-,-,-,2,-,-,-,-
1994,-,-,-,-,-,1,-,-,-,-
1995,-,-,-,-,-,-,-,1,-,-
1996,-,-,-,-,-,-,-,6,-,-
1997,-,-,-,-,-,-,-,1,-,-
1998,-,-,-,-,-,-,-,5,-,-
1999,-,-,-,-,-,-,-,15,-,-
2000,-,-,-,-,-,-,-,16,-,-
2001,-,-,-,-,-,-,-,12,-,-


In [9]:
# Таблицу Метод поиска по годам посчитал для того, чтобы увидеть каким методом ученые пользуются чаще, какие методы эффективнее и какие методы относительно свежие

# Изучив сводную таблицу, можно сделать выводы:
# 1) почти всегда для открытия планет ученые используют метод Радиальной скорости;
# 2) многие методы, кроме Радиальной скорости и Синхронизации с пульсаром начали использовать только в 2000-х года, видимо эти методы относительно недавно открыты;
# 3) В 2007-2008 годах транзитный метод показал свою эффективность и его тоже начали использовать наряду с методом Радиальной скорости;
# 4) После 2011 года Транзитный метод выходит в приорит по эффективности по сравнению с методом Радиальной скорости.

# В основном эту таблицу можно использовать для статистики наиболее эффективных методов поиска.

### Выбирать две другие числовые переменные и использовать цепочку методов .groupby().agg()

In [11]:
# Возьмем 2 числовые переменные mass (Масса) и distance (Дистанция)

(
    df_planets
    .groupby('year')
    .agg(
        {
            'mass': [('Минимум', 'min'), ('Максимум', 'max')],
            'distance' : [('Минимум', 'min'), ('Максимум', 'max')]
        }
    )
)

Unnamed: 0_level_0,mass,mass,distance,distance
Unnamed: 0_level_1,Минимум,Максимум,Минимум,Максимум
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1989,11.68,11.68,40.57,40.57
1992,,,,
1994,,,,
1995,0.472,0.472,15.36,15.36
1996,0.6876,3.9,12.53,21.41
1997,1.04,1.04,17.43,17.43
1998,0.52,8.02,4.7,47.92
1999,0.42,8.44,10.91,59.03
2000,0.249,18.1,3.22,80.0
2001,0.54,10.35,14.08,77.82


In [13]:
# В 2000-х годах технологии показали резкий скачок, эффективность программного обеспечения и мощность "железа"
# росли огромными шагами. В направлении космических технологий это можно заметить и на своднйо таблице: 
# максимальная дистанция до открытых планет увеличивалась с каждым годом благодаря росту технологий.
# Аналогично можно сказать, посмотрев на минимальную массу. Такие планеты тяжело заметить, также сложно увидеть их след
# и их влияние и влияние на них других небесных тел из-за малой гравитации. Но рост технологий дал возможность обнаруживать
# "нетяжелые" планеты, начиная с 2004 года.