### 1) Начало работы, изучим датафрейм, очистим от пропусков и выбросов

In [1]:
# Подключаем библиотеки
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import statsmodels.api as sm

In [2]:
# Считываем csv файл с GitHub
df_planets = pd.read_csv(r"https://raw.githubusercontent.com/YBI-Foundation/Dataset/refs/heads/main/Planets.csv")
df_planets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [3]:
# Поссмотрим размерность
df_planets.shape

(1035, 6)

##### Работа с пропусками

In [4]:
# Поссмотрим пропуски
df_planets.isna().sum()

method              0
number              0
orbital_period     43
mass              522
distance          227
year                0
dtype: int64

In [5]:
# Заполним все пропуски
for i in ['orbital_period', 'mass', 'distance']:
    df_planets.loc[df_planets[i].isna(), i] = np.random.uniform(df_planets[i].min(), df_planets[i].max(), df_planets[i].isna().sum())
df_planets.isna().sum()     # В итоге все значения заполнены

method            0
number            0
orbital_period    0
mass              0
distance          0
year              0
dtype: int64

##### Работа с дубликатами

In [6]:
# Проверим на дубликаты
df_planets[df_planets.duplicated()]     # Дубликатов нет

Unnamed: 0,method,number,orbital_period,mass,distance,year


##### Работа с выбросами

In [42]:
# Поиск выбросов по Орбитальному периоду. Возьмем метод через IQR.
lower_bound_op = df_planets['orbital_period'].quantile(0.25) - 1.5*(df_planets['orbital_period'].quantile(0.75) - df_planets['orbital_period'].quantile(0.25))
upper_bound_op = df_planets['orbital_period'].quantile(0.75) + 1.5*(df_planets['orbital_period'].quantile(0.75) - df_planets['orbital_period'].quantile(0.25))
# Поиск выбросов по Массе. Возьмем метод через IQR.
lower_bound_m = df_planets['mass'].quantile(0.25) - 1.5*(df_planets['mass'].quantile(0.75) - df_planets['mass'].quantile(0.25))
upper_bound_m = df_planets['mass'].quantile(0.75) + 1.5*(df_planets['mass'].quantile(0.75) - df_planets['mass'].quantile(0.25))
# Поиск выбросов по Дистанции. Возьмем метод через IQR.
lower_bound_d = df_planets['distance'].quantile(0.25) - 1.5*(df_planets['distance'].quantile(0.75) - df_planets['distance'].quantile(0.25))
upper_bound_d = df_planets['distance'].quantile(0.75) + 1.5*(df_planets['distance'].quantile(0.75) - df_planets['distance'].quantile(0.25))
# Уберем все выбросы
# В новый датафрейм - уберем выбросы по орбитальному периоду
df_pl_perfect = df_planets[((df_planets['orbital_period'] >= lower_bound_op) & (df_planets['orbital_period'] <= upper_bound_op))]
# Берем уже новый датафрейм и в нем уберем выбросы по массе
df_pl_perfect = df_pl_perfect[((df_pl_perfect['mass'] >= lower_bound_m) & (df_pl_perfect['mass'] <= upper_bound_m))]
# Берем новый датафрейм и в нем уберем выбросы по дистанции
df_pl_perfect = df_pl_perfect[((df_pl_perfect['distance'] >= lower_bound_d) & (df_pl_perfect['distance'] <= upper_bound_d))]
df_pl_perfect = df_pl_perfect.reset_index(drop = True)    # Выбросы отсутствуют
df_pl_perfect

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.300000,7.100000,77.40,2006
1,Radial Velocity,1,874.774000,2.210000,56.95,2008
2,Radial Velocity,1,763.000000,2.600000,19.84,2011
3,Radial Velocity,1,326.030000,19.400000,110.62,2007
4,Radial Velocity,1,516.220000,10.500000,119.47,2009
...,...,...,...,...,...,...
728,Transit,1,3.941507,15.519783,172.00,2006
729,Transit,1,2.615864,10.584943,148.00,2007
730,Transit,1,3.191524,5.397980,174.00,2007
731,Transit,1,4.125083,12.845216,293.00,2008


### 2) Выберем две количественные переменные и найдем для них 95% доверительные интервалы средних значений

In [47]:
# Сделаем отдельный датафрейм со столбцом Орбитальный период
df_op = df_pl_perfect['orbital_period']
# Сделаем отдельный датафрейм со столбцом Дистанция
df_d = df_pl_perfect['distance']
alpha = 0.95

In [51]:
df_op.count()

733

In [52]:
# Сделаем отдельный датафрейм со столбцом Орбитальный период
df_op = df_pl_perfect['orbital_period']
# Сделаем отдельный датафрейм со столбцом Дистанция
df_d = df_pl_perfect['distance']

# Уровень доверия
alpha = 0.95

# Вычислим среднее значение ДФ Орбитальный период
mean_op = df_op.mean()
# Вычислим дисперсию значений ДФ Орбитальный период
var_op = df_op.var()
# Вычислим количество значений ДФ Орбитальный период
n_op = df_op.count()

# Вычислим доверительный интервал для среднего значения Орбитального периода
ci_op = stats.norm.interval(confidence = alpha, loc = mean_op, scale = np.sqrt(var_op/n_op))
print(f'95% доверительный интервал для среднего значения Орбитального периода от {ci_op[0].round(2)} до {ci_op[1].round(2)}')

# Вычислим среднее значение ДФ Дистанция
mean_d = df_d.mean()
# Вычислим дисперсию значений ДФ Дистанция
var_d = df_d.var()
# Вычислим количество значений ДФ Дистанция
n_d = df_d.count()

# Вычислим доверительный интервал для среднего значения Дистанции
ci_d = stats.norm.interval(confidence = alpha, loc = mean_d, scale = np.sqrt(var_d/n_d))
print(f'95% доверительный интервал для среднего значения Дистанции от {ci_d[0].round(2)} до {ci_d[1].round(2)}')

95% доверительный интервал для среднего значения Орбитального периода от 223.7 до 278.42
95% доверительный интервал для среднего значения Дистанции от 224.88 до 281.33


In [55]:
df_pl_perfect['orbital_period'].describe()

count     733.000000
mean      251.061731
std       377.977130
min         0.090706
25%         4.640382
50%        34.620000
75%       383.700000
max      1657.000000
Name: orbital_period, dtype: float64

In [54]:
df_pl_perfect['distance'].describe()

count     733.000000
mean      253.103032
std       389.918439
min         1.350000
25%        34.570000
50%        68.540000
75%       290.000000
max      1919.619260
Name: distance, dtype: float64

##### Методы нахождения экзопланет различаются технологиями. На столбчатой диаграмме видно, что некоторые методы в основном ипользуют для открытия близлежащих к звездам планет, а у некоторых алгоритмы подходят и для планет с дальними дистанциями.

### 3) Оценим распределение этих переменных на нормальность с помощью формальных тестов и с помощью альтернативных методов

##### Гистограмма показывет, что примерно четверть (250*100/1035) открытых планет имеют массу до 1 у.е. (не знаю, честно говоря, в чем тут измеряется). Мало планет имеют большую массу, для этого нужны определенные условия.

### 4) Возьмем две группы наблюдений и протестируем гипотезу о равенстве математических ожиданий (двухвыборочный т-тест или тест Манна-Уитни в зависимости от результата теста на нормальность)

##### Рассмотрим зависимость дистанции и года открытия планеты (для наглядности возьмем до 500 млн. км.). Как и в предыдущих ДЗ, тут напрашивается вывод, что развитие технологий (открытие новых методов поиска) около 2000 года позволил искать планеты на более дальних расстояниях от их звезд. Дополнительно, показав массу в диаграмме, можно сказать, что как раз на дальних расстояниях количество планет с небольшой массой конкретно меньше, чем на малых расстояниях. Ну это логично, близко к звездам больших планет единицы, в основном небольшие, даже если посмотреть на нашу систему Данный факт на диаграмме прослеживается.

### 5) Построим точечную диаграмму (scatterplot) и оценим корреляцию между переменными

### 6) Оценим модель линейной регрессии. Сделаем на ее основе прогноз и вывод по результатам