In [1]:
import numpy as np
import pandas as pd
from scipy import stats

import plotly.graph_objects as go
from plotly.subplots import make_subplots

*Задание* 1 Вариант 3,2

Рассчет показателей

In [None]:
def compute_stats(data):
    column = 'Horsepower'
    mean_value = float(data[column].mean())  # среднее значение
    variance = float(data[column].var(ddof=1))  # дисперсия
    median = float(data[column].median())  # медиана
    iqr = float(data[column].quantile(0.75) - data[column].quantile(0.25)) # межквартильный размах
    return mean_value, variance, median, iqr

График эмпирической функции распределения

In [None]:
def empirical_cdf_plot(fig, values, title, xlabel):
    sorted_vals = np.sort(values)
    cumulative = np.arange(1, len(values) + 1) / len(values)

    if fig is None:
      fig = go.Figure()

    fig.add_trace(go.Scatter(
        x=sorted_vals,
        y=cumulative,
        mode='lines',
        line_shape='hv',
        name='ECDF'
    ), row=1, col=1)

    fig.update_layout(
        title=title,
        xaxis_title=xlabel,
        yaxis_title="ECDF",
        showlegend=False
    )

    if fig is None:
        fig.show()

Гистограмма

In [None]:
def histogram_plot(fig, values, title, xlabel, bins=20):
    if fig is None:
      fig = go.Figure()

    fig.add_trace(go.Histogram(
        x=values,
        nbinsx=bins,
        opacity=0.7
    ), row=1, col=2)

    fig.update_layout(
        title=title,
        xaxis_title=xlabel,
        yaxis_title="Frequency",
        bargap=0.05
    )
    if fig is None:
        fig.show()

Ящик с усами

In [None]:
def boxplot_visualization(fig, values, title, ylabel):
    if fig is None:
      fig = go.Figure()

    fig.add_trace(go.Box(
        y=values,
        name='',
        boxpoints=False,
    ), row=1, col=3)

    fig.update_layout(
        title=title,
        yaxis_title=ylabel,
        showlegend=False
    )
    if fig is None:
        fig.show()

Анализ распределения мощности автомобилей

In [None]:
def analyze_power(df):
    categories = df['Type'].unique() # Уникальные типы автомобилей
    print("Типы автомобилей:", categories, "\n")

    # Узнаем, какого типа автомобилей больше всего
    type_counts = df['Type'].value_counts()
    fig = go.Figure()
    fig.add_trace(go.Bar(
        x=type_counts.index,
        y=type_counts.values,
    ))
    fig.update_layout(
        title='Распределение типов автомобилей',
        xaxis_title='Тип автомобиля',
        yaxis_title='Количество',
        showlegend=False
    )
    fig.show()

    overall_metrics = compute_stats(df) # Расчёт статистик для всей совокупности
    print("Общая статистика Horsepower:", overall_metrics, "\n")

    # Расчёт статистик для американских и неамериканских автомобилей
    for origin in ['USA', 'non-USA']:
        subset = df[df['Origin'] == origin] if origin == 'USA' else df[df['Origin'] != 'USA']
        metrics = compute_stats(subset)
        print(f"{origin} автомобили (среднее, дисперсия, медиана, межквартильный размах): {metrics} \n")

    # Построение графиков для всей совокупности
    print("\nГрафики для всех автомобилей:")
    fig = make_subplots(rows=1, cols=3)
    empirical_cdf_plot(fig, df['Horsepower'], "ECDF всех авто", "Horsepower")
    histogram_plot(fig, df['Horsepower'], "Гистограмма всех авто", "Horsepower")
    boxplot_visualization(fig, df['Horsepower'], "Boxplot всех авто", "Horsepower")
    fig.show()

    # Построение графиков для каждого типа автомобилей
    for cat in categories:
        print(f"\nГрафики для типа '{cat}':")
        category_data = df[df['Type'] == cat]['Horsepower']
        fig = make_subplots(rows=1, cols=3)
        empirical_cdf_plot(fig, category_data, f"ECDF {cat}", "Horsepower")
        histogram_plot(fig, category_data, f"Гистограмма {cat}", "Horsepower")
        boxplot_visualization(fig, category_data, f"Boxplot {cat}", "Horsepower")
        fig.show()

# Для варианта 2 задания 1 расчеты

In [None]:
from google.colab import files
import pandas as pd
import numpy as np
import plotly.graph_objects as go
from plotly.subplots import make_subplots

data = pd.read_csv('sex_bmi_smokers.csv')

# 1. Сравнение количества курящих мужчин и некурящих женщин
male_smokers = data[(data['sex'] == 'male') & (data['smoker'] == 'yes')].shape[0]
female_non_smokers = data[(data['sex'] == 'female') & (data['smoker'] == 'no')].shape[0]

print(f"\nКоличество курящих мужчин: {male_smokers}")
print(f"Количество некурящих женщин: {female_non_smokers}")
print(f"Разница: {abs(male_smokers - female_non_smokers)}")

# 2. Расчет статистик для всех наблюдателей
print("\nСтатистики для всех наблюдателей:")
print(f"Выборочное среднее ИМТ: {data['bmi'].mean():.2f}")
print(f"Выборочная дисперсия ИМТ: {data['bmi'].var():.2f}")
print(f"Выборочная медиана ИМТ: {data['bmi'].median():.2f}")
print(f"Выборочная квантиль порядка 3/5 ИМТ: {data['bmi'].quantile(3/5):.2f}")

# 3. Расчет статистик для каждой комбинации пол-курение
groups = data.groupby(['sex', 'smoker'])

print("\nСтатистики по группам:")
for name, group in groups:
    print(f"\nГруппа: {name}")
    print(f"Количество наблюдений: {len(group)}")
    print(f"Выборочное среднее ИМТ: {group['bmi'].mean():.2f}")
    print(f"Выборочная дисперсия ИМТ: {group['bmi'].var():.2f}")
    print(f"Выборочная медиана ИМТ: {group['bmi'].median():.2f}")
    print(f"Выборочная квантиль порядка 3/5 ИМТ: {group['bmi'].quantile(3/5):.2f}")

combinations = [('female', 'no'), ('female', 'yes'), ('male', 'no'), ('male', 'yes')]

def create_plots():
    margin_dict = dict(l=100, r=50, b=100, t=100, pad=10)

    # 1. ECDF графики
    ecdf_fig = make_subplots(
        rows=1,
        cols=5,
        subplot_titles=[
            '<b>Все наблюдатели</b>',
            '<b>Женщины, некурящие</b>',
            '<b>Женщины, курящие</b>',
            '<b>Мужчины, некурящие</b>',
            '<b>Мужчины, курящие</b>'
        ],
        horizontal_spacing=0.08
    )

    sorted_vals = np.sort(data['bmi'])
    cumulative = np.arange(1, len(data['bmi']) + 1) / len(data['bmi'])
    ecdf_fig.add_trace(
        go.Scatter(
            x=sorted_vals,
            y=cumulative,
            mode='lines',
            line_shape='hv',
            line=dict(width=2, color='blue')
        ),
        row=1,
        col=1
    )

    colors = ['green', 'red', 'purple', 'orange']

    for i, (comb, color) in enumerate(zip(combinations, colors), start=2):
        group = data[(data['sex'] == comb[0]) & (data['smoker'] == comb[1])]
        sorted_vals = np.sort(group['bmi'])
        cumulative = np.arange(1, len(group['bmi']) + 1) / len(group['bmi'])
        ecdf_fig.add_trace(
            go.Scatter(
                x=sorted_vals,
                y=cumulative,
                mode='lines',
                line_shape='hv',
                line=dict(width=2, color=color)
            ),
            row=1,
            col=i
        )

    ecdf_fig.update_layout(
        height=500,
        width=1400,
        title_text="<b>Эмпирическая функция распределения (ECDF) ИМТ</b>",
        showlegend=False,
        margin=margin_dict,
        title_x=0.5
    )

    for i in range(1, 6):
        ecdf_fig.update_xaxes(
            title_text="<b>ИМТ (кг/м²)</b>",
            row=1,
            col=i,
            title_standoff=15
        )
        ecdf_fig.update_yaxes(
            title_text="<b>ECDF</b>",
            row=1,
            col=i,
            title_standoff=15
        )

    # 2. Гистограммы
    hist_fig = make_subplots(
        rows=1,
        cols=5,
        subplot_titles=[
            '<b>Все наблюдатели</b>',
            '<b>Женщины, некурящие</b>',
            '<b>Женщины, курящие</b>',
            '<b>Мужчины, некурящие</b>',
            '<b>Мужчины, курящие</b>'
        ],
        horizontal_spacing=0.08
    )

    hist_fig.add_trace(
        go.Histogram(
            x=data['bmi'],
            nbinsx=20,
            opacity=0.7,
            marker_color='blue'
        ),
        row=1,
        col=1
    )

    for i, (comb, color) in enumerate(zip(combinations, colors), start=2):
        group = data[(data['sex'] == comb[0]) & (data['smoker'] == comb[1])]
        hist_fig.add_trace(
            go.Histogram(
                x=group['bmi'],
                nbinsx=15,
                opacity=0.7,
                marker_color=color
            ),
            row=1,
            col=i
        )

    hist_fig.update_layout(
        height=500,
        width=1400,
        title_text="<b>Гистограммы распределения ИМТ</b>",
        showlegend=False,
        margin=margin_dict,
        title_x=0.5
    )

    for i in range(1, 6):
        hist_fig.update_xaxes(
            title_text="<b>ИМТ (кг/м²)</b>",
            row=1,
            col=i,
            title_standoff=15
        )
        hist_fig.update_yaxes(
            title_text="<b>Частота</b>",
            row=1,
            col=i,
            title_standoff=15
        )

    # 3. Boxplot'ы
    box_fig = make_subplots(
        rows=1,
        cols=5,
        subplot_titles=[
            '<b>Все наблюдатели</b>',
            '<b>Женщины, некурящие</b>',
            '<b>Женщины, курящие</b>',
            '<b>Мужчины, некурящие</b>',
            '<b>Мужчины, курящие</b>'
        ],
        horizontal_spacing=0.08
    )

    box_fig.add_trace(
        go.Box(
            y=data['bmi'],
            boxpoints=False,
            marker_color='blue'
        ),
        row=1,
        col=1
    )

    for i, (comb, color) in enumerate(zip(combinations, colors), start=2):
        group = data[(data['sex'] == comb[0]) & (data['smoker'] == comb[1])]
        box_fig.add_trace(
            go.Box(
                y=group['bmi'],
                boxpoints=False,
                marker_color=color
            ),
            row=1,
            col=i
        )

    box_fig.update_layout(
        height=500,
        width=1400,
        title_text="<b>Boxplot распределения ИМТ</b>",
        showlegend=False,
        margin=margin_dict,
        title_x=0.5
    )

    for i in range(1, 6):
        box_fig.update_yaxes(
            title_text="<b>ИМТ (кг/м²)</b>",
            row=1,
            col=i,
            title_standoff=15
        )

    # Показываем все графики
    ecdf_fig.show()
    hist_fig.show()
    box_fig.show()

create_plots()


Количество курящих мужчин: 159
Количество некурящих женщин: 547
Разница: 388

Статистики для всех наблюдателей:
Выборочное среднее ИМТ: 30.66
Выборочная дисперсия ИМТ: 37.19
Выборочная медиана ИМТ: 30.40
Выборочная квантиль порядка 3/5 ИМТ: 32.03

Статистики по группам:

Группа: ('female', 'no')
Количество наблюдений: 547
Выборочное среднее ИМТ: 30.54
Выборочная дисперсия ИМТ: 34.83
Выборочная медиана ИМТ: 30.21
Выборочная квантиль порядка 3/5 ИМТ: 31.91

Группа: ('female', 'yes')
Количество наблюдений: 115
Выборочное среднее ИМТ: 29.61
Выборочная дисперсия ИМТ: 44.41
Выборочная медиана ИМТ: 28.38
Выборочная квантиль порядка 3/5 ИМТ: 30.88

Группа: ('male', 'no')
Количество наблюдений: 517
Выборочное среднее ИМТ: 30.77
Выборочная дисперсия ИМТ: 38.35
Выборочная медиана ИМТ: 30.50
Выборочная квантиль порядка 3/5 ИМТ: 32.11

Группа: ('male', 'yes')
Количество наблюдений: 159
Выборочное среднее ИМТ: 31.50
Выборочная дисперсия ИМТ: 35.43
Выборочная медиана ИМТ: 31.13
Выборочная квантиль п

Задание 2

Выбираем метод моментов и проводим оценку параметров нормального распределения

In [None]:
def moment_method_estimation(values):
    mean_est = np.mean(values) # Матожидание
    second_moment = np.mean(values ** 2) # Второй момент
    variance_est = second_moment - mean_est ** 2 # Дисперсия
    return mean_est, variance_est

#  Математическое обоснование:

                        Для X ~ N(μ, σ²):
                        E(X) = μ  ==>  μ̂ = sample mean.
                        E(X^2) = μ² + σ²  ==>  σ² = E(X^2) - μ², поэтому
                        σ̂² = (1/n) * Σ X_i² - (sample mean)².

Свойства оценок:
* Оценка μ̂ является несмещённой с Var(μ̂) = σ²/n.
* Оценка σ̂², полученная методом моментов с делением на n, как правило, смещена.

Теоретические формулы:

* Смещение показывает, насколько оценка параметра отклоняется от его истинного значения.
      Смещение оценки:
                          Bias(μ̂) = E(μ̂) - μ = 0, - для несмещенной оценки
                          Bias(σ̂²) = E(σ̂²) - σ². - для смещенной оценки
      
* Дисперсия оценки показывает, насколько оценка μ̂ отклоняется от своего среднего значения.Дисперсия оценки μ̂:
      Var(μ̂) = σ²/n.

* Среднеквадратическая ошибка (MSE) объединяет смещение и дисперсию оценки. Она показывает, насколько оценка μ̂ отклоняется от истинного значения μ̂.
      MSE оценки: MSE(μ̂) = Var(μ̂)  (так как несмещённа).
      
* Информация Фишера для μ: I(μ) = n/σ².
      Чем больше информация Фишера, тем точнее можно оценить параметр.
      Для μ информация Фишера увеличивается с увеличением объема выборки n и уменьшением дисперсии σ̂².

Задание 3

Оценка поведения выборочного среднего при изменении размера выборки.

In [None]:
def simulate_estimator_behavior(true_mean, true_variance, sample_sizes, trials=1000):
  for size in sample_sizes:
    means = [np.mean(np.random.normal(true_mean, np.sqrt(true_variance), size)) for _ in range(trials)]
    print(f"Выборка {size}: Среднее = {np.mean(means):.4f}, Std = {np.std(means, ddof=1):.4f}")

    fig = make_subplots(rows=1, cols=2, subplot_titles=(
        f"Гистограмма оценок (n={size})", f"Boxplot оценок (n={size})"
    ))

    fig.add_trace(go.Histogram(x=means, nbinsx=20, opacity=0.7), row=1, col=1)
    fig.add_trace(go.Box(y=means, boxpoints=False), row=1, col=2)
    fig.update_layout(height=400, width=800, showlegend=False)
    fig.show()

In [None]:
if __name__ == "__main__":
    # Задание 1
    dataset = pd.read_csv("cars93.csv")
    analyze_power(dataset)

    # Задание 2
    mu_hat, sigma2_hat = moment_method_estimation(dataset['Horsepower'])
    print("Оцененные параметры (моментный метод):")
    print("Оценка среднего: ", mu_hat)
    print("Оценка дисперсии: ", sigma2_hat)

    # Задание 3
    simulate_estimator_behavior(mu_hat, sigma2_hat, [10, 50, 100, 500])

Типы автомобилей: ['Small' 'Midsize' 'Compact' 'Large' 'Sporty' 'Van'] 



Общая статистика Horsepower: (143.8279569892473, 2743.0787751285648, 140.0, 67.0) 

USA автомобили (среднее, дисперсия, медиана, межквартильный размах): (147.52083333333334, 2965.318705673759, 143.5, 61.25) 

non-USA автомобили (среднее, дисперсия, медиана, межквартильный размах): (139.88888888888889, 2537.2828282828286, 135.0, 66.0) 


Графики для всех автомобилей:



Графики для типа 'Small':



Графики для типа 'Midsize':



Графики для типа 'Compact':



Графики для типа 'Large':



Графики для типа 'Sporty':



Графики для типа 'Van':


Оцененные параметры (моментный метод):
Оценка среднего:  143.8279569892473
Оценка дисперсии:  2713.5833044282626
Выборка 10: Среднее = 143.0927, Std = 16.1968


Выборка 50: Среднее = 143.7730, Std = 7.3307


Выборка 100: Среднее = 144.1600, Std = 5.2714


Выборка 500: Среднее = 143.7972, Std = 2.2855
