In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats

# 1. Загрузка данных (GDP per capita по странам за 2022 год)
url = "https://databank.worldbank.org/data/download/GDP.csv"
df = pd.read_csv(url, skiprows=1)

print(df)
# Выбираем данные за 2022 год и удаляем пропущенные значения
df = df[['Country Name', '2022']].dropna()
df.columns = ['Country', 'GDP_per_capita']
data = df['GDP_per_capita'].values

# 2. Основные статистические характеристики
mean = np.mean(data)
median = np.median(data)
mode = stats.mode(data, keepdims=True)[0][0]
variance = np.var(data, ddof=1)
std_dev = np.sqrt(variance)
coef_var = (std_dev / mean) * 100  # Коэффициент вариации в %

print(f"Среднее: {mean:.2f}")
print(f"Медиана: {median:.2f}")
print(f"Мода: {mode:.2f}")
print(f"Дисперсия: {variance:.2f}")
print(f"Стандартное отклонение: {std_dev:.2f}")
print(f"Коэффициент вариации: {coef_var:.2f}%")



    Unnamed: 0 Unnamed: 1  Unnamed: 2     Unnamed: 3    Unnamed: 4 Unnamed: 5
0          NaN        NaN         NaN            NaN  (millions of        NaN
1          NaN    Ranking         NaN        Economy   US dollars)        NaN
2          NaN        NaN         NaN            NaN           NaN        NaN
3          USA          1         NaN  United States   25,462,700         NaN
4          CHN          2         NaN          China   17,963,171         NaN
..         ...        ...         ...            ...           ...        ...
323        NaN        NaN         NaN            NaN           NaN        NaN
324        NaN        NaN         NaN            NaN           NaN        NaN
325        NaN        NaN         NaN            NaN           NaN        NaN
326        NaN        NaN         NaN            NaN           NaN        NaN
327        NaN        NaN         NaN            NaN           NaN        NaN

[328 rows x 6 columns]


KeyError: "None of [Index(['Country Name', '2022'], dtype='object')] are in the [columns]"

In [None]:
# Гистограмма и полигон
plt.figure(figsize=(12, 6))
sns.histplot(filtered_data, bins=s1, kde=True, color='blue', alpha=0.6)
plt.title("Гистограмма распределения GDP на душу населения")
plt.xlabel("GDP per capita")
plt.ylabel("Частота")
plt.show()



In [None]:
# 5. Дисперсионный анализ
groups = np.array_split(np.sort(filtered_data), s1)
group_means = [np.mean(g) for g in groups]
group_variances = [np.var(g, ddof=1) for g in groups]

S_within = np.mean(group_variances)  # Внутригрупповая дисперсия
S_between = np.var(group_means, ddof=1)  # Межгрупповая дисперсия
S_total = np.var(filtered_data, ddof=1)  # Общая дисперсия

print(f"Общая дисперсия: {S_total:.2f}")
print(f"Внутригрупповая дисперсия: {S_within:.2f}")
print(f"Межгрупповая дисперсия: {S_between:.2f}")

# Проверка сложения дисперсий
print(f"Сумма внутригрупповой и межгрупповой: {S_within + S_between:.2f}")
print(f"Погрешность: {abs(S_total - (S_within + S_between)):.5f}")



In [None]:
# 6. Проверка соответствия закону распределения
# Критерий Колмогорова-Смирнова
ks_statistic, ks_p_value = stats.kstest(filtered_data, 'norm', args=(mean, std_dev))
print(f"Критерий Колмогорова-Смирнова: Statistic={ks_statistic:.4f}, p-value={ks_p_value:.4f}")

# Критерий Пирсона (χ²)
hist, bin_edges = np.histogram(filtered_data, bins=s1)
expected_freq = len(filtered_data) / s1
chi2_stat, chi2_p_value = stats.chisquare(hist, [expected_freq] * len(hist))

print(f"Критерий Пирсона: χ²={chi2_stat:.4f}, p-value={chi2_p_value:.4f}")

# Вывод о нормальности
if ks_p_value > 0.05 and chi2_p_value > 0.05:
    print("Выборка соответствует нормальному распределению.")
else:
    print("Выборка не соответствует нормальному распределению.")