In [7]:
import scipy.stats as st
import numpy as np

In [8]:
x = np.array([10, 7, 14, 15, 7, 10, 23, 15, 15, 21, 19, 18, 11, 23, 23, 23, 17, 18, 7, 14])
x.mean()
np.median(x)
st.mode(x)

ModeResult(mode=np.int64(23), count=np.int64(4))

In [9]:
p = 0.00007  # вероятность выигрыша
S = 2_000_000  # выигрыш в рублях
C = 135  # стоимость одного билета

# Среднее количество покупок
expected_tickets = 1 / p

# Средние затраты
total_cost = C * expected_tickets

# Средний выигрыш
average_winnings = S - total_cost

round(expected_tickets, 2), round(total_cost, 2), round(average_winnings, 2)

(14285.71, 1928571.43, 71428.57)

In [10]:
from sympy import symbols, Eq, solve

# Обозначим переменные
sigma = symbols('sigma')

# Уравнение для нахождения стандартного отклонения
equation = Eq((5 - 0.84 * sigma) / sigma, 0.25)

# Решаем уравнение
solution_sigma = solve(equation, sigma)
solution_sigma

[4.58715596330275]

In [11]:
from math import comb

# Данные
n = 10  # общее количество бросков
k = 7   # количество успешных бросков
p = 0.7 # вероятность успеха
q = 1 - p # вероятность неуспеха

# Вычисляем вероятность
probability = comb(n, k) * (p ** k) * (q ** (n - k))
round(probability, 4)

0.2668

In [12]:
from sympy import symbols, integrate, pi

# Переменные и пределы
x = symbols('x')
a, b = 1.7, 1.8

# Подынтегральная функция
volume_function = (pi / 6) * x**3

# Вычисление интеграла
integral_value = integrate(volume_function, (x, a, b))

# Математическое ожидание
expectation = (1 / (b - a)) * integral_value
round(expectation.evalf(), 4)

2.8085

In [13]:
from math import exp

# Интенсивность
lambda_t = 2.5

# Вероятность хотя бы одного вызова
probability_at_least_one = 1 - exp(-lambda_t)
round(probability_at_least_one, 4)

0.9179

In [18]:
# Заданные значения
Z_alpha_2 = stats.norm.ppf(1 - 0.02 / 2)  # критическое значение для уровня значимости 0.02 (alpha/2 = 0.01)
sigma = np.sqrt(8)     # стандартное отклонение (корень из дисперсии 8)
E = 2.5           # точность

# Формула для расчета минимального объема выборки
n = (Z_alpha_2 * sigma / E) ** 2
n

np.float64(6.927224871749557)

In [16]:
import scipy.stats as stats
import math

# Данные
mean = 50        # Среднее выборочное
s_squared = 30    # Выборочная дисперсия
n = 10            # Объем выборки
confidence_level = 0.95

# Расчет стандартного отклонения
s = math.sqrt(s_squared)

# Уровень значимости
alpha = 1 - confidence_level

# Критическое значение t для распределения Стьюдента с 9 степенями свободы
t_alpha_2 = stats.t.ppf(1 - alpha / 2, df=n - 1)

# Погрешность
margin_of_error = t_alpha_2 * (s / math.sqrt(n))

# Границы доверительного интервала
lower_bound = mean - margin_of_error
upper_bound = mean + margin_of_error

lower_bound, upper_bound

(np.float64(46.08182885923084), np.float64(53.91817114076916))

In [17]:
import scipy.stats as stats
import math

# Данные
n = 80            # Объем выборки
x = 56            # Количество неиспорченных товаров
confidence_level = 0.97

# Выборочная доля неиспорченных товаров
p_hat = x / n
q_hat = 1 - p_hat

# Уровень значимости
alpha = 1 - confidence_level

# Критическое значение Z для нормального распределения
Z_alpha_2 = stats.norm.ppf(1 - alpha / 2)

# Погрешность
E = Z_alpha_2 * math.sqrt((p_hat * q_hat) / n)

# Границы доверительного интервала
lower_bound = p_hat - E
upper_bound = p_hat + E

# Долей испорченных товаров
lower_bound_damaged = 1 - upper_bound
upper_bound_damaged = 1 - lower_bound

print(f"Границы для доли неиспорченных товаров: ({lower_bound:.4f}, {upper_bound:.4f})")
print(f"Границы для доли испорченных товаров: ({lower_bound_damaged:.4f}, {upper_bound_damaged:.4f})")

Границы для доли неиспорченных товаров: (0.5888, 0.8112)
Границы для доли испорченных товаров: (0.1888, 0.4112)


In [19]:
import scipy.stats as stats
import math

# Данные
n = 10            # Размер выборки
s = 0.8           # Выборочное стандартное отклонение
confidence_level = 0.95

# Уровень значимости
alpha = 1 - confidence_level

# Критические значения для распределения Хи-квадрат
chi2_lower = stats.chi2.ppf(alpha / 2, df=n - 1)
chi2_upper = stats.chi2.ppf(1 - alpha / 2, df=n - 1)

# Доверительный интервал для дисперсии
lower_bound = math.sqrt((n - 1) * s**2 / chi2_upper)
upper_bound = math.sqrt((n - 1) * s**2 / chi2_lower)

print(f"Доверительный интервал для истинного стандартного отклонения: ({lower_bound:.4f}, {upper_bound:.4f})")

Доверительный интервал для истинного стандартного отклонения: (0.5503, 1.4605)


In [20]:
import scipy.stats as stats

# Данные до и после курения
before = [2, 2, 5, 7, 8, 9, 10, 10, 10, 11]
after = [5, 4, 6, 7, 11, 9, 9, 13, 11, 10]

# Разности между значениями "после" и "до"
differences = [a - b for a, b in zip(after, before)]

# Выполним парный t-тест
t_stat, p_value = stats.ttest_1samp(differences, 0)

# Поскольку альтернативная гипотеза направлена (увеличение), делим p-value на 2
p_value_one_sided = p_value / 2

print(f"p-value: {p_value_one_sided:.4f}")

p-value: 0.0286


In [21]:
import scipy.stats as stats

# Данные для больниц №1 и №2
hospital_1 = [14, 16, 15, 17, 18, 15, 14, 15]
hospital_2 = [15, 17, 16, 17, 19, 19, 16, 16]

# Выполним t-тест для независимых выборок
t_stat, p_value = stats.ttest_ind(hospital_1, hospital_2)

# Печатаем p-value
print(f"p-value: {p_value:.4f}")

p-value: 0.0762


In [22]:
import scipy.stats as stats

# Данные для первого и второго классов
class_1 = [79, 88, 39, 40, 40, 90, 39, 79, 75, 53]
class_2 = [62, 64, 87, 49, 72, 65, 63, 56, 77, 41]

# Вычисляем выборочные дисперсии для каждого класса
var_1 = stats.tvar(class_1)
var_2 = stats.tvar(class_2)

# Рассчитываем F-статистику
F_stat = var_1 / var_2

# Вычисляем p-value для F-теста
df_1 = len(class_1) - 1  # Степени свободы для первого класса
df_2 = len(class_2) - 1  # Степени свободы для второго класса

p_value = stats.f.sf(F_stat, df_1, df_2)  # p-value для F-статистики

print(f"p-value: {p_value:.4f}")

p-value: 0.0759


In [23]:
import scipy.stats as stats

# Данные для каждого типа ухода
regular_care = [4.17, 5.58, 5.18, 6.11, 4.50, 4.61, 5.17, 4.53, 5.33, 5.14]
partial_care = [4.52, 4.18, 4.84, 5.89, 3.57, 3.91, 5.96, 6.09, 4.74, 5.26]
no_care = [4.81, 4.17, 4.41, 3.59, 5.87, 3.83, 6.03, 4.89, 4.32, 4.69]

# Выполним однофакторный ANOVA
f_stat, p_value = stats.f_oneway(regular_care, partial_care, no_care)

# Печатаем p-value
print(f"p-value: {p_value:.4f}")

p-value: 0.5553


In [25]:
import pandas as pd

df = pd.DataFrame({'id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15],
                   'S': [2310, 2333, 2356, 2379, 2402, 2425, 2448, 2471, 2494, 2517, 2540, 2543, 2602, 2615, 2625],
                   'O': [2, 2, 3, 3, 2, 4, 2, 2, 3, 4, 2, 3, 4, 2, 4],
                   'E': [2, 2, 2, 2, 3, 3, 2, 2, 3, 4, 3, 4, 2, 3, 4],
                   'Y': [20, 12, 33, 43, 53, 23, 37, 34, 23, 55, 22, 41, 29, 17, 20],
                   'C': [142000, 144000, 151000, 151000, 139000, 169000, 126000, 142000, 163000, 169000, 149000, 152000, 156000, 162000, 172000]})
df['S'].corr(df['C'])

np.float64(0.5113885583507743)

In [29]:
S = (df['S']-df['S'].mean())/df['S'].std()
O = (df['O']-df['O'].mean())/df['O'].std()
E = (df['E']-df['E'].mean())/df['E'].std()
Y = (df['Y']-df['Y'].mean())/df['Y'].std()
C = (df['C']-df['C'].mean())/df['C'].std()



0    -1.561262
1    -1.337762
2    -1.114262
3    -0.890762
4    -0.667261
5    -0.443761
6    -0.220261
7     0.003239
8     0.226739
9     0.450240
10    0.673740
11    0.702892
12    1.276218
13    1.402545
14    1.499719
0    -0.928191
1    -0.928191
2     0.232048
3     0.232048
4    -0.928191
5     1.392286
6    -0.928191
7    -0.928191
8     0.232048
9     1.392286
10   -0.928191
11    0.232048
12    1.392286
13   -0.928191
14    1.392286
0    -0.918034
1    -0.918034
2    -0.918034
3    -0.918034
4     0.333830
5     0.333830
6    -0.918034
7    -0.918034
8     0.333830
9     1.585695
10    0.333830
11    1.585695
12   -0.918034
13    0.333830
14    1.585695
0    -0.831050
1    -1.446643
2     0.169288
3     0.938779
4     1.708270
5    -0.600203
6     0.477084
7     0.246237
8    -0.600203
9     1.862168
10   -0.677152
11    0.784881
12   -0.138508
13   -1.061898
14   -0.831050
dtype: float64

In [32]:
import statsmodels.api as sm

X = [[2310, 2333, 2356, 2379, 2402, 2425, 2448, 2471, 2494, 2517, 2540, 2543, 2602, 2615, 2625],
     [2, 2, 3, 3, 2, 4, 2, 2, 3, 4, 2, 3, 4, 2, 4],
     [2, 2, 2, 2, 3, 3, 2, 2, 3, 4, 3, 4, 2, 3, 4],
     [20, 12, 33, 43, 53, 23, 37, 34, 23, 55, 22, 41, 29, 17, 20]]

y = [142000, 144000, 151000, 151000, 139000, 169000, 126000, 142000, 163000, 169000, 149000, 152000, 156000, 162000, 172000]

def reg_m(y, x):
    ones = np.ones(len(x[0]))
    X = sm.add_constant(np.column_stack((x[0], ones)))
    for ele in x[1:]:
        X = sm.add_constant(np.column_stack((ele, X)))
    results = sm.OLS(y, X).fit()
    return results

print(reg_m(y, X).summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.814
Model:                            OLS   Adj. R-squared:                  0.739
Method:                 Least Squares   F-statistic:                     10.91
Date:                Thu, 26 Dec 2024   Prob (F-statistic):            0.00114
Time:                        18:21:53   Log-Likelihood:                -150.15
No. Observations:                  15   AIC:                             310.3
Df Residuals:                      10   BIC:                             313.8
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
x1          -348.6989    143.795     -2.425      0.0

  return hypotest_fun_in(*args, **kwds)


In [51]:
import numpy as np
import statsmodels.api as sm

# Признаки (X) и целевая переменная (y)
X = np.array([
    [2310, 2333, 2356, 2379, 2402, 2425, 2448, 2471, 2494, 2517, 2540, 2543, 2602, 2615, 2625],
    [2, 2, 3, 3, 2, 4, 2, 2, 3, 4, 2, 3, 4, 2, 4],
    [2, 2, 2, 2, 3, 3, 2, 2, 3, 4, 3, 4, 2, 3, 4],
    [20, 12, 33, 43, 53, 23, 37, 34, 23, 55, 22, 41, 29, 17, 20]
]).T  # Транспонируем, чтобы каждый столбец стал отдельной переменной

y = np.array([142000, 144000, 151000, 151000, 139000, 169000, 126000, 142000, 163000, 169000, 149000, 152000, 156000, 162000, 172000])

# Добавляем столбец единиц для константы
X = sm.add_constant(X)

# Строим модель OLS (Обычные наименьшие квадраты)
model = sm.OLS(y, X).fit()

# Выводим результаты
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.814
Model:                            OLS   Adj. R-squared:                  0.739
Method:                 Least Squares   F-statistic:                     10.91
Date:                Thu, 26 Dec 2024   Prob (F-statistic):            0.00114
Time:                        18:49:55   Log-Likelihood:                -150.15
No. Observations:                  15   AIC:                             310.3
Df Residuals:                      10   BIC:                             313.8
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       1.159e+05   5.06e+04      2.289      0.0

  return hypotest_fun_in(*args, **kwds)


In [54]:
model.predict([1, 2391, 3, 3, 15])
1-model.rsquared_adj

np.float64(0.26094322066133113)

In [40]:
import numpy as np
import statsmodels.api as sm

# Признаки (X) и целевая переменная (y)
X = np.array([
    S.values,
    O.values,
    E.values,
    Y.values
]).T  # Транспонируем, чтобы каждый столбец стал отдельной переменной

y = np.array([142000, 144000, 151000, 151000, 139000, 169000, 126000, 142000, 163000, 169000, 149000, 152000, 156000, 162000, 172000])

# Добавляем столбец единиц для константы
X = sm.add_constant(X)

# Строим модель OLS (Обычные наименьшие квадраты)
model = sm.OLS(y, X).fit()

# Выводим результаты
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.814
Model:                            OLS   Adj. R-squared:                  0.739
Method:                 Least Squares   F-statistic:                     10.91
Date:                Thu, 26 Dec 2024   Prob (F-statistic):            0.00114
Time:                        18:33:28   Log-Likelihood:                -150.15
No. Observations:                  15   AIC:                             310.3
Df Residuals:                      10   BIC:                             313.8
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       1.525e+05   1702.169     89.572      0.0

  return hypotest_fun_in(*args, **kwds)


In [57]:
import numpy as np
import statsmodels.api as sm
from sklearn.preprocessing import StandardScaler

# Данные
X = np.array([
    [2310, 2333, 2356, 2379, 2402, 2425, 2448, 2471, 2494, 2517, 2540, 2543, 2602, 2615, 2625],
    [2, 2, 3, 3, 2, 4, 2, 2, 3, 4, 2, 3, 4, 2, 4],
    [2, 2, 2, 2, 3, 3, 2, 2, 3, 4, 3, 4, 2, 3, 4],
    [20, 12, 33, 43, 53, 23, 37, 34, 23, 55, 22, 41, 29, 17, 20]
]).T  # Транспонируем, чтобы каждая строка стала наблюдением, а каждый столбец - признаком

y = np.array([142000, 144000, 151000, 151000, 139000, 169000, 126000, 142000, 163000, 169000, 149000, 152000, 156000, 162000, 172000])

# Стандартизируем данные
scaler = StandardScaler()
X_standardized = scaler.fit_transform(X)

# Добавляем столбец единиц для константы
X_standardized = sm.add_constant(X_standardized)

# Строим модель OLS (Обычные наименьшие квадраты)
model = sm.OLS(y, X_standardized).fit()

# Выводим результаты
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.814
Model:                            OLS   Adj. R-squared:                  0.739
Method:                 Least Squares   F-statistic:                     10.91
Date:                Thu, 26 Dec 2024   Prob (F-statistic):            0.00114
Time:                        19:10:05   Log-Likelihood:                -150.15
No. Observations:                  15   AIC:                             310.3
Df Residuals:                      10   BIC:                             313.8
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       1.525e+05   1702.169     89.572      0.0

  return hypotest_fun_in(*args, **kwds)


In [46]:
import scipy.stats as stats

# Заданные параметры
alpha = 0.05  # уровень значимости
df1 = 4  # степень свободы числителя (например, число признаков)
df2 = 15-df1-1  # степень свободы знаменателя (например, число наблюдений - число признаков - 1)

# Вычисление критического значения F
F_critical = stats.f.ppf(1 - alpha, df1, df2)
print(f"Критическое значение F для уровня значимости {alpha}: {F_critical}")

Критическое значение F для уровня значимости 0.05: 3.478049690765229


In [56]:
df = pd.DataFrame({
    'Низкий': [25, 42],
    'Нормальный': [50, 41], 
    'Высокий': [25, 17]
}, index=['Городская', 'Сельская'])
alpha = 0.05

chi2_stat, p_value, dof, expected = stats.chi2_contingency(df)

print(p_value)

0.03460780221242866


In [61]:
alpha = 0.02
std = 8
E=2.5

Z_alpha_2 = stats.norm.ppf(1 - alpha / 2)
print(((Z_alpha_2*std)/E)**2)

55.41779897399644


In [63]:
import scipy.stats as stats

# Заданные параметры задачи
n = 10  # количество бросков
k = 7   # количество попаданий
p = 0.7 # вероятность попадания

# Вычисление вероятности с помощью биномиального распределения
probability = stats.binom.pmf(k, n, p)
probability

np.float64(0.26682793200000005)