In [20]:
# Создание массива для проверки
import numpy as np


mean = 165  # Средний рост
std_dev = 10  # Стандартное отклонение
size = 100   # Количество элементов в массиве

# Генерация массива с ростом женщин
heights = np.random.normal(mean, std_dev, size)

# Округление значений до целых чисел
heights = np.round(heights).astype(int)

print(heights)
print(type(heights))

[160 168 152 149 151 147 152 177 144 187 176 150 146 166 168 158 174 164
 171 158 162 163 157 159 171 167 166 167 169 163 179 172 164 172 164 169
 179 155 158 165 164 149 163 154 169 173 165 156 181 147 175 160 165 156
 162 159 157 168 173 177 134 163 172 177 168 177 155 154 140 172 168 165
 149 167 174 165 161 165 161 166 166 169 160 163 179 172 163 150 164 158
 167 173 178 177 166 171 166 159 170 174]
<class 'numpy.ndarray'>


### Функция для вычисления стандартного отклонения случайной величины;

#### Среднее значение

$$ M(X) = \sum \limits_{i=1}^{n} \frac{x_i}{n} $$

In [21]:
def mean(x):
  """
    Вычисление среднего числа по массиву

    :param x: Массив
    :type x: список, np.ndarray
    :return: Среднее
    :rtype: float
  """
  sum = 0
  for i in range(len(x)):
    sum += x[i]
  return sum / len(x)

In [22]:
def test_mean():
  a = [1, 2, 3]
  b = [4, 5, 6]
  c = [33, 44, 55]
  try:
    assert mean(a) == 2, "первый провален"
    assert mean(b) == 5, "второй провален"
    assert mean(c) == 44, "третий провален"
    print("Все тесты для функции mean прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_mean()

Все тесты для функции mean прошли успешно!


#### Дисперсия


дописать функ и тест

$$ s^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 $$

Где:
- $\(s^2\)$ — дисперсия выборки,
- $\(n\)$ — количество элементов в выборке,
- $\(x_i\)$ — каждое значение в выборке,
- $\(\bar{x}\)$ — среднее значение выборки.


In [23]:
def variance_one(x: np.ndarray):
  """
    Вычисление дисперсии

    :param x: Массив
    :type x: np.ndarray
    :return: Дисперсия
    :rtype: float
  """
  mu = mean(x)
  sum = ((x - mu) ** 2).sum()
  return sum / len(x)

In [24]:
def variance_two(x: np.ndarray):
  """
    Вычисление дисперсии

    :param x: Массив
    :type x: np.ndarray
    :return: Дисперсия
    :rtype: float
  """
  mu = mean(x)
  sum = 0

  for i in range(len(x)):
    sum += (x[i] - mu) ** 2

  return sum / len(x)

In [25]:
def test_variance_one():
  a =  np.array([1, 2])
  b = np.array([4, 5, 6])
  c = np.array([33, 44, 55])
  try:
    assert round(variance_one(a), 2) == 0.25, "первый провален"
    assert round(variance_one(b), 2) == 0.67, "второй провален"
    assert round(variance_one(c), 2) == 80.67, "третий провален"
    print("Все тесты для функции variance_one прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_variance_one()

Все тесты для функции variance_one прошли успешно!


In [26]:
def test_variance_two():
  a = [1, 2]
  b = [4, 5, 6]
  c = [33, 44, 55]
  try:
    assert round(variance_two(a), 2) == 0.25, "первый провален"
    assert round(variance_two(b), 2) == 0.67, "второй провален"
    assert round(variance_two(c), 2) == 80.67, "третий провален"
    print("Все тесты для функции variance_two прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_variance_two()

Все тесты для функции variance_two прошли успешно!


#### Стандартное отклонение случайной величины

$$\[
\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2}
\]$$

где:
- $\( \sigma \)$ — стандартное отклонение,
- $\( n \)$ — количество элементов,
- $\( x_i \)$ — i-й элемент,
- $\( \mu \)$ — среднее значение.


In [27]:
def standard_deviation(x: np.ndarray):
  """
    Вычисление среднего отклонения

    :param x: Массив
    :type x: np.ndarray
    :return: Среднее отклонение
    :rtype: float
  """
  return np.sqrt(variance_two(x))

In [28]:
def test_standard_deviation():
  a = [1, 2]
  b = [4, 5, 6]
  c = [33, 44, 55]
  try:
    assert round(standard_deviation(a), 2) == 0.5, "первый провален"
    assert round(standard_deviation(b), 2) == 0.82, "второй провален"
    assert round(standard_deviation(c), 2) == 8.98, "третий провален"
    print("Все тесты для функции standard_deviation прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_standard_deviation()

Все тесты для функции standard_deviation прошли успешно!


### Функции для вычисления ошибок MSE, MAE, accuracy, precision, recall, f1 score.

Функции должны принимать два параметра y_pred, y_true.

См. аналогичные функции из библиотеки sklearn;

#### Среднеквадратическая ошибка (MSE)

$$ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$

Где:
- $\( y_i \)$ — реальное значение,
- $\( \hat{y}_i \)$ — предсказанное значение,
- $\( n \)$ — количество примеров.

In [29]:
def mean_squared_error(y_pred: list, y_true:list):
  """
    Вычисление среднеквадратической ошибки

    :param y_pred: Массив с предсказанным значением
    :type y_pred: list
    :param y_true: Массив с реальным значением
    :type y_true: list
    :return: Среднеквадратическая ошибка
    :rtype: float
  """
  difference = []

  for i in range(len(y_true)):
    difference.append((y_true[i] - y_pred[i]) ** 2)

  mean_val = mean(x=difference)
  return mean_val

In [30]:
def test_mean_squared_error():
  a_true_value = [110, 200, 300]
  a_prediction_value = [90, 210, 290]
  b_true_value = [110, 280, 280]
  b_prediction_value = [130, 260, 320]
  c_true_value = [800, 560, 850]
  c_prediction_value = [750, 560, 880]
  try:
    assert round(mean_squared_error(a_true_value, a_prediction_value), 2) == 200, "первый провален"
    assert round(mean_squared_error(b_true_value, b_prediction_value), 2) == 800, "второй провален"
    assert round(mean_squared_error(c_true_value, c_prediction_value), 2) == 1133.33, "третий провален"
    print("Все тесты для функции mean_squared_error прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_mean_squared_error()

Все тесты для функции mean_squared_error прошли успешно!


#### Средняя абсолютная ошибка (MAE)

$$ MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i| $$

Где:
- $\( y_i \)$ — реальное значение,
- $\( \hat{y}_i \)$ — предсказанное значение,
- $\( n \)$ — количество примеров.

In [31]:
def mean_absolute_error(y_pred: list, y_true:list):
  """
    Вычисление средней абсолютной ошибки

    :param y_pred: Массив с предсказанным значением
    :type y_pred: list
    :param y_true: Массив с реальным значением
    :type y_true: list
    :return: Средняя абсолютная ошибка
    :rtype: float
  """
  difference = []
  n = len(y_true)

  for i in range(n):
    difference.append(abs(y_true[i] - y_pred[i]))


  mean_val = mean(x=difference)
  return mean_val

In [32]:
def test_mean_absolute_error():
  a_true_value = [120, 200, 300]
  a_prediction_value = [90, 210, 290]
  b_true_value = [110, 280, 280]
  b_prediction_value = [130, 260, 320]
  c_true_value = [800, 560, 850]
  c_prediction_value = [750, 560, 880]
  try:
    assert round(mean_absolute_error(a_true_value, a_prediction_value), 2) == 16.67, "первый провален"
    assert round(mean_absolute_error(b_true_value, b_prediction_value), 2) == 26.67, "второй провален"
    assert round(mean_absolute_error(c_true_value, c_prediction_value), 2) == 26.67, "третий провален"
    print("Все тесты для функции mean_absolute_error прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_mean_absolute_error()

Все тесты для функции mean_absolute_error прошли успешно!


#### Accuracy

$$ Accuracy =  \frac{TP + TN}{TP + TN + FP + FN} $$

Где:
- $TP$ — True Positive,
- $TN$ — True Negative,
- $FP$ — False Positive,
- $FN$ — False Negative.

In [33]:
def accuracy(y_pred: list, y_true:list):
  """
    Вычисление accuracy

    :param y_pred: Массив с предсказанным значением
    :type y_pred: list
    :param y_true: Массив с реальным значением
    :type y_true: list
    :return: accuracy
    :rtype: float
  """
  T = 0
  n = len(y_true)

  for i in range(len(y_true)):
    if y_true[i] == y_pred[i]:
      T += 1

  return T/len(y_true)

In [34]:
def test_accuracy():
  a_true_value =       [0, 1, 1, 0, 0, 1]
  a_prediction_value = [0, 1, 0, 1, 1, 1]
  b_true_value =       [0, 1, 1, 0, 1, 1]
  b_prediction_value = [0, 0, 0, 1, 0, 1]
  c_true_value =       [1, 1, 0, 0, 1, 0]
  c_prediction_value = [0, 0, 1, 1, 1, 1]
  try:
    assert round(accuracy(a_true_value, a_prediction_value), 2) == 0.5, "первый провален"
    assert round(accuracy(b_true_value, b_prediction_value), 2) == 0.33, "второй провален"
    assert round(accuracy(c_true_value, c_prediction_value), 2) == 0.17, "третий провален"
    print("Все тесты для функции accuracy прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_accuracy()

Все тесты для функции accuracy прошли успешно!


#### Precision

$$ Precision =  \frac{TP}{TP + FP} $$

In [35]:
def precision (y_pred: list, y_true:list):
  """
    Вычисление precision, считает только для positive

    :param y_pred: Массив с предсказанным значением, может быть только 0 или 1
    :type y_pred: list
    :param y_true: Массив с реальным значением, может быть только 0 или 1
    :type y_true: list
    :return: precision
    :rtype: float
  """
  TP = 0
  TN = 0
  FP = 0
  FN = 0
  n = len(y_true)

  for i in range(len(y_true)):
    if y_true[i] == y_pred[i] and y_true[i] == 0:
      TN += 1
    elif y_true[i] == y_pred[i] and y_true[i] == 1:
      TP += 1
    elif y_true[i] > y_pred[i]:
      FN += 1
    elif y_true[i] < y_pred[i]:
      FP += 1

  return TP/(TP + FP)

In [36]:
def test_precision():
  a_true_value =       [0, 1, 1, 0, 0, 1]
  a_prediction_value = [0, 1, 0, 1, 1, 1]
  b_true_value =       [0, 1, 1, 0, 1, 1]
  b_prediction_value = [0, 0, 0, 1, 0, 1]
  c_true_value =       [1, 1, 0, 0, 1, 0]
  c_prediction_value = [0, 0, 1, 1, 1, 1]
  try:
    assert round(precision(a_true_value, a_prediction_value), 2) == 0.67, "первый провален"
    assert round(precision(b_true_value, b_prediction_value), 2) == 0.25, "второй провален"
    assert round(precision(c_true_value, c_prediction_value), 2) == 0.33, "третий провален"
    print("Все тесты для функции precision прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_precision()

Все тесты для функции precision прошли успешно!


#### Recall

$$ Recall =  \frac{TP}{TP + FN} $$

In [37]:
def recall (y_pred: list, y_true:list):
  """
    Вычисление Recall, считает только для positive

    :param y_pred: Массив с предсказанным значением, может быть только 0 или 1
    :type y_pred: list
    :param y_true: Массив с реальным значением, может быть только 0 или 1
    :type y_true: list
    :return: recall
    :rtype: float
  """
  TP = 0
  TN = 0
  FP = 0
  FN = 0
  n = len(y_true)

  for i in range(len(y_true)):
    if y_true[i] == y_pred[i] and y_true[i] == 0:
      TN += 1
    elif y_true[i] == y_pred[i] and y_true[i] == 1:
      TP += 1
    elif y_true[i] > y_pred[i]:
      FN += 1
    elif y_true[i] < y_pred[i]:
      FP += 1

  return TP/(TP + FN)

In [38]:
def test_recall():
  a_true_value =       [0, 1, 1, 0, 0, 1]
  a_prediction_value = [0, 1, 0, 1, 1, 1]
  b_true_value =       [0, 1, 1, 0, 1, 1]
  b_prediction_value = [0, 0, 0, 1, 0, 1]
  c_true_value =       [1, 1, 0, 0, 1, 0]
  c_prediction_value = [0, 0, 1, 1, 1, 1]
  try:
    assert round(recall(a_true_value, a_prediction_value), 2) == 0.5, "первый провален"
    assert round(recall(b_true_value, b_prediction_value), 2) == 0.5, "второй провален"
    assert round(recall(c_true_value, c_prediction_value), 2) == 0.25, "третий провален"
    print("Все тесты для функции recall прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_recall()

Все тесты для функции recall прошли успешно!


#### F1 score


$$ F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall} $$


In [39]:
def f1_score (y_pred: list, y_true:list):
  """
    Вычисление Recall, считает только для positive

    :param y_pred: Массив с предсказанным значением, может быть только 0 или 1
    :type y_pred: list
    :param y_true: Массив с реальным значением, может быть только 0 или 1
    :type y_true: list
    :return: F1 score
    :rtype: float
  """
  pre = precision(y_pred, y_true)
  rc = recall(y_pred, y_true)

  return 2 * ((pre * rc) / (pre + rc))

In [40]:
def test_f1_score():
  a_true_value =       [0, 1, 1, 0, 0, 1]
  a_prediction_value = [0, 1, 0, 1, 1, 1]
  b_true_value =       [0, 1, 1, 0, 1, 1]
  b_prediction_value = [0, 0, 0, 1, 0, 1]
  c_true_value =       [1, 1, 0, 0, 1, 0]
  c_prediction_value = [0, 0, 1, 1, 1, 1]
  try:
    assert round(f1_score(a_true_value, a_prediction_value), 2) == 0.57, "первый провален"
    assert round(f1_score(b_true_value, b_prediction_value), 2) == 0.33, "второй провален"
    assert round(f1_score(c_true_value, c_prediction_value), 2) == 0.29, "третий провален"
    print("Все тесты для функции f1_score прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_f1_score()

Все тесты для функции f1_score прошли успешно!


### softmax

$$ softmax = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_i}} $$

In [41]:
import numpy as np

def softmax(x):
  """
    Вычисление Softmax

    :param x: Массив
    :type x: list
    :return: softmax
    :rtype: list
  """
  e_x = []
  sum_e = 0
  # Находим экспоненту каждого элемента массива и сумму этих экспонент
  for i in range(len(x)):
    e_x.append(np.exp(x[i]))
    sum_e += e_x[i]
  # Находим вероятности
  probability = []
  s=0
  for i in range(len(e_x)):
    probability.append(round((e_x[i] / sum_e), 2))
    s+=probability[i]

  return probability

In [42]:
def test_softmax():
  a_logits = [1, 2, 3, 4]
  b_logits = [10, 15, 9, 12]
  c_logits = [50, 55, 58, 52]
  try:
    assert softmax(a_logits) == [0.03, 0.09, 0.24, 0.64], "первый провален" # округлить в тест, а не в функции
    assert softmax(b_logits) == [0.01, 0.94, 0, 0.05], "второй провален"
    assert softmax(c_logits) == [0, 0.05, 0.95, 0], "третий провален"
    print("Все тесты для функции precision прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_softmax()

Все тесты для функции precision прошли успешно!


### Линейный коэффициент корреляции


$$
r = \frac{n(\sum XY) - (\sum X)(\sum Y)}{\sqrt{[n \sum X^2 - (\sum X)^2][n \sum Y^2 - (\sum Y)^2]}}
$$

Где:
- $\( r \)$ — коэффициент корреляции,
- $\( n \)$ — количество наблюдений,
- $\( X \)$ и $\( Y \)$ — значения двух переменных.


In [43]:
def coef_correl(x, y):
  """
    Вычисление линейного коэффициента корреляции

    :param x: Массив
    :type x: list
    :param y: Массив
    :type y: list
    :return: Линейный коэффициент корреляции
    :rtype: list
  """
  sum_x = 0
  sum_y = 0
  sum_xy = 0
  sum_x_2 = 0
  sum_y_2 = 0

  for i in range(len(x)):
    sum_x += x[i]
    sum_y += y[i]
    sum_xy += x[i] * y[i]
    sum_x_2 += x[i] ** 2
    sum_y_2 += y[i] ** 2

  numerator = len(x) * sum_xy - sum_x * sum_y
  denominator = np.sqrt( (len(x) * sum_x_2 - sum_x**2) * (len(x) * sum_y_2 - sum_y**2) )

  return numerator/denominator

In [44]:
def test_coef_correl():
  a_X = [2, 4, 6, 8]
  a_Y = [60, 70, 80, 90]
  b_X = [0, 2, 4, 6]
  b_Y = [90, 80, 70, 60]
  c_X = [1, 3, 5, 7]
  c_Y = [70, 80, 65, 75]
  try:
    assert coef_correl(a_X, a_Y) == 1, "первый провален"
    assert coef_correl(b_X, b_Y) == -1, "второй провален"
    assert coef_correl(c_X, c_Y) == 0, "третий провален"
    print("Все тесты для функции coef_correl прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_coef_correl()

Все тесты для функции coef_correl прошли успешно!


### Функция для вычисления предсказания для нескольких объектов по заданному коэффициентами уравнения линейной регрессии

Уравнение линейной регрессии
$$
\hat{y} = X \cdot w + b
$$

Где:
- $\hat{y}$ — предсказанные значения (вектор размера $n × 1$, где $n$ — количество объектов),
- $X$ — матрица признаков (размера $n × m$, где $m$ — количество признаков),
- $w$ — вектор коэффициентов (вес признаков, размера $\(m \times 1\))$,
- $b$ — свободный член (скаляр).
добавить запись через сумму произведений

In [45]:
# функция
def predict(X, weights, bias):
  """
  Вычисляет предсказанные значения для линейной регрессии.

  :param x: Матрица признаков, где n — количество объектов, m — количество признаков
  :type x: list, форма (n, m)
  :param weights: Вектор коэффициентов
  :type weights: list, форма (m,)
  :param bias: Свободный член
  :type bias: float

  Возвращает:
  :return: Вектор предсказанных значений
  :rtype: list

  """

  predictions = []
  for x in X:  # Проходим по каждому объекту
    y = 0
    for i in range(len(weights)):  # Проходим по каждому коэффициенту
        y += weights[i] * x[i]  # Умножаем коэффициент на признак и добавляем к y
    y += bias  # Добавляем свободный член
    predictions.append(y)  # Сохраняем результат
  return predictions


In [46]:
def test_predict():
  a_X = [[1, 2], [3, 4], [5, 6]]  # 3 объекта, 2 признака
  a_weights = [0.5, -0.5]  # Вектор коэффициентов
  a_bias = 1.0  # Свободный член
  a_expected_output = [0.5, 0.5, 0.5]  # Ожидаемый результат
  X = [[100, 3], [150, 4]]  # Признаки для двух объектов
weights = [2, 10]          # Коэффициенты w1, w2
bias = 5  # Вывод: [235, 325]

  try:
      # Используем np.allclose для сравнения массивов с учетом погрешности
      assert np.allclose(predict(X, w, b), expected_output), "первый провален"
      print("Все тесты для функции predict прошли успешно!")

  except AssertionError as e:
    print(f"Тест провален: {e}")

test_predict()

IndentationError: unexpected indent (1025077136.py, line 10)