In [1]:
# Создание массива для проверки
import numpy as np


mean = 165  # Средний рост
std_dev = 10  # Стандартное отклонение
size = 100   # Количество элементов в массиве

# Генерация массива с ростом женщин
heights = np.random.normal(mean, std_dev, size)

# Округление значений до целых чисел
heights = np.round(heights).astype(int)

print(heights)
print(type(heights))

[180 167 167 165 175 170 162 162 156 164 178 154 161 183 160 167 162 166
 170 181 163 148 178 160 164 151 166 151 162 171 179 163 163 154 160 158
 165 166 178 166 177 163 177 174 175 149 184 175 160 172 164 160 179 157
 158 165 151 164 161 175 161 180 162 169 154 161 165 161 175 156 163 150
 161 166 168 171 181 167 150 153 152 174 173 172 155 169 157 168 155 155
 163 175 183 148 169 169 158 179 156 179]
<class 'numpy.ndarray'>


### Функция для вычисления стандартного отклонения случайной величины;

#### Среднее значение

$$ M(X) = \sum \limits_{i=1}^{n} \frac{x_i}{n} $$

In [88]:
def mean(x):
  """
    Вычисление среднего числа по массиву

    :param x: Массив
    :type x: список, np.ndarray
    :return: Среднее
    :rtype: float
  """
  sum = 0
  for i in range(len(x)):
    sum += x[i]
  return sum / len(x)

In [90]:
def test_mean():
  a = [1, 2, 3]
  b = [4, 5, 6]
  c = [33, 44, 55]
  try:
    assert mean(a) == 2, "первый провален"
    assert mean(b) == 5, "второй провален"
    assert mean(c) == 44, "третий провален"
    print("Все тесты для функции mean прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_mean()

Все тесты для функции mean прошли успешно!


#### Дисперсия

$$ s^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 $$

In [41]:
def variance(x: np.ndarray):
  """
    Вычисление дисперсии

    :param x: Массив
    :type x: np.ndarray
    :return: Дисперсия
    :rtype: float
  """
  mu = mean(x)
  sum = 0

  for i in range(len(x)):
    sum += (x[i] - mu) ** 2
  return sum / len(x)

In [44]:
def test_variance():
  a = [1, 2]
  b = [4, 5, 6]
  c = [33, 44, 55]
  try:
    assert round(variance(a), 2) == 0.25, "первый провален"
    assert round(variance(b), 2) == 0.67, "второй провален"
    assert round(variance(c), 2) == 80.67, "третий провален"
    print("Все тесты для функции variance прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_variance()

Все тесты для функции variance прошли успешно!


#### Стандартное отклонение случайной величины

$$ s = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2} $$

In [55]:
def standard_deviation(x: np.ndarray):
  """
    Вычисление среднего отклонения

    :param x: Массив
    :type x: np.ndarray
    :return: Среднее отклонение
    :rtype: float
  """
  return np.sqrt(variance(x))

In [54]:
def test_standard_deviation():
  a = [1, 2]
  b = [4, 5, 6]
  c = [33, 44, 55]
  try:
    assert round(standard_deviation(a), 2) == 0.5, "первый провален"
    assert round(standard_deviation(b), 2) == 0.82, "второй провален"
    assert round(standard_deviation(c), 2) == 8.98, "третий провален"
    print("Все тесты для функции standard_deviation прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_standard_deviation()

Все тесты для функции standard_deviation прошли успешно!


### Функции для вычисления ошибок MSE, MAE, accuracy, precision, recall, f1 score.

Функции должны принимать два параметра y_pred, y_true.

См. аналогичные функции из библиотеки sklearn;

#### Среднеквадратическая ошибка (MSE)

$$ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$

In [66]:
def mean_squared_error(y_pred: list, y_true:list):
  """
    Вычисление среднеквадратической ошибки

    :param y_pred: Массив с предсказанным значением
    :type y_pred: list
    :param y_true: Массив с реальным значением
    :type y_true: list
    :return: Среднеквадратическая ошибка
    :rtype: float
  """
  difference = []

  for i in range(len(y_true)):
    difference.append((y_true[i] - y_pred[i]) ** 2)

  mean_val = mean(x=difference)
  return mean_val

In [69]:
def test_mean_squared_error():
  a_true_value = [110, 200, 300]
  a_prediction_value = [90, 210, 290]
  b_true_value = [110, 280, 280]
  b_prediction_value = [130, 260, 320]
  c_true_value = [800, 560, 850]
  c_prediction_value = [750, 560, 880]
  try:
    assert round(mean_squared_error(a_true_value, a_prediction_value), 2) == 200, "первый провален"
    assert round(mean_squared_error(b_true_value, b_prediction_value), 2) == 800, "второй провален"
    assert round(mean_squared_error(c_true_value, c_prediction_value), 2) == 1133.33, "третий провален"
    print("Все тесты для функции mean_squared_error прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_mean_squared_error()

Все тесты для функции mean_squared_error прошли успешно!


#### Средняя абсолютная ошибка (MAE)

$$ MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i| $$

In [87]:
def mean_absolute_error(y_pred: list, y_true:list):
  """
    Вычисление средней абсолютной ошибки

    :param y_pred: Массив с предсказанным значением
    :type y_pred: list
    :param y_true: Массив с реальным значением
    :type y_true: list
    :return: Средняя абсолютная ошибка
    :rtype: float
  """
  difference = []
  n = len(y_true)

  for i in range(n):
    difference.append(abs(y_true[i] - y_pred[i]))


  mean_val = mean(x=difference)
  return mean_val

In [85]:
def test_mean_absolute_error():
  a_true_value = [120, 200, 300]
  a_prediction_value = [90, 210, 290]
  b_true_value = [110, 280, 280]
  b_prediction_value = [130, 260, 320]
  c_true_value = [800, 560, 850]
  c_prediction_value = [750, 560, 880]
  try:
    assert round(mean_absolute_error(a_true_value, a_prediction_value), 2) == 16.67, "первый провален"
    assert round(mean_absolute_error(b_true_value, b_prediction_value), 2) == 26.67, "второй провален"
    assert round(mean_absolute_error(c_true_value, c_prediction_value), 2) == 26.67, "третий провален"
    print("Все тесты для функции mean_absolute_error прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_mean_absolute_error()

Все тесты для функции mean_absolute_error прошли успешно!


#### Accuracy

$$ Accuracy =  \frac{TP + TN}{TP + TN + FP + FN} $$

In [103]:
def accuracy(y_pred: list, y_true:list):
  """
    Вычисление accuracy

    :param y_pred: Массив с предсказанным значением
    :type y_pred: list
    :param y_true: Массив с реальным значением
    :type y_true: list
    :return: accuracy
    :rtype: float
  """
  T = 0
  n = len(y_true)

  for i in range(len(y_true)):
    if y_true[i] == y_pred[i]:
      T += 1

  return T/len(y_true)

In [104]:
def test_accuracy():
  a_true_value =       [0, 1, 1, 0, 0, 1]
  a_prediction_value = [0, 1, 0, 1, 1, 1]
  b_true_value =       [0, 1, 1, 0, 1, 1]
  b_prediction_value = [0, 0, 0, 1, 0, 1]
  c_true_value =       [1, 1, 0, 0, 1, 0]
  c_prediction_value = [0, 0, 1, 1, 1, 1]
  try:
    assert round(accuracy(a_true_value, a_prediction_value), 2) == 0.5, "первый провален"
    assert round(accuracy(b_true_value, b_prediction_value), 2) == 0.33, "второй провален"
    assert round(accuracy(c_true_value, c_prediction_value), 2) == 0.17, "третий провален"
    print("Все тесты для функции accuracy прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_accuracy()

Все тесты для функции accuracy прошли успешно!


#### Precision

$$ Precision =  \frac{TP}{TP + FP} $$

In [110]:
def precision (y_pred: list, y_true:list):
  """
    Вычисление precision

    :param y_pred: Массив с предсказанным значением, может быть только 0 или 1
    :type y_pred: list
    :param y_true: Массив с реальным значением, может быть только 0 или 1
    :type y_true: list
    :return: precision
    :rtype: float
  """
  TP = 0
  TN = 0
  FP = 0
  FN = 0
  n = len(y_true)

  for i in range(len(y_true)):
    if y_true[i] == y_pred[i] and y_true[i] == 0:
      TN += 1
    elif y_true[i] == y_pred[i] and y_true[i] == 1:
      TP += 1
    elif y_true[i] > y_pred[i]:
      FN += 1
    elif y_true[i] < y_pred[i]:
      FP += 1

  return TP/(TP + FP)

0.3333333333333333

In [111]:
def test_precision():
  a_true_value =       [0, 1, 1, 0, 0, 1]
  a_prediction_value = [0, 1, 0, 1, 1, 1]
  b_true_value =       [0, 1, 1, 0, 1, 1]
  b_prediction_value = [0, 0, 0, 1, 0, 1]
  c_true_value =       [1, 1, 0, 0, 1, 0]
  c_prediction_value = [0, 0, 1, 1, 1, 1]
  try:
    assert round(precision(a_true_value, a_prediction_value), 2) == 0.67, "первый провален"
    assert round(precision(b_true_value, b_prediction_value), 2) == 0.25, "второй провален"
    assert round(precision(c_true_value, c_prediction_value), 2) == 0.33, "третий провален"
    print("Все тесты для функции precision прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_precision()

Все тесты для функции precision прошли успешно!


#### Recall

$$ Recall =  \frac{TP}{TP + FN} $$

In [117]:
def recall (y_pred: list, y_true:list):
  """
    Вычисление Recall

    :param y_pred: Массив с предсказанным значением, может быть только 0 или 1
    :type y_pred: list
    :param y_true: Массив с реальным значением, может быть только 0 или 1
    :type y_true: list
    :return: recall
    :rtype: float
  """
  TP = 0
  TN = 0
  FP = 0
  FN = 0
  n = len(y_true)

  for i in range(len(y_true)):
    if y_true[i] == y_pred[i] and y_true[i] == 0:
      TN += 1
    elif y_true[i] == y_pred[i] and y_true[i] == 1:
      TP += 1
    elif y_true[i] > y_pred[i]:
      FN += 1
    elif y_true[i] < y_pred[i]:
      FP += 1

  return TP/(TP + FN)

0.25

In [118]:
def test_recall():
  a_true_value =       [0, 1, 1, 0, 0, 1]
  a_prediction_value = [0, 1, 0, 1, 1, 1]
  b_true_value =       [0, 1, 1, 0, 1, 1]
  b_prediction_value = [0, 0, 0, 1, 0, 1]
  c_true_value =       [1, 1, 0, 0, 1, 0]
  c_prediction_value = [0, 0, 1, 1, 1, 1]
  try:
    assert round(recall(a_true_value, a_prediction_value), 2) == 0.5, "первый провален"
    assert round(recall(b_true_value, b_prediction_value), 2) == 0.5, "второй провален"
    assert round(recall(c_true_value, c_prediction_value), 2) == 0.25, "третий провален"
    print("Все тесты для функции recall прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_recall()

Все тесты для функции recall прошли успешно!


#### F1 score


$$ F1-score = 2 \times \frac{Precision \times Recall}{Precision + Recall} $$


In [125]:
def f1_score (y_pred: list, y_true:list):
  """
    Вычисление Recall

    :param y_pred: Массив с предсказанным значением, может быть только 0 или 1
    :type y_pred: list
    :param y_true: Массив с реальным значением, может быть только 0 или 1
    :type y_true: list
    :return: F1 score
    :rtype: float
  """
  pre = precision(y_pred, y_true)
  rc = recall(y_pred, y_true)

  return 2 * ((pre * rc) / (pre + rc))

In [124]:
def test_f1_score():
  a_true_value =       [0, 1, 1, 0, 0, 1]
  a_prediction_value = [0, 1, 0, 1, 1, 1]
  b_true_value =       [0, 1, 1, 0, 1, 1]
  b_prediction_value = [0, 0, 0, 1, 0, 1]
  c_true_value =       [1, 1, 0, 0, 1, 0]
  c_prediction_value = [0, 0, 1, 1, 1, 1]
  try:
    assert round(f1_score(a_true_value, a_prediction_value), 2) == 0.57, "первый провален"
    assert round(f1_score(b_true_value, b_prediction_value), 2) == 0.33, "второй провален"
    assert round(f1_score(c_true_value, c_prediction_value), 2) == 0.29, "третий провален"
    print("Все тесты для функции f1_score прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_f1_score()

Все тесты для функции f1_score прошли успешно!


### softmax

$$ softmax = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_i}} $$

In [143]:
import numpy as np

def softmax(x):
  """
    Вычисление Recall

    :param x: Массив
    :type x: list
    :return: softmax
    :rtype: list
  """
  e_x = []
  sum_e = 0
  # Находим экспоненту каждого элемента массива и сумму этих экспонент
  for i in range(len(x)):
    e_x.append(np.exp(x[i]))
    sum_e += e_x[i]
  # Находим вероятности
  probability = []
  s=0
  for i in range(len(e_x)):
    probability.append(round((e_x[i] / sum_e), 2))
    s+=probability[i]

  return probability

In [144]:
def test_softmax():
  a_logits = [1, 2, 3, 4]
  b_logits = [10, 15, 9, 12]
  c_logits = [50, 55, 58, 52]
  try:
    assert softmax(a_logits) == [0.03, 0.09, 0.24, 0.64], "первый провален"
    assert softmax(b_logits) == [0.01, 0.94, 0, 0.05], "второй провален"
    assert softmax(c_logits) == [0, 0.05, 0.95, 0], "третий провален"
    print("Все тесты для функции precision прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_softmax()

Все тесты для функции precision прошли успешно!


### Линейный коэффициент корреляции


$$
r = \frac{n(\sum XY) - (\sum X)(\sum Y)}{\sqrt{[n \sum X^2 - (\sum X)^2][n \sum Y^2 - (\sum Y)^2]}}
$$

Где:
- \( r \) — коэффициент корреляции,
- \( n \) — количество наблюдений,
- \( X \) и \( Y \) — значения двух переменных.


In [157]:
def coef_correl(x, y):
  """
    Вычисление линейного коэффициента корреляции

    :param x: Массив
    :type x: list
    :param y: Массив
    :type y: list
    :return: Линейный коэффициент корреляции
    :rtype: list
  """
  sum_x = 0
  sum_y = 0
  sum_xy = 0
  sum_x_2 = 0
  sum_y_2 = 0

  for i in range(len(x)):
    sum_x += x[i]
    sum_y += y[i]
    sum_xy += x[i] * y[i]
    sum_x_2 += x[i] ** 2
    sum_y_2 += y[i] ** 2

  numerator = len(x) * sum_xy - sum_x * sum_y
  denominator = np.sqrt( (len(x) * sum_x_2 - sum_x**2) * (len(x) * sum_y_2 - sum_y**2) )

  return numerator/denominator

In [None]:
def test_coef_correl():
  a_X = [2, 4, 6, 8]
  a_Y = [60, 70, 80, 90]
  b_X = [0, 2, 4, 6]
  b_Y = [90, 80, 70, 60]
  c_X = [1, 3, 5, 7]
  c_Y = [70, 80, 65, 75]
  try:
    assert coef_correl(a_X, a_Y) == 1, "первый провален"
    assert coef_correl(b_X, b_Y) == -1, "второй провален"
    assert coef_correl(c_X, c_Y) == 0, "третий провален"
    print("Все тесты для функции coef_correl прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_coef_correl()

### Функция для вычисления предсказания для нескольких объектов по заданному коэффициентами уравнения линейной регрессии

Уравнение линейной регрессии
$$
\hat{y} = X \cdot w + b
$$

Где:
-\(\hat{y}\) — предсказанные значения (вектор размера `n × 1`, где `n` — количество объектов),
- \(X\) — матрица признаков (размера `n × m`, где `m` — количество признаков),
- \(w\) — вектор коэффициентов (вес признаков, размера \(m \times 1\)),
- \(b\) — свободный член (скаляр).

In [159]:
# функция
def predict(X, w, b):
    """
    Вычисляет предсказанные значения для линейной регрессии.

    :param X: Матрица признаков, где n — количество объектов, m — количество признаков
    :type X: numpy.ndarray, форма (n, m)
    :param w: Вектор коэффициентов
    :type w: numpy.ndarray, форма (m,)
    :param b: Свободный член
    :type b: float

    Возвращает:
    :return: Вектор предсказанных значений
    :rtype: numpy.ndarray, форма (n,)

    """

    return np.dot(X, w) + b


In [160]:
def test_predict():
  X = np.array([[1, 2], [3, 4], [5, 6]])  # 3 объекта, 2 признака
  w = np.array([0.5, -0.5])  # Вектор коэффициентов
  b = 1.0  # Свободный член
  try:
    assert predict(X, w, b) == [0.5, 2.5, 4.5], "первый провален"
    print("Все тесты для функции predict прошли успешно!")
  except AssertionError as e:
    print(f"Тест провален: {e}")

test_predict()

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()