# Основные понятия статистики

In [1]:
import numpy as np

In [3]:
# Выборка - несколько наблюдений. Для нас - массив

# Объем выборки - количество экспериментов или наблюдений. Для нас - длина массива

# Случайная величина - множество элементарных исходов испытаний. Для нас - массив

### Cреднее арифметическое

In [8]:
# Среднее арифметическое вычисляется по знакомой многим формуле суммы всех чисел, деленной на их количество

# В numpy есть три функции, вычисляющие среднее по этой формуле:

* np.mean(x, axis=None) - считает среднее, возвращает nan, если в массиве содержится константа np.nan

* np.nanmean(x, axis=None) - считает среднее, игнорирует nan

* np.average(x, axis=None, weights=None) - считает среднее, может вычислять взвешенное среднее, не обрабатывает np.nan

# Эти функции получают на вход массив, а возвращают единственное число (если не указан параметр axis)

In [9]:
# Примеры
# 1. Одномерный массив без np.nan

arr = np.array([2, 2, 4, 4])
print(np.mean(arr)) # 3.0

3.0


In [10]:
# 2. Двумерный массив, средние со сверткой строк

arr = np.array([[2., 7.], 
                [2., 6.], 
                [2., 5.]])

print(np.mean(arr, axis=0)) # [2. 6.]

[2. 6.]


In [22]:
# 3. С константой np.nan

arr = np.array([2., 3, 4, np.nan])

print(np.mean(arr)) # np.nan
print(np.nanmean(arr)) # 2.6666666666666665

nan
3.0


In [25]:
# Длина клюва пингвинов
culmen_length_10 = np.array([39.1, 39.5, 40.3, np.nan, 36.7, 39.3, 38.9, 39.2, 34.1, 42. ])
print(np.round(np.nanmean(culmen_length_10),2))

38.79


### Cреднее арифметическое взвешенное

In [None]:
Формула среднего арифметического взвешенного:
    
    Xср.ар.взв. = SUM (Xi*Wi)/Wi , где Wi - некоторый коэффициент (весовой коэфф = W1 + W2 + W3 + ...)
    
Функции numpy для вычисления среднего взвешенного:

* np.average(x, axis=None, weights=None) 

Возвращает то же, что и np.mean(), если не передавать weights

Веса могут принимать любые вещественные или целые значения, но не могут в сумме давать ноль (иначе получим деление на ноль)

In [18]:
# Пример
arr1d = np.array([8., 2, 4, 4])
np.average(arr1d, weights=[0.5, 2, 1, 1]) # 2.0

3.5555555555555554

### Задача

In [None]:
Проводилась городская олимпиада по программированию, всего было 5 заданий. 
Задания были разной сложности, поэтому баллы за решения жюри домножали на определенные коэффициенты

Формат входных данных
Есть два массива:

w - коэффицент задания, одномерный. Вводится с клавиатуры 
grades - баллы за решения участников. Массив двумерный, одна строка - оценки одного участника
Формат выходных данных
Ваша задача - вывести по каждому участнику среднюю оценку, то есть одномерный массив. 
Ответ округлите до двух знаков после запятой. 

In [36]:
tasks_weights = []
for i in range(5):
    tasks_weights.append(int(input()))
print(tasks_weights)

1
2
3
4
5
[1, 2, 3, 4, 5]


In [26]:
grades = np.array([[3, 3, 1, 3, 0],
                   [3, 2, 4, 3, 4],
                   [4, 1, 2, 1, 4],
                   [1, 4, 1, 3, 2],
                   [3, 3, 0, 2, 1],
                   [2, 2, 3, 3, 0],
                   [4, 0, 4, 4, 2]])

In [40]:
mean_grades = np.average(grades, axis = 1, weights = tasks_weights)

In [42]:
np.round(mean_grades,2)

array([1.6 , 3.4 , 2.4 , 2.27, 1.47, 1.8 , 2.8 ])

In [43]:
n = 5

w = np.zeros(n, dtype=np.int32)
for i in range(n):
    w[i] = int(input())

1
2
3
4
5


In [44]:
w

array([1, 2, 3, 4, 5])

## Максимальные и минимальные

In [None]:
# Максимум (или минимум) в массиве ищут следующие функции:

* np.amax(x, axis=None) / np.amin(x, axis=None) - возвращает единственный максимум/минимум массива. Выбирает nan, 
если он содержится в массиве

* np.max(x, axis=None) / np.min(x, axis=None) - возвращает единственный максимум/минимум массива. Выбирает nan, 
если он содержится в массиве

* np.nanmax(x, axis=None) / np.nanmin(x, axis=None) - возвращает единственный максимум/минимум массива. Игнорирует nan
По умолчанию, без указания параметра axis, все три функции на вход принимают массив, 
а в ответ возвращают единственное число

In [29]:
# Пример
arr = np.array([[ 8,  8, 21,  3,  6,  0,  4, 14, 23, 11], [8,  8, 21,  3,  66,  0,  4, 14, 23, 11]])
np.max(arr)

66

In [33]:
arr

array([[ 8,  8, 21,  3,  6,  0,  4, 14, 23, 11],
       [ 8,  8, 21,  3, 66,  0,  4, 14, 23, 11]])

In [34]:
np.max(arr)

66

In [30]:
np.max(arr, axis = 1)

array([23, 66])

In [31]:
np.amax(arr, axis = 0)

array([ 8,  8, 21,  3, 66,  0,  4, 14, 23, 11])

# Поэлементные экстремумы

In [None]:
# Есть возможность выбирать масимум среди двух массивов поэлементно

* np.maximum(x1, x2) / np.minimum(x1, x2) - поэлементно сравнивает два массива, возвращает новый массив, 
с максимальным/минимальным значением для каждой пары. Выбирает nan, если он есть

* np.fmax(x1, x2) / np.fmin(x1, x2) - поэлементно сравнивает два массива, возвращает новый массив, 
с максимальным/минимальным значением для каждой пары. Игнорирует nan

# Эти функции на вход принимают массивы одинаковой длины, в ответ возвращают еще один массив. 
# Также можно передавать числа

In [50]:
# Пример
# Массив + массив

arr1 = np.array([9., 21.,  8.,  6.,  0., 15., 21.,  0., 14.])
arr2 = np.array([7., 8.,  8., 17., 18.,  8., 11., 17., 12.])

np.maximum(arr1, arr2)
# [ 9., 21.,  8., 17., 18., 15., 21., 17., 14.]

array([ 9., 21.,  8., 17., 18., 15., 21., 17., 14.])

In [51]:
# Массив + число  

arr1 = np.array([9., 21.,  8.,  6.,  0., 15., 21.,  0., 14.])

np.maximum(arr1, 40)
# array([40., 40., 40., 40., 40., 40., 40., 40., 40.])

np.maximum(15, arr2)
# array([15., 15., 15., 17., 18., 15., 15., 17., 15.])

array([15., 15., 15., 17., 18., 15., 15., 17., 15.])

In [52]:
# Число + число

np.maximum(50, 40) # 50

50

# Индексы экстремумов

In [None]:
# Можно найти индекс маскимума/минимума

* np.argmax(x, axis=None) / np.argmin(x, axis=None) - возвращает индекс максимума/минимума массива. Возвращает nan

* np.nanargmax(x, axis=None) / np.nanargmin(x, axis=None) - возвращает индекс максимума/минимума массива. Игнорирует nan
Если экстремумов несколько, то возвращается индекс первого из них

In [53]:
# Пример
arr = np.array([np.nan,  2., 21., 23., 18., 15., 23., 14., 21., 10.])

print(np.argmax(arr)) # 0 
print(np.nanargmax(arr)) # 3

0
3


In [57]:
arr1 = np.array([9., 21.,  8.,  6.,  0., 15., 21.,  0., 14.])
arr2 = np.array([7., 8.,  8., 17., 18.,  8., 11., 17., 12.])

In [59]:
np.argmax(arr1, arr2, axis = 1)

TypeError: argmax() got multiple values for argument 'axis'

In [None]:
Задача

ReLU
В нейронных сетях есть понятие функции активации. 
Это функция, которая в зависимости от значения нейрона принимает решение дать тот или иной ответ. 

ReLU - одна из таких функций. Ее задача очень простая - заменять отрицательные значения на 0. 
Формально это можно описать так:
    
    
    Ri = max(i, 0)
    
    
где Ri - значение функции активации ReLU для i-того нейрона
    xi - значение i-того нейрона
    
Вводится массив значений нейронов, длина этого массива всегда равна 7. Выведите для него результат применения ReLU

In [37]:
m = np.zeros(7, dtype = np.int32)

In [38]:
m.shape

(7,)

In [39]:
for i in range(m.shape[0]):
    m[i] = int(input())

1
1
1
1
2
3
6


In [40]:
m

array([1, 1, 1, 1, 2, 3, 6])

In [41]:
m[np.argmax(m)] = 0

In [77]:
m

array([1, 2, 3, 4, 5, 6, 0])

In [None]:
Здесь я понял, что по условию задачи надо заменять на 0 не максимальное значение, а отрицательные значения...

In [80]:
m

array([1, 2, 3, 4, 5, 6, 7])

In [85]:
for i in range(7):
    if m[i] < 0:
        m[i] = 0
print(m)

[0 2 0 6 0 8 0]


In [None]:
Здесь я понял, что программа не принимает цикл за ответ, нужно применять фунции

In [86]:
m1 = np.zeros(7, dtype = np.int32)

In [91]:
m

array([-1,  6, -6, -9, -9, -6, -7])

In [93]:
np.maximum(m1,m)

array([0, 6, 0, 0, 0, 0, 0])

In [95]:
m = m1 = np.zeros(7, dtype = np.float32)

In [96]:
m

array([0., 0., 0., 0., 0., 0., 0.], dtype=float32)

In [97]:
m1

array([0., 0., 0., 0., 0., 0., 0.], dtype=float32)

In [98]:
m = np.zeros(7, dtype = np.float32)
m1 = np.zeros(7, dtype = np.float32)
for i in range(m.shape[0]):
    m[i] = float(input())

result = np.maximum(m,m1)



1
2
3
4
5
6
-7
[1. 2. 3. 4. 5. 6. 0.]


In [99]:
print(result)

[1. 2. 3. 4. 5. 6. 0.]


In [None]:
Здесь я понял что нужно сравнивать не с массивом нулей, а просто с нулем - одним значением...

In [101]:
m

array([ 1.,  2.,  3.,  4.,  5.,  6., -7.], dtype=float32)

In [102]:
np.maximum(m, 0)

array([1., 2., 3., 4., 5., 6., 0.], dtype=float32)

In [None]:
И ответ в итоге крылся в формате - float64

In [None]:
# Задача
# Самый длинный плавник 

In [None]:
Вам дан массив с длинами плавников 10 пингвинов. Выведите через пробел максимальную длину плавника и ее индекс. 
Учтите, что не для всех пингвинов удалось собрать информацию, поэтому в массиве могут содержаться знания np.nan

Формат входных данных
В этой нет входных данных, вам нужно обработать массив, заданный в шаблоне

Формат выходных данных
Программа должна вывести максимальную длину плавника и ее индекс через пробел

In [5]:
flipper_length_10 = np.array([181., 186., 195.,  np.nan, 193., 190., 181., 195., 193., 190.])

In [7]:
np.nanmax(flipper_length_10)

195.0

In [6]:
np.nanargmax(flipper_length_10)

2

## Медиана

In [None]:
# Медиана (срединное значение выборки) - число, которое находится в середине массива, 
# если его отсортировать по возрастанию.

# Медиана - это такое число, которое больше одной половины выборки и меньше другой

# Функции для вычисления медианы:

* np.median(x, axis=None) - считает медиану, возвращает nan, если в массиве содержится константа np.nan

* np.nanmedian(x, axis=None) - считает медиану, игнорирует nan

# Функции проверяют длину выборки, если она нечетная, то выборка сортируется и 
# возвращается элемент, оказавшийся в самой середине, если длина четная, 
# то вычисляется среднее арифметическое между двумя центральными элементами

In [8]:
# Пример
arr = np.array([10,  2, 11,  6,  9,  3,  8,  3,  4,  4,  9])
np.median(arr) # 6.0

6.0

In [9]:
# Задача
# Оценки
# Даны оценки 4-x школьников за четверть. Выведите мединанную оценку для каждого школьника.

marks = np.array([[4, 3, 4, 5, 4, 3, 2, 5],
                  [5, 5, 3, 5, 5, 4, 5, 4],
                  [4, 2, 4, 5, 2, 3, 4, 5],
                  [3, 4, 4, 3, 3, 2, 3, 2]])

In [10]:
result = np.median(marks, axis = 1)

In [14]:
result

array([4., 5., 4., 3.])

# Дисперсия

In [None]:
Дисперсия — мера разброса значений выборки относительно среднего значения (математического ожидания). 

Обозначается как D[X], Var(X), S2 или σ2. Есть две наиболее распространенные формулы для вычисления дисперсии, 
выбор формулы зависит от задачи

1. Смещенная дисперсия:
    
    D(смещенная)= 1/n * SUM (Xi - Xсредн.)**2

2. Несмещенная дисперсия:
    
    D(несмещенная) = 1/(n-1) * SUM (Xi - Xсредн.)**2

Выборочный показатель, который при многократном повторении выборки стремится к своему теоретическому значению, 
называется несмещенной оценкой.

Отличаются только знаменатели


#                                 Функции, вычисляющие дисперсию:

* np.var(arr, axis=None, dtype=None, ddof=0) - вычисляет смещенную дисперсию, возвращает np.nan.

* np.nanvar(arr, axis=None, dtype=None, ddof=0) - вычисляет смещенную дисперсию, игнорирует np.nan.

** Чтобы вычислить несмещенную дисперсию нужно передать ddof=1


# Стандартное отклонение

In [None]:
Стандартное отклонение — еще одна мера разброса значений выборки относительно её среднего значения. 

Обозначается чаще всего как σ. 
Вычисляется как корень из дисперсии, также имеет две формулы:
    
    sigma = sqrt(D(смещенная))
    sigma = sqrt(D(несмещенная))
    
Функции, вычисляющие стандартное отклонение (СКО):

* np.std(arr, axis=None, dtype=None, ddof=0) - вычисляет СКО по смещенной дисперсии, возвращает np.nan.

* np.nanstd(arr, axis=None, dtype=None, ddof=0) - вычисляет СКО по смещенной дисперсии, игнорирует np.nan.

Чтобы вычислить СКО по несмещенной дисперсии нужно передать ddof=1
    

In [2]:
# Задача
# Вывести нужно единственное число - стандартное отклонение, ответ округлите до двух знаков после запятой

flipper_length_10 = np.array([181., 186., 195.,  np.nan, 193., 190., 181., 195., 193., 190.])

print(np.nanvar(flipper_length_10))
print(np.nanstd(flipper_length_10))
print(np.sqrt(np.nanvar(flipper_length_10)))
#np.round(result,2)

26.888888888888886
5.185449728701348
5.185449728701348


# Перцентиль (ПРОЦЕНТИЛЬ) и квантиль

In [None]:
q-перцентиль (или процентиль) - это значение, меньше которого q% элементов выборки и (100-q)% - больше. 

q может принимать значения в диапазоне [0; 100].

квантиль - то же самое, что и процентиль, но измеряется в диапазоне [0;1]

In [None]:
# То есть, 85% значений в выборке меньше 85 процентиля. Еще можно сказать, что для вектора V длины N q-й процентиль 
# V представляет собой значение q/100 пути от минимума до максимума в отсортированной копии V. 

Процентиль совпадает с медианой, если q=50, с минимумом, если q=0, и с максимумом, если q=100

In [None]:
# Функции
# Функции для вычисления процентиля:

* np.percentile(a, q, axis=None) - в массиве a найти процентиль q, возвращает np.nan, если она содержится в массиве
* np.nanpercentile(a, q, axis=None) - в массиве a найти процентиль q, игнорирует np.nan

# Функции для вычисления квантиля:

np.quantile(a, q, axis=None) - в массиве a найти квантиль q, возвращает np.nan, если она содержится в массиве
np.nanquantile(a, q, axis=None) - в массиве a найти квантиль q, игнорирует np.nan

### Как вычисляется процентиль

In [None]:
Давайте рассмотрим на примере такого массива. Длина массива n = 11. Попробуем найти 26 процентиль. То есть q  = 26

1, 5, 7, 2, 4, 5, 7, 12, 1, 7, 3

1. Выборка отсортировывается по возрастанию.

In [60]:
n = np.array(list(map(int,input().split(','))))

1, 5, 7, 2, 4, 5, 7, 12, 1, 7, 3


In [61]:
n.sort()

In [62]:
n

array([ 1,  1,  2,  3,  4,  5,  5,  7,  7,  7, 12])

In [63]:
# 2. Вычисляется виртуальный индекс virtual_index = q/100 * (n-1) 

# !!!! q - это квантиль, который необходимо найти !!! 
q  = 26

virtual_index = q/100 * (len(n)-1)

In [64]:
virtual_index

2.6

In [None]:
3. В previous_index и next_index записываем реальные индексы в массиве, 
между которыми находится процентиль. previous_index = 2, next_index = 3

In [None]:
4. Теперь нам нужно понять, насколько нужно увеличить значение 
по индексу previous_index (или уменьшить значение по индексу next_index). 
Вычисляем поправочное значение 
fix_gamma = virtual_index - previous_index. fix_gamma = 0.6

In [None]:
5. Вычисляем разницу между элементами diff_b_a = arr[int(next_index)] - arr[int(previous_index)]. diff_b_a = 1 
(этот случай просто попал в пример, не всегда эта разница равна единице)

In [None]:
6. Если fix_gamma >= 0.5, то процентиль = arr[int(next_index)] - diff_b_a * (1 - fix_gamma), 
иначе процентиль = arr[int(previous_index)] + diff_b_a * fix_gamma. В примере fix_gamma >= 0.5, 
поэтому 26 процентиль = 3 - 1 * (1 - 0.6) = 2.6

In [65]:
# Пример
# Процентиль:

arr = np.array([ 1, 5, 7, 2, 4, 5, 7, 12, 1, 7, 3])
q = 26
np.percentile(arr, q) # 2.6


2.6

In [66]:
# Квантиль:

arr = np.array([ 1, 5, 7, 2, 4, 5, 7, 12, 1, 7, 3])
q = 0.26
np.quantile(arr, q)

2.6

In [67]:
arr = np.array([ 10, 15, 17, 12, 34, 55, 7, 12, 1, 7, 3])
q = 26
np.percentile(arr, q) # 2.6

7.0

In [68]:
# Параметр q может быть списком или массивом: 

arr = np.array([ 1, 5, 7, 2, 4, 5, 7, 12, 1, 7, 3])
q = [1, 10, 50]
np.percentile(arr, q) # array([1., 1., 5.])

array([1., 1., 5.])

### Задача

In [3]:
# Перцентили роста
# Дан одномерный массив, содержащий измерения роста людей (в см). Выведите 25, 50, 75 и 100-ые процентили этой выборки. 
data = np.array([159.61, 170.54, 165.22, 181.68, 165.7 , 148.36, 151.21, 162.68, 151.02, 177.18])

In [4]:
q = np.array([25,50,75,100])

In [73]:
result = np.percentile(data, q)

In [74]:
print(result)

[153.31 163.95 169.33 181.68]


In [5]:
res_quantile = np.quantile(data, [0.25, 0.5, 0.75, 1])

In [6]:
res_quantile

array([153.31, 163.95, 169.33, 181.68])

# Ковариация случайных величин

In [None]:
Ковариация - еще одна мера зависимости двух случайных величин. 
Например, имеется два массива одинаковой размерности и мы хотели 
бы понять, зависят ли их значения друга от друга. 
С помощью ковариации можно попробовать ответить на вопрос 
"зависит ли количество преступлений в определенном районе города от количества фонарей в этом районе, то есть от освещенности?"

Правда, лучше все-таки использовать корреляцию из следующего шага

Функция, которая считает ковариацию:

* np.cov(x)

Формула вычисления ковариации: 
    
    cov(x,y) = 1/ (n-1) * SUM ((Xi-Xсредн.)*(Yi - Yсредн.))
    
где x и y - одномерные массивы одинаковой размерности.


Интерпретация ковариации

Если ковариация положительна, то с ростом значений одной случайной величины, 
значения второй имеют тенденцию возрастать, а если знак отрицательный — то убывать. 
Однако по значению ковариации нельзя сказать, насколько сильно величины взаимосвязаны, 
потому что масштаб ковариации зависит от дисперсии

Свойства ковариации

Диапазон значений ковариации не ограничен
Если величины независимы, ковариация равна 0, хотя обратное необязательно
Ковариация симметрична: cov(x, y) = cov(y, x)  

In [76]:
# Пример
# За x и y из формулы здесь берется каждая пара строк

arr = np.array([[ 1, 10, 11],
                [ 1, 11, 10],
                [ 8,  1, 12]])

cov = np.cov(arr)
print(np.round(cov, 1))

[[30.3 29.8 -2. ]
 [29.8 30.3 -7.5]
 [-2.  -7.5 31. ]]


In [82]:
x = [1,2,3,4,5,6,7,8,9]
y = [5,9,1,2,4,5,6,7,8]
cov = np.cov(x,y)

In [83]:
cov

array([[7.5       , 2.375     ],
       [2.375     , 6.94444444]])

In [None]:
Получается массив такой же размерности, как у исходного (или исходных, если несколько массивов). 
Каждый элемент cov[i,j] показывает корреляцию между i-той строкой и j-той строкой. 
Диагональные элементы, у которых всегда i=j, показывают корреляцию строки с самой собой. 
В этом случае формула ковариации сводится с формуле несмещённый дисперсии: (формулу несмещенной дисперсии см.выше здесь же).
    
Однако трудно сказать, что именно означают полученные числа. 29.8 - это много или мало? 

Примечание. Если ковариацию нормировать таким образом, чтобы величины принимали значение в диапазоне [-1; 1],
можно будет делать выводы. Именно так и поступают в алгоритме, считающем корреляцию Пирсона.  
    

# Корреляция Пирсона

In [None]:
Корреляция - еще одна мера зависимости двух случайных величин

Функция, которая считает корреляцию:

* np.corrcoef(x)

Формула вычисления корреляции:
    
    corcoef = cov(i,j) / (sqrt(cov(i,i)) * sqrt(cov(j,j)))
        
где cov - ковариация

Поскольку корреляция зависит от ковариации, а ковариация от дисперсии, 
то справедливо утверждение, что и корреляция зависит от дисперсии.


# Интерпретация корреляции

Если корреляция положительна, то с ростом значений одной случайной величины, 
значения второй имеют тенденцию возрастать, а если знак отрицательный — то убывать. 
Если корреляция равна нулю, то переменные независимы (по крайней линейно). 

# Свойства корреляции Пирсона

Коэффициент корреляции изменяется в диапазоне от -1 до 1
По значению корреляции можно сказать, насколько сильно величины взаимосвязаны
Корреляция симметрична: corr_coef(x, y) = corr_coef(y, x) 

In [84]:
# Пример
# За x и y из формулы здесь берется каждая пара строк. По диагонали матрицы корреляции всегда будут расположены единицы. 

arr = np.array([[ 1, 10, 11],
                [ 1, 11, 10],
                [ 8,  1, 12]])

corrcoef = np.corrcoef(arr)
print(corrcoef)
# Результат
# [[ 1.        ,  0.98351648, -0.06522124],
#  [ 0.98351648,  1.        , -0.24457967],
#  [-0.06522124, -0.24457967,  1.        ]]

[[ 1.          0.98351648 -0.06522124]
 [ 0.98351648  1.         -0.24457967]
 [-0.06522124 -0.24457967  1.        ]]


In [None]:
# Примечание. Есть несколько подходов к вычислению корреляции, например, корреляция Спирмена или Кендалла. 
# В numpy реализован только поиск коэффициента корреляции Пирсона, остальные способы реализованы в библиотеке scipy

In [15]:
arr = np.array([[1, 10, 11], [ 1, 11, 10]])

In [16]:
np.corrcoef(arr)

array([[1.        , 0.98351648],
       [0.98351648, 1.        ]])

In [None]:
Сопоставление сначала идет: [0] сам с собой, потом [0] c [1] - дает первую строку. Потом опять [1] c [0], потом [1] сам с собой.

# ЗАДАЧИ

In [None]:
В этот раз дан двумерный массив, каждый из столбцов которого соответствует пингвину, 
а строка - его характеристике. Всего характеристик четыре: длина и ширина клюва, длина 
    плавника и масса пингвина. Выведите коварицию для этой матрицы. Для одного пингвина 
    не удалось собрать данные, в матрице присутствуют значения np.nan. Замените их на 0, например, 
    с помощью функции np.nan_to_num()

In [20]:
# Проверка функции np.nan_to_num

arr = np.array([1,2,3,4,5,np.nan])

In [24]:
arr

array([ 1.,  2.,  3.,  4.,  5., nan])

In [25]:
np.nan_to_num(arr)

array([1., 2., 3., 4., 5., 0.])

In [89]:
# Данные по пингвинам:
    
penguin_params = np.array([[  39.1,   39.5,   40.3,    np.nan ,   36.7,   39.3,   38.9,   39.2, 34.1,   42. ],
                           [  18.7,   17.4,   18. ,    np.nan ,   19.3,   20.6,   17.8,   19.6, 18.1,   20.2],
                           [ 181. ,  186. ,  195. ,    np.nan ,  193. ,  190. ,  181. ,  195. , 193. ,  190. ],
                           [3750. , 3800. , 3250. ,    np.nan , 3450. , 3650. , 3625. , 4675. , 3475. , 4250. ]])

In [90]:
arr = np.nan_to_num(penguin_params)

In [91]:
arr

array([[  39.1,   39.5,   40.3,    0. ,   36.7,   39.3,   38.9,   39.2,
          34.1,   42. ],
       [  18.7,   17.4,   18. ,    0. ,   19.3,   20.6,   17.8,   19.6,
          18.1,   20.2],
       [ 181. ,  186. ,  195. ,    0. ,  193. ,  190. ,  181. ,  195. ,
         193. ,  190. ],
       [3750. , 3800. , 3250. ,    0. , 3450. , 3650. , 3625. , 4675. ,
        3475. , 4250. ]])

In [92]:
np.cov(arr)

array([[1.54901000e+02, 7.37647778e+01, 7.32473333e+02, 1.49675833e+04],
       [7.37647778e+01, 3.66823333e+01, 3.58691111e+02, 7.30169444e+03],
       [7.32473333e+02, 3.58691111e+02, 3.61160000e+03, 7.15283333e+04],
       [1.49675833e+04, 7.30169444e+03, 7.15283333e+04, 1.59264583e+06]])

In [94]:
np.corrcoef(arr)

array([[1.        , 0.9785735 , 0.97929804, 0.95293871],
       [0.9785735 , 1.        , 0.98546752, 0.95529075],
       [0.97929804, 0.98546752, 1.        , 0.94312374],
       [0.95293871, 0.95529075, 0.94312374, 1.        ]])

### Задача Среднеквадратичная ошибка (MSE)

In [None]:
Вернемся к науке о данных. Ее основная задача заключается в предсказании будущего на основе прошлого. 
Как оценить качество этого предсказания? 
Один из способов - сравнить правильный ответ и предсказание с помощью метрики MSE (Mean Squared Error)

Предположим, у нас есть два массива: y (правильный ответ) и y_pred (предсказание), оба содержат вещественные числа. 
Тогда MSE для них вычисляется следующим образом:
                            MSE = 1/n * SUM (  (Yi - Yi_предсказанное)**2  )
        
            где MSE - mean squared error - среднеквадратичная ошибка
            n - размер массива
            Yi - i-элемент массива где правильные ответы
            Yi_предсказанное - i-элемент массива где предсказанные ответы
            

# Задание

Вам даны два массива: y и y_pred, так же вводится n - длина среза, 
который необходимо применить к у и y_pred (начиная с 0-го элемента). 
Вычислите для них среднеквадратичную ошибку. 

Формат входных данных
На вход единственное целое число - количество элементов в срезе 

Формат выходных данных
Программа должна вывести единственное вещественное число - среднеквадратическую ошибку
                            

In [119]:
import numpy as np

y = np.array([0, 1, 0, 1, 0, 1, 0, 0, 1, 1])
y_pred = np.array([1, 0, 1, 1, 0, 1, 1, 0, 0, 0])

n = int(input())
mse = (1/len(y[:n])) * (np.sum((y[:n] - y_pred[:n])**2))
print(mse)

# Здесь при n == 10 значение mse получаестя 0.6000000000000001. Так влияет погрешность при умножении 1/len(y[:n]),
# а вот если сразу делить на len(y[:n]) - получается ровно 0,6 (смотри ниже)

10
0.6000000000000001


In [117]:
y = np.array([0, 1, 0, 1, 0, 1, 0, 0, 1, 1])
y_pred = np.array([1, 0, 1, 1, 0, 1, 1, 0, 0, 0])
n = int(input())
mse = (np.sum((y[:n] - y_pred[:n])**2) / len(y[:n]))
print(mse)

10
0.6


### Косинусная близость

In [None]:
В задании дано два массива. Первый одномерный, второй двумерный, 
среди строк двумерного массива нужно найти максимально похожую на первый массив строку. 
"Похожесть" будем вычислять по формуле косинусной близости, чем она ближе к 1, тем более похожи строки. 

В ответе нужно вывести индекс строки и через пробел косинусную близость, округленную до трех знаков после запятой. 

Косинусная близость - это косинус угла между двумя векторами. 

Вычисляется по формуле:
    
    
Здесь А и B - два одномерных массива. В задании массив A вводится с клавиатуры, его длина всегда 5 элементов

# #Приложение метрики
# На практике с помощью этой метрики оценивают, например, сходство между текстами. 
# Каждому слову сопоставляется число, тогда любой текст можно представить в виде массива чисел.
# Между двумя такими массивами можно посчитать косинусное расстояние, оно будет принимать 
# значение в диапазоне от нуля до одного. Дальше выбирается текст, для которого косинусная 
# близость ближе всего к единице и таким образом выбирается самый похожий текст.

Формат входных данных
На вход подается массив целых чисел длиной 5 элементов (каждый элемент с новой строки)

Формат выходных данных
Программа должна вывести через пробел два числа - индекс и косинусную близость, округленную до трех знаков после запятой

In [26]:
B = np.array([[1, 8, 7, 3, 4],
              [5, 3, 5, 4, 3],
              [7, 9, 1, 2, 2],
              [9, 9, 5, 1, 2],
              [3, 6, 3, 7, 5],
              [5, 9, 8, 6, 1],
              [9, 3, 1, 9, 6]])

In [27]:
A = np.array(list(map(int,input().split())))

8 6 1 4 9


In [28]:
A

array([8, 6, 1, 4, 9])

In [30]:
A*B[0]

array([ 8, 48,  7, 12, 36])

In [36]:
np.dot(A,B[0])

111

In [37]:
A*B[1]

array([40, 18,  5, 16, 27])

In [38]:
np.sum(A*B[1])

106

In [148]:
np.sum(A*B[0])

111

In [39]:
np.sum(A*B, axis = 1)

array([111, 106, 137, 153, 136, 135, 181])

In [41]:
A

array([8, 6, 1, 4, 9])

In [43]:
np.sum(A)**2

784

In [44]:
np.sqrt(np.sum(A)**2)

28.0

In [45]:
np.sqrt(np.sum(A**2))

14.071247279470288

In [151]:
np.sqrt(np.sum(B**2))

33.12099032335839

In [152]:
cosinus_similarity = np.sum(A*B, axis = 1) / ( np.sqrt(np.sum(A**2)) * np.sqrt(np.sum(B**2))  )

In [153]:
cosinus_similarity

array([0.23817001, 0.22744163, 0.29395758, 0.32828839, 0.2918119 ,
       0.28966623, 0.38836731])

In [154]:
np.max(cosinus_similarity)

0.38836730910539413

In [155]:
np.argmax(cosinus_similarity)

6

In [100]:
# Первая попытка провалилась, т.к. правильный ответ 0.892 & 6 

In [None]:
# Что оказалось не правильным как выяснилось:
# в самом последнем корне сумма В должна была быть по axis = 1
# первый вариант:
cosinus_similarity = np.sum(A*B, axis=1) / (np.sqrt(np.sum(A**2)) * np.sqrt(np.sum(B**2))  )

#правильный вариант:
cosinus_similarity = np.sum(A*B, axis=1) / (np.sqrt(np.sum(A**2)) * np.sqrt(np.sum(B**2, axis=1)))


In [71]:
np.sum(A)

28

In [73]:
np.sum(B, axis=1)

array([23, 20, 21, 26, 24, 29, 28])

In [87]:
cosinus_similarity = np.dot(np.sum(A), B) / ( (np.sqrt(np.sum(A**2)) * (np.sqrt(np.sum(B**2, axis=1)))))

ValueError: operands could not be broadcast together with shapes (7,5) (7,) 

In [86]:
cosinus_similarity

array([3.88191366, 4.34225965, 3.54435595, 3.73377523, 4.22115882,
       4.010867  , 3.86324099])

In [93]:
np.sum(A)

28

In [94]:
B

array([[1, 8, 7, 3, 4],
       [5, 3, 5, 4, 3],
       [7, 9, 1, 2, 2],
       [9, 9, 5, 1, 2],
       [3, 6, 3, 7, 5],
       [5, 9, 8, 6, 1],
       [9, 3, 1, 9, 6]])

In [95]:
np.sum(A*B, axis=1)

array([111, 106, 137, 153, 136, 135, 181])

In [89]:
np.sqrt(np.sum(A**2))

14.071247279470288

In [84]:
np.sqrt(np.sum(B**2, axis=1))

array([11.78982612,  9.16515139, 11.78982612, 13.85640646, 11.3137085 ,
       14.38749457, 14.4222051 ])

In [97]:
result = np.sum(A*B, axis=1) / (np.sqrt(np.sum(A**2))   *   np.sqrt(np.sum(B**2, axis=1)))

In [99]:
print(np.argmax(result), np.round(np.max(result), 3))

6 0.892


In [107]:
A = np.array([int(input()) for x in range(8)])

1
5
5
6
9
8
5
6


In [108]:
A

array([1, 5, 5, 6, 9, 8, 5, 6])

# Задача. Нормировка значений

In [None]:
Часто для сравнения значений в выборке бывает удобно привести их к одному масштабу. 

Обычно все значения приводятся к диапазону [0;1]. Формула, по которой это можно сделать:
    
                            X_normalised = (Xi - Xmin) / (Xmax - Xmin)
        
Дан двумерный массив. Нормализуйте значения в каждом столбце и округлите результат до двух знаков после запятой. 

Формат входных данных
-

Формат выходных данных
Программа должна вывести двумерный вещественный массив
        

In [109]:
y = np.array([[6, 3, 4, 1],
              [7, 1, 1, 4],
              [8, 6, 6, 4],
              [5, 7, 6, 6],
              [6, 3, 1, 1]])

In [124]:
X_normalised = (y - np.min(y, axis=0)) / (np.max(y, axis = 0) - np.min(y, axis = 0))
print(np.round(X_normalised,2))

[[0.33 0.33 0.6  0.  ]
 [0.67 0.   0.   0.6 ]
 [1.   0.83 1.   0.6 ]
 [0.   1.   1.   1.  ]
 [0.33 0.33 0.   0.  ]]


array([[0.33333333, 0.33333333, 0.6       , 0.        ],
       [0.66666667, 0.        , 0.        , 0.6       ],
       [1.        , 0.83333333, 1.        , 0.6       ],
       [0.        , 1.        , 1.        , 1.        ],
       [0.33333333, 0.33333333, 0.        , 0.        ]])

In [111]:
np.max(y, axis=1)

array([6, 7, 8, 7, 6])

# Задача. Максимальная разница

In [None]:
В одной строке через пробел вводится одномерный массив. 
Вычислите максимальную разницу среди элементов этого массива и их соседей слева 
(считается, что у нулевого элемента нет соседа слева).  

Формат входных данных
На вход программе подается одномерный целочисленный массив

Формат выходных данных
Программа должна единственное целое число

In [133]:
arr = np.array(list(map(int,input().split())))
np.max(arr[1:] - arr[:-1])

1 2 59 6 35 3 4 6 55 3 25 63 256 2 6  23 65 22 


193

# Задача. Правило трех сигм.

In [None]:
В статистике и науке о данных часто используется правило трех сигм.

Оно гласит: если случайная величина распределена нормально, то 99,73% значений выборки будут отличаться от 
среднего арифметического значения менее, чем на три стандартных отклонения (3*sigma)

То есть 99,73% выборки будут лежать в интервале от (Xсреднее - 3*sigma) до (Xсреднее + 3*sigma)
# именно так решается задача: Среднее арифметическое по выборке плюс-минус 3*sigma

Остальные элементы называют выбросами. 


Дан одномерный массив, гарантируется, что его значения сгенерированы из нормального распределения. 
Вычислите для этого массива границы трех сигм, в ответе выведите два числа - левую и правую 
границы интервала, округленные до трех знаков после запятой. 

In [134]:
data = np.array([ 0.48768743,  1.97225763,  4.24912175,  2.27436968, -1.9422886, -1.18804314, 
                 2.55567301, -4.13712375,  5.70400861,  1.78547581])

In [159]:
data

array([ 0.48768743,  1.97225763,  4.24912175,  2.27436968, -1.9422886 ,
       -1.18804314,  2.55567301, -4.13712375,  5.70400861,  1.78547581])

In [160]:
np.mean(data)

1.1761138429999998

In [156]:
np.average(data)

1.1761138429999998

In [162]:
left = np.average(data) - np.std(data)*3

In [164]:
right = np.average(data) + np.std(data)*3

In [173]:
print(np.round(left,3),np.round(right,3), sep='\n')

-7.207
9.559
