# Конспект по статистике
* [Среднее, медиана, мода](#chapter1)
* [Дисперсия, стандартное отклонение](#chapter2)

### Среднее, медиана, мода: <a class="anchor" id="chapter1"></a>

In [1]:
import numpy as np
import pandas as pd
from scipy import stats
import matplotlib.pyplot as plt

In [None]:
# Среднее
mean = np.mean(df['столбец'])
mean = df['столбец'].mean() 

# Медиана
median = np.median(df['столбец'])
median = df['столбец'].median() 

# Мода
mode = stats.mode(df['столбец'])
mode = df['столбец'].mode()  # на выходе серия Pandas со значениями мод

In [2]:
# Создадим датафрейм с данными о росте, весе и скоре игроков
df = pd.DataFrame({'player_number': [10, 8, 12, 22, 36, 7, 1, 20, 9, 4, 14],
 'height': [168, 176, 178, 191, 185, 183, 185, 179, 169, 183, 167],
 'weight': [76, 77, 79, 81, 82, 79, 74, 84, 73, 71, 68],
 'score': [95, 86, 94, 96, 95, 95, 89, 83, 99, 78, 82]})

### Дисперсия, стандартное отклонение: <a class="anchor" id="chapter2"></a>

In [None]:
# дисперсия (по умолчанию несмещенная оценка)
var = df['столбец'].var()
# дисперсия (смещенная оценка)
var = df['столбец'].var(ddof=0)


# стандартное отклонение
sd = df['столбец'].std()
# дисперсия (смещенная оценка)
sd = df['столбец'].std(ddof=0)

# по умолчанию рассчитывает на основе несмещенной оценки, а для смещенной оценки необходимо добавить параметр ddof=0
# Нужно вычислять дисперсию/стандартное отклонение для популяции (ddof=0) и для выборки (ddof=1)

In [None]:
df = pd.DataFrame({'Company': ['Occidental Petroleum',
'Exxon Mobil Corporation', 'Chevron Corporation',
'Ovintiv Inc.', 'Murphy Oil',
'Apache Corp', 'Continental Resources',
'PDC Energy', 'Phillips 99', 'Devon Energy Corp',
'Canadian Natural Resources', 'Cenovus Energy', 'Enbridge', 'Husky Energy',
'Imperial Oil', 'Irving Oil', 'Pembina Pipeline', 'Suncor Energy'],
 'ROE': [7.35, 4.33, 3.37, 8.3, 3.97, 9.88, 9.52, 7.48, 4.76, 8.95, 9.10, 4.21,
6.12, 7.91, 8.49, 8.72, 6.52, 4.75]})

Var = df['ROE'].var()
sd = df['ROE'].std()

### Ковариация, корреляция:

In [None]:
# создаем серии данных
A = pd.Series([7.6, 7.9, 8.3, 7.2, 6.9, 7.9, 7.4, 7.8, 5.9, 7.1, 6.8])
B = pd.Series([10, 12, 12, 8, 8, 7.5, 7.5, 7.5, 6.5, 7, 7])

# рассчитываем значение корреляции Пирсона между двумя сериями данных A и B
corr = stats.pearsonr(A,B).statistic


df = pd.DataFrame({'столбец_1': [7.6, 7.9, 8.3, 7.2, 6.9, 7.9, 7.4, 7.8, 5.9, 7.1, 6.8],
 'столбец_2': [10, 12, 12, 8, 8, 7.5, 7.5, 7.5, 6.5, 7, 7],
 'столбец_3': [2.5, 1.8, 3.1, 1.9, 2.4, 2.8, 1.0, 3.2, 2.1, 2.2, 0.5]})

# создаем корреляционную матрицу
corr_matrix = df.corr()

### Квантили, квартили, перцентили:

In [None]:
# список квартилей, которые хотим рассчитать
Q = [0.25, 0.5, 0.75]

# рассчитываем квантили значений в столбец датафрейма
print(df['столбец'].quantile(Q))

In [None]:
df = pd.DataFrame({'ROE': [7.4, 7.8, 5.9, 7.1, 6.8, 7.6, 7.9, 8.3, 7.2, 6.9, 7.9],
 'COF': [6.3, 4.2, 6.2, 8.1, 8.4, 7.5, 6.5, 7.8, 6.9, 7.1, 7.2],
 'rating': ['AAA', 'BB+', 'BB+', 'AAA', 'BBB-', 'AA', 'AAA', 'AAA', 'BBB-', 'AAA', 'BB+']})

# список квартилей
Q = [0.25, 0.5, 0.75]

print(df['ROE'].quantile(Q))

### Box Plot:

![image.png](attachment:1c9e9a92-7487-4841-ad63-876aa4c3c566.png)

In [None]:
# строим один Box Plot по столбцу датафрейма
bp = plt.boxplot(df['столбец'],
                     vert=True,  # расположение бокса (True по умолчанию)
                     patch_artist=False,  # наполнение бокса цветом (False по умолчанию)
                     showmeans=True, # показывать среднее (зеленый треугольник) (False по умолчанию)
                     showfliers=True, # показывать выбросы (True по умолчанию)
                     labels=['столбец'])  # надписи
plt.show()

# строим несколько Box Plot по столбцам датафрейма
bp = plt.boxplot([df['столбец_1'],df['столбец_2']]) 
plt.show()

# строим несколько Box Plot по столбцам датафрейма, сгруппированным по другому столбцу
df.boxplot(column=['столбец_1','столбец_2'], by='столбец_3', grid= False , color='black')
plt.show()

### Функции CDF, PDF, PPF, SF, ISF
- 


### Нормальное распределение:

In [None]:
# Создаем нормальное распределение со средним 0 и стандартным отклонением 3
data = stats.norm(0,3)

x = np.linspace(-10, 10, 1000) # Создаем ось Х из 1000 значений в интервале от -10 до 10
# x = np.arange(-10,10,0.02) # Альтернативный способ создания оси Х из 1000 значений в интервале от -10 до 10 с заданием шага(0.02)

CDF = data.cdf(x) # Создаем функкцию CDF от значений в интервале х
plt.plot(x, CDF) # Строим график СDF
plt.show()

PDF = data.pdf(x) # Создаем функкцию PDF от значений в интервале х
plt.plot(x, PDF) # Строим график PDF
plt.show()

SF = data.sf(x) # Создаем функкцию SF от значений в интервале х
plt.plot(x, SF) # Строим график SF
plt.show()

PPF = data.ppf(x) # Создаем функкцию PPF от значений в интервале х
plt.plot(x, PPF) # Строим график PPF
plt.show()

ISF = data.isf(x) # Создаем функкцию ISF от значений в интервале х
plt.plot(x, ISF) # Строим график ISF
plt.show()

### Тест Колмогорова-Смирнова:

In [None]:
from numpy.random import seed
from numpy.random import lognormal, randn
from scipy.stats import kstest, ks_2samp

# инициализируем генератор псевдослучайных чисел
seed(0)

# создаем 1000 значений, имеющих логнормальное распределение со средним значением 0 и стандартным отклонением 2
data = lognormal(0, 2, 1000)

# создаем 1000 значений, имеющих стандартное нормальное распределение
standard_normal = randn(1000)

# запускаем одновыборочный тест Колмогорова-Смирнова на соответствие нашего распределения (data) нормальному распределению (norm)
print(kstest(data, 'norm'))

# запускаем двухвыборочный тест Колмогорова-Смирнова
print(ks_2samp(standard_normal, log_normal))

### Тест Колмогорова-Смирнова с поправкой Лиллиефорса:

In [None]:
from numpy.random import seed
from numpy.random import lognormal
from statsmodels.stats.diagnostic import lilliefors

# инициализируем генератор псевдослучайных чисел
seed(0)

# создаем 1000 значений, имеющих логнормальное распределение со средним значением 0 и стандартным отклонением 2
data = lognormal(0, 2, 1000)

# запускаем одновыборочный тест Колмогорова-Смирнова c поправкой Лиллиефорса
print(lilliefors(data))

### Тест Шапиро-Уилка:

In [None]:
from numpy.random import seed
from numpy.random import poisson
from scipy.stats import shapiro

# инициализируем генератор псевдослучайных чисел
seed(0)

# создаем 100 значений, имеющих распределение Пуассона с лямбдой, равной 5
data = poisson(5, 100)

# запускаем тест Шапиро-Уилка на соответствие нашего распределения (data) нормальному распределению
print(shapiro(data))

### QQ Plot:

In [None]:
import statsmodels.api as sm
import matplotlib.pyplot as plt
from numpy.random import lognormal, randn

np.random.seed(0)
# Создаем выборку из 1000 значений, имеющих стандартное нормальное распределение
data = randn(1000)

# Строим QQ plot с reference line в виде прямой линии под 45 градусов
fig = sm.qqplot(data, line='45')
plt.show()

### t-тест:

In [None]:
from scipy.stats import ttest_1samp, ttest_ind

#создаем выборки
sample_x = [7, 8, 9, 13, 10, 9, 9, 10, 9, 11, 12, 8, 9, 11, 10, 9, 10]
sample_y = [9, 12, 11, 11, 12, 8, 7, 9, 8, 10, 11, 10, 9, 10, 11, 9, 8]

# проводим одновыборочный t-тест на равенство среднего 9.71
print(ttest_1samp(sample_x, 9.71))

# проводим двухвыборочный t-тест на равенство средних
print(ttest_ind(sample_x, sample_y))

# в случае отсутствия гомогенности дисперсий (тест Уэлча)
print(ttest_ind(sample_x, sample_y, equal_var=False))