# Основы статистики (Часть 1)

***

## Содержание

1. Введение
    * Генеральная совокупность и выборка
    * Типы переменных. Количественные и номинативные переменные
    * Меры центральной тенденции
    * Меры изменчивости
    * Квартили распределения и график box-plot
2. Сравнение средних
3. Корреляция и регрессия

***

## Введение

***

### Генеральная совокупность и выборка

***

**Генеральная совокупность** - совокупность всех объектов (единиц), относительно которых
предполагается делать выводы при изучении конкретной задачи.

**Выборка** - часть генеральной совокупности элементов, которая охватывается экспериментом (наблюдением, опросом).
**Репрезентативность выборки** описывает способность выборочных данных отражать структуные свойства совокупности,
из которой они были извлечены.

**Типы выборок**:
- _вероятностные_ - предполагает однороднсоть генеральной совокупности, одинаковую вероятность
доступности всех элементов, наличие полного списка всех элементов.
- _невероятностные_ - отбор осуществляется по субъективным критериям (доступности, типичности и т.д.)

**Вероятностные выборки**
1. _Случайная выборка_
Предполагает однородность совокупности, одинаковую вероятность доступности всех элементов,
наличие полного списка всех элементов. При отборе используется таблица случайных чисел.
2. _Механическая (систематическая) выборка_
Разновидность случайной выборки, упорядоченная по какому-либо признаку. Первый элемент отбирается случайно,
затем, с шагом  отбирается каждый `k`-ый элемент. Размер генеральной совокупности - `N=n*k`
3. _Стратифицированная (районированная) выборка_
Применяется при неоднородности генеральной совокупности. Генеральная совокупность разбивается на страты.
В каждой страте отбор осуществляется случайным или механическим образом.
4. _Серийная (гнездовая, кластерная) выборка_
При серийной выборке отбора выступают не сами объекты, а кластеры. Кластеры выбираются случайным образом.

**Невероятностные выборки**
1. _Квотная выборка_
Изначально выделяется некоторое кол-во групп объектов (например, возрастные группы). Для каждой группы
задаётся кол-во объектов, которые должны быть обследованы. Кол-во объектов задается, либо пропорционально
зарнее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп
объекты отбираются случайно.
2. _Метод снежного кома_
Выборка формируется посредством связей объектов (респондентов), которые подходят под условия отбора.
3. _Стихийная выборка_
Отбираются наиболее доступные объекты (респонденты). Размер и состав заранее не известен.
4. _Выборка типичных случаев_
Отбираются единицы генеральной совокупности, обладающие средним значением признака.

***

### Типы переменных. Количественные и номинативные переменные

***

**Типы переменных:**
- **Количественные**
    1. _непрерывные_ - может принимать любое значение, не ограничена набором значений (рост, расстояние и т.д.)
    2. _дискретные_ - может принимать значения из опредеелённого набора чисел (кол-во детей в семье, число клиентов
       за промежуток веремени и т.д.)
- **Качественные**
    1. _номинальные_ - маркируют объекты, формируя из них группы (пол, группа крови и т.д.)
    2. _ранговые_ - ранжируют объекты, не указывая показатель или величину (положение в рейтинге и т.д.)

***

### Меры центральной тенденции

***

**Меры центральной тенденции** - число, описывающее множество значений одним числом:
1. _Арифметическое среднее_ - сумма всех наблюденных значений, делённая на их кол-во
2. _Взвешенное среднее_ - сумма произведений всех значений на их веса, делённая на сумму весов
3. _Винсоризованное среднее_ - среднее арифметическое, при расчёте которого все исключённые наибольшие и наимаеньшие значения заменяются на наибольшее и наименьшее "оставшиеся" значения
4. _Гармоническое среднее_ - кол-во наблюдений, делённое на сумму инвертированных значений наблюдений
5. _Геометрическое среднее_ - корень степени кол-ва значений из общего произведения всех значений
6. _Усеченное среднее_ - среднее число всех значений после отбрасывания фиксированного числа предельных целых
7. _Медиана_ - значение, которое делит упорядоченные по возрастанию (убыванию) наблюдения пополам
8. _Взвешенная медиана_ - значение, при котором половина суммы весов находится выше и ниже сортированных данных
9. _Мода_ - наиболее часто встречающееся значение
10. _Выброс_ - значение данных, которое сильно отличается от большинства данных

**Свойства среднего значения:**
1. Если к каждоиу значению выборки прибавить определённое число, то среднее значение увеличится на это число
$$M_{x+c}=\frac{{\sum_{i=1}^{n}}(x_{i}+c)}{n}=\frac{\sum_{i=1}^{n}x_{i}}{n} + \frac{\sum_{i=1}^{n}c}{n}=M_{x}+\frac{nc}{n}=M_{x}+c$$
2. Если каждое значение выборки умножить на определённое число, то среднее значение увеличится в это же число раз
$$M_{x+c}=\frac{\sum_{i=1}^{n}(x_{i}*c)}{n}=\frac{c*\sum_{i=1}^{n}x_{i}}{n}=c*M_{x}$$
3. Если для каждого значения выборки расчитать отклонение от среднего значения, то сумма этих отклонений будет равна 0
$$\sum_{i=1}^{n}(x_{i}-M_{x})=nM_{x}-nM_{x}=0$$

***

### Меры изменчивости

***

**Размах** - разность макисмального и минимального значения
$$R=X_{max}-X_{min}$$

**Дисперсия** - средний квадрат отклонений индивидуальных значений признака от их средней величины
$$D(X)=\frac{\sum_{i=1}^{n}(x_{i}-\overline{x})^2}{n}$$

**Стандартное отклонение** - характеризует степень отклонения данных от среднего значения
$$sd =\sqrt{D^2}$$

**Свойства дисперсии:**
1. Если к каждому значению выборки прибавить определённое число, то дисперсия и стандартное
отклонение останутся прежними
$$D_{x+c}=D_{x}$$
$$sd_{x+c}=sd_{x}$$
2. Если каждое значение выборки умножить на определённое число, то дисперсия увеличится в
квадрат этого числа, а стандартное отклонение в кол-во раз этого числа
$$D_{x*c}=D_{x}*c^2$$
$$sd_{x*c}=sd_{x}*c$$

***

### Квартили распределения и график box-plot

***

**Квантили** - значения, которые делят ряд наблюдений на равные части.

- _Квартиль_ - 4 равные части
- _Квинтиль_ - 5 равных частей
- _Дециль_ - 10 равных частей
- _Перцентиль_ - 100 равных частей

![box plot](img/Box-Plot-and-Whisker-Plot-2.png)

***

## Шпаргалки

***

![Таблица статистических нотаций](img/Нотации.png)
<br>
![Распределение среднего, моды, медианы](img/pearson-mode-skewness.jpg)
