# Разведочный анализ данных (exploratory data analysis = EDA)

---

**Источники:**

[Exploratory data analysis](https://en.wikipedia.org/wiki/Exploratory_data_analysis)

[Разведочный анализ данных](https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D0%B7%D0%B2%D0%B5%D0%B4%D0%BE%D1%87%D0%BD%D1%8B%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85)

[Факторный анализ](https://ru.wikipedia.org/wiki/%D0%A4%D0%B0%D0%BA%D1%82%D0%BE%D1%80%D0%BD%D1%8B%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7)

[Factor analysis](https://en.wikipedia.org/wiki/Factor_analysis)

[Метод главных компонент](https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82)

[Introduction to Factor Analysis in Python](https://www.datacamp.com/community/tutorials/introduction-factor-analysis)

[Principal component analysis](https://en.wikipedia.org/wiki/Principal_component_analysis)

[Дискриминантный анализ](https://ru.wikipedia.org/wiki/%D0%94%D0%B8%D1%81%D0%BA%D1%80%D0%B8%D0%BC%D0%B8%D0%BD%D0%B0%D0%BD%D1%82%D0%BD%D1%8B%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7)

[Multidimensional scaling](https://en.wikipedia.org/wiki/Multidimensional_scaling)

[Многомерное шкалирование](https://ru.wikipedia.org/wiki/%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BC%D0%B5%D1%80%D0%BD%D0%BE%D0%B5_%D1%88%D0%BA%D0%B0%D0%BB%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5)

[Скрытая переменная](https://ru.wikipedia.org/wiki/%D0%A1%D0%BA%D1%80%D1%8B%D1%82%D0%B0%D1%8F_%D0%BF%D0%B5%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D0%B0%D1%8F)

[Latent variable](Latent variable)

---

## Подготовка окружения

In [1]:
# ВНИМАНИЕ: необходимо удостовериться, что виртуальная среда выбрана правильно!

!pip -V

pip 20.3.3 from /home/ira/anaconda3/envs/LevelUp_DataScience/lib/python3.8/site-packages/pip (python 3.8)


In [2]:
# !conda install pandas numpy -y

In [3]:
import pandas as pd

pd.__version__

'1.2.3'

## Обзор EDA

**Разведочный анализ данных (англ. Исследовательский анализ данных, EDA)** - анализ основных свойств данных, нахождение в них общих закономерностей, распределений и аномалий, построение начальных моделей, часто с использованием инструментов визуализации.

Понятие введено математиком Джоном Тьюки, который сформулировал цели такого анализа следующим образом:
- максимальное «проникновение» в данные,
- выявление основных структур,
- выбор наиболее важных переменных,
- обнаружение отклонений и аномалий,
- проверка основных гипотез,
- разработка начальных моделей.

Основные средства разведочного анализа:
- изучение вероятностных распределений переменных
- построение и анализ корреляционных матриц
- факторный анализ
- дискриминантный анализ
- многомерное шкалирование.


## Факторный анализ

**Фа́кторный анализ** — многомерный метод, применяемый для изучения взаимосвязей между значениями переменных. Предполагается, что известные переменные зависят от меньшего количества неизвестных переменных и случайной ошибки.

**Факторный анализ** позволяет решить две важные проблемы исследователя: описать объект измерения всесторонне и в то же время компактно. 

С помощью **факторного анализа** возможно выявление скрытых переменных факторов, отвечающих за наличие линейных статистических корреляций между наблюдаемыми переменными.

Две основных цели **факторного анализа**:
- определение взаимосвязей между переменными, (классификация переменных), то есть "объективная R-классификация"
- сокращение числа переменных необходимых для описания данных

**Факторный анализ** может быть:
- разведочным (Exploratory factor analysis = EFA) — он осуществляется при исследовании скрытой факторной структуры без предположения о числе факторов и их нагрузках;
- конфирматорным (подтверждающим) (Confirmatory factor analysis = CFA), предназначенным для проверки гипотез о числе факторов и их нагрузках.

Условия применения **факторного анализа**:
- все признаки должны быть количественными;
- число наблюдений должно быть не менее чем в два раза больше числа переменных;
- выборка должна быть однородна;
- исходные переменные должны быть распределены симметрично;
- факторный анализ осуществляется по коррелирующим переменным/


Два основных понятия **факторного анализа**:
- **фактор** — скрытая переменная
- **нагрузка** — корреляция между исходной переменной и фактором

При анализе в один **фактор** объединяются сильно коррелирующие между собой переменные, как следствие происходит перераспределение дисперсии между компонентами и получается максимально простая и наглядная структура **факторов**.

После объединения коррелированность компонент внутри каждого **фактора** между собой будет выше, чем их коррелированность с компонентами из других **факторов**.

### Латентные переменные

Эта процедура также позволяет выделить **латентные переменные**, что бывает особенно важно при анализе социальных представлений и ценностей. 

В статистике под **латентными (скрытыми) переменными** понимают такие переменные, которые не могут быть измерены в явном виде, а могут быть только выведены через математические модели с использованием наблюдаемых переменных. 

**Скрытые переменные** используются во многих областях, включая психологию, экономику, машинное обучение, биоинформатику, обработку естественного языка и социальные науки.

Например, анализируя оценки, полученные по нескольким шкалам, исследователь замечает, что они сходны между собой и имеют высокий коэффициент корреляции, он может предположить, что существует некоторая **латентная переменная**, с помощью которой можно объяснить наблюдаемое сходство полученных оценок.

Такую **латентную переменную** называют **фактором**. 

Данный **фактор** влияет на многочисленные показатели других переменных, что приводит нас к возможности и необходимости выделить его как наиболее общий, более высокого порядка.

Для выявления наиболее значимых факторов и, как следствие, факторной структуры, наиболее оправданно применять **метод главных компонент (МГК)**.

### Метод главных компонент (principal component analysis = PCA)

**Метод главных компонент (англ. principal component analysis, PCA)** — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации.

Изобретён Карлом Пирсоном в 1901 году. 

Применяется во многих областях, в том числе, в эконометрике, биоинформатике, обработке изображений, для сжатия данных, в общественных науках.

Суть данного метода состоит в замене коррелированных компонентов некоррелированными **факторами**.

Другой важной характеристикой метода является возможность ограничиться наиболее информативными главными компонентами и исключить остальные из анализа, что упрощает интерпретацию результатов. 

Достоинство **МГК** также в том, что он — единственный математически обоснованный метод факторного анализа.

## Дискриминантный анализ

**Дискримина́нтный ана́лиз** — раздел вычислительной математики, представляющий набор методов статистического анализа для решения задач распознавания образов, который используется для принятия решения о том, какие переменные разделяют (т.е. «дискриминируют») возникающие наборы данных (так называемые «группы»). В отличие от кластерного анализа в дискриминантном анализе группы известны априори.


## Многомерное шкалирование

**Многомерное шкалирование** — метод анализа и визуализации данных с помощью расположения точек, соответствующих изучаемым (шкалируемым) объектам, в пространстве меньшей размерности чем пространство признаков объектов.

Точки размещаются так, чтобы попарные расстояния между ними в новом пространстве как можно меньше отличались от эмпирически измеренных расстояний в пространстве признаков изучаемых объектов. 

Если элементы матрицы расстояний получены по интервальным шкалам, метод многомерного шкалирования называется метрическим.

Когда шкалы являются порядковыми, метод многомерного шкалирования называется неметрическим.

Мера различий расстояний в исходном и новом пространстве называется функцией стресса.

### Области применения (Multidimensional scaling = MDS)

- Поиск скрытых переменных, объясняющих полученную из опыта структуру попарных расстояний между изучаемыми явлениями.
- Проверка гипотез о расположении изучаемых явлений в пространстве скрытых переменных.
- Сжатие полученного опытным путём массива данных путём использования небольшого числа скрытых переменных.
- Наглядное представление данных.
