# Разведочный анализ данных: анализ зависимостей и многомерные методы


**Разведочный анализ данных** (англ. **exploratory data analysis**, **EDA**) — анализ основных свойств данных, нахождение в них общих закономерностей, распределений и аномалий, построение начальных моделей, зачастую с использованием инструментов визуализации.

Понятие введено математиком Джоном Тьюки, который сформулировал цели такого анализа следующим образом:

- максимальное «проникновение» в данные,  
- выявление основных структур,  
- выбор наиболее важных переменных,  
- обнаружение отклонений и аномалий,  
- проверка основных гипотез,  
- разработка начальных моделей.


Основные средства разведочного анализа — изучение вероятностных распределений переменных, построение и анализ корреляционных матриц, факторный анализ, дискриминантный анализ, многомерное шкалирование.

В этом блокноте вы познакомитесь сметодами разведочного анализа для выявления зависимостей между несколькими переменными.


## Ресурсы

* Визуализация в Pandas https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html
* Документация Seaborn http://seaborn.pydata.org/tutorial.html
* Галерея графиков Matplotlib https://matplotlib.org/gallery/index.html
* Python Plotting for Exploratory Analysis https://pythonplot.com/
* A Dramatic Tour through Python’s Data Visualization Landscape (including ggplot and Altair) [ссылка](https://dsaber.com/2016/10/02/a-dramatic-tour-through-pythons-data-visualization-landscape-including-ggplot-and-altair/)
* Глава 4 книги Дж. Вандер Плас Python для сложных задач. Наука о данных и машинное обучение
* Эта же глава в виде [блокнота](https://jakevdp.github.io/PythonDataScienceHandbook/04.00-introduction-to-matplotlib.html)
* Глава 9 книги Уэса Маккини Python и анализ данных, 2-е издание


Классные ресурсы по выбору способов визуализаций + примеры:
* https://www.data-to-viz.com/  
* https://datavizproject.com/  
* https://datavizcatalogue.com/RU/
* https://datayoga.ru/vizcards#catalogue

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns # Пакет для построения статистических графиков и разведочного анализа
%matplotlib inline

mpg = pd.read_csv('../datasets/mpg.csv')
mpg.head(5)

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,class
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


Мы загрузили данные о расходе топлива автомобилями разных марок и годов производства. Столбцы таблицы обозначают:

 - `manufacturer` - марка машины
 - `model` - модель
 - `displ` - объем двигателя в л
 - `year` - год выпуска
 - `cyl` - количество цилиндров
 - `trans` - тип трансмиссии (ручная или автоматическая коробка передач)
 - `drv` - тип привода (`f` - передний, `r` - задний, `4` - полный)
 - `cty` - пробег на 1 галлоне топлива (~4 л) в городе
 - `cty` - пробег на 1 галлоне топлива на трассе
 - `fl` - тип топлива
 - `class` - класс машины
 

Загрузим также набор данных `diamonds`, который содержит сведения о ~50 тысячах бриллиантов:

In [2]:
diamonds = pd.read_csv('../datasets/diamonds.csv')
diamonds.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


**Столбцы**

- `price` - цена в USD
- `carat` - вес бриллианта в каратах (0.2 г) 
- `cut` - качество огранки, в порядке улучшения: Fair, Good, Very Good, Premium, Ideal
- `color` - оттенок цвета, в порядке ухудшения: D (лучший) - J (худший)
- `clarity` - прозрачность бриллианта, в порядке улучшения: I1 (худший), SI2, SI1, VS2, VS1, VVS2, VVS1, IF (лучший))
- `x` - длина в мм
- `y` - ширина в мм
- `z` - глубина в мм
- `depth` - соотношение глубины и видимого размера: `total depth percentage = z / mean(x, y) = 2 * z / (x + y)`
- `table` - ширина верхней плоской грани относительно самого широкого сечения