## **Разведывательный анализ данных (EDA)**

### **1) Массив numpy.array()**

При изменении среза массива или отдельных его элементов будет изменен и сам массив, даже если срез был сохранён в виде отдельной переменной. 

Операции с массивами производятся поэлементно, следовательно размерность массивов должна быть одинаковой.

**Операции с массивами numpy:**  
.T - транспонирование (замена местами строк и столбцов)  
.reshape() - изменение размерности  
.flatten() - уплощение массива  
np.sort(my_array, axis = 1) - сортировка по строкам  
np.sort(my_array, axis = 0) - сортировка по столбцам

**Мат-Стат операции:**  
np.mean() - среднее арифметическое  
np.median() - медиана  
np.corrcoef() - коэффициент корреляции  
np.std() - стандартное отклонение

Дополнительно: [73 задачи для NumPy](https://pythonworld.ru/numpy/100-exercises.html)

### **2) Визуализация**

%matplotlib inline

### **Pandas**

**df.plot()** - быстро и просто  
df.plot(**subplots** = True) - несколько графиков в одной рабочей области  
df.plot(kind = **'scatter'**) - диаграмма рассеяния  
**df.pivot_table()**.plot(kind = 'bar') - когда нужно совместить на графике несколько качественных и количественных показателей

df.boxplot() - ящик с усами

### **Matplotlib**

axes = plt.figure().add_axes([0, 0, 1, 1])  
Первые два числа — это отступ снизу и слева, а следующие два — ширина и высота для построения графика.

axes.hist() - гистограмма  
axes.bar() - баровый график (столбиковый график)  
axes.scatter() - диаграмма рассеяния  
axes.plot() - линейный график ([Документация](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.plot.html))

axes.set_title() — заголовок диаграммы  
axes.set_ylabel() — заголовок для оси ординат  
axes.set_xlabel() — заголовок для оси абсцисс

**Легенда**  
axes.**set_ylim()** - увеличиваем высоту графика, чтобы легенда не перекрывала значения  
axes.bar(**label** = '') - то, что будет отображаться в легенде  
axes.legend(loc = 1), где **loc** - это расположение легенды на графике

**Несколько графиков**  
plt.subplots() - фигура

### **Seaborn**

**Количественные признаки**  
То, что считается в штуках/годах/др единицах измерения; переменная, значение которой может быть выражено количественно.

sns.set()  
sns.**distplot()** - гистограмма распределения 
sns.**jointplot()** - гистограмма распределения двух признаков и связь между ними  
sns.jointplot(**kind = 'reg'**) - добавляет линию **регрессии** (линия зависимости одной переменной от другой; в самом простом случае это функция вида: y = kx + b)  
sns.**pairplot()** - еще один способ отображения связи количественных признаков

**Категориальные признаки**  
Переменная, значение которой выражает отнесение к какой-либо категории, например, цвет: белый/черный.

sns.**barplot()** - баровый график  
sns.**boxplot()** - ящик с усами  
sns.boxplot(**hue = ''**) - параметр, позволяющий разделять данные в зависимости от значения нового категориального признака
sns.**countplot()** - гистограмма распределения категориальных признаков

**Корреляционный анализ**  

_Для количественных признаков:_  
sns.**heatmap**(correlation, **annot** = True, **cmap** = 'coolwarm') - тепловая карта, где annot отображает значение коэффициентов корреляции, cmap - цветовая палитра

### **Plotly**  
!pip install plotly  
!pip install cufflinks

.iplot() - интерактивная визуализация  
.iplot(kind = **'bubble'**) - диаграмма рассеяния

В качестве дополнительной информации в **модуле 10.13** указаны ссылки для изучения разных типов графиков

### **3) Рекомендации по выполнению проекта**

* Внимательно прочитайте рекомендации на платформе :)
* Постарайтесь не сильно углубляться. Если чувствуете, что потерялись и не понимаете что нужно делать, **ориентируйтесь на первую часть проекта**: тренировочный кейс про батончики (это ваш референс). Если это не помогает: напишите мне или в канале Slack #0-real_ds_анализ_данных.
* Описывайте свои мысли по ходу проведения анализа: обязательно оставляйте комментарии.
* Чем больше визуализации, тем лучше.
* При оформлении проекта так же можно пользоваться языком MarkDown. Данная шпаргалка выполнена именно таким образом. Для этого, необходимо изменить тип ячейки: Cell -> Cell Type -> Markdown. Далее при ее исполнении (shift + enter) результат будет преобразовывваться в текст. Подробнее можно почитать [тут](https://ax.digital/markdown/), а также посмотреть на струткуру самой шпаргалки.
* Обязательно напишите вывод к своей работе. Важно: ожидается, что в выводе вы укажете какие признаки должны быть использованы при дальнейшем построении модели, а какие нет и почему (например, слишком много выбросов? коррелируют с другими признаками?)

Также советую:

+ ttest_ind из модуля scipy.stats (Т-тест)
+ поизучать Plotly