# 2. Дослідницький аналіз даних

## 2.1. Мета дослідження даних
Дослідницький аналіз даних (EDA) - це важливий етап, який відбувається після отримання даних, і його слід робити перед моделюванням. Важливий тому, що науковцю необхідно розуміти природу даних, не роблячи припущень. Результати дослідження даних можуть бути надзвичайно корисними для розуміння структури даних, розподілу значень та визначенні граничних значень та взаємозв'язків у наборі даних.
> **Мета EDA:**
* використовувати зведені статистичні дані та візуалізації для кращого розуміння даних, знаходити їх тенденції, їх якості та  формулювати гіпотези аналізу;
* для успішної попередньої обробки даних важливо мати загальне уявлення про наявні дані.
Основні статистичні описи можуть бути використані для ідентифікації властивостей даних.

Наступним етапом є вивчення даних. Для вивчення даних використовуються два підходи:

1. ***Описова статистика*** це процес конденсації ключових характеристик набору даних у простих числових показниках. Деякі поширені показники - це середнє, стандартне відхилення та кореляція.

2. ***Візуалізація*** це процес проектування даних або їх частин у декартовий простір або в абстрактних зображеннях. Процес обробки даних використовується на багатьох етапах, включаючи попередню обробку, моделювання та інтерпретацію результатів.

## 2.2. Описова статистика
Зведена статистика - це вимірювання, призначені для опису даних. У галузі описової статистики існує багато [підсумкових вимірювань](http://www.saedsayad.com/numerical_variables.htm)

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

# Підключення бібліотек для обробки даних
import pandas as pd # обробка даних, CSV file I/O (e.g. pd.read_csv)
import numpy as np
from scipy.stats import norm
import seaborn as sns # візуалізація


plt.rcParams['figure.figsize'] = (15,8) 
plt.rcParams['axes.titlesize'] = 'large'

In [None]:
data = pd.read_csv('data/clean-data.csv', index_col=False)
data.drop('Unnamed: 0',axis=1, inplace=True)
#data.head(2)

In [None]:
# базова описова статистика
data.describe()

In [None]:
data.skew()

> Результат відхилень показує позитивне (праве) або негативне (ліве) відхилення. Значення ближчі до нуля показують менші відхилення.
З графіку видно, що **radius_mean**, **perimeter_mean**, **area_mean**, **concavity_mean** та **concave_points_mean** корисні у прогнозуванні типу раку шляхом чіткого групування доброякісних та злоякісних утворень за цими ознаками. **area_worst** і **perimeter_worst** також є досить корисними.

In [None]:
#data.diagnosis.unique()

In [None]:
# Групування за діагнозом та перевірка результатів.
#diag_gr = data.groupby('diagnosis', axis=0)
#pd.DataFrame(diag_gr.size(), columns=['# of observations'])

Див. бінарне кодування в розділі 1 Problem Identification, щоб підтвердити перетворення категоріальних даних діагнозу в числові, де:
* Злоякісна = 1 (позначає наявність ракових клітин)
* Доброякісна = 0 (позначає відсутність ракових клітин)

##### **Результати спостережень**
> *у 357 випадках позначається відсутність ракових клітин та 212 випадків з наявністю ракових клітин*

Підтвердимо це, побудувавши гістограму

# 2.3. Унімодальна візуалізація даних

Однією з головних цілей візуалізації даних є спостереження, які особливості є найбільш корисними при прогнозуванні злоякісних або доброякісних ракових утворень. Інша полягає в тому, щоб побачити загальні тенденції, які можуть допомогти у виборі моделі та підборі гіперпараметрів.

Використовуючи наступні 3 методики, можна зрозуміти кожен атрибут набору даних:
* Histograms.
* Density Plots.
* Box and Whisker Plots.

In [None]:
# отримання частоти діагностики раку
sns.set_style("white")
sns.set_context({"figure.figsize": (10, 8)})
#sns.countplot(data['diagnosis'],label='Count',palette="Set3")

## 2.3.1 Візуалізація розподілу даних за допомогою гістограм
Гістограми зазвичай використовуються для візуалізації числових змінних. Гістограма схожа на стовпчикову діаграму після того, як значення змінної групуються (бініруються) у кінцеве число інтервалів (бін).

Гістограми групують дані в біни та надають підрахунок кількості спостережень у кожному контейнері. З форми бінів можна зрозуміти, чи є атрибут гауссовим, спотвореним чи навіть має експоненціальний розподіл.

### Розділення стовпчиків на менші фрейми для виконання візуалізації

In [None]:
# Розбиття стовпчиків на групи відповідно до їх суфіксів 
#(_mean, _se, and __worst). 
# Прив'язка до 'ID' та 'Diagnosis'
data_id_diag=data.loc[:,["id","diagnosis"]]
data_diag=data.loc[:,["diagnosis"]]

data_mean=data.ix[:,1:11]
#data_se=data.ix[:,11:22]
#data_worst=data.ix[:,23:]

#print(df_id_diag.columns)
#print(data_mean.columns)
#print(data_se.columns)
#print(data_worst.columns)

### Гістограма за суфіксом "_mean"

In [None]:
hist_mean=data_mean.hist(bins=10, figsize=(15, 10),grid=False,)

#для окремих гістограм:
#df_cut['radius_worst'].hist(bins=100)

### Гістограма за суфіксом "_se"

In [None]:
hist_se=data_se.hist(bins=10, figsize=(15, 10),grid=False,)

### Гістограма за суфіксом "_worst"

In [None]:
hist_worst=data_worst.hist(bins=10, figsize=(15, 10),grid=False,)

З гістограм видно, що, можливо, атрибути **concavity** та **concavity_point** можуть мати експоненціальний розподіл. Також видно те, що, можливо, атрибути текстури гладкої та симетричної форми можуть мати гауссовий або майже гауссовий розподіл. Це цікаво тим, що багато методик машинного навчання передбачають універсальний розподіл Гаусса на вхідних змінних.

## 2.3.2 Візуалізація розподілу даних через графіки щільності

### Графіки щільності для суфіксу "_mean"

In [None]:
#Density Plots
plt = data_mean.plot(kind= 'density', subplots=True, layout=(4,3), sharex=False, sharey=False,fontsize=12, figsize=(15,10))

### Графіки щільності для суфіксу "_se"

In [None]:
#Density Plots
#plt = data_se.plot(kind= 'density', subplots=True, layout=(4,3), sharex=False, sharey=False,fontsize=12, figsize=(15,10))

### Графіки щільності для суфіксу "_worst"

In [None]:
#Density Plots
#plt = data_worst.plot(kind= 'kde', subplots=True, layout=(4,3), sharex=False, sharey=False,fontsize=5, figsize=(15,10))

З даних графіків видно, що, можливо, атрибути периметр, радіус, площа, увігнутість, компактність можуть мати експоненціальний розподіл. Також видно, що, можливо, атрибути текстури гладкої та симетричної форми можуть мати гауссовий або майже гауссовий розподіл. Це цікаво тим, що багато методик машинного навчання передбачають універсальний розподіл Гаусса на вхідних змінних.

## 2.3.3 Візуалізація розподілу даних за допомогою коробкового графіку (box plot)

### Box plot суфіксу "_mean"

In [None]:
# box and whisker plots
#plt=data_mean.plot(kind= 'box' , subplots=True, layout=(4,4), sharex=False, sharey=False,fontsize=12)

### Box plot суфіксу "_se"

In [None]:
# box and whisker plots
#plt=data_se.plot(kind= 'box' , subplots=True, layout=(4,4), sharex=False, sharey=False,fontsize=12)

### Box plot суфіксу "_worst"

In [None]:
# box and whisker plots
#plt=data_worst.plot(kind= 'box' , subplots=True, layout=(4,4), sharex=False, sharey=False,fontsize=12)

З даних графіків видно, що, можливо, атрибути периметр, радіус, площа, увігнутість, компактність можуть мати експоненціальний розподіл. Також видно, що, можливо, атрибути текстури гладкої та симетричної форми можуть мати гауссовий або майже гауссовий розподіл. Це цікаво тим, що багато методик машинного навчання передбачають універсальний розподіл Гаусса на вхідних змінних.

# 2.4. Мультимодальна візуалізація даних
* Точкова діаграма
* Кореляційна матриця

### Кореляційна матриця

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
from matplotlib import pyplot as plt

plt.style.use('fivethirtyeight')
sns.set_style("white")

data = pd.read_csv('data/clean-data.csv', index_col=False)
data.drop('Unnamed: 0',axis=1, inplace=True)
# розрахунок кореляційної матриці
corr = data_mean.corr()

# генерація маски для верхнього трикутника
mask = np.zeros_like(corr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True

# фігура matplotlib
data, ax = plt.subplots(figsize=(8, 8))
plt.title('Breast Cancer Feature Correlation')

# користувацька карта кольорів
cmap = sns.diverging_palette(260, 10, as_cmap=True)

# теплова карта за допомогою маски та виправлення співвідношення сторін
sns.heatmap(corr, vmax=1.2, square='square', cmap=cmap, mask=mask, ax=ax,annot=True, fmt='.2g',linewidths=2)

Ми можемо бачити, що існує сильна позитивна залежність між параметрами середніх значень між 1-0,75;
* Середня площа ядра тканини має сильну позитивну кореляцію із середніми значеннями радіуса та параметра;
* Деякі параметри мають середньо позитивний кореляційний характер (r між 0,5-0,75) - це увігнутість та площа, увігнутість та периметр тощо
* Аналогічно, ми бачимо деяку сильну негативну кореляцію між фрактальним розміром з радіусом, текстурою, середніми параметрами.

In [None]:
plt.style.use('fivethirtyeight')
sns.set_style("white")

data = pd.read_csv('data/clean-data.csv', index_col=False)
g = sns.PairGrid(data[[data.columns[1],data.columns[2],data.columns[3],
                       data.columns[4], data.columns[5],data.columns[6]]],hue='diagnosis' )
g = g.map_diag(plt.hist)
g = g.map_offdiag(plt.scatter, s = 3)

### Summary

* середні значення радіусу клітин, периметра, площі, компактності, увігнутості та увігнутих точок можуть бути використані при         класифікації раку. Більші значення цих параметрів мають тенденцію виявляти кореляцію зі злоякісними пухлинами.

* середні значення текстури, гладкості, симетрії чи фрагментарності не показують особливої переваги одного діагнозу перед іншим.