## Розвідковий аналіз даних  
Розвідковий аналіз даних (англ. Exploratory data analysis, EDA) - аналіз основних властивостей даних, знаходження в них загальних закономірностей, розподілів і аномалій, побудова початкових моделей, часто з використанням інструментів візуалізації.

Поняття введено математиком Джоном Тьюкі, який сформулював мету такого аналізу в такий спосіб:
- максимальне «проникнення» в дані,   
- виявлення основних структур в даних,   
- вибір найбільш важливих змінних,  
- виявлення відхилень і аномалій,  
- перевірка основних гіпотез,   
- розробка початкових моделей.

In [None]:
#  імпортуємо необхідні бібліотеки
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_context("paper")
sns.set_palette('Dark2')

In [None]:
# графіки вбудовуються в блокнот 
%matplotlib inline

In [None]:
# відключити попередження Anaconda
import warnings
warnings.simplefilter('ignore')

In [None]:
# встановимо, що в цислах типу float виводити 2 знаки після роздільника
pd.options.display.float_format = '{:.2f}'.format

In [None]:
# Зчитуємо в датафрейм df файл з початковими даними
data = pd.read_csv('survey.csv')
data.head(2)

**Датафрейм містить результати щорічного опитування користувачів сайту Stackoverflow**  
 
Додатково ознайомитися з дуже цікавими результатами найновішого опитування можна тут: [2023 Developer Survey](https://survey.stackoverflow.co/2023/#learning-to-code-learn-code-age)

### Опис колонок  
MainBranch - розробник/ пишу код у вільний від роботи час  
**Age - вік**  
**Age1stCode - у якому віці написали перший код**  
**ConvertedComp - заробітна плата (у дол. США)**  
Country - країна проживання  
EdLevel - рівень освіти  
Employment - поточний вид зайнятості  
Gender - стать  
JobSat - оцінка рівня задоволенності роботою  
JobSeek - чи знаходитесь ви у пошуку роботи зараз  
NEWLearn - як часто ви вивчаєте нову мову програмування  
NEWOvertime - як часто ви працюєте понаднормово  
OpSys - яку операційну систему використовуєте  
SOAccount - наявність акаунту на Stack Overflow  
SOComm - чи вважаєте ви себе частиною спільноти Stack Overflow  
SOPartFreq - як часто ви берете участь в обговореннях на Stack Overflow  
SOVisitFreq - як часто ви відвідуєте Stack Overflow  
SurveyEase - наскільки простим було опитування  
SurveyLength - наскільки довгим було опитування  
UndergradMajor - галузь знань, за якою ви здобули освіту  
WelcomeChange - наскільки привітною є спільнота користувачів на Stack Overflow  
**WorkWeekHrs** - кількість робочих годин на тиждень  
**YearsCode** - скільки років займаєтесь написанням коду  
**YearsCodePro** - скільки років професійно займаєтесь написанням коду  

In [None]:
data.info()

### <span style="color:red"> Додатково </span>.  
#### Метод .groupby()  
Метод використовується для групування даних по категоріях і застосування функції до категорій.  
**df.groupby(by='')[column name].function()**  
У якості function() найчастіше використовують:  
мінімальне min()  
максимальне max()  
середнє mean()  
мода mode()  
медіана median()  
сума sum()  
кількість count()

In [None]:
# Згрупуємо респондентів за рівнем освіти та розрахуємо медіанну ЗП в кожній категорії
data.groupby('EdLevel')[['ConvertedComp']].median()

### Сортування  
#### використовується метод .sort_values(by = [list of columns])
ascending - параметр, який вказує напрям сортування даних:  
ascending = 0 (або False) - сортування за спаданням  
ascending  = 1 (або True) - сортування за зростанням (встановлено за замовчанням)  
inplace=True - якщо потрібно замінити в поточному датафреймі початкові дані на відсортовані

In [None]:
ukr_prog = data[data['Country'] == 'Ukraine']
ukr_prog.sort_values('Age', ascending=0)

## 1. Підготовка та очищення даних  

### 1.1 Видалення зайвих стовпчиків  
**df.drop([list of columns], axis=1)**

In [None]:
'''припустимо, що колонки 'SOAccount', 'SOComm', 'SOPartFreq','SOVisitFreq', 'SurveyEase', 'SurveyLength', 'WelcomeChange' 
нас не цікавлять, тому їх варто видалити із датафрейму'''

data.drop(['SOAccount', 'SOComm', 'SOPartFreq',
       'SOVisitFreq', 'SurveyEase', 'SurveyLength', 'WelcomeChange'], axis=1, inplace=True)

### 1.2 Зміна типу даних в колонках з текстового на числовий (за потреби)  
**df[name of column] = pd.to_numeric(df[name of column], errors='coerce')**  
errors='coerce' - якщо в комірці неможливо конвертувати в числовий тип, то така комірка стає NaN  

Іноді при зчитувані даних в датафрейм тип даних в деяких стовпчиках розпізнається некоректно. Наприклад, в нашому датафреймі в стовпчиках Age1stCode, YearsCode, YearsCode міститься числова інформація, проте Пандас відніс інформацію в цих стовпчиках до типу object, тобто до текстової інформації. В такому випадку варто самостійно задати правильний тип даних для уникнення труднощів в подальшій роботі (наприклад, якщо необхідно визначити середній вік першого написання коду (середне значення стовпчика Age1stCode), то це дуже просто зробити для числових даних, але ми отримаємо помилку, якщо значення цього стовпчика будуть типу object)

In [None]:
# переглянемо тип даних в стовпчиках
data.info()

In [None]:
data['Age1stCode'] = pd.to_numeric(data['Age1stCode'], errors='coerce')
data['YearsCode'] = pd.to_numeric(data['YearsCode'], errors='coerce')
data['YearsCodePro'] = pd.to_numeric(data['YearsCodePro'], errors='coerce')

In [None]:
# чи коректно змінено тип даних
data.info()

## 2. Виявлення та виключення викидів з даних  
Виявлення та видалення викидів є важливим кроком у попередній обробці даних для забезпечення достовірності та надійності вашого аналізу.   
**Ось загальна стратегія для виявлення та видалення викидів:**
- Візуалізуйте дані: Перед виявленням викидів часто корисно візуалізувати ваші дані за допомогою гістограм, box plots, scatter plots або інших відповідних графіків. Візуальний огляд часто може виявити потенційні викиди.  
- Визначте критерії для викидів: Визначте критерії для ідентифікації викидів у вашому наборі даних. Загальні методи включають:  
а) Використання z-оцінок: Значення, що відхиляються за певною кількістю стандартних відхилень від середнього, вважаються викидами.  
б) Міжквартильний розмах (IQR): Значення, які випадають нижче за Q1 - 1.5 * IQR або вище за Q3 + 1.5 * IQR, вважаються викидами.  в) Знання предметної області: Іноді викиди можуть бути виявлені на основі досвіду, професійних знань або бізнес-правил.  
  
### 2.1 Числові ознаки  
На прикладі змінної Age розглянемо виключення викидів, нетипових та помилково введених даних

In [None]:
data.describe()
# межі 1-го, 2-го та 3-го квартилів змінної Age виглядають цілком реалістично, але мінімальне та максимальне значення - ні

In [None]:
# для діагностики викидів та нетипових спостережень найкраще підходить коррбчаста діаграма
#data[['Age']].boxplot(figsize=(5, 5));
sns.boxplot(data['Age']);

In [None]:
# обрала видалити всіх респондентів молодше 10 років та старше 80 років 
data.drop(data[data['Age'] < 10].index, inplace=True)
data.drop(data[data['Age'] > 80].index, inplace=True)

In [None]:
sns.boxplot(data['Age']);

### 2.2  Видалення та заповнення пропусків в даних  
З попередніх лекцій:  
**df.dropna()** - видалити рядки, в яких є пропуски  
**df.fillna()** - заповнити рядки, в яких є пропуски вказаною інформацією  
  
**Деякі базові стратегії заповнення пропущених значень:**  
- Медіана або середнє значення: Замініть пропущені значення середнім або медіанним значенням стовпця.  
- Мода: Заповнення пропущених значень найчастішим значенням у стовпці.  
- Лінійна інтерполяція: Оцінка пропущених значень на основі відомих значень в товпчику.  
- Прогностичні моделі: Використання моделей машинного навчання для прогнозування пропущених значень на основі інших ознак у наборі даних.

<span style="color:red"> **!!!**</span> Кожна стратегія має свої переваги та недоліки, і вибір методу повинен бути спрямований на особливості набору даних та конкретні вимоги аналізу або моделювання. Крім того, важливо врахувати потенційний вплив заповнення на цілісність та вірогідність даних.  
<span style="color:red">**!!!**</span> Немає однозначної відповіді на питання про те, який відсоток пропущених значень є прийнятним для заповнення, оскільки це залежить від конкретного дослідження та його вимог. Ви можете провести експерименти з різними відсотками заповнення та оцінити, як це впливає на результати вашого аналізу або моделі.

In [None]:
#спочатку перевіримо кількість пропущених значень в кожному стовпчику
data.info()

Отже, є пропуски в:  
- стовпчиках з кількісними даними, наприклад, **Age, ConvertedComp**  
- стовпчиках із категоріальними даними, наприклад, **EdLevel, Gender**   

Спочатку опрацюємо пропуски в числових даних

In [None]:
# Пропущені дані в стовпчику Age заповнимо сумою значень стовпчиків Age1stCode та YearsCode
data['Age'].fillna(data[['Age1stCode','YearsCode']].sum(axis=1), inplace=True)

In [None]:
# Пропущені дані в стовпчику ConvertedComp заповнимо медіанними по країнах зарплатами
data['ConvertedComp'].fillna(data.groupby('Country')['ConvertedComp'].transform('median'), inplace=True)

Далі заповнимо пропуски в категоріальних даних  
Є такі поширені стратегії заповнення пропусків в категоріальних даних:  
- заповнити значеннями найпопулярнішої категорії  
- заповнити значеннями іншої категорії  

In [None]:
# Які є категорії в стовпчику EdLevel? 
data['EdLevel'].value_counts()

In [None]:
# Заповнюю пропущені значення найпопулярнішою категорією
data['EdLevel'].fillna(data['EdLevel'].value_counts().index[0], inplace=True)

In [None]:
# Які є категорії в стовпчику Gender? 
data['Gender'].value_counts()

In [None]:
# Заповнюю пропущені значення новою категорією Not given
data['Gender'].fillna('Not given', inplace=True)

In [None]:
# Якщо необхідно видалити всі рядки, в яких є пропуски
# data.dropna(inplace=True)
data.info()

<span style="color:red"> **!!!**</span> після очищення даних датафрейм варто перезаписати  

## Розвідковий аналіз даних  
Розвідковий аналіз даних може бути як окремим аналізом, так і підготовчим етапом перед використанням алгоритмів машинного навчання.  В цій темі розвідковий аналіз даних буде використано як окремий аналіз з метою кращого розуміння інформації, що міститься в датафреймі data.

### Скільки респондентів професійно займається програмуванням, а для скількох програмування - хоббі?

In [None]:
sns.catplot(data=data, x='MainBranch', hue='Employment', kind='count', height=3.5, aspect=2);

### Галузь знань, за якою респонденти здобули вищу освіту

In [None]:
sns.catplot(data=data, y='UndergradMajor', kind='count', height=3.5, aspect=3);

### Чим більше працюєш, тим більшою є зарплата?

In [None]:
data.groupby('NEWOvertime')[['ConvertedComp', 'YearsCodePro']].median()

### Топ-20 країн за рівнем зп ІТ-фахівців

In [None]:
top = data.groupby('Country')[['ConvertedComp']].median().sort_values('ConvertedComp', ascending=0).head(20)
top['Country'] = top.index # назви країн зробити окремим стовпчиком датафрейму

In [None]:
sns.catplot(data=top, x='Country', y='ConvertedComp', kind='bar', height=4, aspect=2.5);
plt.xticks(rotation=90);