# Обробка даних у Інтелектуальному Аналізі Даних

## Типи даних

Типи даних є фундаментальними будівельними блоками будь-якого проєкту, який працює з даними. Розуміння природи ваших даних є критично важливим для вибору відповідних технік попередньої обробки, алгоритмів та аналітичних методів. У цій лекції ми розглянемо різні типи даних, з якими ви зіткнетеся в data mining, та як ефективно з ними працювати.

![Data Types](images/3.0-data-types.png)

[Джерело зображення](https://www.mygreatlearning.com/blog/types-of-data/)

### 1. Числові типи даних

Числові дані представляють кількості та можуть бути виміряні на числовій шкалі. Існує два основних підтипи:

#### Неперервні числові дані
- **Визначення**: Дані, які можуть приймати будь-яке значення в межах діапазону (включно з десятковими значеннями)
- **Приклади**: Зріст (1.75м), температура (23.4°C), дохід ($45,678.90), час (2.5 години)
- **Характеристики**: 
  - Нескінченна кількість можливих значень в межах діапазону
  - Можуть бути виміряні з високою точністю
  - Підтримують арифметичні операції (додавання, віднімання, множення, ділення)
  - Можуть бути агреговані за допомогою середнього, медіани, стандартного відхилення

#### Дискретні числові дані
- **Визначення**: Дані, які можуть приймати лише конкретні, підрахункові значення (зазвичай цілі числа)
- **Приклади**: Кількість дітей (0, 1, 2, 3...), кількість проданих товарів, кількість відвідувань
- **Характеристики**:
  - Скінченна або зліченно нескінченна кількість можливих значень
  - Часто представляють підрахунки або рейтинги
  - Підтримують арифметичні операції, але з обмеженнями
  - Можуть бути агреговані за допомогою середнього, медіани, моди

### 2. Категоріальні типи даних

Категоріальні дані представляють групи або категорії та не можуть бути виміряні на числовій шкалі. Існує два основних підтипи:

#### Номінальні категоріальні дані
- **Визначення**: Категорії без будь-якого впорядкування або ранжування
- **Приклади**: Стать (Чоловік, Жінка, Інше), Колір (Червоний, Синій, Зелений), Країна (США, Канада, Мексика)
- **Характеристики**:
  - Немає значущого порядку між категоріями
  - Категорії взаємно виключні
  - Неможливо виконувати арифметичні операції
  - Можна лише підраховувати частоти та обчислювати пропорції

#### Ординальні категоріальні дані
- **Визначення**: Категорії зі значущим порядком або ранжуванням
- **Приклади**: Рівень освіти (Середня школа → Бакалавр → Магістр → Доктор), Оцінка (Погано, Задовільно, Добре, Відмінно), Розмір (Малий, Середній, Великий)
- **Характеристики**:
  - Категорії мають чіткий порядок
  - Відстань між категоріями може бути нерівною
  - Можуть бути ранжовані, але арифметичні операції обмежені
  - Можуть бути перетворені на числові шкали для аналізу

### 3. Спеціальні типи даних

#### Бінарні дані
- **Визначення**: Дані з точно двома можливими значеннями
- **Приклади**: Так/Ні, Істина/Хибність, 0/1, Здано/Не здано
- **Характеристики**:
  - Найпростіша форма категоріальних даних
  - Можуть розглядатися як числові (0/1) для аналізу
  - Часто використовуються як цільові змінні в класифікації

#### Текстові дані
- **Визначення**: Неструктурована текстова інформація
- **Приклади**: Описи продуктів, відгуки клієнтів, пости в соціальних мережах
- **Характеристики**:
  - Вимагають спеціальної попередньої обробки (токенізація, стемінг тощо)
  - Можуть бути перетворені на числові ознаки за допомогою різних технік
  - Часто аналізуються за допомогою методів обробки природної мови

#### Дані дати/часу
- **Визначення**: Часова інформація
- **Приклади**: Дати народження, часові мітки, час призначених зустрічей
- **Характеристики**:
  - Можуть бути розкладені на кілька ознак (рік, місяць, день, година)
  - Підтримують часовий аналіз та методи часових рядів
  - Часто вимагають спеціальної обробки для часових поясів та форматів

### 4. Типові проблеми та застереження щодо типів даних

#### Неправильна ідентифікація типу
- **Проблема**: Обробка категоріальних даних як числових
- **Приклад**: Поштові індекси (12345) виглядають як числові, але є категоріальними
- **Рішення**: Перевірити, чи мають сенс арифметичні операції

#### Змішані типи даних
- **Проблема**: Один стовпець містить кілька типів даних
- **Приклад**: "25", "Невідомо", "N/A" в стовпці віку
- **Рішення**: Очищення та стандартизація даних

#### Проблеми кодування
- **Проблема**: Категоріальні дані зберігаються як числа
- **Приклад**: Стать зберігається як 1/2 замість Чоловік/Жінка
- **Рішення**: Правильне маркування та документація

#### Втрата точності
- **Проблема**: Округлення неперервних даних до дискретних
- **Приклад**: Зберігання зросту 1.75м як 2м
- **Рішення**: Підтримувати відповідні рівні точності

#### Представлення відсутніх значень
- **Проблема**: Неконсистентне представлення відсутніх даних
- **Приклад**: "N/A", "NULL", "", "0" всі представляють відсутні значення
- **Рішення**: Стандартизувати представлення відсутніх значень

### 5. Коли використовувати перетворення типів даних

**Вимоги алгоритмів**
- Більшість алгоритмів машинного навчання вимагають числового вводу
- Статистичний аналіз часто потребує числових даних
- Алгоритми на основі відстані (k-means, k-NN) потребують числових ознак

**Ординальні дані зі значущим порядком**
- Рівні освіти (Середня школа → Бакалавр → Магістр → Доктор)
- Оцінки задоволеності клієнтів (Погано → Задовільно → Добре → Відмінно)
- Дохідні категорії (Низький → Середній → Високий)

**Категоріальні дані з високою кардинальністю**
- Коли у вас багато категорій і one-hot кодування створить занадто багато ознак
- Використовуйте target encoding або техніки вбудовування

**Оптимізація продуктивності**
- Зменшити використання пам'яті шляхом перетворення текстових категорій на числові коди
- Прискорити обчислення у великих наборах даних

#### Коли перетворювати числові на категоріальні

**Нелинійні зв'язки**
- Коли зв'язок між числовою змінною та ціллю не є лінійним
- Вікові групи (0-18, 19-35, 36-50, 50+) замість неперервного віку

**Вимоги бізнес-логіки**
- Створення значущих бізнес-сегментів
- Категорії ризику на основі діапазонів балів
- Відповідність регуляторним вимогам

**Запобігання перенавчанню**
- Групування подібних значень для зменшення шуму
- Створення більш надійних моделей з меншою кількістю параметрів

**Інтерпретованість**
- Зробити результати більш зрозумілими для бізнес-стейкхолдерів
- Створення дієвих інсайтів з неперервних змінних

## Очищення даних

Очищення даних є одним з найкритичніших кроків у процесі data mining. Реальні дані часто бувають брудними, неповними та неконсистентними.

### 1. Обробка відсутніх значень

Відсутні значення є однією з найпоширеніших проблем якості даних. Вони можуть виникати через помилки збору даних, збої системи або просто тому, що інформація не була доступна.

![Missing values](images/3.1-missing-values.png)

[Джерело зображення](https://blog.dailydoseofds.com/p/3-types-of-missing-values)

#### Типи відсутніх даних

**Відсутні повністю випадково (MCAR)**
- Відсутні значення не пов'язані з жодними спостережуваними або неспостережуваними змінними
- Приклад: Випадковий збій системи, що спричиняє втрату даних

**Відсутні випадково (MAR)**
- Відсутні значення пов'язані зі спостережуваними змінними, але не з самими відсутніми значеннями
- Приклад: Дані про високий дохід відсутні для молодших людей (вік спостережується)

**Відсутні не випадково (MNAR)**
- Відсутні значення навмисні
- Приклад: Люди з дуже високим доходом відмовляються його вказувати

#### Обробка відсутніх значень

**1. Методи видалення**
- **Listwise deletion**: Видалення всіх рядків з будь-якими відсутніми значеннями
- **Pairwise deletion**: Використання доступних даних для кожного аналізу
- **Column deletion**: Видалення стовпців з занадто великою кількістю відсутніх значень

**2. Методи імпутації**
- **Mean/Median imputation**: Заміна центральною тенденцією
- **Mode imputation**: Заміна найчастішим значенням
- **Forward/Backward fill**: Використання попередніх/наступних значень (для часових рядів)
- **Constant imputation**: Заміна фіксованим значенням

**3. Розширені методи**
- **Інтерполяція**: Апроксимація значень між відомими точками
- **Регресійна імпутація**: Використання інших змінних для прогнозування відсутніх значень

In [23]:
# Missing Values - Practical Examples
import pandas as pd
import numpy as np

import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

# Create a toy dataset with missing values
data = {
    'age': [25, 30, np.nan, 35, 28, np.nan, 42],
    'income': [50000, 60000, 70000, np.nan, 55000, 80000, np.nan],
    'education': ['Bachelor', 'Master', 'PhD', 'Bachelor', np.nan, 'Master', 'PhD'],
    'city': ['NYC', 'LA', 'Chicago', 'NYC', 'LA', np.nan, 'Chicago']
}

df = pd.DataFrame(data)
print("Original dataset with missing values:")
print(df)
print(f"\nMissing values per column:")
print(df.isnull().sum())

Original dataset with missing values:
    age   income education     city
0  25.0  50000.0  Bachelor      NYC
1  30.0  60000.0    Master       LA
2   NaN  70000.0       PhD  Chicago
3  35.0      NaN  Bachelor      NYC
4  28.0  55000.0       NaN       LA
5   NaN  80000.0    Master      NaN
6  42.0      NaN       PhD  Chicago

Missing values per column:
age          2
income       2
education    1
city         1
dtype: int64


In [24]:
# Method 1: Deletion
print("=== DELETION METHODS ===")

# Listwise deletion (remove rows with any missing values)
df_listwise = df.dropna()
print("Listwise deletion (remove rows with ANY missing values):")
print(df_listwise)

# Column deletion (remove columns with too many missing values)
threshold = 0.5  # Remove columns with >50% missing values
df_column_clean = df.dropna(axis=1, thresh=len(df) * (1 - threshold))
print(f"\nColumn deletion (remove columns with >{threshold*100}% missing):")
print(df_column_clean)

=== DELETION METHODS ===
Listwise deletion (remove rows with ANY missing values):
    age   income education city
0  25.0  50000.0  Bachelor  NYC
1  30.0  60000.0    Master   LA

Column deletion (remove columns with >50.0% missing):
    age   income education     city
0  25.0  50000.0  Bachelor      NYC
1  30.0  60000.0    Master       LA
2   NaN  70000.0       PhD  Chicago
3  35.0      NaN  Bachelor      NYC
4  28.0  55000.0       NaN       LA
5   NaN  80000.0    Master      NaN
6  42.0      NaN       PhD  Chicago


In [25]:
# Method 2: Imputation
print("=== IMPUTATION METHODS ===")

# Mean imputation for numeric columns
df_mean = df.copy()
df_mean['age'].fillna(df_mean['age'].mean(), inplace=True)
df_mean['income'].fillna(df_mean['income'].mean(), inplace=True)
print("Mean imputation:")
print(df_mean)

# Median imputation (more robust to outliers)
df_median = df.copy()
df_median['age'].fillna(df_median['age'].median(), inplace=True)
df_median['income'].fillna(df_median['income'].median(), inplace=True)
print("\nMedian imputation:")
print(df_median)

# Mode imputation for categorical columns
df_mode = df.copy()
df_mode['education'].fillna(df_mode['education'].mode()[0], inplace=True)
df_mode['city'].fillna(df_mode['city'].mode()[0], inplace=True)
print("\nMode imputation for categorical:")
print(df_mode)

=== IMPUTATION METHODS ===
Mean imputation:
    age   income education     city
0  25.0  50000.0  Bachelor      NYC
1  30.0  60000.0    Master       LA
2  32.0  70000.0       PhD  Chicago
3  35.0  63000.0  Bachelor      NYC
4  28.0  55000.0       NaN       LA
5  32.0  80000.0    Master      NaN
6  42.0  63000.0       PhD  Chicago

Median imputation:
    age   income education     city
0  25.0  50000.0  Bachelor      NYC
1  30.0  60000.0    Master       LA
2  30.0  70000.0       PhD  Chicago
3  35.0  60000.0  Bachelor      NYC
4  28.0  55000.0       NaN       LA
5  30.0  80000.0    Master      NaN
6  42.0  60000.0       PhD  Chicago

Mode imputation for categorical:
    age   income education     city
0  25.0  50000.0  Bachelor      NYC
1  30.0  60000.0    Master       LA
2   NaN  70000.0       PhD  Chicago
3  35.0      NaN  Bachelor      NYC
4  28.0  55000.0  Bachelor       LA
5   NaN  80000.0    Master  Chicago
6  42.0      NaN       PhD  Chicago


In [26]:
# Method 3: Forward/Backward Fill (for time series data)
print("=== FORWARD/BACKWARD FILL ===")

# Create time series data with missing values
ts_data = pd.DataFrame({
    'date': pd.date_range('2023-01-01', periods=7),
    'sales': [100, 120, np.nan, 140, np.nan, 160, 180]
})

print("Original time series:")
print(ts_data)

# Forward fill
ts_forward = ts_data.copy()
ts_forward['sales'].fillna(method='ffill', inplace=True)
print("\nForward fill:")
print(ts_forward)

# Backward fill
ts_backward = ts_data.copy()
ts_backward['sales'].fillna(method='bfill', inplace=True)
print("\nBackward fill:")
print(ts_backward)

=== FORWARD/BACKWARD FILL ===
Original time series:
        date  sales
0 2023-01-01  100.0
1 2023-01-02  120.0
2 2023-01-03    NaN
3 2023-01-04  140.0
4 2023-01-05    NaN
5 2023-01-06  160.0
6 2023-01-07  180.0

Forward fill:
        date  sales
0 2023-01-01  100.0
1 2023-01-02  120.0
2 2023-01-03  120.0
3 2023-01-04  140.0
4 2023-01-05  140.0
5 2023-01-06  160.0
6 2023-01-07  180.0

Backward fill:
        date  sales
0 2023-01-01  100.0
1 2023-01-02  120.0
2 2023-01-03  140.0
3 2023-01-04  140.0
4 2023-01-05  160.0
5 2023-01-06  160.0
6 2023-01-07  180.0


### 2. Обробка викидів

Викиди - це точки даних, які значно відрізняються від інших спостережень. Вони можуть бути справжніми точками даних або помилками, які потребують вирішення.

#### Типи викидів

**Точкові викиди**
- Окремі точки даних, які є незвичайними
- Приклад: Людина з віком 200 років

**Контекстуальні викиди**
- Точки даних, які є незвичайними в конкретному контексті
- Приклад: Носіння зимового пальта влітку

**Колективні викиди**
- Сукупність точок даних, які є незвичайними разом
- Приклад: Кілька послідовних нульових значень у показаннях датчика

#### Методи виявлення викидів

**1. Статистичні методи**
- **Z-score**: Значення за межами ±3 стандартних відхилень
- **Метод IQR**: Значення поза Q1 - 1.5×IQR або Q3 + 1.5×IQR
- **Модифікований Z-score**: Більш стійкий до викидів за допомогою медіани

**2. Візуальні методи**
- **Box plots**: Візуальна ідентифікація викидів
- **Scatter plots**: Виявлення незвичайних патернів
- **Гістограми**: Ідентифікація незвичайних розподілів

**3. Предметні знання**
- Розуміння того, які значення є розумними
- Бізнес-правила та обмеження

In [27]:
# Outlier Detection and Handling
import matplotlib.pyplot as plt

# Create dataset with outliers
np.random.seed(42)
normal_data = np.random.normal(50, 10, 100)
outlier_data = [150, 200, -50, 300]  # Clear outliers
data_with_outliers = np.concatenate([normal_data, outlier_data])

df_outliers = pd.DataFrame({'values': data_with_outliers})
print("Dataset with outliers:")
print(f"Mean: {df_outliers['values'].mean():.2f}")
print(f"Std: {df_outliers['values'].std():.2f}")
print(f"Min: {df_outliers['values'].min()}")
print(f"Max: {df_outliers['values'].max()}")

Dataset with outliers:
Mean: 52.85
Std: 33.04
Min: -50.0
Max: 300.0


In [28]:
# Method 1: Z-score method
print("=== Z-SCORE METHOD ===")
z_scores = np.abs((df_outliers['values'] - df_outliers['values'].mean()) / df_outliers['values'].std())
outliers_z = df_outliers[z_scores > 3]
print(f"Outliers detected by Z-score (>3): {len(outliers_z)}")
print(outliers_z['values'].values)

# Method 2: IQR method
print("\n=== IQR METHOD ===")
Q1 = df_outliers['values'].quantile(0.25)
Q3 = df_outliers['values'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers_iqr = df_outliers[(df_outliers['values'] < lower_bound) | (df_outliers['values'] > upper_bound)]
print(f"Outliers detected by IQR: {len(outliers_iqr)}")
print(f"Bounds: [{lower_bound:.2f}, {upper_bound:.2f}]")
print(outliers_iqr['values'].values)

=== Z-SCORE METHOD ===
Outliers detected by Z-score (>3): 3
[200. -50. 300.]

=== IQR METHOD ===
Outliers detected by IQR: 5
Bounds: [27.17, 72.03]
[ 23.80254896 150.         200.         -50.         300.        ]


In [29]:
# Outlier Handling Methods
print("=== OUTLIER HANDLING METHODS ===")

# Method 1: Remove outliers
df_no_outliers = df_outliers[(df_outliers['values'] >= lower_bound) & (df_outliers['values'] <= upper_bound)]
print(f"After removing outliers: {len(df_no_outliers)} rows")
print(f"New mean: {df_no_outliers['values'].mean():.2f}")

# Method 2: Cap outliers (winsorization)
df_capped = df_outliers.copy()
df_capped['values'] = df_capped['values'].clip(lower=lower_bound, upper=upper_bound)
print(f"\nAfter capping outliers: {len(df_capped)} rows")
print(f"New mean: {df_capped['values'].mean():.2f}")

# Method 3: Transform outliers (log transformation)
df_log = df_outliers.copy()
df_log['values'] = np.log1p(df_log['values'])  # log1p handles zeros
print(f"\nAfter log transformation: {len(df_log)} rows")
print(f"New mean: {df_log['values'].mean():.2f}")

=== OUTLIER HANDLING METHODS ===
After removing outliers: 99 rows
New mean: 49.22

After capping outliers: 104 rows
New mean: 49.45

After log transformation: 104 rows
New mean: 3.94


  result = getattr(ufunc, method)(*inputs, **kwargs)


### 3. Нормалізація та стандартизація,

Стандартизація, та нормалізація (масштабування) є критично важливими для алгоритмів, які чутливі до масштабу ознак. Різні методи підходять для різних сценаріїв.

![Scaling](images/3.2-stand-norm.png)

[Джерело зображення](kdfoundation.org/?k=278075716)

#### Коли використовувати кожен метод

**Стандартизація (Z-score нормалізація)**
- **Коли використовувати**: Коли дані слідують нормальному розподілу
- **Формула**: (x - μ) / σ
- **Результат**: Середнє = 0, Стандартне відхилення = 1
- **Найкраще для**: Більшості алгоритмів машинного навчання, особливо коли ознаки мають різні масштаби

**Min-Max масштабування**
- **Коли використовувати**: Коли ви знаєте межі даних і хочете зберегти оригінальний розподіл
- **Формула**: (x - min) / (max - min)
- **Результат**: Значення між 0 і 1
- **Найкраще для**: Нейронних мереж, алгоритмів, які вимагають обмеженого вводу

**Robust масштабування**
- **Коли використовувати**: Коли дані мають викиди
- **Формула**: (x - median) / IQR
- **Результат**: Більш стійкий до викидів, ніж стандартизація
- **Найкраще для**: Даних зі значними викидами

**Масштабування одиничного вектора**
- **Коли використовувати**: Коли ви хочете нормалізувати довжину векторів ознак
- **Формула**: x / ||x||
- **Результат**: Кожен зразок має одиничну норму
- **Найкраще для**: Класифікації текстів, косинусної схожості

In [30]:
# Scaling and Normalization Examples
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler, Normalizer

# Create dataset with different scales
data_scaling = {
    'age': [25, 30, 35, 40, 45, 50, 55, 60],
    'income': [30000, 45000, 60000, 75000, 90000, 120000, 150000, 200000],
    'score': [0.1, 0.3, 0.5, 0.7, 0.8, 0.9, 0.95, 1.0]
}

df_scaling = pd.DataFrame(data_scaling)
print("Original data with different scales:")
print(df_scaling)
print(f"\nOriginal statistics:")
print(df_scaling.describe())

Original data with different scales:
   age  income  score
0   25   30000   0.10
1   30   45000   0.30
2   35   60000   0.50
3   40   75000   0.70
4   45   90000   0.80
5   50  120000   0.90
6   55  150000   0.95
7   60  200000   1.00

Original statistics:
             age         income     score
count   8.000000       8.000000  8.000000
mean   42.500000   96250.000000  0.656250
std    12.247449   57367.860589  0.326713
min    25.000000   30000.000000  0.100000
25%    33.750000   56250.000000  0.450000
50%    42.500000   82500.000000  0.750000
75%    51.250000  127500.000000  0.912500
max    60.000000  200000.000000  1.000000


In [31]:
# Method 1: Standardization (Z-score)
print("=== STANDARDIZATION (Z-SCORE) ===")
scaler_std = StandardScaler()
df_std = pd.DataFrame(scaler_std.fit_transform(df_scaling), 
                     columns=df_scaling.columns, 
                     index=df_scaling.index)
print("Standardized data (mean=0, std=1):")
print(df_std)
print(f"\nStandardized statistics:")
print(df_std.describe())

=== STANDARDIZATION (Z-SCORE) ===
Standardized data (mean=0, std=1):
        age    income     score
0 -1.527525 -1.234563 -1.820121
1 -1.091089 -0.955039 -1.165695
2 -0.654654 -0.675516 -0.511270
3 -0.218218 -0.395992  0.143156
4  0.218218 -0.116468  0.470368
5  0.654654  0.442579  0.797581
6  1.091089  1.001626  0.961187
7  1.527525  1.933372  1.124794

Standardized statistics:
            age    income         score
count  8.000000  8.000000  8.000000e+00
mean   0.000000  0.000000 -5.551115e-17
std    1.069045  1.069045  1.069045e+00
min   -1.527525 -1.234563 -1.820121e+00
25%   -0.763763 -0.745396 -6.748763e-01
50%    0.000000 -0.256230  3.067619e-01
75%    0.763763  0.582341  8.384826e-01
max    1.527525  1.933372  1.124794e+00


In [32]:
# Method 2: Min-Max Scaling
print("=== MIN-MAX SCALING ===")
scaler_mm = MinMaxScaler()
df_mm = pd.DataFrame(scaler_mm.fit_transform(df_scaling), 
                    columns=df_scaling.columns, 
                    index=df_scaling.index)
print("Min-Max scaled data (0-1 range):")
print(df_mm)
print(f"\nMin-Max statistics:")
print(df_mm.describe())

=== MIN-MAX SCALING ===
Min-Max scaled data (0-1 range):
        age    income     score
0  0.000000  0.000000  0.000000
1  0.142857  0.088235  0.222222
2  0.285714  0.176471  0.444444
3  0.428571  0.264706  0.666667
4  0.571429  0.352941  0.777778
5  0.714286  0.529412  0.888889
6  0.857143  0.705882  0.944444
7  1.000000  1.000000  1.000000

Min-Max statistics:
            age    income     score
count  8.000000  8.000000  8.000000
mean   0.500000  0.389706  0.618056
std    0.349927  0.337458  0.363014
min    0.000000  0.000000  0.000000
25%    0.250000  0.154412  0.388889
50%    0.500000  0.308824  0.722222
75%    0.750000  0.573529  0.902778
max    1.000000  1.000000  1.000000


In [33]:
# Method 3: Robust Scaling (with outliers)
print("=== ROBUST SCALING ===")
# Add outliers to demonstrate robust scaling
data_with_outliers = df_scaling.copy()
data_with_outliers.loc[8] = [100, 500000, 0.05]  # Add outlier
data_with_outliers.loc[9] = [15, 10000, 0.99]    # Add outlier

scaler_robust = RobustScaler()
df_robust = pd.DataFrame(scaler_robust.fit_transform(data_with_outliers), 
                        columns=data_with_outliers.columns, 
                        index=data_with_outliers.index)
print("Robust scaled data (median=0, IQR=1):")
print(df_robust)
print(f"\nRobust statistics:")
print(df_robust.describe())

=== ROBUST SCALING ===
Robust scaled data (median=0, IQR=1):
        age    income     score
0 -0.777778 -0.560000 -1.106383
1 -0.555556 -0.400000 -0.765957
2 -0.333333 -0.240000 -0.425532
3 -0.111111 -0.080000 -0.085106
4  0.111111  0.080000  0.085106
5  0.333333  0.400000  0.255319
6  0.555556  0.720000  0.340426
7  0.777778  1.253333  0.425532
8  2.555556  4.453333 -1.191489
9 -1.222222 -0.773333  0.408511

Robust statistics:
             age     income      score
count  10.000000  10.000000  10.000000
mean    0.133333   0.485333  -0.205957
std     1.049920   1.522716   0.626351
min    -1.222222  -0.773333  -1.191489
25%    -0.500000  -0.360000  -0.680851
50%     0.000000   0.000000   0.000000
75%     0.500000   0.640000   0.319149
max     2.555556   4.453333   0.425532


### 4. Дискретизація та бінінг

Дискретизація перетворює неперервні змінні на дискретні категорії. Це корисно для створення категоріальних ознак з числових даних.

#### Типи бінінгу

**Бінінг рівної ширини**
- Ділить дані на інтервали рівної ширини
- **Коли використовувати**: Коли ви хочете рівномірні розміри інтервалів
- **Приклад**: Вікові групи [0-20, 20-40, 40-60, 60-80]

**Бінінг рівної частоти (на основі квантилів)**
- Ділить дані на біни з рівною кількістю спостережень
- **Коли використовувати**: Коли ви хочете збалансовані категорії
- **Приклад**: Квартилі доходу

**Спеціальний бінінг**
- Використовує предметні знання для створення значущих категорій
- **Коли використовувати**: Коли бізнес-логіка визначає природні розриви
- **Приклад**: Категорії ІМТ [Недостатня вага, Нормальна, Надмірна вага, Ожиріння]

**K-means бінінг**
- Використовує кластеризацію для знаходження природних груп
- **Коли використовувати**: Коли ви хочете межі бінів, визначені даними

In [34]:
# Discretization and Binning Examples
from sklearn.preprocessing import KBinsDiscretizer

# Create continuous data for binning
np.random.seed(42)
age_data = np.random.normal(35, 15, 100)
income_data = np.random.lognormal(10, 0.5, 100)

df_binning = pd.DataFrame({
    'age': age_data,
    'income': income_data
})

print("Original continuous data:")
print(df_binning.head())
print(f"\nAge range: {df_binning['age'].min():.1f} - {df_binning['age'].max():.1f}")
print(f"Income range: {df_binning['income'].min():.0f} - {df_binning['income'].max():.0f}")

Original continuous data:
         age        income
0  42.450712  10854.278673
1  32.926035  17848.546202
2  44.715328  18557.749465
3  57.845448  14747.979442
4  31.487699  20319.923647

Age range: -4.3 - 62.8
Income range: 8439 - 85827


In [35]:
# Method 1: Equal Width Binning
print("=== EQUAL WIDTH BINNING ===")
df_binning['age_ew'] = pd.cut(df_binning['age'], bins=4, labels=['Young', 'Adult', 'Middle-aged', 'Senior'])
df_binning['income_ew'] = pd.cut(df_binning['income'], bins=4, labels=['Low', 'Medium', 'High', 'Very High'])

print("Equal width binning results:")
print(df_binning[['age', 'age_ew', 'income', 'income_ew']].head(10))
print(f"\nAge bin counts:")
print(df_binning['age_ew'].value_counts().sort_index())
print(f"\nIncome bin counts:")
print(df_binning['income_ew'].value_counts().sort_index())

=== EQUAL WIDTH BINNING ===
Equal width binning results:
         age       age_ew        income income_ew
0  42.450712  Middle-aged  10854.278673       Low
1  32.926035  Middle-aged  17848.546202       Low
2  44.715328  Middle-aged  18557.749465       Low
3  57.845448       Senior  14747.979442       Low
4  31.487699  Middle-aged  20319.923647       Low
5  31.487946  Middle-aged  26957.731772       Low
6  58.688192       Senior  56562.016402      High
7  46.511521       Senior  24035.541421       Low
8  27.957884        Adult  25053.659793       Low
9  43.138401  Middle-aged  21221.647371       Low

Age bin counts:
age_ew
Young           6
Adult          32
Middle-aged    42
Senior         20
Name: count, dtype: int64

Income bin counts:
income_ew
Low          70
Medium       23
High          5
Very High     2
Name: count, dtype: int64


In [36]:
# Method 2: Equal Frequency Binning (Quantile-based)
print("=== EQUAL FREQUENCY BINNING ===")
df_binning['age_ef'] = pd.qcut(df_binning['age'], q=4, labels=['Q1', 'Q2', 'Q3', 'Q4'])
df_binning['income_ef'] = pd.qcut(df_binning['income'], q=4, labels=['Q1', 'Q2', 'Q3', 'Q4'])

print("Equal frequency binning results:")
print(df_binning[['age', 'age_ef', 'income', 'income_ef']].head(10))
print(f"\nAge quantile bin counts:")
print(df_binning['age_ef'].value_counts().sort_index())
print(f"\nIncome quantile bin counts:")
print(df_binning['income_ef'].value_counts().sort_index())

=== EQUAL FREQUENCY BINNING ===
Equal frequency binning results:
         age age_ef        income income_ef
0  42.450712     Q4  10854.278673        Q1
1  32.926035     Q2  17848.546202        Q2
2  44.715328     Q4  18557.749465        Q2
3  57.845448     Q4  14747.979442        Q2
4  31.487699     Q2  20319.923647        Q2
5  31.487946     Q2  26957.731772        Q3
6  58.688192     Q4  56562.016402        Q4
7  46.511521     Q4  24035.541421        Q3
8  27.957884     Q2  25053.659793        Q3
9  43.138401     Q4  21221.647371        Q2

Age quantile bin counts:
age_ef
Q1    25
Q2    25
Q3    25
Q4    25
Name: count, dtype: int64

Income quantile bin counts:
income_ef
Q1    25
Q2    25
Q3    25
Q4    25
Name: count, dtype: int64


In [37]:
# Method 3: Custom Binning (Domain Knowledge)
print("=== CUSTOM BINNING ===")
# Age groups based on life stages
age_bins = [0, 18, 30, 50, 65, 100]
age_labels = ['Minor', 'Young Adult', 'Adult', 'Middle-aged', 'Senior']
df_binning['age_custom'] = pd.cut(df_binning['age'], bins=age_bins, labels=age_labels)

# Income groups based on economic categories
income_bins = [0, 25000, 50000, 75000, 100000, float('inf')]
income_labels = ['Low', 'Lower-Middle', 'Middle', 'Upper-Middle', 'High']
df_binning['income_custom'] = pd.cut(df_binning['income'], bins=income_bins, labels=income_labels)

print("Custom binning results:")
print(df_binning[['age', 'age_custom', 'income', 'income_custom']].head(10))
print(f"\nCustom age bin counts:")
print(df_binning['age_custom'].value_counts().sort_index())
print(f"\nCustom income bin counts:")
print(df_binning['income_custom'].value_counts().sort_index())

=== CUSTOM BINNING ===
Custom binning results:
         age   age_custom        income income_custom
0  42.450712        Adult  10854.278673           Low
1  32.926035        Adult  17848.546202           Low
2  44.715328        Adult  18557.749465           Low
3  57.845448  Middle-aged  14747.979442           Low
4  31.487699        Adult  20319.923647           Low
5  31.487946        Adult  26957.731772  Lower-Middle
6  58.688192  Middle-aged  56562.016402        Middle
7  46.511521        Adult  24035.541421           Low
8  27.957884  Young Adult  25053.659793  Lower-Middle
9  43.138401        Adult  21221.647371           Low

Custom age bin counts:
age_custom
Minor          13
Young Adult    24
Adult          51
Middle-aged    11
Senior          0
Name: count, dtype: int64

Custom income bin counts:
income_custom
Low             59
Lower-Middle    35
Middle           4
Upper-Middle     2
High             0
Name: count, dtype: int64


### 5. Кодування категоріальних змінних

Категоріальні змінні потрібно перетворити на числовий формат для більшості алгоритмів машинного навчання. Різні методи кодування підходять для різних типів категоріальних даних.

#### Типи кодування

**One-Hot Encoding**
- Створює бінарні стовпці для кожної категорії
- **Коли використовувати**: Номінальні категоріальні дані з невеликою кількістю категорій
- **Плюси**: Немає припущення про порядок, зберігає всю інформацію
- **Мінуси**: Створює багато стовпців, може спричинити прокляття розмірності

**Label Encoding**
- Присвоює цілочисельні мітки категоріям
- **Коли використовувати**: Ординальні категоріальні дані
- **Плюси**: Простий, зберігає порядок
- **Мінуси**: Припускає ординальний зв'язок, може ввести алгоритми в оману

**Target Encoding**
- Використовує статистику цільової змінної для кодування категорій
- **Коли використовувати**: Категоріальні дані з високою кардинальністю
- **Плюси**: Захоплює зв'язок з ціллю, зменшує розмірність
- **Мінуси**: Може спричинити перенавчання, вимагає обережної валідації

In [38]:
# Categorical Encoding Examples
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

# Create categorical data
categorical_data = {
    'color': ['Red', 'Blue', 'Green', 'Red', 'Blue', 'Yellow', 'Green'],
    'size': ['Small', 'Medium', 'Large', 'Small', 'Medium', 'Large', 'Small'],
    'brand': ['Nike', 'Adidas', 'Puma', 'Nike', 'Adidas', 'Nike', 'Puma'],
    'rating': ['Poor', 'Fair', 'Good', 'Excellent', 'Good', 'Fair', 'Excellent']
}

df_categorical = pd.DataFrame(categorical_data)
print("Original categorical data:")
print(df_categorical)

Original categorical data:
    color    size   brand     rating
0     Red   Small    Nike       Poor
1    Blue  Medium  Adidas       Fair
2   Green   Large    Puma       Good
3     Red   Small    Nike  Excellent
4    Blue  Medium  Adidas       Good
5  Yellow   Large    Nike       Fair
6   Green   Small    Puma  Excellent


In [39]:
# Method 1: One-Hot Encoding
print("=== ONE-HOT ENCODING ===")
df_encoded = pd.get_dummies(df_categorical, columns=['color', 'size', 'brand'])
print("One-hot encoded data:")
print(df_encoded)
print(f"\nShape: {df_encoded.shape}")

# Method 2: Label Encoding (for ordinal data)
print("\n=== LABEL ENCODING (ORDINAL) ===")
le = LabelEncoder()
df_categorical['rating_encoded'] = le.fit_transform(df_categorical['rating'])
print("Label encoded ordinal data:")
print(df_categorical[['rating', 'rating_encoded']])
print(f"Label mapping: {dict(zip(le.classes_, le.transform(le.classes_)))}")

=== ONE-HOT ENCODING ===
One-hot encoded data:
      rating  color_Blue  color_Green  color_Red  color_Yellow  size_Large  \
0       Poor       False        False       True         False       False   
1       Fair        True        False      False         False       False   
2       Good       False         True      False         False        True   
3  Excellent       False        False       True         False       False   
4       Good        True        False      False         False       False   
5       Fair       False        False      False          True        True   
6  Excellent       False         True      False         False       False   

   size_Medium  size_Small  brand_Adidas  brand_Nike  brand_Puma  
0        False        True         False        True       False  
1         True       False          True       False       False  
2        False       False         False       False        True  
3        False        True         False        True       F

In [40]:
# Method 3: Target Encoding (with synthetic target)
print("=== TARGET ENCODING ===")
# Create a synthetic target variable for demonstration
np.random.seed(42)
df_categorical['target'] = np.random.randint(0, 2, len(df_categorical))

# Target encoding for high cardinality categorical variable
# Compute mean target for each brand
brand_target_mean = df_categorical.groupby('brand')['target'].mean()
# Map the mean to each row
df_categorical['brand_target_encoded'] = df_categorical['brand'].map(brand_target_mean)

print("Target encoded data:")
print(df_categorical[['brand', 'target', 'brand_target_encoded']])
print(f"\nTarget encoding mapping:")
print(brand_target_mean.to_dict())


=== TARGET ENCODING ===
Target encoded data:
    brand  target  brand_target_encoded
0    Nike       0              0.333333
1  Adidas       1              0.500000
2    Puma       0              0.000000
3    Nike       0              0.333333
4  Adidas       0              0.500000
5    Nike       1              0.333333
6    Puma       0              0.000000

Target encoding mapping:
{'Adidas': 0.5, 'Nike': 0.3333333333333333, 'Puma': 0.0}


### 6. Видалення дублікатів

Дублікати записів можуть спотворити результати аналізу та витратити обчислювальні ресурси. Ідентифікація та обробка дублікатів є критично важливою для якості даних.

#### Типи дублікатів

**Точні дублікати**
- Записи, які ідентичні по всіх стовпцях
- **Причина**: Помилки введення даних, збої системи
- **Рішення**: Видалити всі, крім одного екземпляра

**Часткові дублікати**
- Записи, які дуже схожі, але не ідентичні
- **Причина**: Невеликі варіації у введенні даних, відмінності у форматуванні
- **Рішення**: Використовувати нечітке зіставлення або пороги схожості

#### Методи виявлення дублікатів

**1. Точне зіставлення**
- Порівняння всіх стовпців на точні збіги
- **Коли використовувати**: Коли ви очікуєте точні дублікати
- **Інструменти**: pandas.duplicated(), SQL DISTINCT

**2. Нечітке зіставлення**
- Використання алгоритмів схожості для знаходження майже дублікатів
- **Коли використовувати**: Коли дані мають невеликі варіації
- **Інструменти**: Відстань Левенштейна, схожість Жаккара

**3. Зіставлення за бізнес-правилами**
- Використання предметних знань для ідентифікації дублікатів
- **Коли використовувати**: Коли дублікати мають різні ідентифікатори
- **Інструменти**: Користувацька логіка, алгоритми зв'язування записів

In [41]:
# Duplicate Detection and Removal Examples
from difflib import SequenceMatcher

# Create dataset with duplicates
duplicate_data = {
    'id': [1, 2, 3, 4, 5, 6, 7, 8],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 'Jane Doe', 'John Smith', 'Alice Brown', 'Bob Johnson'],
    'email': ['john@email.com', 'jane@email.com', 'john@email.com', 'bob@email.com', 'jane@email.com', 'john@email.com', 'alice@email.com', 'bob@email.com'],
    'age': [25, 30, 25, 35, 30, 25, 28, 35],
    'city': ['New York', 'Los Angeles', 'New York', 'Chicago', 'Los Angeles', 'New York', 'Boston', 'Chicago']
}

df_duplicates = pd.DataFrame(duplicate_data)
print("Dataset with duplicates:")
print(df_duplicates)
print(f"\nOriginal shape: {df_duplicates.shape}")


Dataset with duplicates:
   id         name            email  age         city
0   1   John Smith   john@email.com   25     New York
1   2     Jane Doe   jane@email.com   30  Los Angeles
2   3   John Smith   john@email.com   25     New York
3   4  Bob Johnson    bob@email.com   35      Chicago
4   5     Jane Doe   jane@email.com   30  Los Angeles
5   6   John Smith   john@email.com   25     New York
6   7  Alice Brown  alice@email.com   28       Boston
7   8  Bob Johnson    bob@email.com   35      Chicago

Original shape: (8, 5)


In [42]:
# Method 1: Exact Duplicate Detection
print("=== EXACT DUPLICATE DETECTION ===")
exact_duplicates = df_duplicates.duplicated()
print(f"Exact duplicates found: {exact_duplicates.sum()}")
print("Duplicate rows:")
print(df_duplicates[exact_duplicates])

# Remove exact duplicates
df_no_exact_duplicates = df_duplicates.drop_duplicates()
print(f"\nAfter removing exact duplicates: {df_no_exact_duplicates.shape}")
print("Cleaned data:")
print(df_no_exact_duplicates)


=== EXACT DUPLICATE DETECTION ===
Exact duplicates found: 0
Duplicate rows:
Empty DataFrame
Columns: [id, name, email, age, city]
Index: []

After removing exact duplicates: (8, 5)
Cleaned data:
   id         name            email  age         city
0   1   John Smith   john@email.com   25     New York
1   2     Jane Doe   jane@email.com   30  Los Angeles
2   3   John Smith   john@email.com   25     New York
3   4  Bob Johnson    bob@email.com   35      Chicago
4   5     Jane Doe   jane@email.com   30  Los Angeles
5   6   John Smith   john@email.com   25     New York
6   7  Alice Brown  alice@email.com   28       Boston
7   8  Bob Johnson    bob@email.com   35      Chicago


In [43]:
# Method 2: Duplicate Detection by Specific Columns
print("=== DUPLICATE DETECTION BY SPECIFIC COLUMNS ===")
# Check for duplicates based on name and email (business key)
business_duplicates = df_duplicates.duplicated(subset=['name', 'email'])
print(f"Business duplicates found: {business_duplicates.sum()}")
print("Business duplicate rows:")
print(df_duplicates[business_duplicates])

# Remove duplicates based on business key
df_no_business_duplicates = df_duplicates.drop_duplicates(subset=['name', 'email'])
print(f"\nAfter removing business duplicates: {df_no_business_duplicates.shape}")
print("Cleaned data:")
print(df_no_business_duplicates)


=== DUPLICATE DETECTION BY SPECIFIC COLUMNS ===
Business duplicates found: 4
Business duplicate rows:
   id         name           email  age         city
2   3   John Smith  john@email.com   25     New York
4   5     Jane Doe  jane@email.com   30  Los Angeles
5   6   John Smith  john@email.com   25     New York
7   8  Bob Johnson   bob@email.com   35      Chicago

After removing business duplicates: (4, 5)
Cleaned data:
   id         name            email  age         city
0   1   John Smith   john@email.com   25     New York
1   2     Jane Doe   jane@email.com   30  Los Angeles
3   4  Bob Johnson    bob@email.com   35      Chicago
6   7  Alice Brown  alice@email.com   28       Boston


In [44]:
# Method 3: Fuzzy Duplicate Detection
print("=== FUZZY DUPLICATE DETECTION ===")

# Create data with near duplicates
fuzzy_data = {
    'name': ['John Smith', 'Jon Smith', 'Jane Doe', 'Jane D.', 'Bob Johnson', 'Robert Johnson'],
    'email': ['john@email.com', 'john@email.com', 'jane@email.com', 'jane@email.com', 'bob@email.com', 'robert@email.com']
}

df_fuzzy = pd.DataFrame(fuzzy_data)
print("Dataset with near duplicates:")
print(df_fuzzy)

# Simple fuzzy matching using string similarity
def find_fuzzy_duplicates(df, threshold=0.8):
    duplicates = []
    for i in range(len(df)):
        for j in range(i+1, len(df)):
            # Calculate similarity for name
            name_sim = SequenceMatcher(None, df.iloc[i]['name'], df.iloc[j]['name']).ratio()
            # Calculate similarity for email
            email_sim = SequenceMatcher(None, df.iloc[i]['email'], df.iloc[j]['email']).ratio()
            
            if name_sim > threshold or email_sim > threshold:
                duplicates.append((i, j, name_sim, email_sim))
    return duplicates

fuzzy_duplicates = find_fuzzy_duplicates(df_fuzzy)
print(f"\nFuzzy duplicates found: {len(fuzzy_duplicates)}")
for dup in fuzzy_duplicates:
    print(f"Rows {dup[0]} and {dup[1]}: name_sim={dup[2]:.2f}, email_sim={dup[3]:.2f}")


=== FUZZY DUPLICATE DETECTION ===
Dataset with near duplicates:
             name             email
0      John Smith    john@email.com
1       Jon Smith    john@email.com
2        Jane Doe    jane@email.com
3         Jane D.    jane@email.com
4     Bob Johnson     bob@email.com
5  Robert Johnson  robert@email.com

Fuzzy duplicates found: 9
Rows 0 and 1: name_sim=0.95, email_sim=1.00
Rows 0 and 2: name_sim=0.22, email_sim=0.86
Rows 0 and 3: name_sim=0.35, email_sim=0.86
Rows 0 and 4: name_sim=0.38, email_sim=0.81
Rows 1 and 2: name_sim=0.24, email_sim=0.86
Rows 1 and 3: name_sim=0.38, email_sim=0.86
Rows 1 and 4: name_sim=0.30, email_sim=0.81
Rows 2 and 3: name_sim=0.80, email_sim=1.00
Rows 4 and 5: name_sim=0.80, email_sim=0.83


## Очищення даних: Best Practices

Очищення даних є ітеративним процесом, який вимагає ретельного розгляду вашого конкретного набору даних та цілей аналізу.

### 1. Почніть з дослідження даних
- Завжди перевіряйте ваші дані перед очищенням
- Розумійте типи даних та розподіли
- Ідентифікуйте патерни у відсутніх значеннях та викидах

### 2. Виберіть методи на основі контексту
- **Відсутні значення**: Розгляньте механізм відсутніх даних (MCAR, MAR, MNAR)
- **Викиди**: Визначте, чи є вони помилками або справжніми точками даних
- **Масштабування**: Виберіть на основі вимог вашого алгоритму
- **Кодування**: Виберіть на основі типу категоріальних даних та кардинальності

### 3. Документуйте ваші рішення
- Відстежуйте всі застосовані перетворення
- Документуйте обґрунтування кожного рішення
- Підтримуйте лінію даних для відтворюваності

### 4. Валідуйте ваші результати
- Перевірте, що перетворення мають сенс
- Переконайтеся, що якість даних покращилася
- Переконайтеся, що інформація не втрачена без причини

### 5. Враховуйте подальший вплив
- Подумайте про те, як очищення впливає на ваш аналіз
- Переконайтеся, що очищені дані підтримують ваші дослідницькі питання
- Збалансуйте якість даних з доступністю даних

Пам'ятайте: Мета очищення даних - підготувати ваші дані до аналізу, зберігаючи якомога більше цінної інформації. Немає універсального підходу, тому завжди враховуйте ваш конкретний контекст та вимоги.