# Лабораторна робота №3. Робота з пропущеними даними 

## 1. Початкове завантаження бібліотеки та набору даних

In [1]:
# Встановлення бібліотек
import pandas as pd
import numpy as np

In [16]:
# Імпорт та завантаження набору даних 
diseases = pd.read_csv("Datasets/lung_disease_data.csv")
# Встановлюємо зерно для генератора випадкових чисел
np.random.seed(0)

## 2. Перше ознайомлення з даними

In [3]:
# Вивід 5 перших рядків набору даних
diseases.head()

Unnamed: 0,Age,Gender,Smoking Status,Lung Capacity,Disease Type,Treatment Type,Hospital Visits,Recovered
0,71.0,Female,No,4.49,COPD,Therapy,14.0,Yes
1,34.0,Female,Yes,,Bronchitis,Surgery,7.0,No
2,80.0,Male,Yes,1.95,COPD,,4.0,Yes
3,40.0,Female,Yes,,Bronchitis,Medication,1.0,No
4,43.0,Male,Yes,4.6,COPD,Surgery,,Yes


## 3. Визначення кількості відсутніх даних у ствопцях 

In [4]:
# Створення змінної для підрахунку відусутніх даних
missing_values_count = diseases.isnull().sum()
# Вивід кількості відсутніх даних у кожному ствопці датасету
missing_values_count

Age                300
Gender             300
Smoking Status     300
Lung Capacity      300
Disease Type       300
Treatment Type     300
Hospital Visits    300
Recovered          300
dtype: int64

In [5]:
# Додатково можна вивести всі рядки, у яких є відсутні дані типу NaN
nan_rows = diseases[diseases.isnull().any(axis=1)]
nan_rows

Unnamed: 0,Age,Gender,Smoking Status,Lung Capacity,Disease Type,Treatment Type,Hospital Visits,Recovered
1,34.0,Female,Yes,,Bronchitis,Surgery,7.0,No
2,80.0,Male,Yes,1.95,COPD,,4.0,Yes
3,40.0,Female,Yes,,Bronchitis,Medication,1.0,No
4,43.0,Male,Yes,4.60,COPD,Surgery,,Yes
7,72.0,Male,,2.61,Lung Cancer,Surgery,11.0,Yes
...,...,...,...,...,...,...,...,...
5181,,Male,Yes,5.12,Lung Cancer,,1.0,Yes
5182,,Female,No,4.11,COPD,Therapy,3.0,Yes
5188,80.0,Male,No,2.49,,Medication,13.0,Yes
5191,29.0,Female,No,3.36,Asthma,,6.0,Yes


In [6]:
# Визначаємо загальну кількість відсутніх елементів даних
total_elements = np.product(diseases.shape)
total_missing = missing_values_count.sum()

# Визначаємо відсоток відсутніх елементів даних
percent_missing = (total_missing/total_elements) * 100
print(f"Відсоток відсутніх даниих: {percent_missing:.2f}%")

Відсоток відсутніх даниих: 5.77%


## 4. Визначення причини відсутності елементів даних

In [7]:
missing_values_count[6:8]

Hospital Visits    300
Recovered          300
dtype: int64

### Пояснення причин відсутності даних у згаданих стовпцях: 

1) **Hospital Visits** – пропуски ймовірно випадкові, бо інформація про кількість відвідувань лікарні могла не бути занесена. Ці дані можна заповнити, використовуючи середнє або медіану для пацієнтів з аналогічними характеристиками.

2) **Recovered** – пропуски можуть виникати через те, що пацієнт ще не завершив лікування і одужання не відбулося, або дані не внесли. У першому випадку залишають NaN, у другому – можна імплементувати на основі інших ознак пацієнта.

## 5. Обробка пропущених даних

### 5.1 Видалення всіх стовпці та рядків з відсутніми значеннями 

In [8]:
# Видалення всіх рядків, що містять відсутні значення
diseases.dropna()

Unnamed: 0,Age,Gender,Smoking Status,Lung Capacity,Disease Type,Treatment Type,Hospital Visits,Recovered
0,71.0,Female,No,4.49,COPD,Therapy,14.0,Yes
5,22.0,Female,No,3.65,Bronchitis,Medication,11.0,Yes
6,41.0,Male,Yes,2.98,Asthma,Medication,12.0,Yes
8,21.0,Female,No,4.05,Lung Cancer,Medication,12.0,No
9,49.0,Male,Yes,5.70,Pneumonia,Medication,11.0,Yes
...,...,...,...,...,...,...,...,...
5194,59.0,Female,Yes,1.05,Lung Cancer,Medication,11.0,No
5195,40.0,Male,No,1.43,Lung Cancer,Medication,1.0,Yes
5197,42.0,Female,No,5.53,Pneumonia,Surgery,5.0,No
5198,82.0,Male,No,3.68,Bronchitis,Medication,9.0,No


In [9]:
# Видалення всіх стовпців, що містять відсутні значення
columns_with_na_dropped = diseases.dropna(axis=1)
columns_with_na_dropped.head()

0
1
2
3
4


In [10]:
# Визначимо кількість втрачених даних
print("Кількість стовпців : %d \n" % diseases.shape[1])
print("Кількість повноцінних стовпців: %d \n" % columns_with_na_dropped.shape[1])
removed_columns = diseases.shape[1] - columns_with_na_dropped.shape[1]
print("Кількість видалених стовпців: %d \n" % removed_columns)

Кількість стовпців : 8 

Кількість повноцінних стовпців: 0 

Кількість видалених стовпців: 8 



### 5.2 Заповнення набору даних певними числами

In [11]:
# Заповнення відсутніх значень нулями 
diseases.fillna(0)

Unnamed: 0,Age,Gender,Smoking Status,Lung Capacity,Disease Type,Treatment Type,Hospital Visits,Recovered
0,71.0,Female,No,4.49,COPD,Therapy,14.0,Yes
1,34.0,Female,Yes,0.00,Bronchitis,Surgery,7.0,No
2,80.0,Male,Yes,1.95,COPD,0,4.0,Yes
3,40.0,Female,Yes,0.00,Bronchitis,Medication,1.0,No
4,43.0,Male,Yes,4.60,COPD,Surgery,0.0,Yes
...,...,...,...,...,...,...,...,...
5195,40.0,Male,No,1.43,Lung Cancer,Medication,1.0,Yes
5196,21.0,0,Yes,1.50,COPD,Medication,4.0,No
5197,42.0,Female,No,5.53,Pneumonia,Surgery,5.0,No
5198,82.0,Male,No,3.68,Bronchitis,Medication,9.0,No


In [12]:
# Створення піднабору для заповнення частини значень
subset_diseases = diseases.loc[:, 'Gender':'Hospital Visits'].head()
subset_diseases

Unnamed: 0,Gender,Smoking Status,Lung Capacity,Disease Type,Treatment Type,Hospital Visits
0,Female,No,4.49,COPD,Therapy,14.0
1,Female,Yes,,Bronchitis,Surgery,7.0
2,Male,Yes,1.95,COPD,,4.0
3,Female,Yes,,Bronchitis,Medication,1.0
4,Male,Yes,4.6,COPD,Surgery,


In [13]:
# Заповнення відсутніх значень піднабору 1000
subset_diseases.fillna(1000)

Unnamed: 0,Gender,Smoking Status,Lung Capacity,Disease Type,Treatment Type,Hospital Visits
0,Female,No,4.49,COPD,Therapy,14.0
1,Female,Yes,1000.0,Bronchitis,Surgery,7.0
2,Male,Yes,1.95,COPD,1000,4.0
3,Female,Yes,1000.0,Bronchitis,Medication,1.0
4,Male,Yes,4.6,COPD,Surgery,1000.0


In [14]:
# Додатково заповнення відсутніх даних піднабору текстовим значенням 
subset_diseases.fillna("Невідомо")

Unnamed: 0,Gender,Smoking Status,Lung Capacity,Disease Type,Treatment Type,Hospital Visits
0,Female,No,4.49,COPD,Therapy,14
1,Female,Yes,Невідомо,Bronchitis,Surgery,7
2,Male,Yes,1.95,COPD,Невідомо,4
3,Female,Yes,Невідомо,Bronchitis,Medication,1
4,Male,Yes,4.6,COPD,Surgery,Невідомо


### 5.3 Заповнення пропуску значенням, яке йде після нього у стовпці

In [15]:
diseases.fillna(method='ffill', axis=0).fillna(0)

Unnamed: 0,Age,Gender,Smoking Status,Lung Capacity,Disease Type,Treatment Type,Hospital Visits,Recovered
0,71.0,Female,No,4.49,COPD,Therapy,14.0,Yes
1,34.0,Female,Yes,4.49,Bronchitis,Surgery,7.0,No
2,80.0,Male,Yes,1.95,COPD,Surgery,4.0,Yes
3,40.0,Female,Yes,1.95,Bronchitis,Medication,1.0,No
4,43.0,Male,Yes,4.60,COPD,Surgery,1.0,Yes
...,...,...,...,...,...,...,...,...
5195,40.0,Male,No,1.43,Lung Cancer,Medication,1.0,Yes
5196,21.0,Male,Yes,1.50,COPD,Medication,4.0,No
5197,42.0,Female,No,5.53,Pneumonia,Surgery,5.0,No
5198,82.0,Male,No,3.68,Bronchitis,Medication,9.0,No
