<a href="https://colab.research.google.com/github/RafalDoroz/ai/blob/main/Metody_Uzupelniania_Danych.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Metody uzupełniania brakujących danych
W tym notebooku omówiono różne metody uzupełniania brakujących danych, z przykładami obliczeniowymi i implementacjami w Pythonie.

## 1. Usuwanie braków danych
**Opis**:
Usuwanie całych wierszy lub kolumn, w których znajdują się brakujące wartości.

**Przykład obliczeniowy**:

| A   | B   | C   |
|-----|-----|-----|
| 1   | 5   | 10  |
| 2   | NaN | 11  |
| NaN | 7   | 12  |
| 4   | 8   | 13  |

1. Usunięcie wierszy z brakami:
| A   | B   | C   |
|-----|-----|-----|
| 1   | 5   | 10  |
| 4   | 8   | 13  |

2. Usunięcie kolumn z brakami:
| C   |
|-----|
| 10  |
| 11  |
| 12  |
| 13  |

In [1]:
import pandas as pd
import numpy as np

# Tworzenie przykładowych danych
data = {'A': [1, 2, np.nan, 4],
        'B': [5, np.nan, 7, 8],
        'C': [10, 11, 12, 13]}
df = pd.DataFrame(data)

# Usuwanie wierszy z brakami
df_dropped_rows = df.dropna()
print("Po usunięciu wierszy z brakami:\n", df_dropped_rows)

# Usuwanie kolumn z brakami
df_dropped_columns = df.dropna(axis=1)
print("Po usunięciu kolumn z brakami:\n", df_dropped_columns)

Po usunięciu wierszy z brakami:
      A    B   C
0  1.0  5.0  10
3  4.0  8.0  13
Po usunięciu kolumn z brakami:
     C
0  10
1  11
2  12
3  13


## 2. Uzupełnianie stałą wartością
**Opis**:
Uzupełnianie braków jedną ustaloną wartością, np. średnią, medianą, modą lub wartością stałą.

**Przykład obliczeniowy**:

| A   | B   | C   |
|-----|-----|-----|
| 1   | 5   | 10  |
| 2   | NaN | 11  |
| NaN | 7   | 12  |
| 4   | 8   | 13  |

1. Średnia dla A: \( \frac{1 + 2 + 4}{3} = 2.33 \)
2. Wynik po uzupełnieniu średnią:

| A    | B     | C   |
|------|-------|-----|
| 1.00 | 5.00  | 10  |
| 2.00 | 6.67  | 11  |
| 2.33 | 7.00  | 12  |
| 4.00 | 8.00  | 13  |

In [2]:
# Uzupełnianie braków średnią
df_filled_mean = df.fillna(df.mean())
print("Po uzupełnieniu średnią:\n", df_filled_mean)

# Uzupełnianie medianą
df_filled_median = df.fillna(df.median())
print("Po uzupełnieniu medianą:\n", df_filled_median)

# Uzupełnianie zerami
df_filled_zero = df.fillna(0)
print("Po uzupełnieniu zerami:\n", df_filled_zero)

Po uzupełnieniu średnią:
           A         B   C
0  1.000000  5.000000  10
1  2.000000  6.666667  11
2  2.333333  7.000000  12
3  4.000000  8.000000  13
Po uzupełnieniu medianą:
      A    B   C
0  1.0  5.0  10
1  2.0  7.0  11
2  2.0  7.0  12
3  4.0  8.0  13
Po uzupełnieniu zerami:
      A    B   C
0  1.0  5.0  10
1  2.0  0.0  11
2  0.0  7.0  12
3  4.0  8.0  13


## 3. Interpolacja
**Opis**:
Uzupełnianie braków na podstawie sąsiednich wartości.

**Przykład obliczeniowy**:

| A   |
|-----|
| 1   |
| NaN |
| 3   |
| NaN |
| 5   |

Interpolacja liniowa:
| A   |
|-----|
| 1   |
| 2   |
| 3   |
| 4   |
| 5   |

In [3]:
# Interpolacja liniowa
df_interpolated = df.interpolate(method='linear')
print("Po interpolacji liniowej:\n", df_interpolated)

# Interpolacja wielomianowa
df_interpolated_poly = df.interpolate(method='polynomial', order=2)
print("Po interpolacji wielomianowej:\n", df_interpolated_poly)

Po interpolacji liniowej:
      A    B   C
0  1.0  5.0  10
1  2.0  6.0  11
2  3.0  7.0  12
3  4.0  8.0  13
Po interpolacji wielomianowej:
      A    B   C
0  1.0  5.0  10
1  2.0  6.0  11
2  3.0  7.0  12
3  4.0  8.0  13


## 4. Algorytm kNN
**Opis**:
Wykorzystuje sąsiedztwo brakującej wartości, obliczając średnią wartości sąsiadów.

**Przykład obliczeniowy**:

| A   | B   | C   |
|-----|-----|-----|
| 1   | 5   | 10  |
| 2   | NaN | 11  |
| NaN | 7   | 12  |
| 4   | 8   | 13  |

1. Dla brakującej wartości w A_3:
   - Najbliżsi sąsiedzi: A_1 = 1, A_4 = 4
   - Średnia: \( \frac{1 + 4}{2} = 2.5 \)

In [4]:
from sklearn.impute import KNNImputer

# Uzupełnianie braków metodą kNN
imputer_knn = KNNImputer(n_neighbors=2)
df_knn = pd.DataFrame(imputer_knn.fit_transform(df), columns=df.columns)
print("Po uzupełnieniu metodą kNN:\n", df_knn)

Po uzupełnieniu metodą kNN:
      A    B     C
0  1.0  5.0  10.0
1  2.0  6.0  11.0
2  3.0  7.0  12.0
3  4.0  8.0  13.0


## 5. Algorytm EM
**Opis**:
1. **Krok E (Expectation)**: Estymuje brakujące wartości na podstawie modelu rozkładu danych.
2. **Krok M (Maximization)**: Aktualizuje model rozkładu danych na podstawie estymacji.

**Przykład obliczeniowy**:

| A   | B   |
|-----|-----|
| 1   | 5   |
| 2   | NaN |
| NaN | 8   |

1. Krok E: Szacowanie braków (np. A_3 = 1.5, B_2 = 6.5).
2. Krok M: Aktualizacja modelu rozkładu danych.

In [7]:
!pip install fancyimpute
from fancyimpute import IterativeImputer

# Uzupełnianie braków metodą EM
imputer_em = IterativeImputer(max_iter=10, random_state=42)
df_em = pd.DataFrame(imputer_em.fit_transform(df), columns=df.columns)
print("Po uzupełnieniu metodą EM:\n", df_em)

Collecting fancyimpute
  Downloading fancyimpute-0.7.0.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting knnimpute>=0.1.0 (from fancyimpute)
  Downloading knnimpute-0.1.0.tar.gz (8.3 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting nose (from fancyimpute)
  Downloading nose-1.3.7-py3-none-any.whl.metadata (1.7 kB)
Downloading nose-1.3.7-py3-none-any.whl (154 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/154.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m154.7/154.7 kB[0m [31m13.2 MB/s[0m eta [36m0:00:00[0m
[?25hBuilding wheels for collected packages: fancyimpute, knnimpute
  Building wheel for fancyimpute (setup.py) ... [?25l[?25hdone
  Created wheel for fancyimpute: filename=fancyimpute-0.7.0-py3-none-any.whl size=29879 sha256=f91dd1b662360a13ac9b1e4d0cf38ad686fd402b8edde9e21077b027606d6a7b
  Stored in directory: /root/.cache/pip/wheels/1a/f3/a1/f7f