In [1]:
import pandas as pd
import numpy as np

# **Brakujące wartości**

**Brakujące wartości** to rekordy, które są nieobecne w zestawie danych.

**Przyczyny występowania**:
* Błąd człowieka podczas wprowadzania danych​

* Ochrona prywatności (dane wrażliwe)
* Brak odpowiedzi w ankietach

Problemy techniczne przy zbieraniu danych

Jest to jeden z **najczęściej występujących problemów** w analizie danych i kluczowy etap wstępnego przetwarzania (data preprocessing).

In [2]:
# Definicja DataFrame
df_student = pd.DataFrame({
    'imie': ['Anna', 'Piotr', 'Maria', 'Jan', 'Katarzyna', 'Tomasz', 'Magdalena', 'Paweł', 'Ewa', 'Michał'],
    'wiek': [20, 22, 21, np.nan, 23, 20, 22, np.nan, 21, 23],
    'ocena_matematyka': [4.5, np.nan, 5.0, 4.0, 3.5, 4.5, 5.0, 3.5, np.nan, 4.0],
    'ocena_fizyka': [5.0, 4.5, np.nan, 4.0, 4.5, np.nan, 5.0, 4.0, 4.5, np.nan],
    'ocena_informatyka': [4.0, 3.5, 4.5, np.nan, 5.0, 3.5, 4.5, 4.0, np.nan, 4.5],
    'miasto': ['Warszawa', 'Kraków', 'Wrocław', 'Poznań', 'Gdańsk', np.nan, 'Warszawa', 'Kraków', 'Wrocław', 'Poznań']
})

In [3]:
# 1. Sprawdzenie czy są brakujące wartości
print("1. Sprawdzenie brakujących wartości (True = brak):")
print(df_student.isnull())
# lub: df.isna()
print("\n" + "="*60 + "\n")

1. Sprawdzenie brakujących wartości (True = brak):
    imie   wiek  ocena_matematyka  ocena_fizyka  ocena_informatyka  miasto
0  False  False             False         False              False   False
1  False  False              True         False              False   False
2  False  False             False          True              False   False
3  False   True             False         False               True   False
4  False  False             False         False              False   False
5  False  False             False          True              False    True
6  False  False             False         False              False   False
7  False   True             False         False              False   False
8  False  False              True         False               True   False
9  False  False             False          True              False   False




In [4]:
# 2. Liczba brakujących wartości w każdej kolumnie
print("2. Liczba brakujących wartości w każdej kolumnie:")
print(df_student.isna().sum())
print("\n" + "="*60 + "\n")

2. Liczba brakujących wartości w każdej kolumnie:
imie                 0
wiek                 2
ocena_matematyka     2
ocena_fizyka         3
ocena_informatyka    2
miasto               1
dtype: int64




In [6]:
# 3. Procent brakujących wartości
print("3. Procent brakujących wartości w każdej kolumnie:")
print((df_student.isnull().sum() / len(df_student)) * 100)
print("\n" + "="*60 + "\n")

3. Procent brakujących wartości w każdej kolumnie:
imie                  0.0
wiek                 20.0
ocena_matematyka     20.0
ocena_fizyka         30.0
ocena_informatyka    20.0
miasto               10.0
dtype: float64




In [7]:
# 4. Całkowita liczba brakujących wartości
print("4. Całkowita liczba brakujących wartości w całym DataFrame:")
print(df_student.isnull().sum().sum())

4. Całkowita liczba brakujących wartości w całym DataFrame:
10


## **Rozwiązanie kwestii brakujących danych**

* **Usuwanie rekordów** zawierających brakujące wartości.
* **Ręczne uzupełnianie** brakujących wartości.
* Uzupełnianie **brakujących wartości wskaźnikami** tendencji centralnej, np.: średnią, medianą czy dominantą.
  * **Średniej** używamy w przypadku cech numerycznych,
  * **mediany** w cechach porządkowych,
  * **dominantę** (czyli najczęściej powtarzającą się wartość) umieszczamy w cechach kategorialnych.

Uzupełnianie **najbardziej prawdopodobną wartością** przy użyciu modeli uczenia maszynowego, takich jak regresja, drzewa decyzyjne czy algorytm KNN.

## **Czym jest NaN i dlaczego jest wyjątkowy?**

**NaN** (Not a Number) – specjalna wartość reprezentująca brakujące dane.

Dane mogą zawierać różne oznaczenia braków:
* Tekstowe: "NA", "N/A", "brak", "?", "-"

* Numeryczne: 0, -999, -1​

* Inne: puste stringi ""


In [8]:
np.nan == np.nan

False

In [9]:
np.nan is np.nan

True

 Dlatego używamy specjalnych funkcji:

In [10]:
pd.isna(np.nan)

True

In [11]:
pd.isnull(np.nan)

True

In [13]:
df = pd.DataFrame({
    'A': [1, np.nan, 3],# ✓ NaN - brakująca wartość ​
    'B': [4, None, 6],  # ✓ None - też brakująca ​
    'C': [7, 0, 9],     # ✗ 0 - NIE jest brakująca! ​
    'D': ['x', '', 'z'] # ✗ '' - NIE jest brakująca! ​
})

In [14]:
df.isnull().sum()

Unnamed: 0,0
A,1
B,1
C,0
D,0


## **Usuwanie brakujących wartości**

Usuń wiersze z DOWOLNĄ brakującą wartością (domyślnie) ​

```
df.dropna()
df.dropna(how='any')
```

Usuń wiersze tylko gdy WSZYSTKIE wartości są brakujące df.dropna(how='all')
```
df.dropna(how="all")
```

Usuń kolumny z brakującymi wartościami
```
df.dropna(axis=1)
```

## **Uzupełnienie średnią lub modą​**

W pandas *dataFrame* możemy uzupełnić brakujące wartości za pomocą funkcji `fillna()`.
* Przyjmuje ona jedną wartość, która będzie wstawiana w pustych pozycjach lub zamiast wartości NaN.

Uzupełnia wszystkie brakujące wartości w kolumnie age średnią obliczoną z tejże kolumny

```data['age'] = data.age.fillna(data.age.mean())​```

Uzupełnia wszystkie brakujące wartości w kolumnie income medianą obliczoną z tejże kolumny

```data['income']=data.income.fillna(data.income.median())```

Zastępuje wszystkie brakujące wartości w kolumnie gender (kolumna kategorii) dominantą wyliczoną z tejże kolumny​

```data['gender']=data['gender'].fillna(data['gender'].mode()[0])​```


In [15]:
df_student

Unnamed: 0,imie,wiek,ocena_matematyka,ocena_fizyka,ocena_informatyka,miasto
0,Anna,20.0,4.5,5.0,4.0,Warszawa
1,Piotr,22.0,,4.5,3.5,Kraków
2,Maria,21.0,5.0,,4.5,Wrocław
3,Jan,,4.0,4.0,,Poznań
4,Katarzyna,23.0,3.5,4.5,5.0,Gdańsk
5,Tomasz,20.0,4.5,,3.5,
6,Magdalena,22.0,5.0,5.0,4.5,Warszawa
7,Paweł,,3.5,4.0,4.0,Kraków
8,Ewa,21.0,,4.5,,Wrocław
9,Michał,23.0,4.0,,4.5,Poznań


In [16]:
df_student["wiek"] = df_student.wiek.fillna(df_student.wiek.mean())
df_student

Unnamed: 0,imie,wiek,ocena_matematyka,ocena_fizyka,ocena_informatyka,miasto
0,Anna,20.0,4.5,5.0,4.0,Warszawa
1,Piotr,22.0,,4.5,3.5,Kraków
2,Maria,21.0,5.0,,4.5,Wrocław
3,Jan,21.5,4.0,4.0,,Poznań
4,Katarzyna,23.0,3.5,4.5,5.0,Gdańsk
5,Tomasz,20.0,4.5,,3.5,
6,Magdalena,22.0,5.0,5.0,4.5,Warszawa
7,Paweł,21.5,3.5,4.0,4.0,Kraków
8,Ewa,21.0,,4.5,,Wrocław
9,Michał,23.0,4.0,,4.5,Poznań


In [17]:
df_student["ocena_matematyka"] = df_student["ocena_matematyka"] .fillna(df_student["ocena_matematyka"] .mean())
df_student

Unnamed: 0,imie,wiek,ocena_matematyka,ocena_fizyka,ocena_informatyka,miasto
0,Anna,20.0,4.5,5.0,4.0,Warszawa
1,Piotr,22.0,4.25,4.5,3.5,Kraków
2,Maria,21.0,5.0,,4.5,Wrocław
3,Jan,21.5,4.0,4.0,,Poznań
4,Katarzyna,23.0,3.5,4.5,5.0,Gdańsk
5,Tomasz,20.0,4.5,,3.5,
6,Magdalena,22.0,5.0,5.0,4.5,Warszawa
7,Paweł,21.5,3.5,4.0,4.0,Kraków
8,Ewa,21.0,4.25,4.5,,Wrocław
9,Michał,23.0,4.0,,4.5,Poznań


In [18]:
df_student["miasto"] = df_student["miasto"].fillna(df_student["miasto"] .mode()[0])
df_student

Unnamed: 0,imie,wiek,ocena_matematyka,ocena_fizyka,ocena_informatyka,miasto
0,Anna,20.0,4.5,5.0,4.0,Warszawa
1,Piotr,22.0,4.25,4.5,3.5,Kraków
2,Maria,21.0,5.0,,4.5,Wrocław
3,Jan,21.5,4.0,4.0,,Poznań
4,Katarzyna,23.0,3.5,4.5,5.0,Gdańsk
5,Tomasz,20.0,4.5,,3.5,Kraków
6,Magdalena,22.0,5.0,5.0,4.5,Warszawa
7,Paweł,21.5,3.5,4.0,4.0,Kraków
8,Ewa,21.0,4.25,4.5,,Wrocław
9,Michał,23.0,4.0,,4.5,Poznań


## **Obsługa brakujących danych jako stringi**

**Problem**
* Dane często zawierają braki zapisane jako tekst: **"NA", "N/A", "brak", "?", "-", "brak danych"**

* Pandas **nie rozpoznaje** ich automatycznie jako brakujące wartości!


### **Rozwiązanie 1: Wczytywanie z pliku CSV**

```
import pandas as pd

# Definiujemy listę wartości oznaczających brak
braki = ['NA', 'N/A', 'brak', 'brak danych', '?', '-', '']

# Wczytujemy plik z parametrem na_values
df = pd.read_csv('dane.csv', na_values=braki)

```

### **Rozwiązanie 2: Zamiana po wczytaniu**

```
# Zamieniamy wybrane stringi na NaN
df.replace(['NA', 'N/A', 'brak', 'brak danych', '?', '-'], np.nan, inplace=True)

# LUB dla konkretnej kolumny
df['kolumna'] = df['kolumna'].replace('brak', np.nan)
```



# **Zadanie**:

**Dane**: Plik *nieruchomosci.csv* - 45 ofert sprzedaży mieszkań

**Polecenie**

* Wczytaj dane i przeanalizuj problem brakujących wartości

* Zdecyduj, jak poradzić sobie z brakami w poszczególnych kolumnach

* Uzasadnij swoje wybory i zaimplementuj rozwiązanie

**Do przemyślenia**

* Jakie typy zmiennych masz w danych?
* Czy wszystkie braki powinny być obsłużone tak samo?
* Jakie konsekwencje niesie każda metoda?
* Jak to wpływa na eksploracyjną analizę danych?


In [50]:
frame = pd.read_csv('nieruchomosci.csv')
print("1. Dane po załadowaniu:")
print(frame)

frame['powierzchnia'] = frame['powierzchnia'].replace(['brak','0'], np.nan)
frame['rok_budowy'] = frame['rok_budowy'].replace('brak', np.nan)
frame['pietro'] = frame['pietro'].replace(['brak','-999'], np.nan)
frame['parking'] = frame['parking'].replace('?', np.nan)
frame['balkon'] = frame['balkon'].replace('?', np.nan)
frame['stan'] = frame['stan'].replace('很好', np.nan)
frame['cena_m2'] = frame['cena_m2'].replace([-1, -999], np.nan)
print("2. Dane po zamianie brakujących wartości na NaN:")
print(frame)

print("Liczba brakujących wartości w każdej kolumnie:")
print(frame.isna().sum())

#powierzchnia - wartość wyliczona z cena_total / cena_m2
frame['powierzchnia'] = pd.to_numeric(frame['powierzchnia'])
frame['powierzchnia'] = frame['powierzchnia'].fillna(frame['cena_total']/frame['cena_m2']).astype(int)

#rok_budowy - mediana wartości z kolumny
#Prawdopodobnie realny rok budowy będzie blisko tej wartości
frame['rok_budowy'] = pd.to_numeric(frame['rok_budowy'])
frame['rok_budowy'] = frame['rok_budowy'].fillna(frame['rok_budowy'].median()).astype(int)

#pietro - mediana wartości z kolumny
#Prawdopodobnie realne piętro będzie blisko tej wartości
frame['pietro'] = pd.to_numeric(frame['pietro'])
frame['pietro'] = frame['pietro'].fillna(frame['pietro'].median()).astype(int)

#parking - dominanta wartości z kolumny
#Prawdopodobnie realna wartość parking to ta z dwóch wartości która występuje najczęściej
frame['parking'] = frame['parking'].fillna(frame['parking'].mode()[0])

#balkon - dominanta wartości z kolumny
#Prawdopodobnie realna wartość balkon to ta z dwóch wartości która występuje najczęściej
frame['balkon'] = frame['balkon'].fillna(frame['balkon'].mode()[0])

#stan - dominanta wartości z kolumny
#Prawdopodobnie realna wartość stan to wartość występująca najczęściej
frame['stan'] = frame['stan'].fillna(frame['stan'].mode()[0])

#cena_m2 - wartość wyliczona z cena_total / powierzchnia
frame['cena_m2'] = frame['cena_m2'].fillna(frame['cena_total']/frame['powierzchnia']).astype(int)

print("3. Dane po uzupełnieniu brakujących wartości:")
print(frame)



1. Dane po załadowaniu:
    id    miasto      dzielnica powierzchnia  liczba_pokoi rok_budowy pietro  \
0    1  Warszawa        Mokotów           65             3       2015      4   
1    2    Kraków      Krowodrza           48             2        NaN      2   
2    3   Wrocław         Krzyki           72             3       2010   brak   
3    4    Poznań       Grunwald           55             2       2018      3   
4    5    Gdańsk       Wrzeszcz           80             4       1998      1   
5    6  Warszawa    Śródmieście          NaN             2       2020      7   
6    7    Kraków       Podgórze           60             3       2005      0   
7    8   Wrocław   Stare Miasto           45             1       2019      5   
8    9    Poznań         Jeżyce           70             3       brak      2   
9   10    Gdańsk          Oliwa           90             4       2001      1   
10  11  Warszawa       Żoliborz           58             2       2016   -999   
11  12    Kraków