In [1]:
import pandas as pd
import numpy as np

# **Brakujące wartości**

**Brakujące wartości** to rekordy, które są nieobecne w zestawie danych.

**Przyczyny występowania**:
* Błąd człowieka podczas wprowadzania danych​

* Ochrona prywatności (dane wrażliwe)
* Brak odpowiedzi w ankietach

Problemy techniczne przy zbieraniu danych

Jest to jeden z **najczęściej występujących problemów** w analizie danych i kluczowy etap wstępnego przetwarzania (data preprocessing).

In [None]:
# Definicja DataFrame
df_student = pd.DataFrame({
    'imie': ['Anna', 'Piotr', 'Maria', 'Jan', 'Katarzyna', 'Tomasz', 'Magdalena', 'Paweł', 'Ewa', 'Michał'],
    'wiek': [20, 22, 21, np.nan, 23, 20, 22, np.nan, 21, 23],
    'ocena_matematyka': [4.5, np.nan, 5.0, 4.0, 3.5, 4.5, 5.0, 3.5, np.nan, 4.0],
    'ocena_fizyka': [5.0, 4.5, np.nan, 4.0, 4.5, np.nan, 5.0, 4.0, 4.5, np.nan],
    'ocena_informatyka': [4.0, 3.5, 4.5, np.nan, 5.0, 3.5, 4.5, 4.0, np.nan, 4.5],
    'miasto': ['Warszawa', 'Kraków', 'Wrocław', 'Poznań', 'Gdańsk', np.nan, 'Warszawa', 'Kraków', 'Wrocław', 'Poznań']
})

In [None]:
# 1. Sprawdzenie czy są brakujące wartości
print("1. Sprawdzenie brakujących wartości (True = brak):")
print(df_student.isnull())
# lub: df.isna()
print("\n" + "="*60 + "\n")

1. Sprawdzenie brakujących wartości (True = brak):
    imie   wiek  ocena_matematyka  ocena_fizyka  ocena_informatyka  miasto
0  False  False             False         False              False   False
1  False  False              True         False              False   False
2  False  False             False          True              False   False
3  False   True             False         False               True   False
4  False  False             False         False              False   False
5  False  False             False          True              False    True
6  False  False             False         False              False   False
7  False   True             False         False              False   False
8  False  False              True         False               True   False
9  False  False             False          True              False   False




In [None]:
# 2. Liczba brakujących wartości w każdej kolumnie
print("2. Liczba brakujących wartości w każdej kolumnie:")
print(df_student.isna().sum())
print("\n" + "="*60 + "\n")

2. Liczba brakujących wartości w każdej kolumnie:
imie                 0
wiek                 2
ocena_matematyka     2
ocena_fizyka         3
ocena_informatyka    2
miasto               1
dtype: int64




In [None]:
# 3. Procent brakujących wartości
print("3. Procent brakujących wartości w każdej kolumnie:")
print((df_student.isnull().sum() / len(df)) * 100)
print("\n" + "="*60 + "\n")

3. Procent brakujących wartości w każdej kolumnie:
imie                  0.0
wiek                 20.0
ocena_matematyka     20.0
ocena_fizyka         30.0
ocena_informatyka    20.0
miasto               10.0
dtype: float64




In [None]:
# 4. Całkowita liczba brakujących wartości
print("4. Całkowita liczba brakujących wartości w całym DataFrame:")
print(df_student.isnull().sum().sum())

4. Całkowita liczba brakujących wartości w całym DataFrame:
10


## **Rozwiązanie kwestii brakujących danych**

* **Usuwanie rekordów** zawierających brakujące wartości.
* **Ręczne uzupełnianie** brakujących wartości.
* Uzupełnianie **brakujących wartości wskaźnikami** tendencji centralnej, np.: średnią, medianą czy dominantą.
  * **Średniej** używamy w przypadku cech numerycznych,
  * **mediany** w cechach porządkowych,
  * **dominantę** (czyli najczęściej powtarzającą się wartość) umieszczamy w cechach kategorialnych.

Uzupełnianie **najbardziej prawdopodobną wartością** przy użyciu modeli uczenia maszynowego, takich jak regresja, drzewa decyzyjne czy algorytm KNN.

## **Czym jest NaN i dlaczego jest wyjątkowy?**

**NaN** (Not a Number) – specjalna wartość reprezentująca brakujące dane.

Dane mogą zawierać różne oznaczenia braków:
* Tekstowe: "NA", "N/A", "brak", "?", "-"

* Numeryczne: 0, -999, -1​

* Inne: puste stringi ""


In [None]:
np.nan == np.nan

False

In [None]:
np.nan is np.nan

True

 Dlatego używamy specjalnych funkcji:

In [None]:
pd.isna(np.nan)

True

In [None]:
pd.isnull(np.nan)

True

In [None]:
df = pd.DataFrame({
    'A': [1, np.nan, 3],# ✓ NaN - brakująca wartość ​
    'B': [4, None, 6],  # ✓ None - też brakująca ​
    'C': [7, 0, 9],     # ✗ 0 - NIE jest brakująca! ​
    'D': ['x', '', 'z'] # ✗ '' - NIE jest brakująca! ​
})

In [None]:
df.isnull().sum()

Unnamed: 0,0
A,1
B,1
C,0
D,0


## **Usuwanie brakujących wartości**

Usuń wiersze z DOWOLNĄ brakującą wartością (domyślnie) ​

```
df.dropna()
df.dropna(how='any')
```

Usuń wiersze tylko gdy WSZYSTKIE wartości są brakujące df.dropna(how='all')
```
df.dropna(how="all")
```

Usuń kolumny z brakującymi wartościami
```
df.dropna(axis=1)
```

## **Uzupełnienie średnią lub modą​**

W pandas *dataFrame* możemy uzupełnić brakujące wartości za pomocą funkcji `fillna()`.
* Przyjmuje ona jedną wartość, która będzie wstawiana w pustych pozycjach lub zamiast wartości NaN.

Uzupełnia wszystkie brakujące wartości w kolumnie age średnią obliczoną z tejże kolumny

```data['age'] = data.age.fillna(data.age.mean())​```

Uzupełnia wszystkie brakujące wartości w kolumnie income medianą obliczoną z tejże kolumny

```data['income']=data.income.fillna(data.income.median())```

Zastępuje wszystkie brakujące wartości w kolumnie gender (kolumna kategorii) dominantą wyliczoną z tejże kolumny​

```data['gender']=data['gender'].fillna(data['gender'].mode()[0])​```


In [None]:
df_student

Unnamed: 0,imie,wiek,ocena_matematyka,ocena_fizyka,ocena_informatyka,miasto
0,Anna,20.0,4.5,5.0,4.0,Warszawa
1,Piotr,22.0,,4.5,3.5,Kraków
2,Maria,21.0,5.0,,4.5,Wrocław
3,Jan,,4.0,4.0,,Poznań
4,Katarzyna,23.0,3.5,4.5,5.0,Gdańsk
5,Tomasz,20.0,4.5,,3.5,
6,Magdalena,22.0,5.0,5.0,4.5,Warszawa
7,Paweł,,3.5,4.0,4.0,Kraków
8,Ewa,21.0,,4.5,,Wrocław
9,Michał,23.0,4.0,,4.5,Poznań


In [None]:
df_student["wiek"] = df_student.wiek.fillna(df_student.wiek.mean())
df_student

Unnamed: 0,imie,wiek,ocena_matematyka,ocena_fizyka,ocena_informatyka,miasto
0,Anna,20.0,4.5,5.0,4.0,Warszawa
1,Piotr,22.0,,4.5,3.5,Kraków
2,Maria,21.0,5.0,,4.5,Wrocław
3,Jan,21.5,4.0,4.0,,Poznań
4,Katarzyna,23.0,3.5,4.5,5.0,Gdańsk
5,Tomasz,20.0,4.5,,3.5,
6,Magdalena,22.0,5.0,5.0,4.5,Warszawa
7,Paweł,21.5,3.5,4.0,4.0,Kraków
8,Ewa,21.0,,4.5,,Wrocław
9,Michał,23.0,4.0,,4.5,Poznań


In [None]:
df_student["ocena_matematyka"] = df_student["ocena_matematyka"] .fillna(df_student["ocena_matematyka"] .mean())
df_student

Unnamed: 0,imie,wiek,ocena_matematyka,ocena_fizyka,ocena_informatyka,miasto
0,Anna,20.0,4.5,5.0,4.0,Warszawa
1,Piotr,22.0,4.25,4.5,3.5,Kraków
2,Maria,21.0,5.0,,4.5,Wrocław
3,Jan,21.5,4.0,4.0,,Poznań
4,Katarzyna,23.0,3.5,4.5,5.0,Gdańsk
5,Tomasz,20.0,4.5,,3.5,
6,Magdalena,22.0,5.0,5.0,4.5,Warszawa
7,Paweł,21.5,3.5,4.0,4.0,Kraków
8,Ewa,21.0,4.25,4.5,,Wrocław
9,Michał,23.0,4.0,,4.5,Poznań


In [None]:
df_student["miasto"] = df_student["miasto"].fillna(df_student["miasto"] .mode()[0])
df_student

Unnamed: 0,imie,wiek,ocena_matematyka,ocena_fizyka,ocena_informatyka,miasto
0,Anna,20.0,4.5,5.0,4.0,Warszawa
1,Piotr,22.0,4.25,4.5,3.5,Kraków
2,Maria,21.0,5.0,,4.5,Wrocław
3,Jan,21.5,4.0,4.0,,Poznań
4,Katarzyna,23.0,3.5,4.5,5.0,Gdańsk
5,Tomasz,20.0,4.5,,3.5,Kraków
6,Magdalena,22.0,5.0,5.0,4.5,Warszawa
7,Paweł,21.5,3.5,4.0,4.0,Kraków
8,Ewa,21.0,4.25,4.5,,Wrocław
9,Michał,23.0,4.0,,4.5,Poznań


## **Obsługa brakujących danych jako stringi**

**Problem**
* Dane często zawierają braki zapisane jako tekst: **"NA", "N/A", "brak", "?", "-", "brak danych"**

* Pandas **nie rozpoznaje** ich automatycznie jako brakujące wartości!


### **Rozwiązanie 1: Wczytywanie z pliku CSV**

```
import pandas as pd

# Definiujemy listę wartości oznaczających brak
braki = ['NA', 'N/A', 'brak', 'brak danych', '?', '-', '']

# Wczytujemy plik z parametrem na_values
df = pd.read_csv('dane.csv', na_values=braki)

```

### **Rozwiązanie 2: Zamiana po wczytaniu**

```
# Zamieniamy wybrane stringi na NaN
df.replace(['NA', 'N/A', 'brak', 'brak danych', '?', '-'], np.nan, inplace=True)

# LUB dla konkretnej kolumny
df['kolumna'] = df['kolumna'].replace('brak', np.nan)
```



In [None]:
from google.colab import files

uploaded = files.upload()

Saving nieruchomosci.csv to nieruchomosci.csv


# **Zadanie**:

**Dane**: Plik *nieruchomosci.csv* - 45 ofert sprzedaży mieszkań

**Polecenie**

* Wczytaj dane i przeanalizuj problem brakujących wartości

* Zdecyduj, jak poradzić sobie z brakami w poszczególnych kolumnach

* Uzasadnij swoje wybory i zaimplementuj rozwiązanie

**Do przemyślenia**

* Jakie typy zmiennych masz w danych?
* Czy wszystkie braki powinny być obsłużone tak samo?
* Jakie konsekwencje niesie każda metoda?
* Jak to wpływa na eksploracyjną analizę danych?


In [2]:
from google.colab import files

uploaded = files.upload()

Saving nieruchomosci.csv to nieruchomosci.csv


In [17]:
braki = [0, -999, 'brak', 'brak danych', '?', '很好', -1]

In [18]:
df = pd.read_csv("nieruchomosci.csv", na_values=braki)

In [19]:
df

Unnamed: 0,id,miasto,dzielnica,powierzchnia,liczba_pokoi,rok_budowy,pietro,liczba_pieter,parking,balkon,stan,cena_m2,cena_total
0,1,Warszawa,Mokotów,65.0,3,2015.0,4.0,10,Tak,Tak,Dobry,12500.0,812500
1,2,Kraków,Krowodrza,48.0,2,,2.0,5,Nie,Tak,,10200.0,489600
2,3,Wrocław,Krzyki,72.0,3,2010.0,,4,Tak,Nie,Dobry,9800.0,705600
3,4,Poznań,Grunwald,55.0,2,2018.0,3.0,8,Tak,Tak,Bardzo dobry,11000.0,605000
4,5,Gdańsk,Wrzeszcz,80.0,4,1998.0,1.0,3,,Tak,Do remontu,8500.0,680000
5,6,Warszawa,Śródmieście,,2,2020.0,7.0,12,Tak,Tak,Bardzo dobry,15000.0,1200000
6,7,Kraków,Podgórze,60.0,3,2005.0,,6,Tak,Nie,Dobry,9500.0,570000
7,8,Wrocław,Stare Miasto,45.0,1,2019.0,5.0,9,Nie,Tak,Bardzo dobry,11500.0,517500
8,9,Poznań,Jeżyce,70.0,3,,2.0,4,Tak,Tak,Dobry,10500.0,735000
9,10,Gdańsk,Oliwa,90.0,4,2001.0,1.0,2,Tak,Tak,Dobry,9000.0,810000


Dla takiego typu danych zastępowanie wartościami średnimi będzie mylące, proponuje obliczyć takie wartości jak cena, powierzchnia i balkon za pomocą regresji a wartości w pozostałych kolumnach usunąć.

In [24]:

df_cleaned = df.dropna(subset=['rok_budowy', 'pietro', 'liczba_pieter', 'stan'])

df_cleaned

Unnamed: 0,id,miasto,dzielnica,powierzchnia,liczba_pokoi,rok_budowy,pietro,liczba_pieter,parking,balkon,stan,cena_m2,cena_total
0,1,Warszawa,Mokotów,65.0,3,2015.0,4.0,10,Tak,Tak,Dobry,12500.0,812500
3,4,Poznań,Grunwald,55.0,2,2018.0,3.0,8,Tak,Tak,Bardzo dobry,11000.0,605000
4,5,Gdańsk,Wrzeszcz,80.0,4,1998.0,1.0,3,,Tak,Do remontu,8500.0,680000
5,6,Warszawa,Śródmieście,,2,2020.0,7.0,12,Tak,Tak,Bardzo dobry,15000.0,1200000
7,8,Wrocław,Stare Miasto,45.0,1,2019.0,5.0,9,Nie,Tak,Bardzo dobry,11500.0,517500
9,10,Gdańsk,Oliwa,90.0,4,2001.0,1.0,2,Tak,Tak,Dobry,9000.0,810000
11,12,Kraków,Kazimierz,52.0,2,1995.0,3.0,4,Nie,,Do remontu,9000.0,468000
12,13,Wrocław,Psie Pole,68.0,3,2012.0,4.0,10,Tak,Tak,Dobry,8800.0,598400
13,14,Poznań,Rataje,,2,2017.0,6.0,11,Tak,Tak,Bardzo dobry,10800.0,648000
15,16,Warszawa,Praga,62.0,3,2014.0,3.0,8,Tak,Nie,Dobry,11500.0,713000


Na razie zastąpie wartości w balkon i parking najczęćciej występującą wartością

In [27]:
df_cleaned['balkon'].value_counts()


Unnamed: 0_level_0,count
balkon,Unnamed: 1_level_1
Tak,27
Nie,3


In [28]:
df_cleaned['parking'].value_counts()

Unnamed: 0_level_0,count
parking,Unnamed: 1_level_1
Tak,23
Nie,5


In [37]:
df_cleaned[['balkon', 'parking']] = df_cleaned[['balkon', 'parking']].fillna("Tak")

df_cleaned

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_cleaned[['balkon', 'parking']] = df_cleaned[['balkon', 'parking']].fillna("Tak")


Unnamed: 0,id,miasto,dzielnica,powierzchnia,liczba_pokoi,rok_budowy,pietro,liczba_pieter,parking,balkon,stan,cena_m2,cena_total
0,1,Warszawa,Mokotów,65.0,3,2015.0,4.0,10,Tak,Tak,Dobry,12500.0,812500
3,4,Poznań,Grunwald,55.0,2,2018.0,3.0,8,Tak,Tak,Bardzo dobry,11000.0,605000
4,5,Gdańsk,Wrzeszcz,80.0,4,1998.0,1.0,3,1,Tak,Do remontu,8500.0,680000
5,6,Warszawa,Śródmieście,,2,2020.0,7.0,12,Tak,Tak,Bardzo dobry,15000.0,1200000
7,8,Wrocław,Stare Miasto,45.0,1,2019.0,5.0,9,Nie,Tak,Bardzo dobry,11500.0,517500
9,10,Gdańsk,Oliwa,90.0,4,2001.0,1.0,2,Tak,Tak,Dobry,9000.0,810000
11,12,Kraków,Kazimierz,52.0,2,1995.0,3.0,4,Nie,1,Do remontu,9000.0,468000
12,13,Wrocław,Psie Pole,68.0,3,2012.0,4.0,10,Tak,Tak,Dobry,8800.0,598400
13,14,Poznań,Rataje,,2,2017.0,6.0,11,Tak,Tak,Bardzo dobry,10800.0,648000
15,16,Warszawa,Praga,62.0,3,2014.0,3.0,8,Tak,Nie,Dobry,11500.0,713000


Resztę średnimi

In [None]:
df_student["ocena_matematyka"] = df_student["ocena_matematyka"] .fillna(df_student["ocena_matematyka"] .mean())

In [39]:
df_cleaned["powierzchnia"] = df_cleaned["powierzchnia"] .fillna(df_cleaned["powierzchnia"] .mean())
df_cleaned["cena_m2"] = df_cleaned["cena_m2"] .fillna(df_cleaned["cena_m2"] .mean())
df_cleaned

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_cleaned["powierzchnia"] = df_cleaned["powierzchnia"] .fillna(df_cleaned["powierzchnia"] .mean())
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_cleaned["cena_m2"] = df_cleaned["cena_m2"] .fillna(df_cleaned["cena_m2"] .mean())


Unnamed: 0,id,miasto,dzielnica,powierzchnia,liczba_pokoi,rok_budowy,pietro,liczba_pieter,parking,balkon,stan,cena_m2,cena_total
0,1,Warszawa,Mokotów,65.0,3,2015.0,4.0,10,Tak,Tak,Dobry,12500.0,812500
3,4,Poznań,Grunwald,55.0,2,2018.0,3.0,8,Tak,Tak,Bardzo dobry,11000.0,605000
4,5,Gdańsk,Wrzeszcz,80.0,4,1998.0,1.0,3,1,Tak,Do remontu,8500.0,680000
5,6,Warszawa,Śródmieście,65.041667,2,2020.0,7.0,12,Tak,Tak,Bardzo dobry,15000.0,1200000
7,8,Wrocław,Stare Miasto,45.0,1,2019.0,5.0,9,Nie,Tak,Bardzo dobry,11500.0,517500
9,10,Gdańsk,Oliwa,90.0,4,2001.0,1.0,2,Tak,Tak,Dobry,9000.0,810000
11,12,Kraków,Kazimierz,52.0,2,1995.0,3.0,4,Nie,1,Do remontu,9000.0,468000
12,13,Wrocław,Psie Pole,68.0,3,2012.0,4.0,10,Tak,Tak,Dobry,8800.0,598400
13,14,Poznań,Rataje,65.041667,2,2017.0,6.0,11,Tak,Tak,Bardzo dobry,10800.0,648000
15,16,Warszawa,Praga,62.0,3,2014.0,3.0,8,Tak,Nie,Dobry,11500.0,713000
