In [1]:
import pandas as pd
import numpy as np

# **Brakujące wartości**

**Brakujące wartości** to rekordy, które są nieobecne w zestawie danych.

**Przyczyny występowania**:
* Błąd człowieka podczas wprowadzania danych​

* Ochrona prywatności (dane wrażliwe)
* Brak odpowiedzi w ankietach

Problemy techniczne przy zbieraniu danych

Jest to jeden z **najczęściej występujących problemów** w analizie danych i kluczowy etap wstępnego przetwarzania (data preprocessing).

In [6]:
# Definicja DataFrame
df_student = pd.DataFrame({
    'imie': ['Anna', 'Piotr', 'Maria', 'Jan', 'Katarzyna', 'Tomasz', 'Magdalena', 'Paweł', 'Ewa', 'Michał'],
    'wiek': [20, 22, 21, np.nan, 23, 20, 22, np.nan, 21, 23],
    'ocena_matematyka': [4.5, np.nan, 5.0, 4.0, 3.5, 4.5, 5.0, 3.5, np.nan, 4.0],
    'ocena_fizyka': [5.0, 4.5, np.nan, 4.0, 4.5, np.nan, 5.0, 4.0, 4.5, np.nan],
    'ocena_informatyka': [4.0, 3.5, 4.5, np.nan, 5.0, 3.5, 4.5, 4.0, np.nan, 4.5],
    'miasto': ['Warszawa', 'Kraków', 'Wrocław', 'Poznań', 'Gdańsk', np.nan, 'Warszawa', 'Kraków', 'Wrocław', 'Poznań']
})

In [7]:
# 1. Sprawdzenie czy są brakujące wartości
print("1. Sprawdzenie brakujących wartości (True = brak):")
print(df_student.isnull())
# lub: df.isna()
print("\n" + "="*60 + "\n")

1. Sprawdzenie brakujących wartości (True = brak):
    imie   wiek  ocena_matematyka  ocena_fizyka  ocena_informatyka  miasto
0  False  False             False         False              False   False
1  False  False              True         False              False   False
2  False  False             False          True              False   False
3  False   True             False         False               True   False
4  False  False             False         False              False   False
5  False  False             False          True              False    True
6  False  False             False         False              False   False
7  False   True             False         False              False   False
8  False  False              True         False               True   False
9  False  False             False          True              False   False




In [8]:
# 2. Liczba brakujących wartości w każdej kolumnie
print("2. Liczba brakujących wartości w każdej kolumnie:")
print(df_student.isna().sum())
print("\n" + "="*60 + "\n")

2. Liczba brakujących wartości w każdej kolumnie:
imie                 0
wiek                 2
ocena_matematyka     2
ocena_fizyka         3
ocena_informatyka    2
miasto               1
dtype: int64




In [9]:
# 3. Procent brakujących wartości
print("3. Procent brakujących wartości w każdej kolumnie:")
print((df_student.isnull().sum() / len(df)) * 100)
print("\n" + "="*60 + "\n")

3. Procent brakujących wartości w każdej kolumnie:
imie                 0.000000
wiek                 4.444444
ocena_matematyka     4.444444
ocena_fizyka         6.666667
ocena_informatyka    4.444444
miasto               2.222222
dtype: float64




In [10]:
# 4. Całkowita liczba brakujących wartości
print("4. Całkowita liczba brakujących wartości w całym DataFrame:")
print(df_student.isnull().sum().sum())

4. Całkowita liczba brakujących wartości w całym DataFrame:
10


## **Rozwiązanie kwestii brakujących danych**

* **Usuwanie rekordów** zawierających brakujące wartości.
* **Ręczne uzupełnianie** brakujących wartości.
* Uzupełnianie **brakujących wartości wskaźnikami** tendencji centralnej, np.: średnią, medianą czy dominantą.
  * **Średniej** używamy w przypadku cech numerycznych,
  * **mediany** w cechach porządkowych,
  * **dominantę** (czyli najczęściej powtarzającą się wartość) umieszczamy w cechach kategorialnych.

Uzupełnianie **najbardziej prawdopodobną wartością** przy użyciu modeli uczenia maszynowego, takich jak regresja, drzewa decyzyjne czy algorytm KNN.

## **Czym jest NaN i dlaczego jest wyjątkowy?**

**NaN** (Not a Number) – specjalna wartość reprezentująca brakujące dane.

Dane mogą zawierać różne oznaczenia braków:
* Tekstowe: "NA", "N/A", "brak", "?", "-"

* Numeryczne: 0, -999, -1​

* Inne: puste stringi ""


In [None]:
np.nan == np.nan

False

In [12]:
np.nan is np.nan

True

 Dlatego używamy specjalnych funkcji:

In [None]:
pd.isna(np.nan)

True

In [None]:
pd.isnull(np.nan)

True

In [11]:
df = pd.DataFrame({
    'A': [1, np.nan, 3],# ✓ NaN - brakująca wartość ​
    'B': [4, None, 6],  # ✓ None - też brakująca ​
    'C': [7, 0, 9],     # ✗ 0 - NIE jest brakująca! ​
    'D': ['x', '', 'z'] # ✗ '' - NIE jest brakująca! ​
})

In [13]:
df.isnull().sum()

Unnamed: 0,0
A,1
B,1
C,0
D,0


## **Usuwanie brakujących wartości**

Usuń wiersze z DOWOLNĄ brakującą wartością (domyślnie) ​

```
df.dropna()
df.dropna(how='any')
```

Usuń wiersze tylko gdy WSZYSTKIE wartości są brakujące df.dropna(how='all')
```
df.dropna(how="all")
```

Usuń kolumny z brakującymi wartościami
```
df.dropna(axis=1)
```

## **Uzupełnienie średnią lub modą​**

W pandas *dataFrame* możemy uzupełnić brakujące wartości za pomocą funkcji `fillna()`.
* Przyjmuje ona jedną wartość, która będzie wstawiana w pustych pozycjach lub zamiast wartości NaN.

Uzupełnia wszystkie brakujące wartości w kolumnie age średnią obliczoną z tejże kolumny

```data['age'] = data.age.fillna(data.age.mean())​```

Uzupełnia wszystkie brakujące wartości w kolumnie income medianą obliczoną z tejże kolumny

```data['income']=data.income.fillna(data.income.median())```

Zastępuje wszystkie brakujące wartości w kolumnie gender (kolumna kategorii) dominantą wyliczoną z tejże kolumny​

```data['gender']=data['gender'].fillna(data['gender'].mode()[0])​```


In [14]:
df_student

Unnamed: 0,imie,wiek,ocena_matematyka,ocena_fizyka,ocena_informatyka,miasto
0,Anna,20.0,4.5,5.0,4.0,Warszawa
1,Piotr,22.0,,4.5,3.5,Kraków
2,Maria,21.0,5.0,,4.5,Wrocław
3,Jan,,4.0,4.0,,Poznań
4,Katarzyna,23.0,3.5,4.5,5.0,Gdańsk
5,Tomasz,20.0,4.5,,3.5,
6,Magdalena,22.0,5.0,5.0,4.5,Warszawa
7,Paweł,,3.5,4.0,4.0,Kraków
8,Ewa,21.0,,4.5,,Wrocław
9,Michał,23.0,4.0,,4.5,Poznań


In [15]:
df_student["wiek"] = df_student.wiek.fillna(df_student.wiek.mean())
df_student

Unnamed: 0,imie,wiek,ocena_matematyka,ocena_fizyka,ocena_informatyka,miasto
0,Anna,20.0,4.5,5.0,4.0,Warszawa
1,Piotr,22.0,,4.5,3.5,Kraków
2,Maria,21.0,5.0,,4.5,Wrocław
3,Jan,21.5,4.0,4.0,,Poznań
4,Katarzyna,23.0,3.5,4.5,5.0,Gdańsk
5,Tomasz,20.0,4.5,,3.5,
6,Magdalena,22.0,5.0,5.0,4.5,Warszawa
7,Paweł,21.5,3.5,4.0,4.0,Kraków
8,Ewa,21.0,,4.5,,Wrocław
9,Michał,23.0,4.0,,4.5,Poznań


In [16]:
df_student["ocena_matematyka"] = df_student["ocena_matematyka"] .fillna(df_student["ocena_matematyka"] .mean())
df_student

Unnamed: 0,imie,wiek,ocena_matematyka,ocena_fizyka,ocena_informatyka,miasto
0,Anna,20.0,4.5,5.0,4.0,Warszawa
1,Piotr,22.0,4.25,4.5,3.5,Kraków
2,Maria,21.0,5.0,,4.5,Wrocław
3,Jan,21.5,4.0,4.0,,Poznań
4,Katarzyna,23.0,3.5,4.5,5.0,Gdańsk
5,Tomasz,20.0,4.5,,3.5,
6,Magdalena,22.0,5.0,5.0,4.5,Warszawa
7,Paweł,21.5,3.5,4.0,4.0,Kraków
8,Ewa,21.0,4.25,4.5,,Wrocław
9,Michał,23.0,4.0,,4.5,Poznań


In [17]:
df_student["miasto"] = df_student["miasto"].fillna(df_student["miasto"] .mode()[0])
df_student

Unnamed: 0,imie,wiek,ocena_matematyka,ocena_fizyka,ocena_informatyka,miasto
0,Anna,20.0,4.5,5.0,4.0,Warszawa
1,Piotr,22.0,4.25,4.5,3.5,Kraków
2,Maria,21.0,5.0,,4.5,Wrocław
3,Jan,21.5,4.0,4.0,,Poznań
4,Katarzyna,23.0,3.5,4.5,5.0,Gdańsk
5,Tomasz,20.0,4.5,,3.5,Kraków
6,Magdalena,22.0,5.0,5.0,4.5,Warszawa
7,Paweł,21.5,3.5,4.0,4.0,Kraków
8,Ewa,21.0,4.25,4.5,,Wrocław
9,Michał,23.0,4.0,,4.5,Poznań


## **Obsługa brakujących danych jako stringi**

**Problem**
* Dane często zawierają braki zapisane jako tekst: **"NA", "N/A", "brak", "?", "-", "brak danych"**

* Pandas **nie rozpoznaje** ich automatycznie jako brakujące wartości!


### **Rozwiązanie 1: Wczytywanie z pliku CSV**

```
import pandas as pd

# Definiujemy listę wartości oznaczających brak
braki = ['NA', 'N/A', 'brak', 'brak danych', '?', '-', '']

# Wczytujemy plik z parametrem na_values
df = pd.read_csv('dane.csv', na_values=braki)

```

In [2]:
import pandas as pd
import numpy as np

missing_values = ['NA', 'N/A', 'brak', 'brak danych', '?', '-', '']
df = pd.read_csv('nieruchomosci.csv', na_values=missing_values)

df.head()

Unnamed: 0,id,miasto,dzielnica,powierzchnia,liczba_pokoi,rok_budowy,pietro,liczba_pieter,parking,balkon,stan,cena_m2,cena_total
0,1,Warszawa,Mokotów,65.0,3,2015.0,4.0,10,Tak,Tak,Dobry,12500,812500
1,2,Kraków,Krowodrza,48.0,2,,2.0,5,Nie,Tak,很好,10200,489600
2,3,Wrocław,Krzyki,72.0,3,2010.0,,4,Tak,Nie,Dobry,9800,705600
3,4,Poznań,Grunwald,55.0,2,2018.0,3.0,8,Tak,Tak,Bardzo dobry,11000,605000
4,5,Gdańsk,Wrzeszcz,80.0,4,1998.0,1.0,3,,Tak,Do remontu,8500,680000


### **Rozwiązanie 2: Zamiana po wczytaniu**

```
# Zamieniamy wybrane stringi na NaN
df.replace(['NA', 'N/A', 'brak', 'brak danych', '?', '-'], np.nan, inplace=True)

# LUB dla konkretnej kolumny
df['kolumna'] = df['kolumna'].replace('brak', np.nan)
```



In [3]:
df.replace([-999, 0, -1], np.nan, inplace=True)

print(df.isnull().sum())

id               0
miasto           0
dzielnica        0
powierzchnia     9
liczba_pokoi     0
rok_budowy       7
pietro           6
liczba_pieter    0
parking          5
balkon           3
stan             0
cena_m2          2
cena_total       0
dtype: int64


# **Zadanie**:

**Dane**: Plik *nieruchomosci.csv* - 45 ofert sprzedaży mieszkań

**Polecenie**

* Wczytaj dane i przeanalizuj problem brakujących wartości

* Zdecyduj, jak poradzić sobie z brakami w poszczególnych kolumnach

* Uzasadnij swoje wybory i zaimplementuj rozwiązanie

**Do przemyślenia**

* Jakie typy zmiennych masz w danych?
* Czy wszystkie braki powinny być obsłużone tak samo?
* Jakie konsekwencje niesie każda metoda?
* Jak to wpływa na eksploracyjną analizę danych?


Zadanie: Analiza i obsługa brakujących wartości w danych o nieruchomościach
Krok 1: Wczytanie danych i wstępna analiza
Najpierw załadujemy niezbędne biblioteki oraz zbiór danych nieruchomosci.csv. Od razu podczas wczytywania poinformujemy Pandas, jakie wartości w pliku należy traktować jako brakujące (NaN).

In [18]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Lista niestandardowych wartości, które oznaczają brak danych
braki = ['NA', 'N/A', 'brak', '?', '']

# Wczytanie danych z uwzględnieniem niestandardowych brakujących wartości
df_nieruchomosci = pd.read_csv('nieruchomosci.csv', na_values=braki)

print("Pierwsze 10 wierszy danych:")
display(df_nieruchomosci.head(10))

print("\nTypy danych w poszczególnych kolumnach:")
df_nieruchomosci.info()

Pierwsze 10 wierszy danych:


Unnamed: 0,id,miasto,dzielnica,powierzchnia,liczba_pokoi,rok_budowy,pietro,liczba_pieter,parking,balkon,stan,cena_m2,cena_total
0,1,Warszawa,Mokotów,65.0,3,2015.0,4.0,10,Tak,Tak,Dobry,12500,812500
1,2,Kraków,Krowodrza,48.0,2,,2.0,5,Nie,Tak,很好,10200,489600
2,3,Wrocław,Krzyki,72.0,3,2010.0,,4,Tak,Nie,Dobry,9800,705600
3,4,Poznań,Grunwald,55.0,2,2018.0,3.0,8,Tak,Tak,Bardzo dobry,11000,605000
4,5,Gdańsk,Wrzeszcz,80.0,4,1998.0,1.0,3,,Tak,Do remontu,8500,680000
5,6,Warszawa,Śródmieście,,2,2020.0,7.0,12,Tak,Tak,Bardzo dobry,15000,1200000
6,7,Kraków,Podgórze,60.0,3,2005.0,0.0,6,Tak,Nie,Dobry,9500,570000
7,8,Wrocław,Stare Miasto,45.0,1,2019.0,5.0,9,Nie,Tak,Bardzo dobry,11500,517500
8,9,Poznań,Jeżyce,70.0,3,,2.0,4,Tak,Tak,Dobry,10500,735000
9,10,Gdańsk,Oliwa,90.0,4,2001.0,1.0,2,Tak,Tak,Dobry,9000,810000



Typy danych w poszczególnych kolumnach:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45 entries, 0 to 44
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             45 non-null     int64  
 1   miasto         45 non-null     object 
 2   dzielnica      45 non-null     object 
 3   powierzchnia   39 non-null     float64
 4   liczba_pokoi   45 non-null     int64  
 5   rok_budowy     38 non-null     float64
 6   pietro         44 non-null     float64
 7   liczba_pieter  45 non-null     int64  
 8   parking        40 non-null     object 
 9   balkon         42 non-null     object 
 10  stan           45 non-null     object 
 11  cena_m2        45 non-null     int64  
 12  cena_total     45 non-null     int64  
dtypes: float64(3), int64(5), object(5)
memory usage: 4.7+ KB


Krok 2: Identyfikacja i analiza problemów z danymi
Sprawdzimy, w których kolumnach występują braki danych oraz czy istnieją inne nielogiczne wartości.

In [19]:
# Sprawdzenie wartości nielogicznych, które nie zostały automatycznie zamienione na NaN
# Np. wartości ujemne lub zerowe w kolumnach, gdzie nie mają sensu.
df_nieruchomosci.replace([-999, 0, -1], np.nan, inplace=True)

# Obliczenie liczby i procentu brakujących wartości w każdej kolumnie
liczba_brakow = df_nieruchomosci.isnull().sum()
procent_brakow = (df_nieruchomosci.isnull().sum() / len(df_nieruchomosci)) * 100

df_braki = pd.DataFrame({
    'Liczba braków': liczba_brakow,
    'Procent braków (%)': procent_brakow
})

# Wyświetlenie tylko kolumn z brakującymi wartościami
print("Analiza brakujących wartości w zbiorze danych:")
display(df_braki[df_braki['Liczba braków'] > 0].sort_values(by='Liczba braków', ascending=False))

Analiza brakujących wartości w zbiorze danych:


Unnamed: 0,Liczba braków,Procent braków (%)
powierzchnia,9,20.0
rok_budowy,7,15.555556
pietro,6,13.333333
parking,5,11.111111
balkon,3,6.666667
cena_m2,2,4.444444


Analiza problemów:
powierzchnia: Ma 5 brakujących wartości (w tym te, które wynosiły 0). To kluczowa cecha, więc musimy ją uzupełnić.
rok_budowy: Ma 4 brakujące wartości.
pietro: Ma 2 brakujące wartości (w tym jedna, która była oznaczona jako -999).
parking i balkon: Mają po 4 brakujące wartości. Są to cechy kategoryczne (Tak/Nie).
cena_m2: Ma 2 brakujące wartości (w tym jedna ujemna i jedna -999).
Dodatkowo, w kolumnie stan znajduje się wartość 很好, która jest chińskim słowem oznaczającym "bardzo dobry". To błąd jakości danych, który należy ujednolicić.
Krok 3: Strategia i implementacja uzupełniania braków
Dla każdej kolumny z brakami dobierzemy odpowiednią strategię i zaimplementujemy ją.
1. Kolumna stan - Ujednolicenie danych
Zamienimy wartość 很好 na jej polski odpowiednik Bardzo dobry.

In [20]:
# Ujednolicenie wartości w kolumnie 'stan'
df_nieruchomosci['stan'] = df_nieruchomosci['stan'].replace('很好', 'Bardzo dobry')
print("Unikalne wartości w kolumnie 'stan' po poprawce:")
print(df_nieruchomosci['stan'].unique())

for col in ['powierzchnia', 'rok_budowy', 'pietro']:
    mediana = df_nieruchomosci[col].median()
    df_nieruchomosci[col].fillna(mediana, inplace=True)
    print(f"Brakujące wartości w '{col}' uzupełniono medianą: {mediana}")

Unikalne wartości w kolumnie 'stan' po poprawce:
['Dobry' 'Bardzo dobry' 'Do remontu']
Brakujące wartości w 'powierzchnia' uzupełniono medianą: 63.0
Brakujące wartości w 'rok_budowy' uzupełniono medianą: 2011.5
Brakujące wartości w 'pietro' uzupełniono medianą: 3.0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_nieruchomosci[col].fillna(mediana, inplace=True)


3. Kolumny kategoryczne (parking, balkon)
Dla cech kategorycznych najlepszą strategią jest uzupełnienie dominantą (modą), czyli najczęściej występującą wartością.

In [21]:
# Uzupełnianie dominantą dla kolumn kategorycznych
for col in ['parking', 'balkon']:
    dominanta = df_nieruchomosci[col].mode()[0]
    df_nieruchomosci[col].fillna(dominanta, inplace=True)
    print(f"Brakujące wartości w '{col}' uzupełniono dominantą: '{dominanta}'")

Brakujące wartości w 'parking' uzupełniono dominantą: 'Tak'
Brakujące wartości w 'balkon' uzupełniono dominantą: 'Tak'


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_nieruchomosci[col].fillna(dominanta, inplace=True)


4. Kolumna cena_m2 - Obliczenie na podstawie innych danych
Wartość cena_m2 można precyzyjnie wyliczyć, dzieląc cena_total przez powierzchnia. Zrobimy to dla wszystkich wierszy, aby zapewnić spójność danych, a w szczególności uzupełnić braki.
code
Python

In [22]:
# Przeliczenie kolumny cena_m2, aby uzupełnić braki i zapewnić spójność
df_nieruchomosci['cena_m2'] = (df_nieruchomosci['cena_total'] / df_nieruchomosci['powierzchnia']).round()
print("\nBrakujące wartości w 'cena_m2' zostały przeliczone.")


Brakujące wartości w 'cena_m2' zostały przeliczone.


Krok 4: Weryfikacja końcowa
Na koniec sprawdzamy, czy w naszym zbiorze danych nie ma już żadnych brakujących wartości.

In [None]:
print("Liczba brakujących wartości po wszystkich operacjach:")
print(df_nieruchomosci.isnull().sum())

print("\n\nPróbka oczyszczonych danych:")
display(df_nieruchomosci.head(10))

Liczba brakujących wartości po wszystkich operacjach:
id               0
miasto           0
dzielnica        0
powierzchnia     0
liczba_pokoi     0
rok_budowy       0
pietro           0
liczba_pieter    0
parking          0
balkon           0
stan             0
cena_m2          0
cena_total       0
dtype: int64


Próbka oczyszczonych danych:


Unnamed: 0,id,miasto,dzielnica,powierzchnia,liczba_pokoi,rok_budowy,pietro,liczba_pieter,parking,balkon,stan,cena_m2,cena_total
0,1,Warszawa,Mokotów,65.0,3,2015.0,4.0,10,Tak,Tak,Dobry,12500.0,812500
1,2,Kraków,Krowodrza,48.0,2,2011.5,2.0,5,Nie,Tak,Bardzo dobry,10200.0,489600
2,3,Wrocław,Krzyki,72.0,3,2010.0,3.0,4,Tak,Nie,Dobry,9800.0,705600
3,4,Poznań,Grunwald,55.0,2,2018.0,3.0,8,Tak,Tak,Bardzo dobry,11000.0,605000
4,5,Gdańsk,Wrzeszcz,80.0,4,1998.0,1.0,3,Tak,Tak,Do remontu,8500.0,680000
5,6,Warszawa,Śródmieście,63.0,2,2020.0,7.0,12,Tak,Tak,Bardzo dobry,19048.0,1200000
6,7,Kraków,Podgórze,60.0,3,2005.0,3.0,6,Tak,Nie,Dobry,9500.0,570000
7,8,Wrocław,Stare Miasto,45.0,1,2019.0,5.0,9,Nie,Tak,Bardzo dobry,11500.0,517500
8,9,Poznań,Jeżyce,70.0,3,2011.5,2.0,4,Tak,Tak,Dobry,10500.0,735000
9,10,Gdańsk,Oliwa,90.0,4,2001.0,1.0,2,Tak,Tak,Dobry,9000.0,810000


Podsumowanie:
Wszystkie brakujące i nielogiczne wartości zostały pomyślnie obsłużone. Zbiór danych jest teraz kompletny i gotowy do dalszej analizy eksploracyjnej oraz budowy modeli predykcyjnych. Wybrane metody (mediana dla liczb, dominanta dla kategorii, przeliczenie dla cena_m2) zapewniają spójność i minimalizują wpływ na ogólną strukturę danych.

ZADANIE

In [23]:
import pandas as pd
import numpy as np

braki = ['NA', 'N/A', 'brak', 'brak danych', '?', '-', '']
df = pd.read_csv('nieruchomosci.csv', na_values=braki)

df.replace([-999, 0, -1], np.nan, inplace=True)
df['stan'] = df['stan'].replace('很好', 'Bardzo dobry')

kolumny_numeryczne = ['powierzchnia', 'rok_budowy', 'pietro']
for kol in kolumny_numeryczne:
    df[kol] = df[kol].fillna(df[kol].median())

kolumny_kategorialne = ['parking', 'balkon']
for kol in kolumny_kategorialne:
    df[kol] = df[kol].fillna(df[kol].mode()[0])

df['cena_m2'] = df['cena_total'] / df['powierzchnia']
df['cena_m2'] = df['cena_m2'].round(2)

print(df.isnull().sum())
df.head(10)

id               0
miasto           0
dzielnica        0
powierzchnia     0
liczba_pokoi     0
rok_budowy       0
pietro           0
liczba_pieter    0
parking          0
balkon           0
stan             0
cena_m2          0
cena_total       0
dtype: int64


Unnamed: 0,id,miasto,dzielnica,powierzchnia,liczba_pokoi,rok_budowy,pietro,liczba_pieter,parking,balkon,stan,cena_m2,cena_total
0,1,Warszawa,Mokotów,65.0,3,2015.0,4.0,10,Tak,Tak,Dobry,12500.0,812500
1,2,Kraków,Krowodrza,48.0,2,2011.5,2.0,5,Nie,Tak,Bardzo dobry,10200.0,489600
2,3,Wrocław,Krzyki,72.0,3,2010.0,3.0,4,Tak,Nie,Dobry,9800.0,705600
3,4,Poznań,Grunwald,55.0,2,2018.0,3.0,8,Tak,Tak,Bardzo dobry,11000.0,605000
4,5,Gdańsk,Wrzeszcz,80.0,4,1998.0,1.0,3,Tak,Tak,Do remontu,8500.0,680000
5,6,Warszawa,Śródmieście,63.0,2,2020.0,7.0,12,Tak,Tak,Bardzo dobry,19047.62,1200000
6,7,Kraków,Podgórze,60.0,3,2005.0,3.0,6,Tak,Nie,Dobry,9500.0,570000
7,8,Wrocław,Stare Miasto,45.0,1,2019.0,5.0,9,Nie,Tak,Bardzo dobry,11500.0,517500
8,9,Poznań,Jeżyce,70.0,3,2011.5,2.0,4,Tak,Tak,Dobry,10500.0,735000
9,10,Gdańsk,Oliwa,90.0,4,2001.0,1.0,2,Tak,Tak,Dobry,9000.0,810000


Strategia uzupełniania braków

Zdecydowałem się na następujące kroki:

Zmienne numeryczne (powierzchnia, rok budowy, piętro): Uzupełniłem je medianą. Jest to lepszy wybór niż średnia, ponieważ w cenach nieruchomości i metrażu często zdarzają się wartości odstające (outliery), które mogłyby zafałszować średnią.

Zmienne kategorialne (parking, balkon): Użyłem dominanty (mody), czyli wstawiłem wartość najczęściej występującą w danej kolumnie.

Cena za m2: Zamiast uzupełniać braki medianą, przeliczyłem tę kolumnę na nowo, dzieląc cenę całkowitą przez powierzchnię (po uzupełnieniu jej braków). Daje to najbardziej precyzyjny wynik i zapewnia spójność danych.

Na końcu sprawdziłem sumę braków (wynosi 0), co oznacza, że zbiór jest gotowy do dalszej analizy.