In [27]:
import pandas as pd
import numpy as np

# **Brakujące wartości**

**Brakujące wartości** to rekordy, które są nieobecne w zestawie danych.

**Przyczyny występowania**:
* Błąd człowieka podczas wprowadzania danych​

* Ochrona prywatności (dane wrażliwe)
* Brak odpowiedzi w ankietach

Problemy techniczne przy zbieraniu danych

Jest to jeden z **najczęściej występujących problemów** w analizie danych i kluczowy etap wstępnego przetwarzania (data preprocessing).

In [28]:
# Definicja DataFrame
df_student = pd.DataFrame({
    'imie': ['Anna', 'Piotr', 'Maria', 'Jan', 'Katarzyna', 'Tomasz', 'Magdalena', 'Paweł', 'Ewa', 'Michał'],
    'wiek': [20, 22, 21, np.nan, 23, 20, 22, np.nan, 21, 23],
    'ocena_matematyka': [4.5, np.nan, 5.0, 4.0, 3.5, 4.5, 5.0, 3.5, np.nan, 4.0],
    'ocena_fizyka': [5.0, 4.5, np.nan, 4.0, 4.5, np.nan, 5.0, 4.0, 4.5, np.nan],
    'ocena_informatyka': [4.0, 3.5, 4.5, np.nan, 5.0, 3.5, 4.5, 4.0, np.nan, 4.5],
    'miasto': ['Warszawa', 'Kraków', 'Wrocław', 'Poznań', 'Gdańsk', np.nan, 'Warszawa', 'Kraków', 'Wrocław', 'Poznań']
})

In [29]:
# 1. Sprawdzenie czy są brakujące wartości
print("1. Sprawdzenie brakujących wartości (True = brak):")
print(df_student.isnull())
# lub: df.isna()
print("\n" + "="*60 + "\n")

1. Sprawdzenie brakujących wartości (True = brak):
    imie   wiek  ocena_matematyka  ocena_fizyka  ocena_informatyka  miasto
0  False  False             False         False              False   False
1  False  False              True         False              False   False
2  False  False             False          True              False   False
3  False   True             False         False               True   False
4  False  False             False         False              False   False
5  False  False             False          True              False    True
6  False  False             False         False              False   False
7  False   True             False         False              False   False
8  False  False              True         False               True   False
9  False  False             False          True              False   False




In [30]:
# 2. Liczba brakujących wartości w każdej kolumnie
print("2. Liczba brakujących wartości w każdej kolumnie:")
print(df_student.isna().sum())
print("\n" + "="*60 + "\n")

2. Liczba brakujących wartości w każdej kolumnie:
imie                 0
wiek                 2
ocena_matematyka     2
ocena_fizyka         3
ocena_informatyka    2
miasto               1
dtype: int64




In [31]:
# 3. Procent brakujących wartości
print("3. Procent brakujących wartości w każdej kolumnie:")
print((df_student.isnull().sum() / len(df)) * 100)
print("\n" + "="*60 + "\n")

3. Procent brakujących wartości w każdej kolumnie:


NameError: name 'df' is not defined

In [None]:
# 4. Całkowita liczba brakujących wartości
print("4. Całkowita liczba brakujących wartości w całym DataFrame:")
print(df_student.isnull().sum().sum())

## **Rozwiązanie kwestii brakujących danych**

* **Usuwanie rekordów** zawierających brakujące wartości.
* **Ręczne uzupełnianie** brakujących wartości.
* Uzupełnianie **brakujących wartości wskaźnikami** tendencji centralnej, np.: średnią, medianą czy dominantą.
  * **Średniej** używamy w przypadku cech numerycznych,
  * **mediany** w cechach porządkowych,
  * **dominantę** (czyli najczęściej powtarzającą się wartość) umieszczamy w cechach kategorialnych.

Uzupełnianie **najbardziej prawdopodobną wartością** przy użyciu modeli uczenia maszynowego, takich jak regresja, drzewa decyzyjne czy algorytm KNN.

## **Czym jest NaN i dlaczego jest wyjątkowy?**

**NaN** (Not a Number) – specjalna wartość reprezentująca brakujące dane.

Dane mogą zawierać różne oznaczenia braków:
* Tekstowe: "NA", "N/A", "brak", "?", "-"

* Numeryczne: 0, -999, -1​

* Inne: puste stringi ""


In [None]:
np.nan == np.nan

In [None]:
np.nan is np.nan

 Dlatego używamy specjalnych funkcji:

In [None]:
pd.isna(np.nan)

In [None]:
pd.isnull(np.nan)

In [None]:
df = pd.DataFrame({
    'A': [1, np.nan, 3],# ✓ NaN - brakująca wartość ​
    'B': [4, None, 6],  # ✓ None - też brakująca ​
    'C': [7, 0, 9],     # ✗ 0 - NIE jest brakująca! ​
    'D': ['x', '', 'z'] # ✗ '' - NIE jest brakująca! ​
})

In [None]:
df.isnull().sum()

## **Usuwanie brakujących wartości**

Usuń wiersze z DOWOLNĄ brakującą wartością (domyślnie) ​

```
df.dropna()
df.dropna(how='any')
```

Usuń wiersze tylko gdy WSZYSTKIE wartości są brakujące df.dropna(how='all')
```
df.dropna(how="all")
```

Usuń kolumny z brakującymi wartościami
```
df.dropna(axis=1)
```

## **Uzupełnienie średnią lub modą​**

W pandas *dataFrame* możemy uzupełnić brakujące wartości za pomocą funkcji `fillna()`.
* Przyjmuje ona jedną wartość, która będzie wstawiana w pustych pozycjach lub zamiast wartości NaN.

Uzupełnia wszystkie brakujące wartości w kolumnie age średnią obliczoną z tejże kolumny

```data['age'] = data.age.fillna(data.age.mean())​```

Uzupełnia wszystkie brakujące wartości w kolumnie income medianą obliczoną z tejże kolumny

```data['income']=data.income.fillna(data.income.median())```

Zastępuje wszystkie brakujące wartości w kolumnie gender (kolumna kategorii) dominantą wyliczoną z tejże kolumny​

```data['gender']=data['gender'].fillna(data['gender'].mode()[0])​```


In [None]:
df_student

In [None]:
df_student["wiek"] = df_student.wiek.fillna(df_student.wiek.mean())
df_student

In [None]:
df_student["ocena_matematyka"] = df_student["ocena_matematyka"] .fillna(df_student["ocena_matematyka"] .mean())
df_student

In [None]:
df_student["miasto"] = df_student["miasto"].fillna(df_student["miasto"] .mode()[0])
df_student

## **Obsługa brakujących danych jako stringi**

**Problem**
* Dane często zawierają braki zapisane jako tekst: **"NA", "N/A", "brak", "?", "-", "brak danych"**

* Pandas **nie rozpoznaje** ich automatycznie jako brakujące wartości!


### **Rozwiązanie 1: Wczytywanie z pliku CSV**

```
import pandas as pd

# Definiujemy listę wartości oznaczających brak
braki = ['NA', 'N/A', 'brak', 'brak danych', '?', '-', '']

# Wczytujemy plik z parametrem na_values
df = pd.read_csv('dane.csv', na_values=braki)

```

### **Rozwiązanie 2: Zamiana po wczytaniu**

```
# Zamieniamy wybrane stringi na NaN
df.replace(['NA', 'N/A', 'brak', 'brak danych', '?', '-'], np.nan, inplace=True)

# LUB dla konkretnej kolumny
df['kolumna'] = df['kolumna'].replace('brak', np.nan)
```



# **Zadanie**:

**Dane**: Plik *nieruchomosci.csv* - 45 ofert sprzedaży mieszkań

**Polecenie**

* Wczytaj dane i przeanalizuj problem brakujących wartości

* Zdecyduj, jak poradzić sobie z brakami w poszczególnych kolumnach

* Uzasadnij swoje wybory i zaimplementuj rozwiązanie

**Do przemyślenia**

* Jakie typy zmiennych masz w danych?
* Czy wszystkie braki powinny być obsłużone tak samo?
* Jakie konsekwencje niesie każda metoda?
* Jak to wpływa na eksploracyjną analizę danych?


# Wczytanie danych

In [35]:
import pandas as pd
df_nieruchomosci = pd.read_csv('/content/nieruchomosci.csv')
display(df_nieruchomosci.head())

Unnamed: 0,id,miasto,dzielnica,powierzchnia,liczba_pokoi,rok_budowy,pietro,liczba_pieter,parking,balkon,stan,cena_m2,cena_total
0,1,Warszawa,Mokotów,65,3,2015.0,4,10,Tak,Tak,Dobry,12500,812500
1,2,Kraków,Krowodrza,48,2,,2,5,Nie,Tak,很好,10200,489600
2,3,Wrocław,Krzyki,72,3,2010.0,brak,4,Tak,Nie,Dobry,9800,705600
3,4,Poznań,Grunwald,55,2,2018.0,3,8,Tak,Tak,Bardzo dobry,11000,605000
4,5,Gdańsk,Wrzeszcz,80,4,1998.0,1,3,?,Tak,Do remontu,8500,680000


## Analiza brakujących wartości


In [34]:
missing_values = df_nieruchomosci.isnull().sum()
missing_percentage = (missing_values / len(df_nieruchomosci)) * 100

print("Liczba brakujących wartości w każdej kolumnie:")
print(missing_values)

print("\nProcent brakujących wartości w każdej kolumnie:")
print(missing_percentage)

Liczba brakujących wartości w każdej kolumnie:
id               0
miasto           0
dzielnica        0
powierzchnia     0
liczba_pokoi     0
rok_budowy       0
pietro           0
liczba_pieter    0
parking          0
balkon           0
stan             0
cena_m2          0
cena_total       0
dtype: int64

Procent brakujących wartości w każdej kolumnie:
id               0.0
miasto           0.0
dzielnica        0.0
powierzchnia     0.0
liczba_pokoi     0.0
rok_budowy       0.0
pietro           0.0
liczba_pieter    0.0
parking          0.0
balkon           0.0
stan             0.0
cena_m2          0.0
cena_total       0.0
dtype: float64


## Określenie typów zmiennych




In [None]:
df_nieruchomosci.info()

## Podjęcie decyzji o obsłudze braków


In [33]:
print("Analiza i decyzje dotyczące brakujących wartości:")
print("\n")

# Kolumny z brakującymi wartościami (NaN) z poprzedniej analizy: powierzchnia, rok_budowy
# Sprawdzamy również kolumny, które mogą zawierać braki w postaci stringów: parking, balkon, stan, cena_m2, cena_total

# Kolumna 'powierzchnia'
print("Kolumna 'powierzchnia':")
print(df_nieruchomosci['powierzchnia'].value_counts(dropna=False))
print("Typ danych: Oczekiwany numeryczny, obecny object.")
print("Braki NaN: ", df_nieruchomosci['powierzchnia'].isnull().sum())
print("Potencjalne braki stringowe: 'brak', 0")
print("Decyzja: Zmienna numeryczna. Wartości 'brak' i 0 powinny zostać zamienione na NaN. Braki (NaN) zostaną uzupełnione medianą ze względu na możliwe wartości odstające (np. 0).")
print("\n")

# Kolumna 'rok_budowy'
print("Kolumna 'rok_budowy':")
print(df_nieruchomosci['rok_budowy'].value_counts(dropna=False))
print("Typ danych: Oczekiwany numeryczny (całkowity), obecny object.")
print("Braki NaN: ", df_nieruchomosci['rok_budowy'].isnull().sum())
print("Potencjalne braki stringowe: Brak widocznych stringów poza NaN.")
print("Decyzja: Zmienna numeryczna (całkowita). Braki (NaN) zostaną uzupełnione medianą. Rok budowy to zmienna numeryczna i mediana jest mniej wrażliwa na wartości odstające niż średnia.")
print("\n")

# Kolumna 'parking'
print("Kolumna 'parking':")
print(df_nieruchomosci['parking'].value_counts(dropna=False))
print("Typ danych: Kategorialny.")
print("Braki NaN: ", df_nieruchomosci['parking'].isnull().sum())
print("Potencjalne braki stringowe: '?'")
print("Decyzja: Zmienna kategorialna. Wartość '?' powinna zostać zamieniona na NaN. Braki (NaN) zostaną uzupełnione dominantą (najczęściej występującą kategorią), ponieważ jest to zmienna nominalna.")
print("\n")

# Kolumna 'balkon'
print("Kolumna 'balkon':")
print(df_nieruchomosci['balkon'].value_counts(dropna=False))
print("Typ danych: Kategorialny.")
print("Braki NaN: ", df_nieruchomosci['balkon'].isnull().sum())
print("Potencjalne braki stringowe: '?'")
print("Decyzja: Zmienna kategorialna. Wartość '?' powinna zostać zamieniona na NaN. Braki (NaN) zostaną uzupełnione dominantą.")
print("\n")

# Kolumna 'stan'
print("Kolumna 'stan':")
print(df_nieruchomosci['stan'].value_counts(dropna=False))
print("Typ danych: Kategorialny.")
print("Braki NaN: ", df_nieruchomosci['stan'].isnull().sum())
print("Potencjalne braki stringowe: '很好'")
print("Decyzja: Zmienna kategorialna. Wartość '很好' jest błędem we wprowadzaniu danych i powinna zostać zamieniona na NaN. Braki (NaN) zostaną usunięte, ponieważ jest to niewielka liczba i trudno jest uzupełnić stan nieruchomości dominantą bez ryzyka zafałszowania danych.")
print("\n")

# Kolumna 'cena_m2'
print("Kolumna 'cena_m2':")
print(df_nieruchomosci['cena_m2'].value_counts(dropna=False))
print("Typ danych: Oczekiwany numeryczny, obecny int64 (sprawdzamy ukryte braki).")
print("Braki NaN: ", df_nieruchomosci['cena_m2'].isnull().sum())
print("Potencjalne braki numeryczne: -1, -999")
print("Decyzja: Zmienna numeryczna. Wartości -1 i -999 reprezentują braki i powinny zostać zamienione na NaN. Braki (NaN) zostaną uzupełnione medianą, aby zminimalizować wpływ ewentualnych wartości odstających.")
print("\n")

# Kolumna 'cena_total'
print("Kolumna 'cena_total':")
print(df_nieruchomosci['cena_total'].value_counts(dropna=False))
print("Typ danych: Numeryczny (int64).")
print("Braki NaN: ", df_nieruchomosci['cena_total'].isnull().sum())
print("Potencjalne braki numeryczne: Brak widocznych problematycznych wartości numerycznych.")
print("Decyzja: Zmienna numeryczna. Brak widocznych braków wymagających obsługi.")
print("\n")


Analiza i decyzje dotyczące brakujących wartości:


Kolumna 'powierzchnia':
powierzchnia
62.0    11
55.0     2
72.0     2
70.0     2
60.0     2
58.0     2
65.0     1
80.0     1
45.0     1
90.0     1
52.0     1
68.0     1
75.0     1
50.0     1
66.0     1
85.0     1
54.0     1
48.0     1
95.0     1
56.0     1
42.0     1
78.0     1
88.0     1
64.0     1
51.0     1
69.0     1
46.0     1
82.0     1
76.0     1
Name: count, dtype: int64
Typ danych: Oczekiwany numeryczny, obecny object.
Braki NaN:  0
Potencjalne braki stringowe: 'brak', 0
Decyzja: Zmienna numeryczna. Wartości 'brak' i 0 powinny zostać zamienione na NaN. Braki (NaN) zostaną uzupełnione medianą ze względu na możliwe wartości odstające (np. 0).


Kolumna 'rok_budowy':
rok_budowy
2011.5    6
2010.0    2
2018.0    2
2020.0    2
2015.0    2
2017.0    2
2019.0    2
2016.0    2
2014.0    2
2011.0    2
2013.0    2
2001.0    1
1998.0    1
2012.0    1
1995.0    1
2005.0    1
2008.0    1
1999.0    1
2003.0    1
2009.0    1
2021.0    1
199

## Implementacja wybranych rozwiązań




In [32]:
import numpy as np

# 1. Zastąp wartości "brak" i 0 w kolumnie powierzchnia na np.nan.
# 2. Przekonwertuj kolumnę powierzchnia na typ numeryczny, ignorując błędy konwersji.
df_nieruchomosci['powierzchnia'] = df_nieruchomosci['powierzchnia'].replace(['brak', 0], np.nan)
df_nieruchomosci['powierzchnia'] = pd.to_numeric(df_nieruchomosci['powierzchnia'], errors='coerce')

# 3. Uzupełnij brakujące wartości (NaN) w kolumnie powierzchnia medianą tej kolumny.
median_powierzchnia = df_nieruchomosci['powierzchnia'].median()
df_nieruchomosci['powierzchnia'] = df_nieruchomosci['powierzchnia'].fillna(median_powierzchnia)

# 4. Zastąp wartości "brak" w kolumnie rok_budowy na np.nan.
# 5. Przekonwertuj kolumnę rok_budowy na typ numeryczny (całkowity), ignorując błędy konwersji.
df_nieruchomosci['rok_budowy'] = df_nieruchomosci['rok_budowy'].replace('brak', np.nan)
df_nieruchomosci['rok_budowy'] = pd.to_numeric(df_nieruchomosci['rok_budowy'], errors='coerce')

# 6. Uzupełnij brakujące wartości (NaN) w kolumnie rok_budowy medianą tej kolumny.
median_rok_budowy = df_nieruchomosci['rok_budowy'].median()
df_nieruchomosci['rok_budowy'] = df_nieruchomosci['rok_budowy'].fillna(median_rok_budowy)

# 7. Zastąp wartości "?" w kolumnie parking na np.nan.
df_nieruchomosci['parking'] = df_nieruchomosci['parking'].replace('?', np.nan)

# 8. Uzupełnij brakujące wartości (NaN) w kolumnie parking dominantą tej kolumny.
mode_parking = df_nieruchomosci['parking'].mode()[0]
df_nieruchomosci['parking'] = df_nieruchomosci['parking'].fillna(mode_parking)

# 9. Zastąp wartości "?" w kolumnie balkon na np.nan.
df_nieruchomosci['balkon'] = df_nieruchomosci['balkon'].replace('?', np.nan)

# 10. Uzupełnij brakujące wartości (NaN) w kolumnie balkon dominantą tej kolumny.
mode_balkon = df_nieruchomosci['balkon'].mode()[0]
df_nieruchomosci['balkon'] = df_nieruchomosci['balkon'].fillna(mode_balkon)

# 11. Zastąp wartości "很好" w kolumnie stan na np.nan.
df_nieruchomosci['stan'] = df_nieruchomosci['stan'].replace('很好', np.nan)

# 12. Usuń wiersze zawierające brakujące wartości (NaN) w kolumnie stan.
df_nieruchomosci.dropna(subset=['stan'], inplace=True)

# 13. Zastąp wartości -1 i -999 w kolumnie cena_m2 na np.nan.
df_nieruchomosci['cena_m2'] = df_nieruchomosci['cena_m2'].replace([-1, -999], np.nan)

# 14. Uzupełnij brakujące wartości (NaN) w kolumnie cena_m2 medianą tej kolumny.
median_cena_m2 = df_nieruchomosci['cena_m2'].median()
df_nieruchomosci['cena_m2'] = df_nieruchomosci['cena_m2'].fillna(median_cena_m2)

# Sprawdzenie brakujących wartości po operacjach
print("Brakujące wartości po uzupełnieniu:")
print(df_nieruchomosci.isnull().sum())

Brakujące wartości po uzupełnieniu:
id               0
miasto           0
dzielnica        0
powierzchnia     0
liczba_pokoi     0
rok_budowy       0
pietro           0
liczba_pieter    0
parking          0
balkon           0
stan             0
cena_m2          0
cena_total       0
dtype: int64


**1. Jakie typy zmiennych masz w danych?**<br>
W analizowanym zbiorze danych występują zmienne numeryczne, takie jak powierzchnia, rok_budowy, cena_m2 i cena_total, oraz zmienne kategorialne, do których należą miasto, dzielnica, parking, balkon, stan, pietro i liczba_pieter. Identyfikacja typów zmiennych jest kluczowa do wyboru odpowiednich metod ich przetwarzania i analizy.

**2.Czy wszystkie braki powinny być obsłużone tak samo?**<br> Nie, brakujące wartości nie powinny być traktowane jednakowo we wszystkich kolumnach. Metoda postępowania zależy od typu zmiennej i specyfiki braków; na przykład, braki w zmiennych numerycznych często uzupełnia się medianą lub średnią, podczas gdy w zmiennych kategorialnych stosuje się dominantę lub usunięcie wierszy, jeśli braki są nieliczne.

**3. Jakie konsekwencje niesie każda metoda?**<br>
Każda metoda obsługi braków ma swoje konsekwencje. Usunięcie wierszy lub kolumn zmniejsza rozmiar zbioru danych, co może być problemem przy dużej liczbie braków, ale jest uzasadnione, gdy braki są nieliczne lub trudne do imputacji. Uzupełnianie danych (imputacja) pozwala zachować wszystkie obserwacje, ale może wprowadzić zniekształcenia do rozkładu zmiennej lub relacji między zmiennymi, jeśli metoda imputacji nie jest odpowiednia.

**4. Jak to wpływa na eksploracyjną analizę danych?**<br>
Sposób obsługi brakujących wartości ma znaczący wpływ na eksploracyjną analizę danych (EDA). Nieprawidłowe uzupełnienie braków może zafałszować statystyki opisowe, rozkłady zmiennych i wyniki wizualizacji, prowadząc do błędnych wniosków. Poprawne postępowanie z brakami jest niezbędne do rzetelnej analizy danych i odkrywania prawdziwych wzorców.