<a href="https://colab.research.google.com/github/HyVeel/eksploracja-danych/blob/main/zaj5/brakujace_wartosci.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [334]:
import pandas as pd
import numpy as np

# **Brakujące wartości**

**Brakujące wartości** to rekordy, które są nieobecne w zestawie danych.

**Przyczyny występowania**:
* Błąd człowieka podczas wprowadzania danych​
* Ochrona prywatności (dane wrażliwe)
* Brak odpowiedzi w ankietach
* Problemy techniczne przy zbieraniu danych

Jest to jeden z **najczęściej występujących problemów** w analizie danych i kluczowy etap wstępnego przetwarzania (data preprocessing).

In [335]:
# Definicja DataFrame
df_student = pd.DataFrame({
    'imie': ['Anna', 'Piotr', 'Maria', 'Jan', 'Katarzyna', 'Tomasz', 'Magdalena', 'Paweł', 'Ewa', 'Michał'],
    'wiek': [20, 22, 21, np.nan, 23, 20, 22, np.nan, 21, 23],
    'ocena_matematyka': [4.5, np.nan, 5.0, 4.0, 3.5, 4.5, 5.0, 3.5, np.nan, 4.0],
    'ocena_fizyka': [5.0, 4.5, np.nan, 4.0, 4.5, np.nan, 5.0, 4.0, 4.5, np.nan],
    'ocena_informatyka': [4.0, 3.5, 4.5, np.nan, 5.0, 3.5, 4.5, 4.0, np.nan, 4.5],
    'miasto': ['Warszawa', 'Kraków', 'Wrocław', 'Poznań', 'Gdańsk', np.nan, 'Warszawa', 'Kraków', 'Wrocław', 'Poznań']
})

In [336]:
# 1. Sprawdzenie czy są brakujące wartości
print("1. Sprawdzenie brakujących wartości (True = brak):")
print(df_student.isnull())
# lub: df.isna()
print("\n" + "="*60 + "\n")

1. Sprawdzenie brakujących wartości (True = brak):
    imie   wiek  ocena_matematyka  ocena_fizyka  ocena_informatyka  miasto
0  False  False             False         False              False   False
1  False  False              True         False              False   False
2  False  False             False          True              False   False
3  False   True             False         False               True   False
4  False  False             False         False              False   False
5  False  False             False          True              False    True
6  False  False             False         False              False   False
7  False   True             False         False              False   False
8  False  False              True         False               True   False
9  False  False             False          True              False   False




In [337]:
# 2. Liczba brakujących wartości w każdej kolumnie
print("2. Liczba brakujących wartości w każdej kolumnie:")
print(df_student.isna().sum())
print("\n" + "="*60 + "\n")

2. Liczba brakujących wartości w każdej kolumnie:
imie                 0
wiek                 2
ocena_matematyka     2
ocena_fizyka         3
ocena_informatyka    2
miasto               1
dtype: int64




In [338]:
# 3. Procent brakujących wartości
print("3. Procent brakujących wartości w każdej kolumnie:")
print((df_student.isnull().sum() / len(df_student)) * 100)
print("\n" + "="*60 + "\n")

3. Procent brakujących wartości w każdej kolumnie:
imie                  0.0
wiek                 20.0
ocena_matematyka     20.0
ocena_fizyka         30.0
ocena_informatyka    20.0
miasto               10.0
dtype: float64




In [339]:
# 4. Całkowita liczba brakujących wartości
print("4. Całkowita liczba brakujących wartości w całym DataFrame:")
print(df_student.isnull().sum().sum())

4. Całkowita liczba brakujących wartości w całym DataFrame:
10


## **Rozwiązanie kwestii brakujących danych**

* **Usuwanie rekordów** zawierających brakujące wartości.
* **Ręczne uzupełnianie** brakujących wartości.
* Uzupełnianie **brakujących wartości wskaźnikami** tendencji centralnej, np.: średnią, medianą czy dominantą.
  * **Średniej** używamy w przypadku cech numerycznych,
  * **mediany** w cechach porządkowych,
  * **dominantę** (czyli najczęściej powtarzającą się wartość) umieszczamy w cechach kategorialnych.

Uzupełnianie **najbardziej prawdopodobną wartością** przy użyciu modeli uczenia maszynowego, takich jak regresja, drzewa decyzyjne czy algorytm KNN.

## **Czym jest NaN i dlaczego jest wyjątkowy?**

**NaN** (Not a Number) – specjalna wartość reprezentująca brakujące dane.

Dane mogą zawierać różne oznaczenia braków:
* Tekstowe: "NA", "N/A", "brak", "?", "-"

* Numeryczne: 0, -999, -1​

* Inne: puste stringi ""


In [340]:
np.nan == np.nan

False

In [341]:
np.nan is np.nan

True

 Dlatego używamy specjalnych funkcji:

In [342]:
pd.isna(np.nan)

True

In [343]:
pd.isnull(np.nan)

True

In [344]:
df = pd.DataFrame({
    'A': [1, np.nan, 3],# ✓ NaN - brakująca wartość ​
    'B': [4, None, 6],  # ✓ None - też brakująca ​
    'C': [7, 0, 9],     # ✗ 0 - NIE jest brakująca! ​
    'D': ['x', '', 'z'] # ✗ '' - NIE jest brakująca! ​
})

In [345]:
df.isnull().sum()

Unnamed: 0,0
A,1
B,1
C,0
D,0


## **Usuwanie brakujących wartości**

Usuń wiersze z DOWOLNĄ brakującą wartością (domyślnie) ​

```
df.dropna()
df.dropna(how='any')
```

Usuń wiersze tylko gdy WSZYSTKIE wartości są brakujące df.dropna(how='all')
```
df.dropna(how="all")
```

Usuń kolumny z brakującymi wartościami
```
df.dropna(axis=1)
```

## **Uzupełnienie średnią lub modą​**

W pandas *dataFrame* możemy uzupełnić brakujące wartości za pomocą funkcji `fillna()`.
* Przyjmuje ona jedną wartość, która będzie wstawiana w pustych pozycjach lub zamiast wartości NaN.

Uzupełnia wszystkie brakujące wartości w kolumnie age średnią obliczoną z tejże kolumny

```data['age'] = data.age.fillna(data.age.mean())​```

Uzupełnia wszystkie brakujące wartości w kolumnie income medianą obliczoną z tejże kolumny

```data['income']=data.income.fillna(data.income.median())```

Zastępuje wszystkie brakujące wartości w kolumnie gender (kolumna kategorii) dominantą wyliczoną z tejże kolumny​

```data['gender']=data['gender'].fillna(data['gender'].mode()[0])​```


In [346]:
df_student

Unnamed: 0,imie,wiek,ocena_matematyka,ocena_fizyka,ocena_informatyka,miasto
0,Anna,20.0,4.5,5.0,4.0,Warszawa
1,Piotr,22.0,,4.5,3.5,Kraków
2,Maria,21.0,5.0,,4.5,Wrocław
3,Jan,,4.0,4.0,,Poznań
4,Katarzyna,23.0,3.5,4.5,5.0,Gdańsk
5,Tomasz,20.0,4.5,,3.5,
6,Magdalena,22.0,5.0,5.0,4.5,Warszawa
7,Paweł,,3.5,4.0,4.0,Kraków
8,Ewa,21.0,,4.5,,Wrocław
9,Michał,23.0,4.0,,4.5,Poznań


In [347]:
df_student["wiek"] = df_student.wiek.fillna(df_student.wiek.mean())
df_student

Unnamed: 0,imie,wiek,ocena_matematyka,ocena_fizyka,ocena_informatyka,miasto
0,Anna,20.0,4.5,5.0,4.0,Warszawa
1,Piotr,22.0,,4.5,3.5,Kraków
2,Maria,21.0,5.0,,4.5,Wrocław
3,Jan,21.5,4.0,4.0,,Poznań
4,Katarzyna,23.0,3.5,4.5,5.0,Gdańsk
5,Tomasz,20.0,4.5,,3.5,
6,Magdalena,22.0,5.0,5.0,4.5,Warszawa
7,Paweł,21.5,3.5,4.0,4.0,Kraków
8,Ewa,21.0,,4.5,,Wrocław
9,Michał,23.0,4.0,,4.5,Poznań


In [348]:
df_student["ocena_matematyka"] = df_student["ocena_matematyka"].fillna(df_student.ocena_matematyka.mean()) # można odwoływać się do kolumn na 2 sposoby
df_student

Unnamed: 0,imie,wiek,ocena_matematyka,ocena_fizyka,ocena_informatyka,miasto
0,Anna,20.0,4.5,5.0,4.0,Warszawa
1,Piotr,22.0,4.25,4.5,3.5,Kraków
2,Maria,21.0,5.0,,4.5,Wrocław
3,Jan,21.5,4.0,4.0,,Poznań
4,Katarzyna,23.0,3.5,4.5,5.0,Gdańsk
5,Tomasz,20.0,4.5,,3.5,
6,Magdalena,22.0,5.0,5.0,4.5,Warszawa
7,Paweł,21.5,3.5,4.0,4.0,Kraków
8,Ewa,21.0,4.25,4.5,,Wrocław
9,Michał,23.0,4.0,,4.5,Poznań


In [349]:
df_student["miasto"] = df_student.miasto.fillna(df_student.miasto.mode()[0])
df_student

Unnamed: 0,imie,wiek,ocena_matematyka,ocena_fizyka,ocena_informatyka,miasto
0,Anna,20.0,4.5,5.0,4.0,Warszawa
1,Piotr,22.0,4.25,4.5,3.5,Kraków
2,Maria,21.0,5.0,,4.5,Wrocław
3,Jan,21.5,4.0,4.0,,Poznań
4,Katarzyna,23.0,3.5,4.5,5.0,Gdańsk
5,Tomasz,20.0,4.5,,3.5,Kraków
6,Magdalena,22.0,5.0,5.0,4.5,Warszawa
7,Paweł,21.5,3.5,4.0,4.0,Kraków
8,Ewa,21.0,4.25,4.5,,Wrocław
9,Michał,23.0,4.0,,4.5,Poznań


## **Obsługa brakujących danych jako stringi**

**Problem**
* Dane często zawierają braki zapisane jako tekst: **"NA", "N/A", "brak", "?", "-", "brak danych"**

* Pandas **nie rozpoznaje** ich automatycznie jako brakujące wartości!


### **Rozwiązanie 1: Wczytywanie z pliku CSV**

```
import pandas as pd

# Definiujemy listę wartości oznaczających brak
braki = ['NA', 'N/A', 'brak', 'brak danych', '?', '-', '']

# Wczytujemy plik z parametrem na_values
df = pd.read_csv('dane.csv', na_values=braki)
```

### **Rozwiązanie 2: Zamiana po wczytaniu**

```
# Zamieniamy wybrane stringi na NaN
df.replace(['NA', 'N/A', 'brak', 'brak danych', '?', '-'], np.nan, inplace=True)

# LUB dla konkretnej kolumny
df['kolumna'] = df['kolumna'].replace('brak', np.nan)
```



# **Zadanie**:

**Dane**: Plik *nieruchomosci.csv* - 45 ofert sprzedaży mieszkań

**Polecenie**

* Wczytaj dane i przeanalizuj problem brakujących wartości

* Zdecyduj, jak poradzić sobie z brakami w poszczególnych kolumnach

* Uzasadnij swoje wybory i zaimplementuj rozwiązanie

**Do przemyślenia**

* Jakie typy zmiennych masz w danych?
* Czy wszystkie braki powinny być obsłużone tak samo?
* Jakie konsekwencje niesie każda metoda?
* Jak to wpływa na eksploracyjną analizę danych?


In [350]:
df = pd.read_csv("nieruchomosci.csv")
df

Unnamed: 0,id,miasto,dzielnica,powierzchnia,liczba_pokoi,rok_budowy,pietro,liczba_pieter,parking,balkon,stan,cena_m2,cena_total
0,1,Warszawa,Mokotów,65,3,2015,4,10,Tak,Tak,Dobry,12500,812500
1,2,Kraków,Krowodrza,48,2,,2,5,Nie,Tak,很好,10200,489600
2,3,Wrocław,Krzyki,72,3,2010,brak,4,Tak,Nie,Dobry,9800,705600
3,4,Poznań,Grunwald,55,2,2018,3,8,Tak,Tak,Bardzo dobry,11000,605000
4,5,Gdańsk,Wrzeszcz,80,4,1998,1,3,?,Tak,Do remontu,8500,680000
5,6,Warszawa,Śródmieście,,2,2020,7,12,Tak,Tak,Bardzo dobry,15000,1200000
6,7,Kraków,Podgórze,60,3,2005,0,6,Tak,Nie,Dobry,9500,570000
7,8,Wrocław,Stare Miasto,45,1,2019,5,9,Nie,Tak,Bardzo dobry,11500,517500
8,9,Poznań,Jeżyce,70,3,brak,2,4,Tak,Tak,Dobry,10500,735000
9,10,Gdańsk,Oliwa,90,4,2001,1,2,Tak,Tak,Dobry,9000,810000


In [351]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45 entries, 0 to 44
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   id             45 non-null     int64 
 1   miasto         45 non-null     object
 2   dzielnica      45 non-null     object
 3   powierzchnia   41 non-null     object
 4   liczba_pokoi   45 non-null     int64 
 5   rok_budowy     41 non-null     object
 6   pietro         45 non-null     object
 7   liczba_pieter  45 non-null     int64 
 8   parking        45 non-null     object
 9   balkon         45 non-null     object
 10  stan           45 non-null     object
 11  cena_m2        45 non-null     int64 
 12  cena_total     45 non-null     int64 
dtypes: int64(5), object(8)
memory usage: 4.7+ KB
None


In [352]:
braki_str = ['brak', 'NaN', 'nan', 'NA', 'N/A', '?', '很好', '0', '-1', '-999']
df.replace(braki_str, np.nan, inplace=True)

df['powierzchnia'] = pd.to_numeric(df['powierzchnia'], errors='coerce') # coerce -
df['rok_budowy'] = pd.to_numeric(df['rok_budowy'], errors='coerce')
df['pietro'] = pd.to_numeric(df['pietro'], errors='coerce')

numeric_placeholder_na = [-1, -999]
df['cena_m2'] = df['cena_m2'].replace(numeric_placeholder_na, np.nan)
df

Unnamed: 0,id,miasto,dzielnica,powierzchnia,liczba_pokoi,rok_budowy,pietro,liczba_pieter,parking,balkon,stan,cena_m2,cena_total
0,1,Warszawa,Mokotów,65.0,3,2015.0,4.0,10,Tak,Tak,Dobry,12500.0,812500
1,2,Kraków,Krowodrza,48.0,2,,2.0,5,Nie,Tak,,10200.0,489600
2,3,Wrocław,Krzyki,72.0,3,2010.0,,4,Tak,Nie,Dobry,9800.0,705600
3,4,Poznań,Grunwald,55.0,2,2018.0,3.0,8,Tak,Tak,Bardzo dobry,11000.0,605000
4,5,Gdańsk,Wrzeszcz,80.0,4,1998.0,1.0,3,,Tak,Do remontu,8500.0,680000
5,6,Warszawa,Śródmieście,,2,2020.0,7.0,12,Tak,Tak,Bardzo dobry,15000.0,1200000
6,7,Kraków,Podgórze,60.0,3,2005.0,,6,Tak,Nie,Dobry,9500.0,570000
7,8,Wrocław,Stare Miasto,45.0,1,2019.0,5.0,9,Nie,Tak,Bardzo dobry,11500.0,517500
8,9,Poznań,Jeżyce,70.0,3,,2.0,4,Tak,Tak,Dobry,10500.0,735000
9,10,Gdańsk,Oliwa,90.0,4,2001.0,1.0,2,Tak,Tak,Dobry,9000.0,810000


In [353]:
print("NaN:")
print(df.isna().sum())

NaN:
id               0
miasto           0
dzielnica        0
powierzchnia     9
liczba_pokoi     0
rok_budowy       7
pietro           6
liczba_pieter    0
parking          5
balkon           3
stan             1
cena_m2          2
cena_total       0
dtype: int64


In [354]:
df.powierzchnia = df.powierzchnia.fillna(df.powierzchnia.median())
df.rok_budowy = df.rok_budowy.fillna(df.rok_budowy.median())
df.pietro = df.pietro.fillna(df.pietro.median())
df.parking = df.parking.fillna(df.parking.mode()[0])
df.balkon = df.balkon.fillna(df.balkon.mode()[0])
df.stan = df.stan.fillna(df.stan.mode()[0])
df.cena_m2 = df.cena_m2.fillna(df.cena_m2.mean())
df

Unnamed: 0,id,miasto,dzielnica,powierzchnia,liczba_pokoi,rok_budowy,pietro,liczba_pieter,parking,balkon,stan,cena_m2,cena_total
0,1,Warszawa,Mokotów,65.0,3,2015.0,4.0,10,Tak,Tak,Dobry,12500.0,812500
1,2,Kraków,Krowodrza,48.0,2,2011.5,2.0,5,Nie,Tak,Dobry,10200.0,489600
2,3,Wrocław,Krzyki,72.0,3,2010.0,3.0,4,Tak,Nie,Dobry,9800.0,705600
3,4,Poznań,Grunwald,55.0,2,2018.0,3.0,8,Tak,Tak,Bardzo dobry,11000.0,605000
4,5,Gdańsk,Wrzeszcz,80.0,4,1998.0,1.0,3,Tak,Tak,Do remontu,8500.0,680000
5,6,Warszawa,Śródmieście,63.0,2,2020.0,7.0,12,Tak,Tak,Bardzo dobry,15000.0,1200000
6,7,Kraków,Podgórze,60.0,3,2005.0,3.0,6,Tak,Nie,Dobry,9500.0,570000
7,8,Wrocław,Stare Miasto,45.0,1,2019.0,5.0,9,Nie,Tak,Bardzo dobry,11500.0,517500
8,9,Poznań,Jeżyce,70.0,3,2011.5,2.0,4,Tak,Tak,Dobry,10500.0,735000
9,10,Gdańsk,Oliwa,90.0,4,2001.0,1.0,2,Tak,Tak,Dobry,9000.0,810000
