In [84]:
import numpy as np
import pandas as pd


In [85]:
# wczytujemy nasz przykładowy zbiór danych jako ramkę danych

df = pd.read_csv('https://raw.githubusercontent.com/mateuszr/ml-course-1/main/datasets/dummy.csv')

In [86]:
# oto jak wygląda w całości

df

# zwrócmy uwagę, że NaN pojawia się także w kolumnie gdzie mamy wartości tekstowe

Unnamed: 0,A,B,C,D,E
0,1.0,2.0,3.0,4,First
1,,5.0,6.0,3,
2,1.0,,,2,
3,7.0,3.0,,1,First
4,1.0,3.0,2.0,2,Third
5,7.0,4.0,2.0,4,Forth


In [87]:
# możemy użyc funkcji "describe()" na takiej ramce danych aby poznać podstawowe
# statystyki o wartościach liczbowych. Rezultatem działania funkcji "describe()"
# jest również ramka danych. 
# Statystyki podane są wg kolumn, dla poszczególnych kolumn z osobna.
# Na uwagę zasługuje pierwszy wiersz "count", zliczający ile w danej kolumnie
# jest wartości niepustych (tj wartości które nie są NA/NaN/NULL)

df.describe()

Unnamed: 0,A,B,C,D
count,5.0,5.0,4.0,6.0
mean,3.4,3.4,3.25,2.666667
std,3.286335,1.140175,1.892969,1.21106
min,1.0,2.0,2.0,1.0
25%,1.0,3.0,2.0,2.0
50%,1.0,3.0,2.5,2.5
75%,7.0,4.0,3.75,3.75
max,7.0,5.0,6.0,4.0


In [88]:
# skoro jest to ramka danych, możemy wyświetlić tylko interesujący nas wiersz "count"

df.describe().loc["count"]

A    5.0
B    5.0
C    4.0
D    6.0
Name: count, dtype: float64

In [89]:
# inną metodą na wyświetlenie brakujących wartości jest funkcja "isna()"
# w tym wypadku funkcja zwróci wartość True tam, gdzie brakuje wartości.

df.isna()

Unnamed: 0,A,B,C,D,E
0,False,False,False,False,False
1,True,False,False,False,True
2,False,True,True,False,True
3,False,False,True,False,False
4,False,False,False,False,False
5,False,False,False,False,False


In [90]:
# taki wynik możemy zliczyć aby poznać statystyki brakujących danych.
# w tym wypadku zliczmay wszytskie brakujące dane wg kolumn
# przy pomocy funkcji agregującej "sum()"

df.isna().sum()

A    1
B    1
C    2
D    0
E    2
dtype: int64

In [91]:
# Funkcja "sum()" domyślnie zliczy wartości "True" wg. kolumn, 
# ale podając parametr "axis = 1" funckja policzy te wartości
# wg. wierszy.

df.isna().sum(axis = 1)

0    0
1    2
2    3
3    1
4    0
5    0
dtype: int64

In [92]:
# Czasami nie musimy zliczać brakujących wartości, tylko chcemy poznać
# kolumny/wiersze gdzie one występują (np. aby poźniej takie wiersze usunąć).
# Można użyc funkcji "any()", która zwróci wartość "True" tam, gdzie kolumna
# zawiera brakujące wartości.

df.isna().any()

A     True
B     True
C     True
D    False
E     True
dtype: bool

In [93]:
# ...i to samo co poprzednio, ale wg wierszy:

df.isna().any(axis = 1)

0    False
1     True
2     True
3     True
4    False
5    False
dtype: bool

In [94]:
# Czasami chcemy przejrzeć tylko te wiersze, gdzie brakuje danych:
# Możemy użyc poprzedniego wyrażenia jako "filtra", który 
# zaznaczy tylko te wiersze ramki danych, które posiadają brakujące dane
# (wyswietli te wiersze gdzie jest wartość "True")

df[df.isna().any(axis = 1)]

Unnamed: 0,A,B,C,D,E
1,,5.0,6.0,3,
2,1.0,,,2,
3,7.0,3.0,,1,First


In [95]:
# Moglibyśmy użyc podobnej konstrukcji, aby wybrać tylko "pełne" wiersze,
# tj. te, w których nie ma brakujących danych:

df[~ df.isna().any(axis = 1)]

Unnamed: 0,A,B,C,D,E
0,1.0,2.0,3.0,4,First
4,1.0,3.0,2.0,2,Third
5,7.0,4.0,2.0,4,Forth


In [96]:
# natomiast do filtrowania brakujących danych istnieje już gotowa funkcja, którą
# łatwiej zapamiętać: "dropna()"

df.dropna()

Unnamed: 0,A,B,C,D,E
0,1.0,2.0,3.0,4,First
4,1.0,3.0,2.0,2,Third
5,7.0,4.0,2.0,4,Forth


In [97]:
# Funkcja dropna() nie usunie wierszy z bieżącej ramki danych, lecz
# tworzy nową ramkę danych bez brakujących wartości, dlatego
# trzeba wynik przypisać do nowej zmiennej:

new_df = df.dropna()

new_df

Unnamed: 0,A,B,C,D,E
0,1.0,2.0,3.0,4,First
4,1.0,3.0,2.0,2,Third
5,7.0,4.0,2.0,4,Forth


In [98]:
# Funkcja "dropna()" działa wg wierszy, aby usunąć kolumny z brakującymi wierszami
# podajemy parametr axis = 'columns' (lub axis = 1)

df.dropna(axis = 'columns')

Unnamed: 0,D
0,4
1,3
2,2
3,1
4,2
5,4


In [99]:
# Jak uzupełnić brakujące dane?
# 
# Strategia 1

In [100]:
# Jak zamienić zmienne skategoryzowane na "1 z n"?

In [101]:
# wczytujemy przykładowy zbiór danych zawierający kolumnę z wartościami 
# skategoryzowanymi 

categoric = pd.read_csv('https://raw.githubusercontent.com/mateuszr/ml-course-1/main/datasets/dummy-2.csv')

In [102]:
categoric

Unnamed: 0,Id,Item,Price
0,1,New,Medium
1,2,Second-hand,Medium
2,3,New,Medium
3,4,New,High
4,5,Second-hand,Low
5,6,Second-hand,Low
6,7,New,Medium


In [103]:
# Aby stworzyć tzw. sztuczne zmienne ("dummy variables") i zakodować
# wartości skategoryzowane jako "1 z n" możemy użyć funkcji "get_dummies()"
# w nastepujący sposób, podając nazwę kolumny którą chcemy zamienić na "1 z n":

pd.get_dummies(categoric.Item)

Unnamed: 0,New,Second-hand
0,1,0
1,0,1
2,1,0
3,1,0
4,0,1
5,0,1
6,1,0


In [106]:
# funkcja ta tylko zwróci nam nową reprezentację, ale stara ramka danych będzie bez zmian.
# musimy zatem skleić nową reprezentację ze starą ramką danych a następnie usunąć
# kolumnę którż już przekonwertowaliśmy ("Item"). przy pomocy funkcji "drop()"

new_columns = pd.get_dummies(categoric.Item)
new_df = pd.concat([categoric, new_columns], axis='columns')
new_df = new_df.drop(['Item'], axis='columns')

In [107]:
new_df

Unnamed: 0,Id,Price,New,Second-hand
0,1,Medium,1,0
1,2,Medium,0,1
2,3,Medium,1,0
3,4,High,1,0
4,5,Low,0,1
5,6,Low,0,1
6,7,Medium,1,0


In [110]:
# Możemy też reprezentować wartości skategoryzowane uporządkowane jako liczby
# Wtedy najłatwiej użyć funkcji "replace()" aby po prostu zamienić wartości
# z tekstowych w liczbowe.
# Funkcja "replace()" może zamienić wartości "w miejscu", tj. zaktualizuje
# nam bieżącą ramkę danych z nowymi wartościami.

new_df['Price'].replace(['Low', 'Medium', 'High'], [0, 1, 2], inplace=True)


In [111]:
new_df

Unnamed: 0,Id,Price,New,Second-hand
0,1,1,1,0
1,2,1,0,1
2,3,1,1,0
3,4,2,1,0
4,5,0,0,1
5,6,0,0,1
6,7,1,1,0
