#### Jak filtrować ramki?

https://builtin.com/data-science/pandas-filter

Filtrowanie danych jest jednym z krytycznych kroków w efektywnej analizie danych. W bibliotece pandas wyróżniamy 8 podstawowywch metod filtrowania.

1. Operatory porównania (comparison operators)
2. Funckja `Isin`
3. str accessor
4. Operatory logiczne (logical operators)
5. Zapytanie (query)
6. nlargest and nsmallest
7. `loc` i `iloc`

In [None]:
import numpy as np
import pandas as pd

In [None]:
df = pd.DataFrame({
    'name': ['Jane', 'John', 'Ashley', 'Mike', 'Emily', 'Jack', 'Catlin'],
    'ctg': ['A', 'A', 'C', 'B', 'B', 'C', 'B'],
    'val': np.random.random(7).round(2),
    'val2': np.random.randint(1, 10, size=7)
})
df

### 1. Operatory porównania

In [None]:
df[ df.val > 0.5 ]

Jak to działa ?

#### Maskowanie

Ramki potrafią filtrować dane na podstawie wartości logicznych. Wyciągnijmy pierwsze dwa wiersze i przedostatni wiersz z ramki.

In [None]:
...

Taki zestaw wartości logicznych w kontekście filtrowania danych nazywamy **maską**.

In [None]:
...

Maska może być listą lub serią.

In [None]:
...

#### Warunki logiczne z serią

In [None]:
df.val

`df.val` to seria. Operator logiczny w działaniu na serie zwraca nową serię z wartościami logicznymi.

In [None]:
...

No ale przecież to jest gotowa maska. 

In [None]:
...

In [None]:
...

W ten sposób działa filtrowanie za pomocą operatorów logicznych.

### 2. Metoda `isin`

Metoda `isin` serii pozwala na sprawdzenie, czy wartość znajduje się we wskazanej kolekcji wartości.

In [None]:
names = ['John', 'Catlin', 'Mike']

In [None]:
...

Widzimy, że metoda zwraca serię, która idealnie nadaje się na maskę. Czyli:

In [None]:
...

### 3. str accessor

In [None]:
df.name.str?

In [None]:
type(df.name.str)

Klasa `StringMethods` posiada zestaw zwektoryzowanych metod do pracy z napisami.

In [None]:
print(dir(df.name.str))

Znamy te metody z podstawowej pracy na napisach w pythonie. Metody klasy `StringMethods` są ich zwektoryzowanymi odpowiednikami (czyt. działają na wszystkich elementach serii). Część z nich (te, które zwracają wartości logiczne) możemy wykorzystać do stworzenia maski.

In [None]:
...

In [None]:
...

In [None]:
...

### 4. Operatory logiczne

Standoardowo, w połączeniu z operatorami porównania możemy użyć operatorów logicznych w postaci sumy, iloczynu i różnicy logicznej. W bibliotece Pandas posługujemy się odpowiednio operatorami:
- `&` (and)
- `|` (or)
- `~` (not)

Składowe warunki należy umieścić w nawiasach, w przeciwnym razie instrukcja nie zadziała.

##### AND (Iloczyn)

In [None]:
...

In [None]:
...

##### OR (Suma)

In [None]:
...

In [None]:
...

##### NOT (Negacja)

In [None]:
...

In [None]:
...

### 5. Metoda `query` ramki

Ramka posiada metodę `query`, która udostępnia nam trochę inny interfejs do odpytywania o dane. Zapytanie (warunek) przekazujemy do metody jako napis.

In [None]:
...

In [None]:
...

Metoda zwraca wynikową ramkę.

Więcej o metodzie można przeczytać w dokumentacji.

In [None]:
df.query?

### 6. Metody `nlargest` i `nsmallest` 

Jeżeli chcemy wyciągnąć n największych lub najmniejszych wierszy z wybranej kolumny możemy użyć metod `nlargets` lub `nsmallest` serii (lub ramki).

In [None]:
...

In [None]:
...

In [None]:
...

Ale uwaga, te metody działa wyłącznie na typach numerycznych.

In [None]:
...

### Metody `loc` i `iloc`

Metody `loc` i `iloc` są używane filtrowania wierszy lub kolumn na podstawie indeksu lub pozycji.

- `loc` - metoda służąca do filtrowania wierszy lub kolumn na podstawie indeksu (etykiety)
- `iloc` - metoda służąca do filtrowania wierszy lub kolumn na podstawie indeksu (pozycji)

Na ten moment indeks naszej ramki ma wartość numeryczną i odpowiada pozycji wiersza w ramce. Zróbmy update indeksu, żeby widać było różnicę w stosowaniu metod `loc` i `iloc`.

In [None]:
df

In [None]:
...

##### `iloc` - wskazywanie po pozycji

In [None]:
# czwarty wiersz (indeks 3)
...

In [None]:
# wiersze od czwartego do szóstego (bez szóstego)
...

In [None]:
# wiersze od czwartego do szóstego, pierwsza kolumna
...

In [None]:
# wiersze od czwartego do szóstego, kolumna od pierwszej do trzeciej
...

In [None]:
# wierze od czwartego do szóstego, wszystkie kolumny
...

##### `loc` - wskazywanie po etykiecie

Zróbmy dokładnie to samo, ale tym razem wykorzystując etykiety w miejsce pozycji.

In [None]:
# wiersz o etycike 'd' (czwarty wiersz) 
...

In [None]:
# wiersze od 'd' do 'f' (od czwartego do szóstego) UWAGA! tutaj z 'f' podczas gdy przy 
# wykorzystaniu pozycji przedział jest prawostronnie otwarty.
...

In [None]:
# wiersze od 'd' do 'f' (od czwartego do szóstego), kolumna name (pierwsza kolumna)
...

In [None]:
# wiersze od 'd' do 'f', kolumna od name do val (od pierwszej do trzeciej)
# UWAGA! Tutaj znów, przy wskazywaniu etykiet przedział jest obustronnie domknięty.
...

In [None]:
# wiersze od 'd' do 'f', wszystkie kolumny
...