#### Jak filtrować ramki?

https://builtin.com/data-science/pandas-filter

Filtrowanie danych jest jednym z krytycznych kroków w efektywnej analizie danych. W bibliotece pandas wyróżniamy 8 podstawowywch metod filtrowania.

1. Operatory porównania (comparison operators)
2. Funckja `Isin`
3. str accessor
4. Operatory logiczne (logical operators)
5. Zapytanie (query)
6. nlargest and nsmallest
7. `loc` i `iloc`

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame({
    'name': ['Jane', 'John', 'Ashley', 'Mike', 'Emily', 'Jack', 'Catlin'],
    'ctg': ['A', 'A', 'C', 'B', 'B', 'C', 'B'],
    'val': np.random.random(7).round(2),
    'val2': np.random.randint(1, 10, size=7)
})
df

Unnamed: 0,name,ctg,val,val2
0,Jane,A,0.65,3
1,John,A,0.39,3
2,Ashley,C,0.42,9
3,Mike,B,0.7,5
4,Emily,B,0.15,6
5,Jack,C,0.92,4
6,Catlin,B,0.66,8


### 1. Operatory porównania

In [3]:
df[ df.val > 0.5 ]

Unnamed: 0,name,ctg,val,val2
0,Jane,A,0.65,3
3,Mike,B,0.7,5
5,Jack,C,0.92,4
6,Catlin,B,0.66,8


Jak to działa ?

#### Maskowanie

Ramki potrafią filtrować dane na podstawie wartości logicznych. Wyciągnijmy pierwsze dwa wiersze i przedostatni wiersz z ramki.

In [4]:
df.iloc[[0, 1, -1]]

Unnamed: 0,name,ctg,val,val2
0,Jane,A,0.65,3
1,John,A,0.39,3
6,Catlin,B,0.66,8


Taki zestaw wartości logicznych w kontekście filtrowania danych nazywamy **maską**.

In [5]:
mask = [True, True, False, False, False, False, True]
df[mask]

Unnamed: 0,name,ctg,val,val2
0,Jane,A,0.65,3
1,John,A,0.39,3
6,Catlin,B,0.66,8


Maska może być listą lub serią.

In [6]:
mask = pd.Series([True, True, False, False, False, False, True])
df[mask]

Unnamed: 0,name,ctg,val,val2
0,Jane,A,0.65,3
1,John,A,0.39,3
6,Catlin,B,0.66,8


#### Warunki logiczne z serią

In [7]:
df.val

0    0.65
1    0.39
2    0.42
3    0.70
4    0.15
5    0.92
6    0.66
Name: val, dtype: float64

`df.val` to seria. Operator logiczny w działaniu na serie zwraca nową serię z wartościami logicznymi.

In [8]:
df.val > 0.5

0     True
1    False
2    False
3     True
4    False
5     True
6     True
Name: val, dtype: bool

No ale przecież to jest gotowa maska. 

In [9]:
mask = df.val > 0.5
df[mask]

Unnamed: 0,name,ctg,val,val2
0,Jane,A,0.65,3
3,Mike,B,0.7,5
5,Jack,C,0.92,4
6,Catlin,B,0.66,8


In [10]:
df[df.val>=0.5]

Unnamed: 0,name,ctg,val,val2
0,Jane,A,0.65,3
3,Mike,B,0.7,5
5,Jack,C,0.92,4
6,Catlin,B,0.66,8


W ten sposób działa filtrowanie za pomocą operatorów logicznych.

### 2. Metoda `isin`

Metoda `isin` serii pozwala na sprawdzenie, czy wartość znajduje się we wskazanej kolekcji wartości.

In [11]:
names = ['John', 'Catlin', 'Mike']

In [12]:
df

Unnamed: 0,name,ctg,val,val2
0,Jane,A,0.65,3
1,John,A,0.39,3
2,Ashley,C,0.42,9
3,Mike,B,0.7,5
4,Emily,B,0.15,6
5,Jack,C,0.92,4
6,Catlin,B,0.66,8


In [13]:
df['name'].isin(names)

0    False
1     True
2    False
3     True
4    False
5    False
6     True
Name: name, dtype: bool

Widzimy, że metoda zwraca serię, która idealnie nadaje się na maskę. Czyli:

In [14]:
df[df['name'].isin(names)]

Unnamed: 0,name,ctg,val,val2
1,John,A,0.39,3
3,Mike,B,0.7,5
6,Catlin,B,0.66,8


### 3. str accessor

In [15]:
df.name.str?

[1;31mType:[0m        StringMethods
[1;31mString form:[0m <pandas.core.strings.accessor.StringMethods object at 0x0000022C80013850>
[1;31mFile:[0m        c:\programdata\anaconda3\lib\site-packages\pandas\core\strings\accessor.py
[1;31mDocstring:[0m  
Vectorized string functions for Series and Index.

NAs stay NA unless handled otherwise by a particular method.
Patterned after Python's string methods, with some inspiration from
R's stringr package.

Examples
--------
>>> s = pd.Series(["A_Str_Series"])
>>> s
0    A_Str_Series
dtype: object

>>> s.str.split("_")
0    [A, Str, Series]
dtype: object

>>> s.str.replace("_", "")
0    AStrSeries
dtype: object

In [16]:
type(df.name.str)

pandas.core.strings.accessor.StringMethods

Klasa `StringMethods` posiada zestaw zwektoryzowanych metod do pracy z napisami.

In [17]:
print(dir(df.name.str))

['__annotations__', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__frozen', '__ge__', '__getattribute__', '__getitem__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_data', '_doc_args', '_freeze', '_get_series_list', '_index', '_inferred_dtype', '_is_categorical', '_is_string', '_name', '_orig', '_parent', '_validate', '_wrap_result', 'capitalize', 'casefold', 'cat', 'center', 'contains', 'count', 'decode', 'encode', 'endswith', 'extract', 'extractall', 'find', 'findall', 'fullmatch', 'get', 'get_dummies', 'index', 'isalnum', 'isalpha', 'isdecimal', 'isdigit', 'islower', 'isnumeric', 'isspace', 'istitle', 'isupper', 'join', 'len', 'ljust', 'lower', 'lstrip', 'match', 'normalize', 'pad', 'partition', 'removeprefix', 'removesuffix', 'rep

Znamy te metody z podstawowej pracy na napisach w pythonie. Metody klasy `StringMethods` są ich zwektoryzowanymi odpowiednikami (czyt. działają na wszystkich elementach serii). Część z nich (te, które zwracają wartości logiczne) możemy wykorzystać do stworzenia maski.

In [18]:
df.name.str.contains('i')

0    False
1    False
2    False
3     True
4     True
5    False
6     True
Name: name, dtype: bool

In [19]:
...

Ellipsis

In [20]:
mask = df.name.str.contains("i")
df[mask]

Unnamed: 0,name,ctg,val,val2
3,Mike,B,0.7,5
4,Emily,B,0.15,6
6,Catlin,B,0.66,8


### 4. Operatory logiczne

Standoardowo, w połączeniu z operatorami porównania możemy użyć operatorów logicznych w postaci sumy, iloczynu i różnicy logicznej. W bibliotece Pandas posługujemy się odpowiednio operatorami:
- `&` (and)
- `|` (or)
- `~` (not)

Składowe warunki należy umieścić w nawiasach, w przeciwnym razie instrukcja nie zadziała.

##### AND (Iloczyn)

In [21]:
(df.val > 0.5) & (df.name > "B")

0     True
1    False
2    False
3     True
4    False
5     True
6     True
dtype: bool

In [22]:
df[(df.val > 0.5) & (df.name > "B")]

Unnamed: 0,name,ctg,val,val2
0,Jane,A,0.65,3
3,Mike,B,0.7,5
5,Jack,C,0.92,4
6,Catlin,B,0.66,8


##### OR (Suma)

In [23]:
(df.val > 0.5) | (df.name.str.startswith('J'))

0     True
1     True
2    False
3     True
4    False
5     True
6     True
dtype: bool

In [24]:
df[(df.val > 0.5) | (df.name.str.startswith('J'))]

Unnamed: 0,name,ctg,val,val2
0,Jane,A,0.65,3
1,John,A,0.39,3
3,Mike,B,0.7,5
5,Jack,C,0.92,4
6,Catlin,B,0.66,8


##### NOT (Negacja)

In [25]:
mask1 = (df.val > 0.5)
mask2 = (df.name.str.startswith('J'))
mask = ~(mask1 | mask2)
mask

0    False
1    False
2     True
3    False
4     True
5    False
6    False
dtype: bool

In [26]:
df[mask]

Unnamed: 0,name,ctg,val,val2
2,Ashley,C,0.42,9
4,Emily,B,0.15,6


### 5. Metoda `query` ramki

Ramka posiada metodę `query`, która udostępnia nam trochę inny interfejs do odpytywania o dane. Zapytanie (warunek) przekazujemy do metody jako napis.

In [27]:
df.query("val > 0.5 and name > 'B'")

Unnamed: 0,name,ctg,val,val2
0,Jane,A,0.65,3
3,Mike,B,0.7,5
5,Jack,C,0.92,4
6,Catlin,B,0.66,8


In [28]:
...

Ellipsis

Metoda zwraca wynikową ramkę.

Więcej o metodzie można przeczytać w dokumentacji.

In [29]:
df.query?

[1;31mSignature:[0m [0mdf[0m[1;33m.[0m[0mquery[0m[1;33m([0m[0mexpr[0m[1;33m:[0m [1;34m'str'[0m[1;33m,[0m [1;33m*[0m[1;33m,[0m [0minplace[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m [1;33m->[0m [1;34m'DataFrame | None'[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Query the columns of a DataFrame with a boolean expression.

Parameters
----------
expr : str
    The query string to evaluate.

    You can refer to variables
    in the environment by prefixing them with an '@' character like
    ``@a + b``.

    You can refer to column names that are not valid Python variable names
    by surrounding them in backticks. Thus, column names containing spaces
    or punctuations (besides underscores) or starting with digits must be
    surrounded by backticks. (For example, a column named "Area (cm^2)" would
    be referenced as ```Area (cm^2)```). Column names which are Python keywords
    (

### 6. Metody `nlargest` i `nsmallest` 

Jeżeli chcemy wyciągnąć n największych lub najmniejszych wierszy z wybranej kolumny możemy użyć metod `nlargets` lub `nsmallest` serii (lub ramki).

In [46]:
df.nlargest(3, 'val')

Unnamed: 0,name,ctg,val,val2
5,Jack,C,0.92,4
3,Mike,B,0.7,5
6,Catlin,B,0.66,8


In [47]:
df['val'].nlargest(3)

5    0.92
3    0.70
6    0.66
Name: val, dtype: float64

In [48]:
df.nsmallest(3, 'val')

Unnamed: 0,name,ctg,val,val2
4,Emily,B,0.15,6
1,John,A,0.39,3
2,Ashley,C,0.42,9


Ale uwaga, te metody działa wyłącznie na typach numerycznych.

In [60]:
df.nlargest(3, 'name')

TypeError: Column 'name' has dtype object, cannot use method 'nlargest' with this dtype

### Metody `loc` i `iloc`

Metody `loc` i `iloc` są używane filtrowania wierszy lub kolumn na podstawie indeksu lub pozycji.

- `loc` - metoda służąca do filtrowania wierszy lub kolumn na podstawie indeksu (etykiety)
- `iloc` - metoda służąca do filtrowania wierszy lub kolumn na podstawie indeksu (pozycji)

Na ten moment indeks naszej ramki ma wartość numeryczną i odpowiada pozycji wiersza w ramce. Zróbmy update indeksu, żeby widać było różnicę w stosowaniu metod `loc` i `iloc`.

In [34]:
df

Unnamed: 0,name,ctg,val,val2
0,Jane,A,0.65,3
1,John,A,0.39,3
2,Ashley,C,0.42,9
3,Mike,B,0.7,5
4,Emily,B,0.15,6
5,Jack,C,0.92,4
6,Catlin,B,0.66,8


In [49]:
df.index = ['a', 'b', 'c', 'd', 'e', 'f', 'g']
df

Unnamed: 0,name,ctg,val,val2
a,Jane,A,0.65,3
b,John,A,0.39,3
c,Ashley,C,0.42,9
d,Mike,B,0.7,5
e,Emily,B,0.15,6
f,Jack,C,0.92,4
g,Catlin,B,0.66,8


##### `iloc` - wskazywanie po pozycji

In [50]:
# czwarty wiersz (indeks 3)
df.iloc[3]

name    Mike
ctg        B
val      0.7
val2       5
Name: d, dtype: object

In [51]:
# wiersze od czwartego do szóstego (bez szóstego)
df.iloc[3:5]

Unnamed: 0,name,ctg,val,val2
d,Mike,B,0.7,5
e,Emily,B,0.15,6


In [52]:
# wiersze od czwartego do szóstego, pierwsza kolumna
df.iloc[4:7, 0]

e     Emily
f      Jack
g    Catlin
Name: name, dtype: object

In [53]:
# wiersze od czwartego do szóstego, kolumna od pierwszej do trzeciej
df.iloc[4:7, 0:3]

Unnamed: 0,name,ctg,val
e,Emily,B,0.15
f,Jack,C,0.92
g,Catlin,B,0.66


In [54]:
# wierze od czwartego do szóstego, wszystkie kolumny
df.iloc[4:7]

Unnamed: 0,name,ctg,val,val2
e,Emily,B,0.15,6
f,Jack,C,0.92,4
g,Catlin,B,0.66,8


##### `loc` - wskazywanie po etykiecie

Zróbmy dokładnie to samo, ale tym razem wykorzystując etykiety w miejsce pozycji.

In [55]:
# wiersz o etycike 'd' (czwarty wiersz) 
df.loc['d']

name    Mike
ctg        B
val      0.7
val2       5
Name: d, dtype: object

In [56]:
# wiersze od 'd' do 'f' (od czwartego do szóstego) UWAGA! tutaj z 'f' podczas gdy przy 
# wykorzystaniu pozycji przedział jest prawostronnie otwarty.
df.loc['d':'f']

Unnamed: 0,name,ctg,val,val2
d,Mike,B,0.7,5
e,Emily,B,0.15,6
f,Jack,C,0.92,4


In [57]:
# wiersze od 'd' do 'f' (od czwartego do szóstego), kolumna name (pierwsza kolumna)
df.loc['d':'f', 'name']

d     Mike
e    Emily
f     Jack
Name: name, dtype: object

In [58]:
# wiersze od 'd' do 'f', kolumna od name do val (od pierwszej do trzeciej)
# UWAGA! Tutaj znów, przy wskazywaniu etykiet przedział jest obustronnie domknięty.
df.loc['d':'f', 'name':'val']

Unnamed: 0,name,ctg,val
d,Mike,B,0.7
e,Emily,B,0.15
f,Jack,C,0.92


In [59]:
# wiersze od 'd' do 'f', wszystkie kolumny
df.loc['d':'f']

Unnamed: 0,name,ctg,val,val2
d,Mike,B,0.7,5
e,Emily,B,0.15,6
f,Jack,C,0.92,4
