## Filtering with Boolean Masking

In [1]:
import pandas as pd

In [5]:
population = pd.read_csv("C:\\Users\\HOME\\Documents\\data_science\\ml_for_supply_chain_082024\\module2\\population.csv")
population.head()

Unnamed: 0,Country Name,Country Code,Year,Value
0,Aruba,ABW,1960,54608
1,Aruba,ABW,1961,55811
2,Aruba,ABW,1962,56682
3,Aruba,ABW,1963,57475
4,Aruba,ABW,1964,58178


Create a boolean mask - a list-like object of True/False values of the same length as the dataframe `population`.

In [7]:
population.Value > 100000

0        False
1        False
2        False
3        False
4        False
         ...  
16395     True
16396     True
16397     True
16398     True
16399     True
Name: Value, Length: 16400, dtype: bool

In [9]:
# фильтрация данных в DataFrame population с использованием ранее созданной маски mask.
mask = population.Value > 100000

## `.loc[row_label, column_label]`

* `row_label`: метка или список меток для выбора строк.
* `column_label`: метка или список меток для выбора столбцов.

Этот код создает булевую маску, которая содержит значения `True` и `False`.
Маска имеет ту же длину, что и столбец `Value` в `DataFrame population`.
Для каждой строки в `DataFrame`, если значение в столбце Value больше 100000, соответствующий элемент маски будет равен `True`, иначе — `False`.

В этом коде используется метод `.loc[]`, который позволяет выбирать строки и столбцы по меткам или логическим массивам. **Он позволяет выбирать данные на основе меток (!!! индексов строк и имен столбцов) и выполнять фильтрацию с использованием логических массивов (булевых масок).**

In [10]:
# Python treats Trues as 1s and Falses as 0s
mask.sum()

14585

In [11]:
population.loc[mask] # loc know to keep only rows corresponding to True

# Возвращает все строки, где значение в столбце 'ColumnName' соответствует True в маске

Unnamed: 0,Country Name,Country Code,Year,Value
50,Aruba,ABW,2010,100341
51,Aruba,ABW,2011,101288
52,Aruba,ABW,2012,102112
53,Aruba,ABW,2013,102880
54,Aruba,ABW,2014,103594
...,...,...,...,...
16395,Zimbabwe,ZWE,2017,14751101
16396,Zimbabwe,ZWE,2018,15052184
16397,Zimbabwe,ZWE,2019,15354608
16398,Zimbabwe,ZWE,2020,15669666


In [12]:
# Изменяет значение в строке с индексом 56 и в столбце 'Country Name' на 'Russia'.
population.loc[56, 'Country Name'] = 'Russia'

In [14]:
population.loc[56, 'Country Name']

'Russia'

In [15]:
population[mask]

Unnamed: 0,Country Name,Country Code,Year,Value
50,Aruba,ABW,2010,100341
51,Aruba,ABW,2011,101288
52,Aruba,ABW,2012,102112
53,Aruba,ABW,2013,102880
54,Aruba,ABW,2014,103594
...,...,...,...,...
16395,Zimbabwe,ZWE,2017,14751101
16396,Zimbabwe,ZWE,2018,15052184
16397,Zimbabwe,ZWE,2019,15354608
16398,Zimbabwe,ZWE,2020,15669666


In [18]:
# if we want a dataframe with one column instead
population.loc[mask, 'Value']

50         100341
51         101288
52         102112
53         102880
54         103594
           ...   
16395    14751101
16396    15052184
16397    15354608
16398    15669666
16399    15993524
Name: Value, Length: 14585, dtype: int64

In [20]:
# 3 ways to filter dataframe

# 1
population[population['Value'] > 1000]

Unnamed: 0,Country Name,Country Code,Year,Value
0,Aruba,ABW,1960,54608
1,Aruba,ABW,1961,55811
2,Aruba,ABW,1962,56682
3,Aruba,ABW,1963,57475
4,Aruba,ABW,1964,58178
...,...,...,...,...
16395,Zimbabwe,ZWE,2017,14751101
16396,Zimbabwe,ZWE,2018,15052184
16397,Zimbabwe,ZWE,2019,15354608
16398,Zimbabwe,ZWE,2020,15669666


In [21]:
# 2
mask = population.Value > 1000
population[mask]

Unnamed: 0,Country Name,Country Code,Year,Value
0,Aruba,ABW,1960,54608
1,Aruba,ABW,1961,55811
2,Aruba,ABW,1962,56682
3,Aruba,ABW,1963,57475
4,Aruba,ABW,1964,58178
...,...,...,...,...
16395,Zimbabwe,ZWE,2017,14751101
16396,Zimbabwe,ZWE,2018,15052184
16397,Zimbabwe,ZWE,2019,15354608
16398,Zimbabwe,ZWE,2020,15669666


In [22]:
# 3
mask = population.Value > 1000
population.loc[mask]

Unnamed: 0,Country Name,Country Code,Year,Value
0,Aruba,ABW,1960,54608
1,Aruba,ABW,1961,55811
2,Aruba,ABW,1962,56682
3,Aruba,ABW,1963,57475
4,Aruba,ABW,1964,58178
...,...,...,...,...
16395,Zimbabwe,ZWE,2017,14751101
16396,Zimbabwe,ZWE,2018,15052184
16397,Zimbabwe,ZWE,2019,15354608
16398,Zimbabwe,ZWE,2020,15669666


# Создание выборок

Параметр frac в методе .sample() используется для определения доли строк, которые нужно выбрать из DataFrame. Значение frac должно быть числом от 0 до 1, но оно может также превышать 1 в некоторых случаях. Вот как разные значения frac влияют на выборку:

Возможные значения параметра frac:
* frac=1:

Выбирает 100% строк из DataFrame, то есть все строки. При этом строки выбираются случайным образом и перемешиваются.

* frac < 1 (например, frac=0.5):

Выбирает определенную долю строк из DataFrame. Например, если frac=0.5, выбирается 50% строк случайным образом.
Это полезно для случайной выборки подмножества данных.

In [23]:
import pandas as pd

# Пример DataFrame
data = {
    'A': [1, 2, 3, 4, 5],
    'B': ['a', 'b', 'c', 'd', 'e']
}
df = pd.DataFrame(data)

# Выборка 50% строк
sample_50 = df.sample(frac=0.5)
print("50% выборка:\n", sample_50)

# Выборка всех строк с перемешиванием
sample_100 = df.sample(frac=1)
print("\n100% выборка с перемешиванием:\n", sample_100)

# Выборка строк в два раза больше (с повторением)
sample_200 = df.sample(frac=2, replace=True)
print("\n200% выборка (с повторением):\n", sample_200)

50% выборка:
    A  B
4  5  e
2  3  c

100% выборка с перемешиванием:
    A  B
0  1  a
3  4  d
4  5  e
1  2  b
2  3  c

200% выборка (с повторением):
    A  B
3  4  d
0  1  a
3  4  d
3  4  d
4  5  e
2  3  c
2  3  c
4  5  e
3  4  d
0  1  a


In [25]:
data

{'A': [1, 2, 3, 4, 5], 'B': ['a', 'b', 'c', 'd', 'e']}

In [None]:
# subtle point

population_shuffled = population.sample(frac = 1)

In [28]:
import numpy as np

temp_array = np.random.normal(50,3, 10000)
temp_array

array([49.76230138, 53.23593618, 52.73538908, ..., 48.56145263,
       49.95390795, 50.93480896])

In [None]:
# how to fill NAs

# sales['earnings'].fillna(method = 'ffill', inplace = True)