### Функции all и any

Когда требуется осуществить длинное логическое И/ИЛИ с целевой последовательностью булевых значений, используются функции all и any. Они работают с любыми итерируемыми объектами, а значит, их улобно использовать вкупе с генераторами.

Допустим, у студента-биолога два набора отрезков матричных РНК. Он хочет определить, во всех ли отрезках есь кодон метионина - триплет нуклеотидных остатков, который кодирует аминокислоту метионин.

In [1]:
methionine_code = "AUG"
A = ["GCAAUGGCA", "GCAGUAAAU", "CGAACCAGU"]
B = ["AUGGCAGCA", "GCAUGAAAU", "CGAACCAUG"]

In [2]:
all(methionine_code in gene for gene in A)

False

In [3]:
all(methionine_code in gene for gene in B)

True

А теперь его задача узнать, есть ли кодон метионина хоть в каком-нибудь отрезке из набора:

In [4]:
any(methionine_code in gene for gene in A)

True

In [5]:
any(methionine_code in gene for gene in B)

True

### NumPy и логические выражения

### Векторные и логические операции

Как вы уже знаете, операции с массивами NumPy векторные, то есть они выполняются сразу со асеми элементами массива. Это касается не только домножений на число и применений функций NumPy, но и логических операций:

In [6]:
import numpy as np
A = np.array([10, 53, 61, 23, 66, 12, 63, 63, 36, 77, 91, 82]).reshape(3, 4)
print(A)
print()
print(A > 50) # Проверяет каждое число в матрице

[[10 53 61 23]
 [66 12 63 63]
 [36 77 91 82]]

[[False  True  True False]
 [ True False  True  True]
 [False  True  True  True]]


In [7]:
B = A.copy()
print(B)
B[B > 50] *= 10
print(B)

[[10 53 61 23]
 [66 12 63 63]
 [36 77 91 82]]
[[ 10 530 610  23]
 [660  12 630 630]
 [ 36 770 910 820]]


In [8]:
B = A.copy()
B[B > 50] *= -1 # Домножит на минус 1.
print(B)

[[ 10 -53 -61  23]
 [-66  12 -63 -63]
 [ 36 -77 -91 -82]]


### Логические операции с логическими массивами NumPy

Раз массивы логических значений так удобны, стоит узнать как осуществлять с ними массовые, векторные логические операции. Создадим два логических массива для экспериментов:

In [9]:
A = np.array([False, False, True, True])
B = np.array([False, True, False,True])

Однако логические операции and, or и not с массивами NumPy не работают!

In [10]:
A and B

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

Зато работают &, |, ~: (AND, OR, NOT)

In [None]:
print(A)
print(B)

In [None]:
print(A & B)

In [None]:
print(A | B)

In [None]:
print(A)
print(~A)

### Редукция массивов NumPy методами any и all

Для редукции логического массива лучше пользоваться не стандартными all и any, а аналогичными методами массива:

In [None]:
logical_array = np.random.rand(4, 5) < 0.5

In [None]:
print(logical_array)

In [None]:
logical_array.any()

In [None]:
any(logical_array)

При этом в NumPy можно провести редукцию логического массива по конкретной оси!
Для этого в параметре метода укажем индекс оси:

In [None]:
logical_array.any(0)

In [None]:
logical_array.all(1)

In [None]:
logical_array[0]

In [None]:
logical_array[1]

## Основы работы с данными в Pandas

Pandas - популярная библиотека для работы с табличными данными различных типов. С её помощью загрузка файла в формате CSV или LSX становитя примитивной:

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv("zonnin.csv", sep=";")

Что за тип у объекта, который хранит считанные из файла данные?

In [3]:
type(data)

pandas.core.frame.DataFrame

DataFrame - основной тип библиотеки Pandas, и почти все операции над листом с данными будут осуществлятся через его методы.

Размеры лисста хранятся в аттрибуте shape:

In [4]:
data.shape

(19, 3)

### Знакомство с данными

После того, как вы открыли файл, нужно познакомится с данными. Для этого есть  несколько путей.

Посмтреть на несколько первых строк:

In [5]:
data

Unnamed: 0,nStxsESil2gjjAyDL,zgR0GfHKcloEJ,mrCncaaxdDtZXWoWfAtWlxE
0,rzVpnMZu4IzIybaeEuknQwyx43Cj,iX2D1dVE7BcLxXwrFMHGpN,t4qqzz6wkIC
1,nFBEMsHeFmRTAewnv3OtylqI43FQ,dfDq8FB5jbD1YBl,jFOLYeG9oEPpomuLVF4
2,dwZfgUChhiwiC03CQBmIpm4E9Tb3,uhECHfGB654NcGm6mcyuR1qqE3NG,eX5O5LKxqSLqu2xzmQ2h4YjTNdnD
3,nHHBPVbKPatybjOHiLmc2fU1Na7Gy,tL7xsXNtQ27QYSYH2QD,x2esb9EzPo0X
4,b9xIGBeYwb1sQYvZ7CQsCQLYM,qG7E6gM4qGaCys08ivb,k5scIsblduzFwkGjEPUM0
5,y0uBPcGjg4mToRNBwj7Zx,pxc9Kvazm9ZfcmZNfqamP9jTYmy,uBJ7a81Xh7tOzR
6,rUfIeiQTXoLkZI1MZL,geiHPbUKWoR2VtdS,abT5rF1J52VydjalTgSkLJo
7,pyr1vNvsALZE,u1Ko8bhCb9qg68UMAtsccw,e5wKPUztLp7304fYoMfbyvM
8,eetOKOIa1bntdci71m,gHDmLw78k49,fuNVDHFwvNPzZ0N52tm4Treoz1n
9,qEC1bQLzmww8DTXlUrxY1wlOgw3P,qZJ8PEsWBiBZM2zwe,x77xWxh3xbw55creBn


In [6]:
data.head(6) # Первые строки (по ум. 4)

Unnamed: 0,nStxsESil2gjjAyDL,zgR0GfHKcloEJ,mrCncaaxdDtZXWoWfAtWlxE
0,rzVpnMZu4IzIybaeEuknQwyx43Cj,iX2D1dVE7BcLxXwrFMHGpN,t4qqzz6wkIC
1,nFBEMsHeFmRTAewnv3OtylqI43FQ,dfDq8FB5jbD1YBl,jFOLYeG9oEPpomuLVF4
2,dwZfgUChhiwiC03CQBmIpm4E9Tb3,uhECHfGB654NcGm6mcyuR1qqE3NG,eX5O5LKxqSLqu2xzmQ2h4YjTNdnD
3,nHHBPVbKPatybjOHiLmc2fU1Na7Gy,tL7xsXNtQ27QYSYH2QD,x2esb9EzPo0X
4,b9xIGBeYwb1sQYvZ7CQsCQLYM,qG7E6gM4qGaCys08ivb,k5scIsblduzFwkGjEPUM0
5,y0uBPcGjg4mToRNBwj7Zx,pxc9Kvazm9ZfcmZNfqamP9jTYmy,uBJ7a81Xh7tOzR


In [7]:
data.tail() # Последние строки

Unnamed: 0,nStxsESil2gjjAyDL,zgR0GfHKcloEJ,mrCncaaxdDtZXWoWfAtWlxE
14,gecnQtNpey5iIDzKZlN7Vnay,idCoPFM5jcshWESgh9tWpdxp0,tu6aUnYdShFGuDCNWLJ9c8sx
15,wRjhPZ3O5k739Wt7224ozpm12lCP,inGef8W5O9g5jBIrRZ169Xfc,f9Meh2L9JlrPeB114EBrI29A3V6Tz
16,mk5Yc6nQPx5,aVzoSUd7O7BvNuHoRzSTfOKS,hR0gkDXJtbAw
17,bvUt0ZG8ft7n7XztlTy9em,csojAmGsMjOqHGGFtZ,jDarL9jI30wS0WkvJ1Bg
18,lcRKpGiTFJg6It8pHIt85,pLClVRLqfIxYhgka5OpVuxkbKEllw,lIne0MYKnnOb3tSXatUpO3Xxf


Узнать подробную информацию о названиях и типах данных в столбцах:

In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19 entries, 0 to 18
Data columns (total 3 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   nStxsESil2gjjAyDL        19 non-null     object
 1   zgR0GfHKcloEJ            19 non-null     object
 2   mrCncaaxdDtZXWoWfAtWlxE  19 non-null     object
dtypes: object(3)
memory usage: 588.0+ bytes


Основные статистические характеристики, описывающие распределение величин в числовых столбцах:

In [9]:
data.describe()

Unnamed: 0,nStxsESil2gjjAyDL,zgR0GfHKcloEJ,mrCncaaxdDtZXWoWfAtWlxE
count,19,19,19
unique,19,19,19
top,rzVpnMZu4IzIybaeEuknQwyx43Cj,iX2D1dVE7BcLxXwrFMHGpN,t4qqzz6wkIC
freq,1,1,1


### Серии данных в конкретном столбце

Для дальнейшей работы с данными нам понадобится список столбцов. Обратите внимание, что это не метод, а просто атрибут листа с данными, а значит columns не нужно вызывать с круглыми скобками:

In [10]:
data.columns

Index(['nStxsESil2gjjAyDL', 'zgR0GfHKcloEJ', 'mrCncaaxdDtZXWoWfAtWlxE'], dtype='object')

In [11]:
data = pd.read_csv("IndiaCovidCasesByStateUT.csv")

In [12]:
data.head()

Unnamed: 0,State/UTs,Total Cases,Active,Discharged,Deaths,Active Ratio,Discharge Ratio,Death Ratio
0,Maharashtra,817024113,1061,802157912,148556,0.00%,98.18%,1.82%
1,Kerala,69071283,10076,68341759,71946,0.01%,98.94%,1.04%
2,Karnataka,40887102,181,40483351,40357,0.00%,99.01%,0.99%
3,Tamil Nadu,36106313,32,35725475,38081,0.00%,98.95%,1.05%
4,Andhra Pradesh,2340674,1,23259411,14733,0%,99.37%,0.63%


In [13]:
data.describe()

Unnamed: 0,State/UTs,Total Cases,Active,Discharged,Deaths,Active Ratio,Discharge Ratio,Death Ratio
count,36,36,36,36,36,36,36,36
unique,36,36,19,36,36,6,32,32
top,Maharashtra,817024113,0,802157912,148556,0.00%,98.80%,1.20%
freq,1,1,13,1,1,16,2,2


In [14]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36 entries, 0 to 35
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   State/UTs        36 non-null     object
 1   Total Cases      36 non-null     object
 2   Active           36 non-null     object
 3   Discharged       36 non-null     object
 4   Deaths           36 non-null     object
 5   Active Ratio     36 non-null     object
 6   Discharge Ratio  36 non-null     object
 7   Death Ratio      36 non-null     object
dtypes: object(8)
memory usage: 2.4+ KB


In [15]:
data.columns

Index(['State/UTs', 'Total Cases', 'Active', 'Discharged', 'Deaths',
       'Active Ratio', 'Discharge Ratio', 'Death Ratio'],
      dtype='object')

Для того, чтобы получить один столбец из листа, нужно написать имя столбца в кавычках и квадратных скобках:

In [16]:
data['Active']

0       1061
1     1,0076
2        181
3         32
4          1
5        601
6       2353
7         51
8         65
9          1
10         4
11         0
12        23
13         0
14         3
15        81
16    1,2291
17         0
18         1
19         1
20         0
21         9
22        21
23         0
24         0
25         0
26       442
27         1
28         1
29         0
30        83
31         0
32         0
33         0
34         0
35         0
Name: Active, dtype: object

In [17]:
data.describe()

Unnamed: 0,State/UTs,Total Cases,Active,Discharged,Deaths,Active Ratio,Discharge Ratio,Death Ratio
count,36,36,36,36,36,36,36,36
unique,36,36,19,36,36,6,32,32
top,Maharashtra,817024113,0,802157912,148556,0.00%,98.80%,1.20%
freq,1,1,13,1,1,16,2,2


Тип данных у одного столбца с данными уже не DataFrame, а Series.

In [18]:
type(data.Deaths)

pandas.core.series.Series

Серию данных из столбца можно также получить, обратившись к нему по именичерез точку после имени листа с нанными:

In [19]:
data.Deaths

0     1,48,556
1        71946
2        40357
3        38081
4        14733
5        23707
6        21553
7        26665
8         9215
9         9736
10       11079
11       14190
12       10755
13       10786
14       12314
15        4111
16       19338
17        8035
18        4792
19        7768
20        5334
21        4241
22        4014
23         734
24        1981
25        2149
26         941
27        1185
28        1628
29         296
30         500
31         782
32         231
33           4
34          52
35         129
Name: Deaths, dtype: object

### Фильтрация Pandas DataFrame по логическому условию

In [20]:
data.head()

Unnamed: 0,State/UTs,Total Cases,Active,Discharged,Deaths,Active Ratio,Discharge Ratio,Death Ratio
0,Maharashtra,817024113,1061,802157912,148556,0.00%,98.18%,1.82%
1,Kerala,69071283,10076,68341759,71946,0.01%,98.94%,1.04%
2,Karnataka,40887102,181,40483351,40357,0.00%,99.01%,0.99%
3,Tamil Nadu,36106313,32,35725475,38081,0.00%,98.95%,1.05%
4,Andhra Pradesh,2340674,1,23259411,14733,0%,99.37%,0.63%


In [21]:
data['Deaths'] = pd.to_numeric(data['Deaths'], errors='coerce')

In [22]:
data['Deaths'].std()

14866.50409833739

In [23]:
# (data['Deaths'] > 4000) & (data['Deaths'] < 7000)

In [24]:
query_1 = pd.to_numeric(data['Death Ratio'].str.rstrip('%')) < 1
query_2 = (data['Deaths'] > 4000) & (data['Deaths'] < 7000)
data[query_1 & query_2]

Unnamed: 0,State/UTs,Total Cases,Active,Discharged,Deaths,Active Ratio,Discharge Ratio,Death Ratio
15,Telengana,8443951,81,840276,4111.0,0.00%,99.51%,0.49%
18,Jammu and Kashmir,482022,1,4772301,4792.0,0%,99.01%,0.99%


In [25]:
data.head(10)

Unnamed: 0,State/UTs,Total Cases,Active,Discharged,Deaths,Active Ratio,Discharge Ratio,Death Ratio
0,Maharashtra,817024113,1061,802157912,,0.00%,98.18%,1.82%
1,Kerala,69071283,10076,68341759,71946.0,0.01%,98.94%,1.04%
2,Karnataka,40887102,181,40483351,40357.0,0.00%,99.01%,0.99%
3,Tamil Nadu,36106313,32,35725475,38081.0,0.00%,98.95%,1.05%
4,Andhra Pradesh,2340674,1,23259411,14733.0,0%,99.37%,0.63%
5,Uttar Pradesh,21454151,601,2121648,23707.0,0.00%,98.89%,1.11%
6,West Bengal,212586513,2353,210407716,21553.0,0.01%,98.98%,1.01%
7,Delhi,20408262,51,20141561,26665.0,0.00%,98.69%,1.31%
8,Odisha,13483801,65,13391001,9215.0,0.00%,99.31%,0.68%
9,Rajasthan,1326462,1,1316725,9736.0,0.00%,99.27%,0.73%


In [26]:
query_1 = pd.to_numeric(data['Death Ratio'].str.rstrip('%')) < 1
query_2 = (data['Deaths'] > 4000) & (data['Deaths'] < 7000)
data[query_1 & query_2]

Unnamed: 0,State/UTs,Total Cases,Active,Discharged,Deaths,Active Ratio,Discharge Ratio,Death Ratio
15,Telengana,8443951,81,840276,4111.0,0.00%,99.51%,0.49%
18,Jammu and Kashmir,482022,1,4772301,4792.0,0%,99.01%,0.99%


Чтобы делать, если мы хотим применить оба условия - потребовать их одновременной истинности? Как и массивам NumPy, операции and, or, not к листам с данными неприменимы.

Нужно пользоваться операторами &, |, ~, которые приводят к массовым операциям. Единственное, что нужно учесть, что приоритет этх операций выше, чем у обычных логических, а значит атомарные высказывания нужно окружать скобками:

In [27]:
query_1 = pd.to_numeric(data['Death Ratio'].str.rstrip('%')) < 1
query_2 = (data['Deaths'] > 4000) & (data['Deaths'] < 7000)
data[query_1 & query_2]

Unnamed: 0,State/UTs,Total Cases,Active,Discharged,Deaths,Active Ratio,Discharge Ratio,Death Ratio
15,Telengana,8443951,81,840276,4111.0,0.00%,99.51%,0.49%
18,Jammu and Kashmir,482022,1,4772301,4792.0,0%,99.01%,0.99%


### Фильирация при помощи метода query

Выбр нужных строк листа при помощи массива логических значений, получаемых из этого листа, неплох. Но если наименование листа длинное, то записывать его в строке несколько раз кажется затруднительным. Кроме того, необходимость
заменять операции может дополнительно затруднить восприятие.

Можно формулировать запрос отбора нужных строк намного проще - через метод query:

In [41]:
data[pd.to_numeric(data['Discharged'].str.replace(',', '')) > 21000000]

Unnamed: 0,State/UTs,Total Cases,Active,Discharged,Deaths,Active Ratio,Discharge Ratio,Death Ratio
0,Maharashtra,817024113,1061,802157912,,0.00%,98.18%,1.82%
1,Kerala,69071283,10076,68341759,71946.0,0.01%,98.94%,1.04%
2,Karnataka,40887102,181,40483351,40357.0,0.00%,99.01%,0.99%
3,Tamil Nadu,36106313,32,35725475,38081.0,0.00%,98.95%,1.05%
4,Andhra Pradesh,2340674,1,23259411,14733.0,0%,99.37%,0.63%
6,West Bengal,212586513,2353,210407716,21553.0,0.01%,98.98%,1.01%


При помощи query легко формулировать сложные условия отбора.

In [42]:
data.head()

Unnamed: 0,State/UTs,Total Cases,Active,Discharged,Deaths,Active Ratio,Discharge Ratio,Death Ratio
0,Maharashtra,817024113,1061,802157912,,0.00%,98.18%,1.82%
1,Kerala,69071283,10076,68341759,71946.0,0.01%,98.94%,1.04%
2,Karnataka,40887102,181,40483351,40357.0,0.00%,99.01%,0.99%
3,Tamil Nadu,36106313,32,35725475,38081.0,0.00%,98.95%,1.05%
4,Andhra Pradesh,2340674,1,23259411,14733.0,0%,99.37%,0.63%


In [43]:
data['Total Cases'] = pd.to_numeric(data['Total Cases'].str.replace(',', ''))

In [44]:
data.describe()

Unnamed: 0,Total Cases,Deaths
count,36.0,35.0
mean,35113170.0,10953.2
std,139109200.0,14866.504098
min,10766.0,4.0
25%,168166.5,1063.0
50%,955806.5,5334.0
75%,8063266.0,13252.0
max,817024100.0,71946.0


In [None]:
data.drop('')