# Основы анализа данных в Python

*Алла Тамбовцева*

## Практикум 2. Датафреймы `pandas`: часть 1

Импортируем библиотеку `pandas` с сокращённым названием:

In [1]:
import pandas as pd

В этом практикуме предлагается поработать с данными из файла `beasts.csv`, который содержит характеристики фантастических существ. Переменные в таблице:

* `Name`: название существа;
* `Class`: вид существа (если есть, если нет, дублируется название);
* `Classification`: классификация Министерства Магии по уровням опасности;
* `Colour`: цвет тела;
* `Eye`: цвет глаз;
* `Native`: происхождение и распространение;
* `Size`: размер в дюймах.

Загрузим данные из CSV-файла:

In [2]:
df = pd.read_csv("beasts.csv")

Запросим информацию по загруженной таблице:

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 81 entries, 0 to 80
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Unnamed: 0      81 non-null     int64  
 1   Name            81 non-null     object 
 2   Class           81 non-null     object 
 3   Classification  81 non-null     object 
 4   Colour          81 non-null     object 
 5   Eye             80 non-null     object 
 6   Native          81 non-null     object 
 7   Size            28 non-null     float64
dtypes: float64(1), int64(1), object(6)
memory usage: 5.2+ KB


Этот метод возвращает сводную информацию:

* число строк и столбцов (здесь 81 строка и 8 столбцов);
* названия столбцов;
* число заполненных ячеек в каждом столбце (`Non-Null Count`);
* типы столбцов (первый столбец целочисленный `int64`, последний – дробный `float64`, остальные – текстовые `object`).

А теперь – отдельно типы столбцов:

In [4]:
df.dtypes

Unnamed: 0          int64
Name               object
Class              object
Classification     object
Colour             object
Eye                object
Native             object
Size              float64
dtype: object

И названия столбцов:

In [5]:
# для удобства отсортируем по алфавиту

sorted(df.columns)

['Class',
 'Classification',
 'Colour',
 'Eye',
 'Name',
 'Native',
 'Size',
 'Unnamed: 0']

**NB.** Выше `.info()` – метод, функция, определенная на датафрейме. Круглые скобки (даже без аргументов внутри) показывают, что метод применяется к объекту, то есть идет выполнение какой-то операции. А `.dtypes` и `.columns` – атрибуты, фиксированные характеристики датафрейма. Так как это фиксированные значения, для их вызова круглые скобки не нужны, достаточно просто извлечь их по названию.

Выведем размерность таблицы – число строк и столбцов:

In [6]:
df.shape

(81, 8)

В атрибуте `.shape` хранится кортеж – пара «число строк – число столбцов». Если нам нужно что-то одно, можно просто выбрать элемент по индексу:

In [7]:
print(df.shape[0])
print(df.shape[1])

81
8


**NB.** На массивах и датафреймах также определен атрибут `.size`. Для одномерных массивов значение `.size` совпадает с длиной, полученной через `len()`. Для многомерных массивов это уже не так. Так как датафрейм – двумерная структура (есть строки и столбцы), в `.size` хранится общее число элементов – общее число ячеек:

In [8]:
# 81 * 8
print(df.size)

648


А вот функция `len()` будет возвращать число строк (основная единица, одно наблюдение – строка):

In [9]:
print(len(df))

81


Перейдём к описательным статистикам:

In [10]:
df.describe()

Unnamed: 0.1,Unnamed: 0,Size
count,81.0,28.0
mean,40.0,147.358929
std,23.526581,178.181732
min,0.0,0.05
25%,20.0,11.5
50%,40.0,69.0
75%,60.0,189.0
max,80.0,600.0


Метод `.describe()` по умолчанию выбирает только числовые столбцы и возвращает для них следующую информацию:

* `count`: число заполненных ячеек;
* `mean`: среднее;
* `std`: стандартное отклонение;
* `min`: минимум;
* `25%`: нижний квартиль;
* `50%`: медиана;
* `75%` : верхний квартиль;
* `max`: максимум.

> Здесь содержательный смысл есть только у столбца `Size`. Можем отметить, что в столбце `Size` много пропусков (заполнены 28 из 81), при этом есть сигналы о наличии нехарактерно больших значений (верхний квартиль 189, а максимум 600, среднее в два раза превышает медиану).

Если мы хотим получить описание текстовых столбцов (а их здесь большинство), добавим аргумент `include = "object"`):

In [11]:
df.describe(include = "object")

Unnamed: 0,Name,Class,Classification,Colour,Eye,Native
count,81,81,81,81,80,81
unique,81,72,5,53,17,45
top,Acromantula,Dragon,XXX,Green,No data,World-wide
freq,1,10,27,7,34,10


Здесь мы также получаем число заполненных ячеек – `count`, число уникальных значений `unique`, моду – самое частое значение `top` и частоту `freq`, соответствующую моде. Так, например, в `Classification` всего 5 уникальных значений, самое частое – `XXX`, оно встречается 27 раз. При этом, если все значения уникальны (см. столбец `Name`), формально каждое значение считается модой с частотой 1, поэтому `pandas` просто выбирает первое по алфавиту.

**Дополнительно.** Если нужно выбрать столбцы только определенного типа, это можно сделать через метод `.select_dtypes()`:

In [12]:
df.select_dtypes("float")

Unnamed: 0,Size
0,180.0
1,600.0
2,
3,
4,300.0
...,...
76,
77,24.0
78,
79,10.0


In [13]:
df.select_dtypes(["float", "int"])

Unnamed: 0.1,Unnamed: 0,Size
0,0,180.0
1,1,600.0
2,2,
3,3,
4,4,300.0
...,...,...
76,76,
77,77,24.0
78,78,
79,79,10.0


Проверим наличие пропущенных значений в каждом столбце:

In [14]:
df.isna()

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,True
3,False,False,False,False,False,False,False,True
4,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...
76,False,False,False,False,False,False,False,True
77,False,False,False,False,False,False,False,False
78,False,False,False,False,False,False,False,True
79,False,False,False,False,False,False,False,False


Метод `.isna()` возвращает нам новый датафрейм из `True` и `False`, где `True` стоит на месте пустых ячеек (`NaN`). Так как для Python значения `True` эквивалентны 1, а `False` – 0, можем посчитать сумму по каждому столбцу, это и будет число пропусков в каждом столбце (количество 1 или `True` в ответ на вопрос о пропусках):

In [15]:
df.isna().sum()

Unnamed: 0         0
Name               0
Class              0
Classification     0
Colour             0
Eye                1
Native             0
Size              53
dtype: int64

Выберем единственный содержательный числовой столбец по названию и проверим, какую информацию по нему можно получить. 

In [16]:
df["Size"]

0     180.0
1     600.0
2       NaN
3       NaN
4     300.0
      ...  
76      NaN
77     24.0
78      NaN
79     10.0
80      NaN
Name: Size, Length: 81, dtype: float64

Можем просто описать его через `.describe()`, этот метод подходит и для датафреймов, и для отдельных столбцов:

In [17]:
df["Size"].describe()

count     28.000000
mean     147.358929
std      178.181732
min        0.050000
25%       11.500000
50%       69.000000
75%      189.000000
max      600.000000
Name: Size, dtype: float64

А можем вычислить отдельные статистики, как по массивам:

In [18]:
print(df["Size"].count())
print(df["Size"].mean())
print(df["Size"].std())

28
147.35892857142858
178.18173153936144


В отличие от массивов, здесь есть методы (именно методы, которые можно вызывать через точку, не функции) для медианы и выборочных квантилей разных уровней:

In [19]:
print("Медиана:", df["Size"].median())
print("Нижний квартиль:", df["Size"].quantile(0.25))
print("Верхний квартиль:", df["Size"].quantile(0.75))

Медиана: 69.0
Нижний квартиль: 11.5
Верхний квартиль: 189.0


Что удобно, внутри `.quantile()` можно указать сразу список значений:

In [20]:
df["Size"].quantile([0.25, 0.75])

0.25     11.5
0.75    189.0
Name: Size, dtype: float64

Более того, можно автоматически создать перечень уровней квантилей с заданным шагом с помощью функции `arange()` из библиотеки `numpy` и получить, допустим, набор децилей:

In [21]:
import numpy as np

# как range(), только умеет работать с дробными числами
# старт в 0, финиш в 1, шаг 0.1

np.arange(0, 1, 0.1)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])

In [22]:
df["Size"].quantile(np.arange(0, 1, 0.1))

0.0      0.05
0.1      7.70
0.2     10.00
0.3     12.00
0.4     33.60
0.5     69.00
0.6    151.20
0.7    180.00
0.8    244.80
0.9    396.00
Name: Size, dtype: float64

> В нашем примере выборка маленькая (28 заполненных значений в `Size`), считать децили, то есть делить такое число наблюдений на 10 частей не совсем разумно, но технически все работает корректно. Единственное, значение 0 в `arange()` можно пропустить, начать с 0.1, так как «нулевой» дециль – это просто минимум.

Объект типа `pandas Series` – последовательность `pandas` – по внутреннему устройству похож на словарь:

In [23]:
df["Size"]

0     180.0
1     600.0
2       NaN
3       NaN
4     300.0
      ...  
76      NaN
77     24.0
78      NaN
79     10.0
80      NaN
Name: Size, Length: 81, dtype: float64

В качестве ключей выступают индексы наблюдений (здесь целочисленные, но могут быть и текстовыми), а в качестве значений – сами значения в столбце таблицы. Другими словами, одна ячейка в столбце – это связанная пара *индекс-значение*, из которой просто так выбросить индекс нельзя. Но, как и словарь, столбец можно разобрать на части. Так, значения вызываются через атрибут `.values`:

In [24]:
# результат – уже массив, numpy array

df["Size"].values

array([1.80e+02, 6.00e+02,      nan,      nan, 3.00e+02, 2.16e+02,
       3.60e+02, 6.00e+02,      nan, 1.80e+02, 4.80e+02, 2.64e+02,
            nan,      nan,      nan,      nan,      nan,      nan,
            nan,      nan, 3.60e+01,      nan,      nan,      nan,
            nan,      nan,      nan, 1.80e+02,      nan,      nan,
       7.80e+01, 1.20e+01,      nan,      nan,      nan, 1.44e+02,
            nan, 1.80e+02,      nan,      nan,      nan,      nan,
            nan,      nan,      nan,      nan,      nan,      nan,
            nan,      nan,      nan,      nan, 1.20e+02, 1.20e+01,
       1.00e+01,      nan,      nan,      nan, 8.00e+00,      nan,
            nan, 4.20e+01,      nan,      nan,      nan,      nan,
       8.00e+00, 5.00e-02,      nan,      nan, 3.00e+00,      nan,
       1.20e+01, 6.00e+01, 7.00e+00,      nan,      nan, 2.40e+01,
            nan, 1.00e+01,      nan])

А индексы – через атрибут `.index`:

In [25]:
# результат – интервал типа RangeIndex

df["Size"].index

RangeIndex(start=0, stop=81, step=1)

> **Примечание.** Выше в массиве со значениями `.values` используется научная запись числа. Так, первое значение `1.80e+02` – это $1.8 \times 10^2$, то есть просто 180. А значение `5.00e-02` – это $5\times 10^{-2}$, то есть 0.05. Пропущенные значения в массивах `numpy` обозначаются через `nan`, а в `pandas` – через `NaN`, формально это одно и то же.

Без деления столбцов на части спокойно можно жить, однако понимание их внутренней структуры позволяет более осмысленно применять различные методы и обрабатывать результаты их применения. Так, например, в задачах ниже мы увидим, что сортировать столбцы можно как по значениям, так и по индексам (особенно осмысленно, если индексы текстовые).

### Задача 1

Выведите таблицу частот для столбца `Classification`:

* с настройками, предложенными Python по умолчанию;
* со строками, упорядоченными от самого редкого значения к самому частому;
* со строками, упорядоченными по возрастанию уровня опасности;
* со строками, упорядоченными по убыванию уровня опасности.

**Подсказка:** метод `.value_counts()` и методы `.sort_values()` и `.sort_index()`.


In [26]:
# по умолчанию
df["Classification"].value_counts()

XXX      27
XXXX     20
XXXXX    18
XX       14
X         2
Name: Classification, dtype: int64

> Результат `.value_counts()` – столбец, последовательность `pandas`, то есть `pandas Series`. Здесь индексы значений – это названия категорий (`XXX`, `XXXX` и так далее), а сами значения – частоты.

In [27]:
# сортируем по значениям
# от малого 2 к большому 27

df["Classification"].value_counts().sort_values()

X         2
XX       14
XXXXX    18
XXXX     20
XXX      27
Name: Classification, dtype: int64

In [28]:
# сортируем по индексам
# по алфавиту от X до XXXXX

df["Classification"].value_counts().sort_index()

X         2
XX       14
XXX      27
XXXX     20
XXXXX    18
Name: Classification, dtype: int64

In [29]:
# сортируем по индексам
# по алфавиту в обратном порядке

df["Classification"].value_counts().sort_index(ascending=False)

XXXXX    18
XXXX     20
XXX      27
XX       14
X         2
Name: Classification, dtype: int64

### Задача 2

Отсортируйте строки в датафрейме:

* по убыванию размера существ (столбец `Size`);
* по убыванию уровня опасности (столбец `Classification`) и убыванию размера существ (`Size`);
* чтобы существа были упорядочены по убыванию уровня опасности, но при одинаковом уровне опасности сначала были указаны существа, чье название стоит ранее по алфавиту.

In [30]:
# та же история, только применяем метод к df
# как аргумент – название столбца, по которому сортируем

df.sort_values("Size", ascending=False)

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size
7,7,Hungarian Horntail,Dragon,XXXXX,Black,Yellow,Hungary,600.0
1,1,Basilisk,Basilisk,XXXXX,Green,Yellow,Greece,600.0
10,10,Romanian Longhorn,Dragon,XXXXX,Dark green,No data,Romania,480.0
6,6,Hebridean Black,Dragon,XXXXX,Dark,Brilliant purple,Scotland,360.0
4,4,Chinese Fireball,Dragon,XXXXX,Scarlet,Yellow,China,300.0
...,...,...,...,...,...,...,...,...
71,71,Ghoul,Ghoul,XX,Greyish green,Green,No data,
75,75,Jobberknoll,Jobberknoll,XX,Speckled blue,Black,Europe|North America,
76,76,Mooncalf,Mooncalf,XX,Pink|Pale grey,Blue-green,World-wide,
78,78,Puffskein,Puffskein,XX,Custard,No data,No data,


In [31]:
# два основания сортировки – два названия списком

df.sort_values(["Classification", "Size"], ascending=False)

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size
1,1,Basilisk,Basilisk,XXXXX,Green,Yellow,Greece,600.0
7,7,Hungarian Horntail,Dragon,XXXXX,Black,Yellow,Hungary,600.0
10,10,Romanian Longhorn,Dragon,XXXXX,Dark green,No data,Romania,480.0
6,6,Hebridean Black,Dragon,XXXXX,Dark,Brilliant purple,Scotland,360.0
4,4,Chinese Fireball,Dragon,XXXXX,Scarlet,Yellow,China,300.0
...,...,...,...,...,...,...,...,...
75,75,Jobberknoll,Jobberknoll,XX,Speckled blue,Black,Europe|North America,
76,76,Mooncalf,Mooncalf,XX,Pink|Pale grey,Blue-green,World-wide,
78,78,Puffskein,Puffskein,XX,Custard,No data,No data,
79,79,Flobberworm,Flobberworm,X,Brown,No data,No data,10.0


In [32]:
# в ascending тоже список,
# порядок сортировки по Classification и Name разный

df.sort_values(["Classification", "Name"], ascending = [False, True])

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size
0,0,Acromantula,Acromantula,XXXXX,Jet-Black,Black,Island of Borneo,180.0
3,3,Antipodean Opaleye,Dragon,XXXXX,Pearly,Multi-coloured,New Zealand,
1,1,Basilisk,Basilisk,XXXXX,Green,Yellow,Greece,600.0
2,2,Chimaera,Chimaera,XXXXX,Golden,White,Greece,
4,4,Chinese Fireball,Dragon,XXXXX,Scarlet,Yellow,China,300.0
...,...,...,...,...,...,...,...,...
76,76,Mooncalf,Mooncalf,XX,Pink|Pale grey,Blue-green,World-wide,
77,77,Porlock,Porlock,XX,Black|Red|Brown,Blue,England|Ireland,24.0
78,78,Puffskein,Puffskein,XX,Custard,No data,No data,
79,79,Flobberworm,Flobberworm,X,Brown,No data,No data,10.0


**NB.** По умолчанию метод `.sort_values()`, как и многие другие, не изменяет сам датафрейм, а возвращает его измененную копию. Поэтому выше на экране мы видим датафреймы с соответствующей сортировкой и номерами строк «вперемешку» (а в самом `df` все по-прежнему). Чтобы сохранить изменения, можно либо перезаписать сам датафрейм через `=`:

    df = df.sort_values(["Classification", "Size"], ascending=False)
    
Либо добавить аргумент `inplace = True`:

    df.sort_values(["Classification", "Size"], ascending=False, inplace = True)
    
Главное, не использовать `=` и `inplace = True` одновременно. Когда мы дописываем `inplace = True`, изменения молча сохраняются в `df`, а сам метод `.sort_values()` ничего не возвращает, то есть возвращает `None`. Если записать `df.sort_values(["Classification", "Size"], ascending=False, inplace = True)` в `df` будет храниться `None`, то есть мы попросту сотрем датафрейм.

### Задача 3

Определите число уникальных значений цветов глаз существ (переменная `Eye`). 

**Подсказка:** метод `.unique()`.

In [33]:
df["Eye"].unique()

array(['Black', 'Yellow', 'White', 'Multi-coloured', 'No data',
       'Brilliant purple', 'Deep red', 'Varies', 'Brown', 'Red', 'Hazel',
       'Grey', nan, 'Orange', 'Blue', 'Green', 'Yellow|White|Green',
       'Blue-green'], dtype=object)

In [34]:
n = df["Eye"].unique().size
print(n)

18


### Задача 4

Добавьте в таблицу новый столбец `Dragon`, который будет представлять собой закодированный вид существа: 1, если это дракон, 0 – во всех остальных случаях (переменная `Class`).

In [35]:
# просто проверим равенство слову Dragon для 
# каждой ячейки в столбце Class

df["Class"] == "Dragon"

0     False
1     False
2     False
3      True
4      True
      ...  
76    False
77    False
78    False
79    False
80    False
Name: Class, Length: 81, dtype: bool

In [36]:
# и переводим True в 1, а False в 0
# через приведение типа в integer через astype() 

df["Dragon"] = (df["Class"] == "Dragon").astype(int)

# первые 10 строк для примера
df.head(10)

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size,Dragon
0,0,Acromantula,Acromantula,XXXXX,Jet-Black,Black,Island of Borneo,180.0,0
1,1,Basilisk,Basilisk,XXXXX,Green,Yellow,Greece,600.0,0
2,2,Chimaera,Chimaera,XXXXX,Golden,White,Greece,,0
3,3,Antipodean Opaleye,Dragon,XXXXX,Pearly,Multi-coloured,New Zealand,,1
4,4,Chinese Fireball,Dragon,XXXXX,Scarlet,Yellow,China,300.0,1
5,5,Common Welsh Green,Dragon,XXXXX,Green,No data,Wales,216.0,1
6,6,Hebridean Black,Dragon,XXXXX,Dark,Brilliant purple,Scotland,360.0,1
7,7,Hungarian Horntail,Dragon,XXXXX,Black,Yellow,Hungary,600.0,1
8,8,Norwegian Ridgeback,Dragon,XXXXX,Dark green,No data,Norway,,1
9,9,Peruvian Vipertooth,Dragon,XXXXX,Copper,No data,Peru,180.0,1


### Задача 5

Выберите строки, соответствующие драконам, и сохраните эти строки в датафрейм `dragons`.

In [37]:
# df["Dragon"] == 1 возвращает набор из True и False
# помещаем условие в квадратные скобки,
# отбираем те строки, на которых вернулось True

dragons = df[df["Dragon"] == 1]

### Задача 6

Выберите строки, соответствующие существам размером не менее 180 дюймов (переменная `Size`).

In [38]:
df2 = df[df["Size"] >= 180]

### Задача 7

Выберите строки, соответствующие существам с уровнем опасности не ниже `XXXX` и имеющим жёлтые глаза (`Yellow`). Сохраните эти строки в датафрейм `dang_yellow` и посчитайте число таких существ.

In [39]:
# внимание на скобки

dang_yellow = df[((df["Classification"] == "XXXX") | 
(df["Classification"] == "XXXXX")) & 
(df["Eye"] == "Yellow")]
dang_yellow

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size,Dragon
1,1,Basilisk,Basilisk,XXXXX,Green,Yellow,Greece,600.0,0
4,4,Chinese Fireball,Dragon,XXXXX,Scarlet,Yellow,China,300.0,1
7,7,Hungarian Horntail,Dragon,XXXXX,Black,Yellow,Hungary,600.0,1
20,20,Erkling,Erkling,XXXX,Green,Yellow,Germany,36.0,0
23,23,Griffin,Griffin,XXXX,Brownish-yellow|White|Brown,Yellow,Greece,,0


**Дополнительно.** В реальной жизни при работе с текстовыми столбцами часто нас интересует не точное соответствие какому-то слову, а просто вхождение этого слова в ячейку, причём иногда в любом регистре (маленькими буквами, большими или вперемешку). Тогда поможет метод `.contains()` из подмодуля `str` для работами со строками внутри `pandas`. Он проверяет вхождение подстроки в строку. Однако есть одна загвоздка – этот метод работает только со строками, поэтому если в столбце есть хотя бы один пропуск (`NaN`, не строка), все сломается. 

Если вернемся к задаче 3, отметим, что пропуск в столбце `Eye` все-таки есть. Для удаления строк с пропущенными значениями есть метод `.dropna()`. Однако по умолчанию он удалит все строки, где есть пропуск хотя бы в одном столбце. В случае большого датафрейма при таком радикальном подходе мы рискуем остаться вообще с таблицей без строк. Да и здесь тоже при удалении всех строк с пропусками мы сократим все до 28 наблюдений, так как много пустых ячеек в столбце `Size`. Выход простой – ограничить набор столбцов, в которых проверять пропуски:

In [40]:
df.dropna(subset = ["Eye"], inplace = True)

В коде выше мы удалили те строки из `df`, где в столбце `Eye` были пропущенные значения, и сохранили изменения через `inplace = True`. Теперь можно вернуться к методу `.contains()`:

In [41]:
# True, если в ячейке в столбце Eye есть слово
# Yellow любыми буквами (case = True)

df[df["Eye"].str.contains("Yellow", case = False)]

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size,Dragon
1,1,Basilisk,Basilisk,XXXXX,Green,Yellow,Greece,600.0,0
4,4,Chinese Fireball,Dragon,XXXXX,Scarlet,Yellow,China,300.0,1
7,7,Hungarian Horntail,Dragon,XXXXX,Black,Yellow,Hungary,600.0,1
20,20,Erkling,Erkling,XXXX,Green,Yellow,Germany,36.0,0
23,23,Griffin,Griffin,XXXX,Brownish-yellow|White|Brown,Yellow,Greece,,0
40,40,Bundimun,Bundimun,XXX,Green,Yellow,World-wide,,0
68,68,Clabbert,Clabbert,XX,Mottled green,Yellow,World-wide,,0
73,73,Grindylow,Grindylow,XX,Sickly green,Yellow|White|Green,Great Britain|Ireland,60.0,0
74,74,Imp,Imp,XX,Grey,Yellow,Great Britain|Ireland,7.0,0


Теперь добавим это условие в набор условий в этой задаче:

In [42]:
# в данном случае разницы в результатах нет,
# так как значение Yellow|White|Green у существа
# с уровнем опасности XX, не XXXX или XXXXX

df[((df["Classification"] == "XXXX") | 
(df["Classification"] == "XXXXX")) & 
(df["Eye"].str.contains("Yellow", case = False))]

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size,Dragon
1,1,Basilisk,Basilisk,XXXXX,Green,Yellow,Greece,600.0,0
4,4,Chinese Fireball,Dragon,XXXXX,Scarlet,Yellow,China,300.0,1
7,7,Hungarian Horntail,Dragon,XXXXX,Black,Yellow,Hungary,600.0,1
20,20,Erkling,Erkling,XXXX,Green,Yellow,Germany,36.0,0
23,23,Griffin,Griffin,XXXX,Brownish-yellow|White|Brown,Yellow,Greece,,0


### Задача 8

Добавьте в датафрейм столбец `Danger` с числовыми значениями уровня опасности (целые значения от 1 до 5).

In [43]:
# применяем функцию len() для определения числа символов
# к каждой ячейке в столбце Classification
# метод .apply() – аналог map() в базовом Python,
# быстрая и удобная альтернатива циклу for

df["Danger"] = df["Classification"].apply(len)
df

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size,Dragon,Danger
0,0,Acromantula,Acromantula,XXXXX,Jet-Black,Black,Island of Borneo,180.0,0,5
1,1,Basilisk,Basilisk,XXXXX,Green,Yellow,Greece,600.0,0,5
2,2,Chimaera,Chimaera,XXXXX,Golden,White,Greece,,0,5
3,3,Antipodean Opaleye,Dragon,XXXXX,Pearly,Multi-coloured,New Zealand,,1,5
4,4,Chinese Fireball,Dragon,XXXXX,Scarlet,Yellow,China,300.0,1,5
...,...,...,...,...,...,...,...,...,...,...
76,76,Mooncalf,Mooncalf,XX,Pink|Pale grey,Blue-green,World-wide,,0,2
77,77,Porlock,Porlock,XX,Black|Red|Brown,Blue,England|Ireland,24.0,0,2
78,78,Puffskein,Puffskein,XX,Custard,No data,No data,,0,2
79,79,Flobberworm,Flobberworm,X,Brown,No data,No data,10.0,0,1
