# Введение в регрессионный анализ: интенсив по Python

*Алла Тамбовцева*

## Семинар 4. Операции с датафреймами Pandas: часть 2

In [1]:
import pandas as pd

На этом семинаре мы будем работать с данными из файла `beasts.csv` (скачать [здесь](https://github.com/allatambov/PyReg25/blob/main/beasts.csv)), который содержит
характеристики фантастических существ. Показатели в файле:

* `Name`: название существа;
* `Class`: класс существа (если есть, если нет, дублируется название); 
* `Classification`: классификация Министерства Магии;
* `Colour`: цвет тела;
* `Eye`: цвет глаз;
* `Native`: происхождение и распространение;
* `Size`: размер в дюймах.

Загрузите данные из файла `beasts.csv` в датафрейм `beasts`. Выведите описательные статистики для числовых и текстовых столбцов датафрейма.

In [2]:
beasts = pd.read_csv("beasts.csv")

In [3]:
beasts.describe()

Unnamed: 0.1,Unnamed: 0,Size
count,81.0,28.0
mean,40.0,147.358929
std,23.526581,178.181732
min,0.0,0.05
25%,20.0,11.5
50%,40.0,69.0
75%,60.0,189.0
max,80.0,600.0


In [4]:
beasts.describe(include = "object")

Unnamed: 0,Name,Class,Classification,Colour,Eye,Native
count,81,81,81,81,80,81
unique,81,72,5,53,17,45
top,Acromantula,Dragon,XXX,Green,No data,World-wide
freq,1,10,27,7,34,10


> В первой выдаче столбец `Unnamed: 0` просто дублирует номера строк от 0 до 80, в `Size` содержатся описательные статистики для размера существ (число заполненных ячеек, среднее, станд отклонение, минимум, нижний квартиль, медиана, верхний квартиль, максимум). Во второй выдаче для текстовых столбцов указано число заполненных ячеек, число уникальных значений, мода и соответствующая ей частота.

### Задача 1

Добавьте в датафрейм `beasts` столбец `Dragon` из 0 и 1, где 1 соответствует драконам (значение `Dragon` в `Class`).

In [5]:
beasts["Dragon"] = (beasts["Class"] == "Dragon").astype(int)
beasts

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size,Dragon
0,0,Acromantula,Acromantula,XXXXX,Jet-Black,Black,Island of Borneo,180.0,0
1,1,Basilisk,Basilisk,XXXXX,Green,Yellow,Greece,600.0,0
2,2,Chimaera,Chimaera,XXXXX,Golden,White,Greece,,0
3,3,Antipodean Opaleye,Dragon,XXXXX,Pearly,Multi-coloured,New Zealand,,1
4,4,Chinese Fireball,Dragon,XXXXX,Scarlet,Yellow,China,300.0,1
...,...,...,...,...,...,...,...,...,...
76,76,Mooncalf,Mooncalf,XX,Pink|Pale grey,Blue-green,World-wide,,0
77,77,Porlock,Porlock,XX,Black|Red|Brown,Blue,England|Ireland,24.0,0
78,78,Puffskein,Puffskein,XX,Custard,No data,No data,,0
79,79,Flobberworm,Flobberworm,X,Brown,No data,No data,10.0,0


>Выражение `beasts["Class"] == "Dragon"` проверяет условие для всех значений в столбце `Class`, возвращает столбец из `True` и `False`. Метод `.astype()` изменяет тип столбца на тот, какой захотим. Вариант `.astype(int)` превращает `True` в 1, а `False` – в 0. Полученный результат мы сохраняем через `=` в столбец с названием `Dragon` таблицы `beasts`.

**Дополнительно.** Если вам более понятна работа функции `where()` из `numpy`, можно и ее использовать, но тогда не забудьте импортировать саму библиотеку:

In [6]:
import numpy as np
beasts["Dragon"] = np.where(beasts["Class"] == "Dragon", 1, 0)

### Задача 2

Выберите строки, соответствующие драконам, и сохраните эти строки в датафрейм `dragons`.

In [7]:
dragons = beasts[beasts["Dragon"] == 1]
dragons

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size,Dragon
3,3,Antipodean Opaleye,Dragon,XXXXX,Pearly,Multi-coloured,New Zealand,,1
4,4,Chinese Fireball,Dragon,XXXXX,Scarlet,Yellow,China,300.0,1
5,5,Common Welsh Green,Dragon,XXXXX,Green,No data,Wales,216.0,1
6,6,Hebridean Black,Dragon,XXXXX,Dark,Brilliant purple,Scotland,360.0,1
7,7,Hungarian Horntail,Dragon,XXXXX,Black,Yellow,Hungary,600.0,1
8,8,Norwegian Ridgeback,Dragon,XXXXX,Dark green,No data,Norway,,1
9,9,Peruvian Vipertooth,Dragon,XXXXX,Copper,No data,Peru,180.0,1
10,10,Romanian Longhorn,Dragon,XXXXX,Dark green,No data,Romania,480.0,1
11,11,Swedish Short-Snout,Dragon,XXXXX,Silvery blue,No data,Sweden,264.0,1
12,12,Ukrainian Ironbelly,Dragon,XXXXX,Metallic grey-silver,Deep red,Ukraine,,1


>Так как мы выбираем строки из таблицы `beasts`, код всегда будет построен по шаблону `beasts[...]`, где вместо `...` подставляются необходимые условия. Условия мы ставим на значения в столбцах таблицы. Чтобы выбрать столбец из таблицы, его название нужно указать в квадратных скобках в кавычках после названия датафрейма – отдельно от `beasts` столбец `"Dragon"` не существует. Отсюда `beasts` и возникает два раза – первый раз как название таблицы, с которой работаем, второй раз – как часть названия столбца.

### Задача 3

Выберите строки, соответствующие существам из Греции или Румынии (*Greece* или *Romania* в `Native`). Вычислите их количество.

In [8]:
b3 = beasts[(beasts["Native"] == "Greece") | (beasts["Native"] == "Romania")]
print(len(b3))

7


>Условие состоит из двух частей, объединенных через оператор `|`. Круглые скобки здесь отвечают за порядок действий (сначала условие на Грецию, затем – на Румынию, потом только их объединение), внешние квадратные – как всегда за выбор строк как часть «шаблона» `beasts[...]`.

### Задача 4

Выберите строки, соответствующие существам размером более 500 дюймов.

In [9]:
beasts[beasts["Size"] > 500]

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size,Dragon
1,1,Basilisk,Basilisk,XXXXX,Green,Yellow,Greece,600.0,0
7,7,Hungarian Horntail,Dragon,XXXXX,Black,Yellow,Hungary,600.0,1


### Задача 5

Выберите строки, соответствующие существам размером от 100 до 200 дюймов включительно.

In [10]:
beasts[(beasts["Size"] >= 100) & (beasts["Size"] <= 200)]

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size,Dragon
0,0,Acromantula,Acromantula,XXXXX,Jet-Black,Black,Island of Borneo,180.0,0
9,9,Peruvian Vipertooth,Dragon,XXXXX,Copper,No data,Peru,180.0,1
27,27,Occamy,Occamy,XXXX,Turquoise|Purple|Teal,No data,Far East|India,180.0,0
35,35,Troll,Troll,XXXX,Varies,Varies,Europe,144.0,0
37,37,Yeti,Yeti,XXXX,Grey|White,No data,Tibet,180.0,0
52,52,Lobalug,Lobalug,XXX,Yellow,No data,North Sea,120.0,0


>От одного числа до другого – всегда `&`, так как обе части неравенства `100 <= x <= 200` должны выполняться одновременно.

### Задача 6

Выберите строки, соответствующие драконам размером менее 300 дюймов.

In [11]:
beasts[(beasts["Dragon"] == 1) & (beasts["Size"] < 300)]

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size,Dragon
5,5,Common Welsh Green,Dragon,XXXXX,Green,No data,Wales,216.0,1
9,9,Peruvian Vipertooth,Dragon,XXXXX,Copper,No data,Peru,180.0,1
11,11,Swedish Short-Snout,Dragon,XXXXX,Silvery blue,No data,Sweden,264.0,1


### Задача 7

Выберите строки, соответствующие существам с классом Министерства Магии не ниже 4 и имеющим желтые глаза (`Yellow`). Сохраните эти строки в датафрейм `dang_yellow`.

In [12]:
# проверим, какие вообще значения в столбце,
# что значит 4 и выше в данном случае

beasts["Classification"].value_counts()

XXX      27
XXXX     20
XXXXX    18
XX       14
X         2
Name: Classification, dtype: int64

In [13]:
dang_yellow = beasts[((beasts["Classification"] == "XXXX") |
                      (beasts["Classification"] == "XXXXX")) & 
                     (beasts["Eye"] == "Yellow")]
dang_yellow

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size,Dragon
1,1,Basilisk,Basilisk,XXXXX,Green,Yellow,Greece,600.0,0
4,4,Chinese Fireball,Dragon,XXXXX,Scarlet,Yellow,China,300.0,1
7,7,Hungarian Horntail,Dragon,XXXXX,Black,Yellow,Hungary,600.0,1
20,20,Erkling,Erkling,XXXX,Green,Yellow,Germany,36.0,0
23,23,Griffin,Griffin,XXXX,Brownish-yellow|White|Brown,Yellow,Greece,,0


>Обратите внимание на круглые скобки перед `&`. Здесь они необходимы, так как важен порядок действий. Оператор `&` сильнее `|`, поэтому без дополнительных скобок будут выбираться существа *с уровнем опасности XXXX* плюс *желтоглазые существа с уровнем опасности XXXXX*, что неверно. А так мы проверяем корректное условие *желтоглазые существа с уровнем опасности XXXX или XXXXX*. 

**Важно.** Если условия перечислены внутри квадратных скобок, их можно переносить на разные строки, разбивая по операторам `|` или `&`. Python понимает, что пока закрывающая квадратная скобка не поставлена, строка с условиями продолжается. Если мы просто проверяем условия в надежде получить набор из `True` и `False`, без скобок для фильтрации, получим ошибку синтаксиса:

In [14]:
# SyntaxError – ожидаемо, надо уместить на одну строку

((beasts["Classification"] == "XXXX") |
 (beasts["Classification"] == "XXXXX")) & 
(beasts["Eye"] == "Yellow")

SyntaxError: invalid syntax (<ipython-input-14-283069a8a45a>, line 4)

**Дополнительно.** Если хочется добавить более удобный столбец с целочисленным уровнем опасности, можно применить функцию `len()` к каждой ячейке в столбце `Classification` через метод `.apply()`. Этот метод «растягивает» функцию в скобках на весь столбец (в Excel для такого можно потянуть за уголок ячейки).

In [15]:
beasts["Danger"] = beasts["Classification"].apply(len)
beasts["Danger"] # типа integer

0     5
1     5
2     5
3     5
4     5
     ..
76    2
77    2
78    2
79    1
80    1
Name: Danger, Length: 81, dtype: int64