# Основы анализа данных в Python

*Алла Тамбовцева*

## Практикум 1. Модуль `random` и введение в обработку данных с библиотекой `pandas`

### Модуль `random` и псевдослучайный выбор

Импортируем модуль `random` с сокращённым названием:

In [1]:
import random as rd

Если мы хотим (псевдо)случайным образом выбрать одно целое число из заданного интервала, пригодится функция `randrange()`:

In [2]:
# от 1 до 100, правый конец исключается

rd.randrange(1, 101)

7

Для воспроизводимости результатов мы можем зафиксировать стартовую точку алгоритма (*seed*), тогда у всех при запуске кода будут получаться одинаковые результаты:

In [3]:
rd.seed(2525)
x = rd.randrange(1, 101)
print(x)

38


Если мы хотим получить набор сразу из нескольких чисел, лучше воспользоваться функцией `sample` и в качестве генеральной совокупности указать желаемый интервал чисел:

In [4]:
rd.sample(population = range(1, 101), k = 10)

[21, 93, 58, 22, 70, 7, 30, 88, 71, 5]

In [5]:
rd.seed(999)
rd.sample(population = range(1, 101), k = 10)

[87, 11, 73, 74, 69, 63, 62, 17, 83, 41]

Что удобно, эту же функцию можно использовать и для случайного выбора из нечисловых списков:

In [6]:
names = ["Harry", "Ron", "Hermiona", "Neville", "Luna"]
rd.seed(11)
rd.sample(names, 2)

['Neville', 'Luna']

**Дополнение:** в `random` также есть довольно полезная функция `shuffle()` для случайного перемешивания списков (изменяемых перечней). Можем перемешать список имен `names` несколько раз (без `seed`):

In [7]:
rd.shuffle(names)
names

['Hermiona', 'Luna', 'Harry', 'Ron', 'Neville']

In [8]:
rd.shuffle(names)
names

['Harry', 'Ron', 'Hermiona', 'Luna', 'Neville']

### Загрузка и обработка данных с `pandas`

Импортируем библиотеку `pandas` с сокращённым названием:

In [9]:
import pandas as pd

**Примечание:** если библиотека не импортируется, ее можно установить заново (опция `--upgrade` важна, без нее установщик будет проверять наличие уже какой-то версии библиотеки на компьютере, и если такая версия есть, обновлять ее он не будет, а как раз обновление должно решить проблемы):

    !pip install pandas --upgrade

В этой части практикума предлагается поработать с данными из файла `beasts.csv`, который содержит характеристики фантастических существ. Переменные в таблице:

* `Name`: название существа;
* `Class`: вид существа (если есть, если нет, дублируется название); 
* `Classification`: классификация Министерства Магии по уровням опасности;
* `Colour`: цвет тела;
* `Eye`: цвет глаз;
* `Native`: происхождение и распространение;
* `Size`: размер в дюймах.

Загрузим данные из CSV-файла:

In [10]:
beasts = pd.read_csv("beasts.csv")

Запросим информацию по загруженной таблице:

In [11]:
# техническая информация

beasts.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 81 entries, 0 to 80
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Unnamed: 0      81 non-null     int64  
 1   Name            81 non-null     object 
 2   Class           81 non-null     object 
 3   Classification  81 non-null     object 
 4   Colour          81 non-null     object 
 5   Eye             80 non-null     object 
 6   Native          81 non-null     object 
 7   Size            28 non-null     float64
dtypes: float64(1), int64(1), object(6)
memory usage: 5.2+ KB


**Примечание:** тип `int` — целочисленный (*integer*), тип `float` — вещественный, может включать в себя как дробные, так и целочисленные значения, тип `object` – текстовый (как `string`).

In [12]:
# размерность таблицы – число строк и столбцов

beasts.shape

(81, 8)

In [13]:
# смотрим на первые 5 строк

beasts.head()

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size
0,0,Acromantula,Acromantula,XXXXX,Jet-Black,Black,Island of Borneo,180.0
1,1,Basilisk,Basilisk,XXXXX,Green,Yellow,Greece,600.0
2,2,Chimaera,Chimaera,XXXXX,Golden,White,Greece,
3,3,Antipodean Opaleye,Dragon,XXXXX,Pearly,Multi-coloured,New Zealand,
4,4,Chinese Fireball,Dragon,XXXXX,Scarlet,Yellow,China,300.0


### Задача 1

Выведите на экран список названий существ (переменная `Name`), отсортированный по алфавиту. 

In [14]:
# функция sorted()

sorted(beasts["Name"])  

['Acromantula',
 'Antipodean Opaleye',
 'Ashwinder',
 'Augurey',
 'Basilisk',
 'Billywig',
 'Bowtruckle',
 'Bundimun',
 'Centaur',
 'Chimaera',
 'Chinese Fireball',
 'Chizpurfle',
 'Clabbert',
 'Common Welsh Green',
 'Crup',
 'Demiguise',
 'Diricawl',
 'Doxy',
 'Erkling',
 'Erumpent',
 'Fairy',
 'Fire Crab',
 'Flobberworm',
 'Fwooper',
 'Ghoul',
 'Glumbumble',
 'Gnome',
 'Golden Snidget',
 'Graphorn',
 'Griffin',
 'Grindylow',
 'Hebridean Black',
 'Hippocampus',
 'Hippogriff',
 'Horklump',
 'Hungarian Horntail',
 'Imp',
 'Jarvey',
 'Jobberknoll',
 'Kappa',
 'Kelpie',
 'Knarl',
 'Kneazle',
 'Leprechaun',
 'Lethifold',
 'Lobalug',
 'Mackled Malaclaw',
 'Manticore',
 'Merpeople',
 'Moke',
 'Mooncalf',
 'Murtlap',
 'Niffler',
 'Nogtail',
 'Norwegian Ridgeback',
 'Nundu',
 'Occamy',
 'Peruvian Vipertooth',
 'Phoenix',
 'Pixie',
 'Plimpy',
 'Pogrebin',
 'Porlock',
 'Puffskein',
 'Quintaped',
 "Re'em",
 'Red Cap',
 'Romanian Longhorn',
 'Runespoor',
 'Salamander',
 'Sea serpent',
 'Sphinx',
 

In [15]:
# метод sort_values() для столбцов
# столбец – объект Pandas Series
# сортируем столбец –> на выходе отсортированная копия столбца

beasts["Name"].sort_values()

0             Acromantula
3      Antipodean Opaleye
38              Ashwinder
65                Augurey
1                Basilisk
             ...         
35                  Troll
12    Ukrainian Ironbelly
36                Unicorn
17               Werewolf
37                   Yeti
Name: Name, Length: 81, dtype: object

**Дополнение:** метод `.sort_values()` можно применять и к датафреймам для сортировки строк. Например, можем отсортировать строки в соответствии со значениями в столбце `Name` (по названию в алфавитном порядке, в исходных данных сортировка по возрастанию уровню опасности в `Classification`):

In [16]:
beasts.sort_values("Name")

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size
0,0,Acromantula,Acromantula,XXXXX,Jet-Black,Black,Island of Borneo,180.0
3,3,Antipodean Opaleye,Dragon,XXXXX,Pearly,Multi-coloured,New Zealand,
38,38,Ashwinder,Ashwinder,XXX,Pale-Grey,Red,World-wide,
65,65,Augurey,Augurey,XX,Greenish-black,Blue,Great Britain|Ireland,
1,1,Basilisk,Basilisk,XXXXX,Green,Yellow,Greece,600.0
...,...,...,...,...,...,...,...,...
35,35,Troll,Troll,XXXX,Varies,Varies,Europe,144.0
12,12,Ukrainian Ironbelly,Dragon,XXXXX,Metallic grey-silver,Deep red,Ukraine,
36,36,Unicorn,Unicorn,XXXX,White|Silver|Gold,No data,Europe,
17,17,Werewolf,Werewolf,XXXXX,Varies,Varies,World-wide,


А можем указать сразу несколько оснований для сортировки – подать их на вход `.sort_values()` в виде списка:

In [17]:
beasts.sort_values(["Classification", "Name"])

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size
79,79,Flobberworm,Flobberworm,X,Brown,No data,No data,10.00
80,80,Horklump,Horklump,X,Pink|Black,No data,Scandinavia,
65,65,Augurey,Augurey,XX,Greenish-black,Blue,Great Britain|Ireland,
66,66,Bowtruckle,Bowtruckle,XX,Green,Brown,England|Germany|Scandinavia,8.00
67,67,Chizpurfle,Chizpurfle,XX,Brown|Green,Black,World-wide,0.05
...,...,...,...,...,...,...,...,...
16,16,Quintaped,Quintaped,XXXXX,Red-brown,No data,Isle of Drear,
10,10,Romanian Longhorn,Dragon,XXXXX,Dark green,No data,Romania,480.00
11,11,Swedish Short-Snout,Dragon,XXXXX,Silvery blue,No data,Sweden,264.00
12,12,Ukrainian Ironbelly,Dragon,XXXXX,Metallic grey-silver,Deep red,Ukraine,


В примере выше сначала выполняется сортировка по уровню опасности `Classification`, а затем – по названию `Name`. То есть, если у существ одинаковый уровень опасности, сначала будут идти существа с названием на *A*, затем – на *B*, и так далее. Стоит отметить, что сортировка уровня опасности тоже производится по алфавиту, так как столбец текстовый, просто в нашем случае это совпадает с «количественной» интерпретацией крестиков `X`  (раз все символы в последовательности одинаковы, то сначала будут идти более короткие наборы из этих символов, а потом – более длинные). 

**NB**. Метод `.sort_values()` по умолчанию не изменяет сам датафрейм, а возвращает его измененную копию. Если мы хотим сохранить результат сортировки, можно перезаписать датафрейм через `=`:

    beasts = beasts.sort_values(["Classification", "Name"]) 
    
Либо указать аргумент `inplace = True` (сохранение новых значений на месте старых):   

    beasts.sort_values(["Classification", "Name"], inplace = True) 

### Задача 2

Определите, существ какого вида (переменная `Class`) больше всего.

In [18]:
# метод .value_counts() выдает пары значение-частота

beasts["Class"].value_counts()

Dragon            10
Acromantula        1
Murtlap            1
Red Cap            1
Pogrebin           1
                  ..
Tebo               1
Sphinx             1
Golden Snidget     1
Runespoor          1
Horklump           1
Name: Class, Length: 72, dtype: int64

In [19]:
# не путать с .count()
# он считает число заполненных ячеек в столбце

beasts["Class"].count()

81

### Задача 3

Определите число уникальных значений цветов глаз существ (переменная `Eye`).

In [20]:
# метод .unique() –> массив уникальных значений
# атрибут .size – общее число элементов массива

beasts["Eye"].unique().size

18

In [21]:
# метод .unique() –> массив уникальных значений
# длина массива

len(beasts["Eye"].unique())

18

### Задача 4

Добавьте в таблицу новый признак `Dragon`, который будет представлять собой закодированный вид существа: 1, если это дракон, 0 – во всех остальных случаях (переменная `Class`).

In [22]:
beasts["Dragon"] = (beasts["Class"] == "Dragon").astype(int)
beasts.head()

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size,Dragon
0,0,Acromantula,Acromantula,XXXXX,Jet-Black,Black,Island of Borneo,180.0,0
1,1,Basilisk,Basilisk,XXXXX,Green,Yellow,Greece,600.0,0
2,2,Chimaera,Chimaera,XXXXX,Golden,White,Greece,,0
3,3,Antipodean Opaleye,Dragon,XXXXX,Pearly,Multi-coloured,New Zealand,,1
4,4,Chinese Fireball,Dragon,XXXXX,Scarlet,Yellow,China,300.0,1


**Логика кода.** Выражение `beasts["Class"] == "Dragon"` проверяет выполнение условия для каждой ячейки в столбце и возвращает столбец (`pandas Series`) из `True` и `False`:

In [23]:
beasts["Class"] == "Dragon"

0     False
1     False
2     False
3      True
4      True
      ...  
76    False
77    False
78    False
79    False
80    False
Name: Class, Length: 81, dtype: bool

Так как Python умеет конвертировать `True` в 1, а `False` – в 0 (вспоминаем приведение типов), мы можем изменить тип полученного столбца на *integer* с помощью метода `.astype()` и получить желаемый результат.

In [24]:
(beasts["Class"] == "Dragon").astype(int)

0     0
1     0
2     0
3     1
4     1
     ..
76    0
77    0
78    0
79    0
80    0
Name: Class, Length: 81, dtype: int64

### Задача 5

Добавьте в таблицу новый признак `Danger2`, который будет представлять собой закодированный уровень опасности существа (переменная `Classification`): 0, если уровень опасности по классификации Министерства Магии `X` или `XX`, 1, если уровень опасности по классификации Министерства Магии `XXX`, `XXXX` или `XXXXX`.

In [25]:
beasts["Danger2"] = beasts["Classification"].apply(lambda x: 
                                                   1 if len(x) > 2 else 0) 
beasts.head()

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size,Dragon,Danger2
0,0,Acromantula,Acromantula,XXXXX,Jet-Black,Black,Island of Borneo,180.0,0,1
1,1,Basilisk,Basilisk,XXXXX,Green,Yellow,Greece,600.0,0,1
2,2,Chimaera,Chimaera,XXXXX,Golden,White,Greece,,0,1
3,3,Antipodean Opaleye,Dragon,XXXXX,Pearly,Multi-coloured,New Zealand,,1,1
4,4,Chinese Fireball,Dragon,XXXXX,Scarlet,Yellow,China,300.0,1,1


**Логика кода.** Метод `.apply()` позволяет применить функцию ко всем ячейкам в столбце без циклов, это своего рода аналог `map()` в pandas. Внутри `.apply()` мы должны написать функцию, которая будет превращать значения опасности в виде набора крестиков в 0 и 1. Заметим, что здесь проще всего определить длину каждой последовательности крестиков и, если эта длина больше 2, возвращать 1, иначе – 0. Пишем lambda-функцию, которая принимает на вход строку `x`, а возвращает числа 1 или 0 в зависимости от выполнения условия. Затем помещаем выражение с этой функцией внутрь `.apply()` и применяем к столбцу `Classification`.

### Задача 6

Добавьте в таблицу новый признак `Danger3`, который будет представлять собой закодированный уровень опасности существа: 

* `High`: если класс Министерства Магии равен 4 или 5 (`XXXX` или `XXXXX`); 
* `Medium`: если класс Министерства Магии равен 3 (`XXX`);
* `Low`: если класс Министерства Магии равен 1 или 2 (`X` и `XX`).

In [26]:
def get_danger(x):
    if len(x) < 3:
        res = "Low"
    elif len(x) < 4:
        res = "Medium"
    else:
        res = "High"
    return res

beasts["Danger3"] = beasts["Classification"].apply(get_danger) 
beasts.head()

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size,Dragon,Danger2,Danger3
0,0,Acromantula,Acromantula,XXXXX,Jet-Black,Black,Island of Borneo,180.0,0,1,High
1,1,Basilisk,Basilisk,XXXXX,Green,Yellow,Greece,600.0,0,1,High
2,2,Chimaera,Chimaera,XXXXX,Golden,White,Greece,,0,1,High
3,3,Antipodean Opaleye,Dragon,XXXXX,Pearly,Multi-coloured,New Zealand,,1,1,High
4,4,Chinese Fireball,Dragon,XXXXX,Scarlet,Yellow,China,300.0,1,1,High


**Логика кода.** Здесь мы можем действовать по аналогии с предыдущей задачей, но писать lambda-функцию с несколькими `if-else` для трех значений не очень удобно. Поэтому мы пишем отдельную функцию через `def` (принимает на вход строку `x` и возвращает результат `r` в виде текста) и ее название просто указываем в `.apply()`. 

### Задача 7

Выберите строки, соответствующие драконам, и сохраните эти строки в датафрейм `dragons`.

In [28]:
dragons = beasts[beasts["Class"] == "Dragon"]
dragons

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size,Dragon,Danger2,Danger3
3,3,Antipodean Opaleye,Dragon,XXXXX,Pearly,Multi-coloured,New Zealand,,1,1,High
4,4,Chinese Fireball,Dragon,XXXXX,Scarlet,Yellow,China,300.0,1,1,High
5,5,Common Welsh Green,Dragon,XXXXX,Green,No data,Wales,216.0,1,1,High
6,6,Hebridean Black,Dragon,XXXXX,Dark,Brilliant purple,Scotland,360.0,1,1,High
7,7,Hungarian Horntail,Dragon,XXXXX,Black,Yellow,Hungary,600.0,1,1,High
8,8,Norwegian Ridgeback,Dragon,XXXXX,Dark green,No data,Norway,,1,1,High
9,9,Peruvian Vipertooth,Dragon,XXXXX,Copper,No data,Peru,180.0,1,1,High
10,10,Romanian Longhorn,Dragon,XXXXX,Dark green,No data,Romania,480.0,1,1,High
11,11,Swedish Short-Snout,Dragon,XXXXX,Silvery blue,No data,Sweden,264.0,1,1,High
12,12,Ukrainian Ironbelly,Dragon,XXXXX,Metallic grey-silver,Deep red,Ukraine,,1,1,High


**Логика кода.** Выражение вида `beasts[...]` позволяет фильтровать строки датафрейма `beasts`, если условия для отбора строк мы поместим внутри квадратных скобок. Мы уже видели, что выражение `beasts["Class"] == "Dragon"` возвращает набор из `True` и `False`:

In [29]:
beasts["Class"] == "Dragon"

0     False
1     False
2     False
3      True
4      True
      ...  
76    False
77    False
78    False
79    False
80    False
Name: Class, Length: 81, dtype: bool

Поэтому код выше позволяет отобрать те строки, на которых выражение с условием вернуло значение `True`.

### Задача 8

Выберите строки, соответствующие существам размером не менее 180 дюймов (переменная `Size`). Выведите уникальные названия видов этих существ. 

In [30]:
# похожая история, только столбец числовой
# чтобы посмотреть только на Name, 
# выбираем его после отбора строк

beasts[beasts["Size"] >= 180]["Name"] 

0             Acromantula
1                Basilisk
4        Chinese Fireball
5      Common Welsh Green
6         Hebridean Black
7      Hungarian Horntail
9     Peruvian Vipertooth
10      Romanian Longhorn
11    Swedish Short-Snout
27                 Occamy
37                   Yeti
Name: Name, dtype: object

### Задача 9

Эту задачу съел дракон :) Номер 9 был пропущен в практикуме, оставим нумерацию, чтобы не путаться

### Задача 10

Выберите строки, соответствующие существам с классом Министерства Магии не ниже 4 и имеющим желтые глаза (`Yellow`). Сохраните эти строки в датафрейм `dang_yellow` и посчитайте число таких существ.

In [31]:
# тоже похожая история, только два условия
# каждое условие записываем в круглых скобках
# одновременное выполнение условий – оператор &

dang_yellow = beasts[(beasts["Danger3"] == "High") & (beasts["Eye"] == "Yellow")] 
dang_yellow

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size,Dragon,Danger2,Danger3
1,1,Basilisk,Basilisk,XXXXX,Green,Yellow,Greece,600.0,0,1,High
4,4,Chinese Fireball,Dragon,XXXXX,Scarlet,Yellow,China,300.0,1,1,High
7,7,Hungarian Horntail,Dragon,XXXXX,Black,Yellow,Hungary,600.0,1,1,High
20,20,Erkling,Erkling,XXXX,Green,Yellow,Germany,36.0,0,1,High
23,23,Griffin,Griffin,XXXX,Brownish-yellow|White|Brown,Yellow,Greece,,0,1,High


**NB.** Pandas воспринимает только символьные операторы (оператор `&` для логического `И`, оператор `|` для логического `ИЛИ`), не словесные (`and` и `or`). Символьные операторы очень сильные, поэтому, чтобы сохранять порядок действий, каждое выражение с условием нужно помещать в круглые скобки.  

### Задача 11

Выберите строки, соответствующие существам, обитающим в Северной или Южной Америке (значения переменной `Native`, содержащие слово `America`) и сохраните их в датафрейм `beasts_am`.

In [32]:
# str – набор функций для работы со строками
# contains() из этого набора проверяет вхождение 
# подстроки в строку

beasts_am = beasts[beasts["Native"].str.contains("America")]
beasts_am

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size,Dragon,Danger2,Danger3
29,29,Re'em,Re'em,XXXX,Golden,No data,North America|Far East,,0,1,High
42,42,Doxy,Doxy,XXX,Purple|Brown|Black,No data,North America|Europe,,0,1,Medium
48,48,Jarvey,Jarvey,XXX,Brown,Black,Great Britain|Ireland|North America,,0,1,Medium
49,49,Knarl,Knarl,XXX,Brown,Black,Europe|North America,,0,1,Medium
57,57,Nogtail,Nogtail,XXX,No data,Black,Europe|Russia|North America|South America,,0,1,Medium
72,72,Gnome,Gnome,XX,Brown|Lime,No data,Europe|North America,12.0,0,0,Low
75,75,Jobberknoll,Jobberknoll,XX,Speckled blue,Black,Europe|North America,,0,0,Low


**Логика кода.** Метод `.contains()` тоже возвращает набор из `True` или `False`:

In [33]:
beasts["Native"].str.contains("America")

0     False
1     False
2     False
3     False
4     False
      ...  
76    False
77    False
78    False
79    False
80    False
Name: Native, Length: 81, dtype: bool

Поэтому мы просто по стандартной схеме отбираем строки. В этом наборе методов `str` также есть методы `startswith()` и `endswith()` для проверки того, начинается ли строка с некоторого набора символов или заканчивается им. Плюс, все методы в этом наборе поддерживают использование регулярных выражений для более продвинутого поиска соответствий и извлечения информации (для тех, кто знаком с регулярными выражениями).

### Задача 12

Выберите строки, соответствующие пяти случайно выбранным существам ниже:

In [34]:
rd.seed(1234)
chosen = rd.sample(list(beasts["Name"]), 5)
print(chosen)

['Niffler', 'Manticore', 'Acromantula', 'Swedish Short-Snout', 'Imp']


In [35]:
# метод .isin() проверяет вхождение 
# содержимого каждой ячейки в список значений

beasts[beasts["Name"].isin(chosen)]

Unnamed: 0.1,Unnamed: 0,Name,Class,Classification,Colour,Eye,Native,Size,Dragon,Danger2,Danger3
0,0,Acromantula,Acromantula,XXXXX,Jet-Black,Black,Island of Borneo,180.0,0,1,High
11,11,Swedish Short-Snout,Dragon,XXXXX,Silvery blue,No data,Sweden,264.0,1,1,High
14,14,Manticore,Manticore,XXXXX,Golden,No data,Greece,,0,1,High
56,56,Niffler,Niffler,XXX,Black,No data,Great Britain,,0,1,Medium
74,74,Imp,Imp,XX,Grey,Yellow,Great Britain|Ireland,7.0,0,0,Low
