# pandas
Цей зошит призначений для навчання основним прийомам роботи з типом даних DataFrame бібліотеки pandas. Під час навчання необхідно використати способи доступу до даних, які уже відомі вам з лекційного курсу. Навчання будемо проводити на конкретному прикладі.
### Умова задачі
Ми зупинили десять людей на вулиці і запитали їх, які у них домашні тварини. Ми також зафіксували стать та вік людини. В результаті сформували структуру даних pets.

In [2]:
import numpy as np
import pandas as pd

In [3]:
pets = pd.DataFrame({'sex': np.array(['M', 'M', 'F', 'M', 'F', 'F', 'F', 'M', 'F', 'M']),
                   'age': np.array([21, 45, 23, 56, 47, 70, 34, 30, 19, 62]),
                   'pets': np.array([['cat', 'dog'],
                                    ['hamster'],
                                    ['cat', 'gerbil'],
                                    ['fish', 'hamster', 'gerbil'],
                                    ['cat'],
                                    ['dog'],
                                    ['dog'],
                                    ['cat'],
                                    ['rabbit', 'cat'],
                                    ['dog']])})

Використовуючи зібрані дані, необхідно проаналізувати їх і на основі нашого опитування дати відповідь на такі запитання:

* Якої статі був наймолодший респондент?
* У якому віці була людина з найбільшою кількістю домашніх тварин?
* Яка тварина є найпопулярнішим вихованцем?
* Який був середній вік власників собак?


По-перше, давайте просто розглянемо дані. Наш набір даних не дуже великий, тому насправді навіть не потрібно використовувати head(). Одержимо вивід даних, запустивши на виконання код Python у наступній комірці.
Нагадування: Запуск коду - натиснути "Run" або "Shift+Enter".

In [4]:
pets

Unnamed: 0,sex,age,pets
0,M,21,"[cat, dog]"
1,M,45,[hamster]
2,F,23,"[cat, gerbil]"
3,M,56,"[fish, hamster, gerbil]"
4,F,47,[cat]
5,F,70,[dog]
6,F,34,[dog]
7,M,30,[cat]
8,F,19,"[rabbit, cat]"
9,M,62,[dog]


Зверніть увагу також і на те, як в зошиті гарно представлено дані за замовчуванням для типу DataFrames. Крім того, ми можемо таке представлення редагувати для своїх потреб! Проте ми не будемо виконувати ці дії в рамках даної практичної роботи. Відповімо по черзі на поставлені запитання.

## Якої статі був наймолодший респондент?
Підказка. Тут ви можете ефективно застосувати метод .loc. Подумайте над тим, як представити це завдання у вигляді двох умов: створення булевого індексу, який відповідає значенням True, де значення у віковій колонці, що дорівнює мінімуму стовпця віку. Потім для  вибраного запису проаналізуйте колонку статі. Код запишіть в комірці нижче.

In [5]:
# one line of code
pets.loc[pets['age'].idxmin()]['sex']

'F'

Якщо ви правильно записали код, то наймолодший респондент - жінка (F).

## У якому віці була людина з найбільшою кількістю домашніх тварин?
Підказка: спочатку створіть новий стовпець в структурі DataFrame і назвіть це «num_pets», який міститиме число тварин у даного респондента. Знайдіть максимум у цьому стовпці і виведіть вік відповідного респондента. Код запишіть у комірці нижче.

In [6]:
# task: create new column 'num_pets' which contains the number of pets
# each person had (hint: this is the length of each list in the pets column)
# one line of code here:
pets['num_pets'] = pets['pets'].str.len()

In [7]:
# view the DataFrame again to check our new column is there
pets

Unnamed: 0,sex,age,pets,num_pets
0,M,21,"[cat, dog]",2
1,M,45,[hamster],1
2,F,23,"[cat, gerbil]",2
3,M,56,"[fish, hamster, gerbil]",3
4,F,47,[cat],1
5,F,70,[dog],1
6,F,34,[dog],1
7,M,30,[cat],1
8,F,19,"[rabbit, cat]",2
9,M,62,[dog],1


In [8]:
# вже було написано викладачем
pets.loc[pets['num_pets'] == max(pets['num_pets']), 'age']

3    56
Name: age, dtype: int32

Правильна відповідь: людині з найбільшою кількістю домашніх тварин було 56 років.

## Яка тварина є найпопулярнішим вихованцем?
Це дуже цікаве запитання,оскільки наші дані про тварин групуються не по колонці тварин, а по респондентах. Нам зараз потрібно ввійти в колонку з домашніми тваринами, щоб підрахувати кожен тип тварин.  Для виконання цього завдання потрібно відійти від традиційного програмістського підходу і використати потужний механізм групування бібліотеки pandas. Початковий код цієї технології наведено в наступній комірці. Нижче наведіть завершальний код.

In [10]:
pet_series = pets['pets'].apply(pd.Series).stack().reset_index(drop=True)
pet_series

0         cat
1         dog
2     hamster
3         cat
4      gerbil
5        fish
6     hamster
7      gerbil
8         cat
9         dog
10        dog
11        cat
12     rabbit
13        cat
14        dog
dtype: object

In [11]:
# task: produce an ordered count of each animal
# one line of code here:
pet_series.value_counts()

cat        5
dog        4
hamster    2
gerbil     2
rabbit     1
fish       1
dtype: int64

Відповідь: кішка - найпопулярніша домашня тварина.

## Який був середній вік власників собак?

Підказка: знову ж таки, вам може бути корисно використовувати функцію лямбда для створення булевого індексу, який дорівнює True, якщо респондент сказав, що він має собаку, а в іншому - False. Код запишіть в комірці нижче.

In [12]:
# example
('dog' in ['dog', 'cat'], 'dog' in ['rabbit'])

(True, False)

In [13]:
# task: use a lambda function to test whether 'dog' is contained in each list of animals,
# extract the age column and then chain the mean method to calculate the average age.
# one line of code here:
pets[pets['pets'].apply(lambda p: 'dog' in p).reset_index(drop=True)]['age'].mean()

46.75

# Висновок

Ми маємо зрозуміти, що бібліотека pandas може обробляти табличні дані, де кожен стовпець може мати різний тип (наприклад, стать - це символ, а вік - це число). Крім того, бібліотека pandas має потужні методи для отримання зрізів та вибору даних. Це дає можливість одержати відповідь на складні питання, використовуючи порівняно невеликий код.