# Pandas

&emsp;&emsp;Основною структурою даних `pandas` є `DataFrame` - таблиця з даними (так само як у `numpy` основною структурою був масив). Почнемо з того, що розглянемо найпоширеніші методи створення таблиць:

In [1]:
import pandas as pd  # імпорт модуля

df = pd.DataFrame(
    # дані, які будуть у таблиці
    data={
        # ключ словника відповідає назві колонки в таблиці, 
        # а значення у вигляді списку – вмісту стовпця
        'VagetableName': ['Cucumber', 'Tomato', 'Potato', 'Onion'],
        'Fat': [0.1, 0.3, 0., 0.1],
        'Carbs': [1.4, 4.2, 13., 6.9],
        'Protein': [0.4, 0.8, 1., 0.9]
    }
)

df

Unnamed: 0,VagetableName,Fat,Carbs,Protein
0,Cucumber,0.1,1.4,0.4
1,Tomato,0.3,4.2,0.8
2,Potato,0.0,13.0,1.0
3,Onion,0.1,6.9,0.9


&emsp;&emsp;Альтернативно, можна передати список, що містить словники, де ключ - назва колонки, а значення - вміст даної колонки в конкретному рядку:

In [2]:
df = pd.DataFrame(
    data=[
        {'VagetableName': 'Cucumber', 'Fat': 0.1, 'Carbs': 1.4, 'Protein': 0.4},  #перший рядок таблиці
        {'VagetableName': 'Tomato', 'Fat': 0.3, 'Carbs': 4.2, 'Protein': 0.8},
        {'VagetableName': 'Potato', 'Fat': 0., 'Carbs': 13., 'Protein': 1.},
        {'VagetableName': 'Onion', 'Fat': 0.1, 'Carbs': 6.9, 'Protein': 0.9},
    ],
    columns=['VagetableName', 'Carbs', 'Fat', 'Protein']  # опціонально можна передати порядок колонок
)

print(df)

  VagetableName  Carbs  Fat  Protein
0      Cucumber    1.4  0.1      0.4
1        Tomato    4.2  0.3      0.8
2        Potato   13.0  0.0      1.0
3         Onion    6.9  0.1      0.9


&emsp;&emsp;Кожна таблиця має індекс - ім'я рядка. Коли ми створювали таблицю вище, індекс ми не вказували і він був автоматично створений як послідовності `(0, 1, ...)`. Роль індексу може грати будь-яка з колонок:

In [3]:
print('існуючий індекс (імена рядків): ', df.index)
df.set_index('VagetableName', inplace=True)  # заміна індексу на колонку із назвами овочів
print('новий индекс: ', df.index)
print(df)

існуючий індекс (імена рядків):  RangeIndex(start=0, stop=4, step=1)
новий индекс:  Index(['Cucumber', 'Tomato', 'Potato', 'Onion'], dtype='object', name='VagetableName')
               Carbs  Fat  Protein
VagetableName                     
Cucumber         1.4  0.1      0.4
Tomato           4.2  0.3      0.8
Potato          13.0  0.0      1.0
Onion            6.9  0.1      0.9


&emsp;&emsp;Індекс зазвичай використовується для отримання значень із конкретного рядка:

In [4]:
print('склад огірка:')
print(df.loc['Cucumber'])  # вибір рядка на ім'я/значення індексу

склад огірка:
Carbs      1.4
Fat        0.1
Protein    0.4
Name: Cucumber, dtype: float64


&emsp;&emsp;Якщо ми хочемо зробити вибір не по імені рядка, а за його порядковим номером, то можна скористатися методом `iloc`. Наприклад виберемо перші 2 рядки:

In [5]:
df.iloc[0]

Carbs      1.4
Fat        0.1
Protein    0.4
Name: Cucumber, dtype: float64

In [6]:
df.iloc[:2]

Unnamed: 0_level_0,Carbs,Fat,Protein
VagetableName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Cucumber,1.4,0.1,0.4
Tomato,4.2,0.3,0.8


&emsp;&emsp;Аналогічно можна отримати всі значення із заданої колонки:

In [7]:
print('Білки в овочах:')
print(df['Protein'])  # вибір колонки на ім'я

Білки в овочах:
VagetableName
Cucumber    0.4
Tomato      0.8
Potato      1.0
Onion       0.9
Name: Protein, dtype: float64


&emsp;&emsp;Одна колонка, вибрана описаним вище чином, має тип `Series`, а не `DataFrame` як таблиця:

In [8]:
print('тип таблиці: ', type(df))
print('тип колонки: ', type(df['Protein']))

тип таблиці:  <class 'pandas.core.frame.DataFrame'>
тип колонки:  <class 'pandas.core.series.Series'>


&emsp;&emsp;Тип `Series` дозволяє проводити практично всі операції, доступні таблиці: фільтрація значень, вибір за індексом, застосування функції до значень тощо. Однак у деяких ситуаціях таблиці є методи недоступні колонкам. Для таких випадків колонку можна вибрати як таблицю таким чином:

In [9]:
print(df[['Protein']])  # ім'я єдиної колонки передаємо всередині списку
print(type(df[['Protein']]))

               Protein
VagetableName         
Cucumber           0.4
Tomato             0.8
Potato             1.0
Onion              0.9
<class 'pandas.core.frame.DataFrame'>


&emsp;&emsp;Природно, це розширюється на випадок, коли потрібно вибрати кілька колонок.:

In [10]:
df[['Protein', 'Fat']]

Unnamed: 0_level_0,Protein,Fat
VagetableName,Unnamed: 1_level_1,Unnamed: 2_level_1
Cucumber,0.4,0.1
Tomato,0.8,0.3
Potato,1.0,0.0
Onion,0.9,0.1


&emsp;&emsp;Об'єднуючи все разом можемо вибрати колонки і рядки, що цікавлять нас, таким чином:

In [11]:
df[['Protein', 'Fat']].loc[['Cucumber', 'Potato']]

Unnamed: 0_level_0,Protein,Fat
VagetableName,Unnamed: 1_level_1,Unnamed: 2_level_1
Cucumber,0.4,0.1
Potato,1.0,0.0


&emsp;&emsp;Практично всі двовимірні конструкції (вкладений список, `numpy` масив) можна привести до типу `DataFrame`:

In [12]:
# створимо таблицю харчової цінності у вигляді вкладеного списку
data = [
    [1.4, 0.1, 0.4],
    [4.2, 0.3, 0.8],
    [13.0, 0.0, 1.0],
    [6.9, 0.1, 0.9]
]

df = pd.DataFrame(
    data=data,  # дані, які будуть вмістом таблиці
    columns=['Carbs', 'Fat', 'Protein'],  # передамо імена колонок
    index=['Cucumber', 'Tomato', 'Potato', 'Onion']  # передамо імена рядків
)

df

Unnamed: 0,Carbs,Fat,Protein
Cucumber,1.4,0.1,0.4
Tomato,4.2,0.3,0.8
Potato,13.0,0.0,1.0
Onion,6.9,0.1,0.9


&emsp;&emsp;Один рядок або стовпець таблиці мають тип `Series` - це "обгортка" над `numpy` масивом. Тобто з рядком або колонкою можна проводити практично всі операції, які можливі для масиву.  
&emsp;&emsp;Приклад:

In [13]:
import numpy as np

protein_in_vegetables = df['Protein']  # виберемо колонку з білками у різних овочах
print('тип самої колонки: ', type(protein_in_vegetables))
print('привести колонку до numpy масива можно вибрав її значення (values): ', type(protein_in_vegetables.values))
print('вміст колонки у вигляді numpy масиву: ', protein_in_vegetables.values)
print('максимальне значення: ', np.max(protein_in_vegetables))
print('мінімальне значення: ', np.min(protein_in_vegetables))
print('середнє значення: ', np.mean(protein_in_vegetables))

тип самої колонки:  <class 'pandas.core.series.Series'>
привести колонку до numpy масива можно вибрав її значення (values):  <class 'numpy.ndarray'>
вміст колонки у вигляді numpy масиву:  [0.4 0.8 1.  0.9]
максимальне значення:  1.0
мінімальне значення:  0.4
середнє значення:  0.775


&emsp;&emsp;Аналогічно до `numpy` масиву можна привести рядок і навіть усю таблицю:

In [14]:
print(df.values)

[[ 1.4  0.1  0.4]
 [ 4.2  0.3  0.8]
 [13.   0.   1. ]
 [ 6.9  0.1  0.9]]


# Отримання даних із різних джерел

&emsp;&emsp;Читання даних із `csv` файлу

In [15]:
titanic_data = pd.read_csv(
    'Files/TitanicDataset.csv',  # шлях до файлу, який містить дані
    sep=',',  # роздільник стовпців
    header=0  # номер рядка, що містить заголовок (якщо заголовка немає, можна передати None)
)

&emsp;&emsp;Зазвичай для того, щоб "подивитись" дані використовують метод `head(n)`, який повертає перші `n` рядків з таблиці:

In [16]:
titanic_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


&emsp;&emsp;Другим за популярністю джерелом структурованих (представлених у вигляді таблиць) даних є реляційна база даних. Існує багато різних БД, у прикладі нижче скористаємося однією з найпростіших - SQLite. Для читання з таблиці БД необхідно створити з'єднання з базою та передати `SQL` запит:

In [17]:
import sqlite3  # імпорт модуля для створення з'єднання з БД

# Для створення з'єднання з SQLite БД необхідно передати шлях до файлу, що містить дані
connection = sqlite3.connect('Files/TitanicDataset.db')

# прочитаємо ті самі дані, але з таблиці в БД
titanic_data = pd.read_sql_query(
    sql="SELECT * FROM MainTable",  # SQL запит до БД, який повертає дані
    con=connection  # відкрите з'єднання з БД
)

titanic_data.head(10)  # виведемо на екран топ 10 рядків із отриманої таблиці

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


&emsp;&emsp;Для читання даних з Excel таблиць нам доведеться доставити бібліотеку `openpyxl` як `pip install openpyxl`. Після цього читання виглядає схожим на приклади вище:

In [18]:
crime_data = pd.read_excel(
    'Files/CrimesData.xlsx',  # шлях до файлу для читання
    sheet_name='2011',  # ім'я аркуша, на якому знаходяться дані
    header=0,  # рядок, в якому знаходяться назви стовпців
    usecols="A:F",  # імена колонок, які потрібно прочитати (None – взяти всі колонки)
    nrows=100,  # прочитати лише перші 100 рядків
    skiprows=0  # кількість рядків, які потрібно пропустити на початку файлу (читання почнеться з 0-го рядка)
)

crime_data.head()

Unnamed: 0,CrimeDate,CrimeTime,CrimeCode,Location,Description,Weapon
0,01/01/2011,00:00:00,6G,0 E CROSS ST,I,
1,01/01/2011,00:10:00,5D,1900 W LOMBARD ST,I,
2,01/01/2011,01:00:00,5D,2900 WATERVIEW AV,O,
3,01/01/2011,01:38:00,4B,1500 HAZEL ST,O,KNIFE
4,01/01/2011,02:01:00,4B,0 W WILKES LN,O,KNIFE


&emsp;&emsp;В аргументі `sheet_name` можна передавати такі формати значень:

&emsp;&emsp;1. Ціло число (значення за промовчанням - 0): інтерпретується як порядковий номер листа;

&emsp;&emsp;2. Текст: інтерпретується як ім'я аркуша, наприклад `Sheet1`;

&emsp;&emsp;3. Список цілих чисел або рядків (можливо одночасно): інтерпретується як набір листів для читання, наприклад `[0, 3, 'Sheet10']` - прочитати 0-й та 3-й лист, а також лист під назвою `Sheet10`;

&emsp;&emsp;4. `None` - означає прочитати всі листи.

&emsp;&emsp;Якщо вибрано варіант, при якому читається більше одного листа, то в результаті вийде словник виду `SheetName -> DataFrame`; далі ми розберемо як можна об'єднати різні таблиці в одну за необхідності.

In [19]:
crime_data = pd.read_excel(
    'Files/CrimesData.xlsx',
    sheet_name=None,  # прочитати всі листи
    usecols="A:F",
    nrows=5
)

print(crime_data)

{'2011':     CrimeDate CrimeTime CrimeCode           Location Description Weapon
0  01/01/2011  00:00:00        6G       0 E CROSS ST           I    NaN
1  01/01/2011  00:10:00        5D  1900 W LOMBARD ST           I    NaN
2  01/01/2011  01:00:00        5D  2900 WATERVIEW AV           O    NaN
3  01/01/2011  01:38:00        4B      1500 HAZEL ST           O  KNIFE
4  01/01/2011  02:01:00        4B      0 W WILKES LN           O  KNIFE, '2012':     CrimeDate CrimeTime CrimeCode          Location Description Weapon
0  01/01/2012  00:00:00        5C               NaN           I    NaN
1  01/01/2012  01:00:00        6C      0 E NORTH AV           I    NaN
2  01/01/2012  01:01:00        5A   1800 LETITIA AV           I    NaN
3  01/01/2012  01:01:00        6E  2100 AISQUITH ST           O    NaN
4  01/01/2012  01:10:00        4B   2200 EASTERN AV           O  KNIFE, '2013':     CrimeDate CrimeTime CrimeCode            Location Description Weapon
0  01/01/2013  01:00:00        4E         

&emsp;&emsp;Читання даних із `json` файлів можливе, якщо структура файлу дозволяє коректно відобразити вміст у вигляді таблиці. За умовчанням структура файлу повинна бути наступною: `{column -> {index -> value}}`, тобто словник, в якому ключі - це назви колонок, а значення - словники у вигляді пар `ім'я рядка - вміст`. 

&emsp;&emsp;Можливі й інші структури, описи яких необхідно дати в параметрі `orient` (детальний опис структур можна знайти у [документації](https://pandas.pydata.org/docs/reference/api/pandas.io.json.read_json.html))

In [20]:
dt = pd.read_json(
    'Files/DummyData.json',  # шлях до файлу
    orient='columns'  # тип структури ('columns' також є значенням за замовчуванням)
)

dt

Unnamed: 0,FirstColumn,SecondColumn
row1,"[1, 2]",a
row2,"[3, 4]",b


&emsp;&emsp;Комірки, що містять у собі списки значень, можна "розгорнути" за допомогою методу `explode`:

In [21]:
dt = dt.explode(
    column='FirstColumn'  # вказівка колонки із вкладеною структурою (можна передати список колонок)
)

dt

Unnamed: 0,FirstColumn,SecondColumn
row1,1,a
row1,2,a
row2,3,b
row2,4,b


# Запис даних

&emsp;&emsp;Запис даних у файл

In [22]:
titanic_data.to_csv(
    'Files/CopyOfTitanicData.csv',  # шлях до файлу, в який робимо запис
    sep=';',  # роздільник колонок
    header=True,  # чи записувати імена колонок у файл (True - записувати, False - ні)
    index=False,  # записувати індекс у файл (True - записувати, False - ні)
)

&emsp;&emsp;Запис даних у таблицю БД

In [23]:
titanic_data.to_sql(
    name='CopyOfMainTable',  # назву таблиці, в яку робити запис
    con=connection,  # відкрите з'єднання з БД
    index=False,  # записувати індекс у таблицю (True - записувати, False - ні)
    # що робити, якщо таблиця вже існує ('append' - додати рядки нижче)
    if_exists='replace'  # у разі існування таблиці - видалити та замінити
)

891

&emsp;&emsp;При записі даних у файл Excel ми можемо вказати шлях до файлу у вигляді тексту (так само, як при записі в csv), проте це часто виявляється менш зручним, якщо ми здійснюємо запис декількох таблиць на різні аркуші. Більш кращий спосіб це створити спеціальний об'єкт ExcelWriter. Такий об'єкт буде аналогом об'єкта файлу, який отримується з функції `open` або об'єкта підключення до БД з функції `connect`.

&emsp;&emsp;Далі для прикладу запишемо дані зі словника `crime_data` у новий файл на різні листи:

In [24]:
# почнемо з того, що відкриємо новий файл для запису
with pd.ExcelWriter(
    'Files/WriteExample.xlsx',  # шлях до файлу
    mode='w'  # відкриваємо на запис, поведінка та ж, що й у функції open
) as writer:
    for sheet_name, data in crime_data.items():        
        data.to_excel(
            excel_writer=writer,  # файл, у який будемо записувати
            sheet_name=sheet_name,  # назва листа, на який писати
            index=False,  # чи записувати індекс таблиці
            startrow=5,  # рядок, з якого розпочати запис у цільовому файлі
            startcol=5  # стовпець, з якого розпочати запис у цільовому файлі
        )

&emsp;&emsp;Запис в `json`:

In [25]:
dt = pd.DataFrame(
    data={
        'FirstColumn': [[1, 2], [3, 4]],
        'SecondColumn': ['a', 'b']
    },
    columns=['FirstColumn', 'SecondColumn'],
    index=['row1', 'row2']
)

dt.to_json(
    'Files/DummyData.json',
    # значення, що задає структуру файлу, повинно збігатися зі значенням в аргументі orient,
    # яке передається під час читання у методі read_json
    orient='columns'
)
dt

Unnamed: 0,FirstColumn,SecondColumn
row1,"[1, 2]",a
row2,"[3, 4]",b


## Вправа:

Створіть датафрейм з трьома стовпцями та десятьмя рядками (з довільними даними). Перевірте його створення переглядом перших 5-ти рядків. Далі збережіть датафрейм в csv-файл. Нарешті, завантажте збережені дані в новий датафрейм і перегляньте чи нічого не змінилося.

In [26]:
df = pd.DataFrame({'numbers': [1,2,3,4,5,6,7,8,9,0], 
                   'letters': ['a','b','c','d','e','f','g','h','i','j'],
                    'caps' : ['A','B','C','D','E','F','G','H','I','J']})

df = df.head()

df.to_csv('testtt.csv', header = True, index = False)


In [27]:
dataFrame = pd.DataFrame({
    "Game" : ["Saint Row","M&B II", "RimWorld"],
    "Score" : ["1/10","9/10","10/10"],
    "Hours spend" : ["0","100","150"]
})

print(dataFrame.head())
dataFrame.to_csv(path_or_buf="Example.csv", index=None)
print(dataFrame)

rDataFrame = pd.read_csv("Example.csv", index_col= None, header=None)

print(rDataFrame)


        Game  Score Hours spend
0  Saint Row   1/10           0
1     M&B II   9/10         100
2   RimWorld  10/10         150
        Game  Score Hours spend
0  Saint Row   1/10           0
1     M&B II   9/10         100
2   RimWorld  10/10         150
           0      1            2
0       Game  Score  Hours spend
1  Saint Row   1/10            0
2     M&B II   9/10          100
3   RimWorld  10/10          150


In [28]:
baza = pd.DataFrame({'one': ['A', 'R', 'F', 'G', 'R', 'W', 'Q', 'B','Q', 'B'],
                       'two': [18, 22, 19, 14, 14, 11, 20,36,6,28],
                       'five': [5, 7, 7, 9, 12, 9, 6,22,9, 34],
                      })
print(baza.head())
baza.to_csv('nova.csv', index= False)
nova_baza = pd.read_csv('nova.csv')


print(nova_baza.head(10))


  one  two  five
0   A   18     5
1   R   22     7
2   F   19     7
3   G   14     9
4   R   14    12
  one  two  five
0   A   18     5
1   R   22     7
2   F   19     7
3   G   14     9
4   R   14    12
5   W   11     9
6   Q   20     6
7   B   36    22
8   Q    6     9
9   B   28    34


# Основні операції з таблицями в pandas

&emsp;&emsp;Отримання базової інформації про вміст таблиці: імена колонок, кількість рядків, типи даних у кожній колонці та кількість непорожніх значень, обсяг пам'яті.

In [29]:
titanic_data = pd.read_csv('Files/TitanicDataset.csv', sep=',', header=0)

titanic_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


&emsp;&emsp;Отримання базової статистики за таблицею: кількість непорожніх значень, середнє значення, мінімум, максимум, медіана, стандартне відхилення, квартили. Перерахована статистика може бути порахована тільки для числових колонок - решта буде проігнорована.

In [30]:
titanic_data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


&emsp;&emsp;Для колонок з нечисловими значеннями часто має сенс отримати кількість рядків, що відповідають кожному значенню:

In [31]:
titanic_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [32]:
titanic_data['Embarked'].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

&emsp;&emsp; Отримання форми таблиці як матриці: кількість рядків і стовпців

In [33]:
titanic_data.shape

(891, 12)

&emsp;&emsp;Видалення дублікатів (рядків, що містять однакові значення)

In [34]:
print('кількість рядків у таблиці до видалення дублікатів: ', len(titanic_data))
titanic_data.drop_duplicates(inplace=True)  # видалення дублікатів
print('кількість рядків у таблиці після дублікатів: ', len(titanic_data))

кількість рядків у таблиці до видалення дублікатів:  891
кількість рядків у таблиці після дублікатів:  891


&emsp;&emsp;Як бачимо з результату, дублікатів у таблиці не було. Параметр 'inplace' означає, чи слід видалити дублікати в таблиці. Альтернативно можна було б надати результат новій змінній, вказавши при цьому `inplace=False`:

In [35]:
data_without_duplicates = titanic_data.drop_duplicates(inplace=False)
print(len(data_without_duplicates))

891


&emsp;&emsp;Наприклад продублюємо таблицю. Об'єднання двох і більше таблиць проводиться так само, як у `numpy` масивах:

In [36]:
titanic_data = pd.concat(
    [titanic_data, titanic_data],  # список таблиць, які потрібно об'єднати в одну
    axis=0  # вісь, вздовж якої проводити об'єднання
)

print(len(titanic_data))
titanic_data.drop_duplicates(inplace=True)
print(len(titanic_data))

1782
891


&emsp;&emsp;Перейменування колонок:

In [37]:
titanic_data.rename(
    columns={
        'SibSp': 'SiblingsSpouses',  # колонка "SibSp" буде перейменована на "SiblingsSpouses"
        'Parch': 'ParentsChildren'  # колонка "Parch" буде перейменована на "ParentsChildren"
    },
    inplace=True  # покажчик того, що зміни вносяться до існуючої таблиці
)

titanic_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SiblingsSpouses,ParentsChildren,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


&emsp;&emsp;Дати нові імена колонок можна всім одночасно, надавши атрибуту `columns` новий список імен. Наприклад, якщо ми хочемо зробити всі імена, що починаються з маленької літери:

In [38]:
titanic_data.columns = [c[0].lower() + c[1:] for c in titanic_data.columns]
titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


&emsp;&emsp;Фільтрація таблиці по рядках проводиться так само, як і для `numpy` масиву:

In [39]:
# Вибір рядка з ім'ям пасажира Braund, Mr. Owen Harris
titanic_data[titanic_data['name'] == 'Allen, Mr. William Henry']

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [40]:
# вибір тільки тих, хто вижив:
titanic_data[titanic_data['survived'] == 1].head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [41]:
# вибір усіх жінок старше 30 років
titanic_data[(titanic_data['sex'] == 'female') & (titanic_data['age'] > 30)].head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S
18,19,0,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0,1,0,345763,18.0,,S


&emsp;&emsp;Для вибору порожніх значень є вбудована функція pd.isna:

In [42]:
# вибір пасажирів, для яких невідомий номер каюти чи вік
titanic_data[titanic_data['cabin'].isna() | pd.isna(titanic_data['age'])].head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


&emsp;&emsp;Для удаления пустых значений в какой-либо строке можно воспользоваться методом `dropna`

In [43]:
only_known_data = titanic_data.dropna(inplace=False)  # видалення порожніх значень та привласнення результату нової змінної
print('кількість рядків без пропусків у даних: ', len(only_known_data))
only_known_data.head()

кількість рядків без пропусків у даних:  183


Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S


&emsp;&emsp;Якщо нам потрібно відфільтрувати рядки по набору значень, можна скористатися для цього методом `isin`:

In [44]:
# виберемо рядки, що відповідають наступним пасажирам: Bonnell, Miss. Elizabeth, Hewlett, Mrs. (Mary D Kingcome)
passengers_list = ['Bonnell, Miss. Elizabeth', 'Hewlett, Mrs. (Mary D Kingcome) ']
titanic_data[titanic_data['name'].isin(passengers_list)]

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S


&emsp;&emsp;Сортування таблиці виконується за допомогою методу `sort_values`:

In [45]:
sorted_data = titanic_data.sort_values(
    by=['fare', 'age'],  # список полів, за якими потрібно сортувати
    # порядок сортування: True - за зростанням, False - за спаданням
    # у параметрі ascending можна вказати один True/False - значить все за зростанням або спаданням
    # тут ми вказуємо, що сортуємо за зростанням ціни та зменшенням віку
    ascending=[True, False],
    inplace=False
)

sorted_data.head(20)

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked
597,598,0,3,"Johnson, Mr. Alfred",male,49.0,0,0,LINE,0.0,,S
263,264,0,1,"Harrison, Mr. William",male,40.0,0,0,112059,0.0,B94,S
806,807,0,1,"Andrews, Mr. Thomas Jr",male,39.0,0,0,112050,0.0,A36,S
822,823,0,1,"Reuchlin, Jonkheer. John George",male,38.0,0,0,19972,0.0,,S
179,180,0,3,"Leonard, Mr. Lionel",male,36.0,0,0,LINE,0.0,,S
271,272,1,3,"Tornquist, Mr. William Henry",male,25.0,0,0,LINE,0.0,,S
302,303,0,3,"Johnson, Mr. William Cahoone Jr",male,19.0,0,0,LINE,0.0,,S
277,278,0,2,"Parkes, Mr. Francis ""Frank""",male,,0,0,239853,0.0,,S
413,414,0,2,"Cunningham, Mr. Alfred Fleming",male,,0,0,239853,0.0,,S
466,467,0,2,"Campbell, Mr. William",male,,0,0,239853,0.0,,S


## Вправи

&emsp;&emsp;1. Вибрати імена пасажирів, які підпадають під такі критерії:

&emsp;&emsp;&emsp;&emsp; - Клас каюти 1-й чи 3-й

&emsp;&emsp;&emsp;&emsp; - Вік в інтервалі від 20 до 40

&emsp;&emsp;&emsp;&emsp; - Ціна квитка НЕ знаходиться в інтервалі від 70 до 100


&emsp;&emsp;2. У попередньому розділі ми отримали словник таблиць при читанні з файлу Excel - `crime_data`. Необхідно об'єднати всі таблиці словника в один `DataFrame`

&emsp;&emsp;3. Знайти унікальні комбінації значень колонок `Survived/Pclass/Sex` для пасажирів, у яких не відомий вік

# Застосування функцій до стовпців

&emsp;&emsp;Створення нового стовпця у таблиці здійснюється так само, як і створення нової пари ключ-значення у словнику:

In [46]:
# створимо новий стовпець зі сталим значенням
titanic_data['constant_value_1'] = 1
titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked,constant_value_1
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,1


&emsp;&emsp;Нова колонка завжди додається до кінця таблиці, щоб додати її на певну позицію можна скористатися методом `insert`. Наприклад, вставимо ще одну колонку з константою відразу після імені пасажира:

In [47]:
titanic_data.insert(
    loc=4,  # порядковий номер нової колонки після додавання
    column='constant_value_2',  # ім'я нової колонки
    value=2  # значення (може бути масив або один об'єкт)
)

titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,constant_value_2,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked,constant_value_1
0,1,0,3,"Braund, Mr. Owen Harris",2,male,22.0,1,0,A/5 21171,7.25,,S,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",2,female,38.0,1,0,PC 17599,71.2833,C85,C,1
2,3,1,3,"Heikkinen, Miss. Laina",2,female,26.0,0,0,STON/O2. 3101282,7.925,,S,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",2,female,35.0,1,0,113803,53.1,C123,S,1
4,5,0,3,"Allen, Mr. William Henry",2,male,35.0,0,0,373450,8.05,,S,1


&emsp;&emsp;Для видалення небажаних стовпчиків можемо скористатися методом `drop`:

In [48]:
titanic_data.drop(
    ['constant_value_1', 'constant_value_2'],  # список колонок або рядків, які потрібно видалити
    axis=1,  # видалення рядків відбувається аналогічно, щоб видалити саме колонки, вибираємо відповідну вісь
    inplace=True  # видалення "на місці", без надання нової змінної
)

titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


&emsp;&emsp;Оскільки стовпці таблиці реалізовані на основі `numpy` масивів, найефективнішим та кращим способом їх зміни є векторизація:

In [49]:
# заміна текстового подання статі пасажирів числовим: female буде відповідати значенню 1, male - 0
titanic_data['IntSex'] = np.where(titanic_data['sex'] == 'female', 1, 0)
titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked,IntSex
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0


In [50]:
# застосування арифметичної функції
titanic_data['LogAge'] = np.log(titanic_data['age'])  # логарифм від віку пасажира
titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked,IntSex,LogAge
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,3.091042
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1,3.637586
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1,3.258097
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,1,3.555348
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0,3.555348


In [51]:
# операції з кількома колонками
titanic_data['SexAge'] = titanic_data['IntSex'] * titanic_data['age']  # добуток статі на вік
titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked,IntSex,LogAge,SexAge
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,3.091042,0.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1,3.637586,38.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1,3.258097,26.0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,1,3.555348,35.0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0,3.555348,0.0


In [52]:
titanic_data.drop(['IntSex', 'LogAge', 'SexAge'], axis=1, inplace=True)  # далі нам ці колонки не знадобляться

&emsp;&emsp;Однак часто виникають ситуації, коли функція, яку ми хочемо застосувати до таблиці, надто складна, і її неможливо виконати у векторизованому стилі. У таких ситуаціях можна скористатися методом `apply`, який працює аналогічно до вбудованої функції `map`.  

&emsp;&emsp;Приклад: створити нову колонку з ім'ям пасажира, де буде лише приставка та прізвище. Тобто з `Braund, Mr. Owen Harris` отримати `Mr Braund`.

In [53]:
# визначимо функцію, яку застосовуватимемо
def name_formatting(name):
    
    last_name = name.split(',')[0]
    prefix = name.split(' ')[1][:-1]
    return f'{prefix} {last_name}'

# створимо нову колонку, яка міститиме відформатовану версію імен
titanic_data['FormattedName'] = titanic_data['name'].apply(name_formatting)

titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked,FormattedName
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Mr Braund
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs Cumings
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss Heikkinen
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Mrs Futrelle
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,Mr Allen


&emsp;&emsp;Як і в функціональному програмуванні, якщо функція досить мала, її краще замінити 'lambda' виразом.  
&emsp;&emsp;Приклад: створити додаткову колонку, яка містить лише прізвище пасажира

In [54]:
titanic_data['LastName'] = titanic_data['FormattedName'].apply(lambda x: x.split(' ')[-1])
titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked,FormattedName,LastName
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Mr Braund,Braund
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs Cumings,Cumings
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss Heikkinen,Heikkinen
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Mrs Futrelle,Futrelle
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,Mr Allen,Allen


&emsp;&emsp;Працювати з рядковими стовпцями можна, використовуючи методи рядків явно. Для цього необхідно після назви колонки вказати атрибут `str`, після чого через точку викликати рядковий метод, що цікавить. Наприклад, ми можемо записати всі прізвища пасажирів великими літерами в такий спосіб:

In [55]:
titanic_data['LastName'] = titanic_data['LastName'].str.upper()
titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked,FormattedName,LastName
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Mr Braund,BRAUND
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs Cumings,CUMINGS
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss Heikkinen,HEIKKINEN
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Mrs Futrelle,FUTRELLE
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,Mr Allen,ALLEN


&emsp;&emsp;Метод `apply` можна використовувати, якщо функція застосовується до кількох стовпчиків таблиці. Тоді в функцію буде атоматично передано рядок.  
&emsp;&emsp;Приклад: створити колонку виду "Прізвище пасажира, вік пасажира"

In [56]:
titanic_data['NameAge'] = titanic_data.apply(lambda r: f"{r['FormattedName']}, {r['age']}", axis=1)
titanic_data['NameAge_2'] = titanic_data['FormattedName'] + ", " + titanic_data['age'].apply(lambda x: str(x))
titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked,FormattedName,LastName,NameAge,NameAge_2
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Mr Braund,BRAUND,"Mr Braund, 22.0","Mr Braund, 22.0"
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs Cumings,CUMINGS,"Mrs Cumings, 38.0","Mrs Cumings, 38.0"
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss Heikkinen,HEIKKINEN,"Miss Heikkinen, 26.0","Miss Heikkinen, 26.0"
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Mrs Futrelle,FUTRELLE,"Mrs Futrelle, 35.0","Mrs Futrelle, 35.0"
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,Mr Allen,ALLEN,"Mr Allen, 35.0","Mr Allen, 35.0"


&emsp;&emsp;Аналогічно, функція може бути застосована до рядків, тому в попередньому прикладі нам довелося вказати `axis=1`.

In [57]:
titanic_data.drop(['FormattedName', 'LastName', 'NameAge', 'NameAge_2'], axis=1, inplace=True)

In [58]:
titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


&emsp;&emsp;Конвертація типів даних виконується за допомогою методу `astype`, у якому вказується цільовий тип даних (зазвичай серед запропонованих у `numpy`).

In [59]:
titanic_data['survived'] = titanic_data['survived'].astype(str)  # приведення до типу рядок (object в dt.info())
titanic_data['pclass'] = titanic_data['pclass'].astype(np.int8)  # приведення до цілого числа

titanic_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   passengerId      891 non-null    int64  
 1   survived         891 non-null    object 
 2   pclass           891 non-null    int8   
 3   name             891 non-null    object 
 4   sex              891 non-null    object 
 5   age              714 non-null    float64
 6   siblingsSpouses  891 non-null    int64  
 7   parentsChildren  891 non-null    int64  
 8   ticket           891 non-null    object 
 9   fare             891 non-null    float64
 10  cabin            204 non-null    object 
 11  embarked         889 non-null    object 
dtypes: float64(2), int64(3), int8(1), object(6)
memory usage: 84.4+ KB


In [60]:
type(titanic_data.iloc[1]['survived'])

str

In [61]:
titanic_data['survived'] = titanic_data['survived'].astype(np.int8)
titanic_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   passengerId      891 non-null    int64  
 1   survived         891 non-null    int8   
 2   pclass           891 non-null    int8   
 3   name             891 non-null    object 
 4   sex              891 non-null    object 
 5   age              714 non-null    float64
 6   siblingsSpouses  891 non-null    int64  
 7   parentsChildren  891 non-null    int64  
 8   ticket           891 non-null    object 
 9   fare             891 non-null    float64
 10  cabin            204 non-null    object 
 11  embarked         889 non-null    object 
dtypes: float64(2), int64(3), int8(2), object(5)
memory usage: 78.3+ KB


&emsp;&emsp;Насправді, здебільшого `pandas` успішно розпізнає найбільш підходящий тип даних кожної колонки під час читання з файлу, тобто, нам рідко доводиться явно змінювати тип вручну. Винятком є дати, котрим передбачено особливий тип даних. Справа в тому, що при читанні з файлу будь-яку дату буде визначено як рядок і всі властивості дати їй доступні не будуть. Щоб цього уникнути можна або явно вказати який стовпець містить дату на етапі читання даних, або конвертувати рядкову колонку пізніше.

&emsp;&emsp;Розглянемо основні прийоми роботи з датами на прикладі "CrimesData".

In [62]:
crimes_data = pd.read_excel(
    'Files/CrimesData.xlsx',
    sheet_name=0,
    nrows=50
)

crimes_data[['CrimeDate', 'CrimeTime']].head()

Unnamed: 0,CrimeDate,CrimeTime
0,01/01/2011,00:00:00
1,01/01/2011,00:10:00
2,01/01/2011,01:00:00
3,01/01/2011,01:38:00
4,01/01/2011,02:01:00


&emsp;&emsp;Переконаємося, що колонка `CrimeDate` містить рядки

In [63]:
crimes_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   CrimeDate        50 non-null     object
 1   CrimeTime        50 non-null     object
 2   CrimeCode        50 non-null     object
 3   Location         49 non-null     object
 4   Description      50 non-null     object
 5   Weapon           15 non-null     object
 6   Post             50 non-null     int64 
 7   District         50 non-null     object
 8   Neighborhood     48 non-null     object
 9   Location 1       49 non-null     object
 10  Total Incidents  50 non-null     int64 
dtypes: int64(2), object(9)
memory usage: 4.4+ KB


&emsp;&emsp;Вказати список колонок з датами, які потрібно конвертувати під час читання, можна в аргументі `parse_dates`

In [64]:
crimes_data = pd.read_excel(
    'Files/CrimesData.xlsx',
    sheet_name=0,
    nrows=50,
    parse_dates=['CrimeDate']
)

crimes_data[['CrimeDate', 'CrimeTime']].head()

Unnamed: 0,CrimeDate,CrimeTime
0,2011-01-01,00:00:00
1,2011-01-01,00:10:00
2,2011-01-01,01:00:00
3,2011-01-01,01:38:00
4,2011-01-01,02:01:00


&emsp;&emsp;Тепер `CrimeDate` має тип `datetime64` - найбільш точний формат, в якому `pandas` зберігає запис про дату та час

In [65]:
crimes_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   CrimeDate        50 non-null     datetime64[ns]
 1   CrimeTime        50 non-null     object        
 2   CrimeCode        50 non-null     object        
 3   Location         49 non-null     object        
 4   Description      50 non-null     object        
 5   Weapon           15 non-null     object        
 6   Post             50 non-null     int64         
 7   District         50 non-null     object        
 8   Neighborhood     48 non-null     object        
 9   Location 1       49 non-null     object        
 10  Total Incidents  50 non-null     int64         
dtypes: datetime64[ns](1), int64(2), object(8)
memory usage: 4.4+ KB


&emsp;&emsp;Конвертація готової текстової колонки до типу дата провадиться за допомогою функції `to_datetime`. Ця функція здатна впоратися з більшістю стандартних форматів подання дати, і вимагатиме уточнення формату в аргументі `format` тільки якщо запис дати не стандартний. З нашим випадком ми можемо впоратися без вказівки формату:

In [66]:
crimes_data = pd.read_excel('Files/CrimesData.xlsx', sheet_name=0, nrows=50)
crimes_data['CrimeDate'] = pd.to_datetime(crimes_data['CrimeDate'])
crimes_data[['CrimeDate', 'CrimeTime']].head()

Unnamed: 0,CrimeDate,CrimeTime
0,2011-01-01,00:00:00
1,2011-01-01,00:10:00
2,2011-01-01,01:00:00
3,2011-01-01,01:38:00
4,2011-01-01,02:01:00


In [67]:
crimes_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   CrimeDate        50 non-null     datetime64[ns]
 1   CrimeTime        50 non-null     object        
 2   CrimeCode        50 non-null     object        
 3   Location         49 non-null     object        
 4   Description      50 non-null     object        
 5   Weapon           15 non-null     object        
 6   Post             50 non-null     int64         
 7   District         50 non-null     object        
 8   Neighborhood     48 non-null     object        
 9   Location 1       49 non-null     object        
 10  Total Incidents  50 non-null     int64         
dtypes: datetime64[ns](1), int64(2), object(8)
memory usage: 4.4+ KB


&emsp;&emsp;Формат при необхідності задається за допомогою спеціальних символів, що описують дату. Наприклад, маючи дату у вигляді `12/31/2011`, відповідний їй формат виглядає як `%m/%d/%Y`, де

&emsp;&emsp; `%Y` - рік, у форматі 4-х цифр

&emsp;&emsp; `%m` - місяць, у форматі 2-х цифр

&emsp;&emsp; `%d` - день, у форматі 2-х цифр

&emsp;&emsp;Більш детальну інформацію про завдання формату дати-часу можна переглянути в [документації](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior)

In [68]:
crimes_data = pd.read_excel('Files/CrimesData.xlsx', sheet_name=0)
crimes_data['CrimeDate'] = pd.to_datetime(crimes_data['CrimeDate'], format='%m/%d/%Y')
crimes_data[['CrimeDate', 'CrimeTime']].head()

Unnamed: 0,CrimeDate,CrimeTime
0,2011-01-01,00:00:00
1,2011-01-01,00:10:00
2,2011-01-01,01:00:00
3,2011-01-01,01:38:00
4,2011-01-01,02:01:00


# !!!!!!!!!!!!!!!!!

&emsp;&emsp;До цього моменту ми не скористалися додатковою інформацією про час, що міститься в сусідній колонці. Час записано у форматі рядка як `hour:minute:second`. Ми можемо записати функцію, яка перевіряє, чи всі записи відповідають такому формату:

In [69]:
all([False, True, False])

False

In [70]:
any([False, True, False])

True

In [71]:
def check_time(cell):
    
    time_split = cell.split(':')
    
    # перевіримо, що час складається рівно із 3-х фрагментів
    if len(time_split) != 3:
        return False
    
    # перевіримо, що кожен фрагмент часу – двозначне число
    if not all([len(fragment) == 2 for fragment in time_split]):
        return False
    
    return True

# додамо нову колонку з результатами перевірки + виведемо на екран рядки, які не пройшли тест
crimes_data['TimeCheck'] = crimes_data['CrimeTime'].apply(check_time)
crimes_data[['CrimeDate', 'CrimeTime', 'TimeCheck']][~crimes_data['TimeCheck']].head()

Unnamed: 0,CrimeDate,CrimeTime,TimeCheck
74,2011-01-06,1937,False
271,2011-01-23,1955,False
314,2011-01-28,1730,False
444,2011-02-13,1637,False
546,2011-02-23,549,False


&emsp;&emsp;Припускаючи, що нестандартний запис `1937` насправді означає `19:37:00`, можемо зробити заміну наступним чином:

In [115]:
def fix_time(cell):
    """1937 -> 19:37:00"""
    if len(cell) == 4 and ':' not in cell:
        return f'{cell[:2]}:{cell[2:]}:00'
    else:
        return cell

    
crimes_data['CrimeTime'] = crimes_data['CrimeTime'].apply(fix_time)  # внесемо правки до оригінальної колонки
# повторимо перевірку формату
crimes_data['TimeCheck'] = crimes_data['CrimeTime'].apply(check_time)
crimes_data[['CrimeDate', 'CrimeTime', 'TimeCheck']][~crimes_data['TimeCheck']].head()

Unnamed: 0,CrimeDate,CrimeTime,TimeCheck


&emsp;&emsp;Поєднуючи всі разом, ми можемо отримати фінальну дату-час шляхом виконання ланцюжка операцій нижче:

In [73]:
crimes_data = pd.read_excel('Files/CrimesData.xlsx', sheet_name=0)
crimes_data['CrimeTime'] = crimes_data['CrimeTime'].apply(fix_time)  # поправимо час
crimes_data['CrimeDateTime'] = crimes_data['CrimeDate'] + ' ' + crimes_data['CrimeTime']  # об'єднаємо дату та час в один рядок
crimes_data[['CrimeDate', 'CrimeTime', 'CrimeDateTime']].head()

Unnamed: 0,CrimeDate,CrimeTime,CrimeDateTime
0,01/01/2011,00:00:00,01/01/2011 00:00:00
1,01/01/2011,00:10:00,01/01/2011 00:10:00
2,01/01/2011,01:00:00,01/01/2011 01:00:00
3,01/01/2011,01:38:00,01/01/2011 01:38:00
4,01/01/2011,02:01:00,01/01/2011 02:01:00


In [74]:
crimes_data['CrimeDateTime'] = pd.to_datetime(
    crimes_data['CrimeDateTime'],
    format='%m/%d/%Y %H:%M:%S'  # вказівка повного формату з урахуванням часу
)
crimes_data[['CrimeDate', 'CrimeTime', 'CrimeDateTime']].head()

Unnamed: 0,CrimeDate,CrimeTime,CrimeDateTime
0,01/01/2011,00:00:00,2011-01-01 00:00:00
1,01/01/2011,00:10:00,2011-01-01 00:10:00
2,01/01/2011,01:00:00,2011-01-01 01:00:00
3,01/01/2011,01:38:00,2011-01-01 01:38:00
4,01/01/2011,02:01:00,2011-01-01 02:01:00


In [75]:
crimes_data[['CrimeDate', 'CrimeTime', 'CrimeDateTime']].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5143 entries, 0 to 5142
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   CrimeDate      5143 non-null   object        
 1   CrimeTime      5143 non-null   object        
 2   CrimeDateTime  5143 non-null   datetime64[ns]
dtypes: datetime64[ns](1), object(2)
memory usage: 120.7+ KB


&emsp;&emsp;На цьому етапі варто видалити колонки `CrimeDate`, `CrimeTime`, тому що вони більше не несуть жодної цінної інформації, а лише займають місце у пам'яті

&emsp;&emsp;Найпопулярніші операції пов'язані з датою та часом – це отримання фрагментів дати (рік, день тощо). Робиться це за допомогою звернення до атрибуду `dt` відповідної колонки, після чого можемо вказати фрагмент дати:

In [76]:
time_info = crimes_data[['CrimeDateTime']].copy()  # створимо іншу таблицю, що складається лише з дат

time_info['CrimeYear'] = time_info['CrimeDateTime'].dt.year  # рік
time_info['CrimeMonth'] = time_info['CrimeDateTime'].dt.month  # місяць
time_info['CrimeDay'] = time_info['CrimeDateTime'].dt.day  # день
time_info['CrimeWeek'] = time_info['CrimeDateTime'].dt.isocalendar().week  # порядковий номер тижня в році
time_info['CrimeHour'] = time_info['CrimeDateTime'].dt.hour  # година дня (без округлення, тільки цілі години)
time_info['CrimeMinute'] = time_info['CrimeDateTime'].dt.minute  # хвилина
time_info['CrimeSecond'] = time_info['CrimeDateTime'].dt.second  # секунда

time_info.head()

Unnamed: 0,CrimeDateTime,CrimeYear,CrimeMonth,CrimeDay,CrimeWeek,CrimeHour,CrimeMinute,CrimeSecond
0,2011-01-01 00:00:00,2011,1,1,52,0,0,0
1,2011-01-01 00:10:00,2011,1,1,52,0,10,0
2,2011-01-01 01:00:00,2011,1,1,52,1,0,0
3,2011-01-01 01:38:00,2011,1,1,52,1,38,0
4,2011-01-01 02:01:00,2011,1,1,52,2,1,0


&emsp;&emsp;Далі розглянемо як можна шукати різницю між датами. Для початку зрушимо всі дати на одну вперед, робиться це за допомогою методу `shift`:

In [77]:
time_info['PreviousCrimeDate'] = time_info['CrimeDateTime'].shift(1)
time_info.head()

Unnamed: 0,CrimeDateTime,CrimeYear,CrimeMonth,CrimeDay,CrimeWeek,CrimeHour,CrimeMinute,CrimeSecond,PreviousCrimeDate
0,2011-01-01 00:00:00,2011,1,1,52,0,0,0,NaT
1,2011-01-01 00:10:00,2011,1,1,52,0,10,0,2011-01-01 00:00:00
2,2011-01-01 01:00:00,2011,1,1,52,1,0,0,2011-01-01 00:10:00
3,2011-01-01 01:38:00,2011,1,1,52,1,38,0,2011-01-01 01:00:00
4,2011-01-01 02:01:00,2011,1,1,52,2,1,0,2011-01-01 01:38:00


&emsp;&emsp;При знаходженні різниці між двома датами в результаті виходить новий тип даних - `timedelta`, з якої можна вилучити різницю в днях або секундах:

In [78]:
time_info['TimeFromPreviousCrime'] = time_info['CrimeDateTime'] - time_info['PreviousCrimeDate']
time_info.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5143 entries, 0 to 5142
Data columns (total 10 columns):
 #   Column                 Non-Null Count  Dtype          
---  ------                 --------------  -----          
 0   CrimeDateTime          5143 non-null   datetime64[ns] 
 1   CrimeYear              5143 non-null   int64          
 2   CrimeMonth             5143 non-null   int64          
 3   CrimeDay               5143 non-null   int64          
 4   CrimeWeek              5143 non-null   UInt32         
 5   CrimeHour              5143 non-null   int64          
 6   CrimeMinute            5143 non-null   int64          
 7   CrimeSecond            5143 non-null   int64          
 8   PreviousCrimeDate      5142 non-null   datetime64[ns] 
 9   TimeFromPreviousCrime  5142 non-null   timedelta64[ns]
dtypes: UInt32(1), datetime64[ns](2), int64(6), timedelta64[ns](1)
memory usage: 386.9 KB


In [79]:
time_info['TimeFromPreviousCrime']

0                  NaT
1      0 days 00:10:00
2      0 days 00:50:00
3      0 days 00:38:00
4      0 days 00:23:00
             ...      
5138   0 days 03:15:00
5139   0 days 01:30:00
5140   0 days 02:25:00
5141   0 days 02:05:00
5142   0 days 01:37:00
Name: TimeFromPreviousCrime, Length: 5143, dtype: timedelta64[ns]

In [80]:
# відокремимо час з "timedelta" стовпця
# зверніть увагу, що звертатися до колонки можна і як до атрибуту
time_info['DaysFromLastCrime'] = time_info.TimeFromPreviousCrime.dt.days
time_info['SecFromLastCrime'] = time_info.TimeFromPreviousCrime.dt.seconds
time_info[['TimeFromPreviousCrime', 'DaysFromLastCrime', 'SecFromLastCrime']].head()

Unnamed: 0,TimeFromPreviousCrime,DaysFromLastCrime,SecFromLastCrime
0,NaT,,
1,0 days 00:10:00,0.0,600.0
2,0 days 00:50:00,0.0,3000.0
3,0 days 00:38:00,0.0,2280.0
4,0 days 00:23:00,0.0,1380.0


&emsp;&emsp;Для того, щоб збільшити на певне значення 'datetime' колонку, нам необхідно додати об'єкт типу 'timedelta'. Отримати останній можна як обчислюючи різницю між датами (розглянутий вище метод), так і явно за допомогою методу `to_timedelta`.

&emsp;&emsp;Приклад: збільшити всі значення в колонці `CrimeDateTime` на одну годину

In [81]:
# створимо колонку з timedelta значеннями, на які плануємо збільшити дату
time_info['TimeIncrement'] = 1
time_info['TimeIncrement'] = pd.to_timedelta(
    time_info['TimeIncrement'],
    unit='hour'  # в аргументі unit необхідно вказати в яких одиницях передається різниця у часі
)

# додамо різницю у часі
time_info['CrimeDateTimeIncremented'] = time_info.CrimeDateTime + time_info.TimeIncrement
time_info[['CrimeDateTime', 'CrimeDateTimeIncremented', 'TimeIncrement']].head()

Unnamed: 0,CrimeDateTime,CrimeDateTimeIncremented,TimeIncrement
0,2011-01-01 00:00:00,2011-01-01 01:00:00,0 days 01:00:00
1,2011-01-01 00:10:00,2011-01-01 01:10:00,0 days 01:00:00
2,2011-01-01 01:00:00,2011-01-01 02:00:00,0 days 01:00:00
3,2011-01-01 01:38:00,2011-01-01 02:38:00,0 days 01:00:00
4,2011-01-01 02:01:00,2011-01-01 03:01:00,0 days 01:00:00


&emsp;&emsp;Останнє, на що звернемо увагу в цьому розділі - це фільтрація таблиці за датою і часом, яка здійснюється так само, як і в SQL: шляхом передачі меж інтервалу у вигляді рядків.

&emsp;&emsp;Для ілюстрації виведемо всі наявні дати в інтервалі від `2011-12-31 17:25:00` до `2011-12-31 19:10:00`

In [82]:
time_info[['CrimeDateTime', 'CrimeDateTimeIncremented', 'TimeIncrement']][
    (time_info.CrimeDateTime >= '2011-12-31 17:25:00') &
    (time_info.CrimeDateTime <= '2011-12-31 23:10:00')
]

Unnamed: 0,CrimeDateTime,CrimeDateTimeIncremented,TimeIncrement
5139,2011-12-31 17:30:00,2011-12-31 18:30:00,0 days 01:00:00
5140,2011-12-31 19:55:00,2011-12-31 20:55:00,0 days 01:00:00
5141,2011-12-31 22:00:00,2011-12-31 23:00:00,0 days 01:00:00


## Вправи

&emsp;&emsp;(Наприкінці кожної вправи вказані дані, якими необхідно скористатися)

&emsp;&emsp; 1. Створити колонку, яка містить прізвище пасажира та приписку 'above 30', якщо він старше 30 років і 'below 30' якщо навпаки (у тому числі, якщо вік не відомий). Приклад: 'William, below 30' (`TitanicDataset`)

&emsp;&emsp; 2. У стовпці `Pclass` замінити оригінальні значення `1, 2, 3` на текст `"First", "Second", "Third"` (`TitanicDataset`)

&emsp;&emsp; 3. Знайти пасажирів, у яких був найдорожчий квиток (`TitanicDataset`)

&emsp;&emsp; 4. Знайти пасажирів із максимальною кількістю родичів на борту (`TitanicDataset`)

&emsp;&emsp; 5. Знайти кількість злочинів, що сталися у грудні 2012 року в інтервалі між першою годиною ночі та п'ятою ранку (`CrimesData`)

&emsp;&emsp; 6. Обчислити середній інтервал між злочинами за 2012 рік у годинах (`CrimesData`)

In [83]:
titanic_data['FormattedName'] = titanic_data['name'].apply(name_formatting)
titanic_data['LastName'] = titanic_data['FormattedName'].apply(lambda x: x.split(' ')[-1])

In [84]:
titanic_data['NameAge'] = titanic_data['LastName'] + np.where(titanic_data['age'] <= 30, ', below 30', ', above 30')
titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked,FormattedName,LastName,NameAge
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Mr Braund,Braund,"Braund, below 30"
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs Cumings,Cumings,"Cumings, above 30"
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss Heikkinen,Heikkinen,"Heikkinen, below 30"
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Mrs Futrelle,Futrelle,"Futrelle, above 30"
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,Mr Allen,Allen,"Allen, above 30"


In [85]:
titanic_data['NameAge_2'] = titanic_data.apply(
    lambda r: f"{r['LastName']}, below 30" if r["age"] <= 30 else f"{r['LastName']}, above 30", axis=1
)
titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked,FormattedName,LastName,NameAge,NameAge_2
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Mr Braund,Braund,"Braund, below 30","Braund, below 30"
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs Cumings,Cumings,"Cumings, above 30","Cumings, above 30"
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss Heikkinen,Heikkinen,"Heikkinen, below 30","Heikkinen, below 30"
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Mrs Futrelle,Futrelle,"Futrelle, above 30","Futrelle, above 30"
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,Mr Allen,Allen,"Allen, above 30","Allen, above 30"


# Присвоїти значення зрізу

&emsp;&emsp;У `numpy` масивах ми можемо надати зрізу нове значення наступним чином:

In [86]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5])
arr[arr > 3] = 100  # присвоїти усім значенням більше 3 значення 100
print(arr)

[  1   2   3 100 100]


&emsp;&emsp;У випадку з pandas запропонованим вище чином цього зробити не можна:

In [87]:
x = pd.DataFrame(data={'a': [1, 2, 3, 4], 'b': [5, 6, 7, 8]})
x

Unnamed: 0,a,b
0,1,5
1,2,6
2,3,7
3,4,8


In [88]:
x[x['a'] > 2]['a'] = 100  # видасть попередження, що так робити не можна і таблиця залишиться без змін
x

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  x[x['a'] > 2]['a'] = 100  # видасть попередження, що так робити не можна і таблиця залишиться без змін


Unnamed: 0,a,b
0,1,5
1,2,6
2,3,7
3,4,8


&emsp;&emsp;Якщо потрібно зробити запропоновану вище операцію, доведеться явно послатися на рядки через індекс, з використанням методу `loc` наступним чином:

In [89]:
x.loc[x['a'] > 2, 'a'] = 100
x

Unnamed: 0,a,b
0,1,5
1,2,6
2,100,7
3,100,8


# Long/wide формати таблиць

&emsp;&emsp;Працюючи з даними завжди виникає конфлікт через те, що працювати з інформацією зручніше в одному форматі, а записувати для зберігання (наприклад у БД) в іншому.  

&emsp;&emsp;Таблиці з даними про пасажирів Титаніка - це приклад таблиці у форматі `wide`, тобто один рядок відповідає одній одиниці спостереження (пасажиру), а вся необхідна інформація про нього міститься в колонках. Назва `wide` походить від того, що у колонок може бути досить великим змушуючи таблицю зростати вшир. Це основний формат, в якому дані використовуються для обробки та аналізу.  

&emsp;&emsp;Альтернативно, при записі в БД інформація може надходити порційно. Наприклад, ми зараз знаємо, що пасажир придбав квиток у 3 клас - ми вже можемо внести цю інформацію в БД. Далі, коли він погрузиться на корабель - ми знатимемо, скільки речей він із собою приніс і т.д. Таблиці, які містять таку інформацію зазвичай мають колонку, яка відповідає одиниці спостереження (один і той же пасажир буде зустрічатися в декількох рядках), колонку з назвою величини та окрему колонку з її значенням. Формат такого запису називається `long`, тому що таблиці зазвичай мають мало колонок, але дуже багато рядків.

&emsp;&emsp;Для того, щоб перевести таблицю з `wide` формату в `long` можна скористатися функцією `melt`:

In [90]:
titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked,FormattedName,LastName,NameAge,NameAge_2
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Mr Braund,Braund,"Braund, below 30","Braund, below 30"
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs Cumings,Cumings,"Cumings, above 30","Cumings, above 30"
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss Heikkinen,Heikkinen,"Heikkinen, below 30","Heikkinen, below 30"
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Mrs Futrelle,Futrelle,"Futrelle, above 30","Futrelle, above 30"
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,Mr Allen,Allen,"Allen, above 30","Allen, above 30"


In [91]:
long_titanic = pd.melt(
    frame=titanic_data,  # таблиця, яку потрібно перетворити
    id_vars=['passengerId', 'name'],  # імена колонок, які відповідають одиниці спостереження
    # всі інші колонки містять значення
    value_vars=[col for col in titanic_data.columns if col not in ['passengerId', 'name']],
)

long_titanic.head(10)

Unnamed: 0,passengerId,name,variable,value
0,1,"Braund, Mr. Owen Harris",survived,0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",survived,1
2,3,"Heikkinen, Miss. Laina",survived,1
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",survived,1
4,5,"Allen, Mr. William Henry",survived,0
5,6,"Moran, Mr. James",survived,0
6,7,"McCarthy, Mr. Timothy J",survived,0
7,8,"Palsson, Master. Gosta Leonard",survived,0
8,9,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",survived,1
9,10,"Nasser, Mrs. Nicholas (Adele Achem)",survived,1


In [92]:
long_titanic.iloc[891]

passengerId                          1
name           Braund, Mr. Owen Harris
variable                        pclass
value                                3
Name: 891, dtype: object

In [93]:
long_titanic[long_titanic['name'] == 'Braund, Mr. Owen Harris']

Unnamed: 0,passengerId,name,variable,value
0,1,"Braund, Mr. Owen Harris",survived,0
891,1,"Braund, Mr. Owen Harris",pclass,3
1782,1,"Braund, Mr. Owen Harris",sex,male
2673,1,"Braund, Mr. Owen Harris",age,22.0
3564,1,"Braund, Mr. Owen Harris",siblingsSpouses,1
4455,1,"Braund, Mr. Owen Harris",parentsChildren,0
5346,1,"Braund, Mr. Owen Harris",ticket,A/5 21171
6237,1,"Braund, Mr. Owen Harris",fare,7.25
7128,1,"Braund, Mr. Owen Harris",cabin,
8019,1,"Braund, Mr. Owen Harris",embarked,S


&emsp;&emsp;Як бачите, кожному пасажиру тепер відповідає цілий набір ознак у колонці `variable` та їх значень у колонці `value`. Нові розміри таблиці наступні:

In [94]:
long_titanic.shape

(12474, 4)

&emsp;&emsp;Зворотня операція - переведення таблиці з формату `long` у `wide` називається `pivot` і виглядає наступним чином:

In [95]:
wide_titanic = long_titanic.pivot(
    index=['passengerId', 'name'],
    columns='variable',
    values='value'
)

wide_titanic.head()

Unnamed: 0_level_0,variable,FormattedName,LastName,NameAge,NameAge_2,age,cabin,embarked,fare,parentsChildren,pclass,sex,siblingsSpouses,survived,ticket
passengerId,name,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
1,"Braund, Mr. Owen Harris",Mr Braund,Braund,"Braund, below 30","Braund, below 30",22.0,,S,7.25,0,3,male,1,0,A/5 21171
2,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",Mrs Cumings,Cumings,"Cumings, above 30","Cumings, above 30",38.0,C85,C,71.2833,0,1,female,1,1,PC 17599
3,"Heikkinen, Miss. Laina",Miss Heikkinen,Heikkinen,"Heikkinen, below 30","Heikkinen, below 30",26.0,,S,7.925,0,3,female,0,1,STON/O2. 3101282
4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Mrs Futrelle,Futrelle,"Futrelle, above 30","Futrelle, above 30",35.0,C123,S,53.1,0,1,female,1,1,113803
5,"Allen, Mr. William Henry",Mr Allen,Allen,"Allen, above 30","Allen, above 30",35.0,,S,8.05,0,3,male,0,0,373450


In [96]:
wide_titanic.shape

(891, 14)

# Агрегування таблиць

&emsp;&emsp;Застосовувати агрегаційну функцію до стовпціві таблиці можна точно так само, як і до масиву `numpy`, враховуючи, що колонки реалізовані на їх основі. При цьому в конвертації немає потреби: функції `numpy` і агрегуючі методи доступні відразу для столбця

In [97]:
max_ticket_price_method = titanic_data['fare'].max()
max_ticket_price_func = np.max(titanic_data['fare'])

print(max_ticket_price_func)
print(max_ticket_price_method)

512.3292
512.3292


&emsp;&emsp;Часто виникає необхідність знайти середнє значення (максимум, мінімум, суму і т.д.) однієї змінної в залежності від іншої. У `pandas` це робиться за допомогою методу `groupby`. 

&emsp;&emsp;Приклад: знайти % виживших в залежності від класу каюти пасажира

In [98]:
aggr_data = titanic_data.groupby(by=['pclass'])['survived'].mean()
aggr_data

pclass
1    0.629630
2    0.472826
3    0.242363
Name: survived, dtype: float64

&emsp;&emsp;Параметр `by`, який визначає колонки, за якими створюється групування, може приймати довільне коло аргументів. Для прикладу ми можемо знайти максимальний вік пасажира залежно від класу каюти та статі:

In [99]:
aggr_data = titanic_data.groupby(by=['pclass', 'sex'])['age'].max()
aggr_data

pclass  sex   
1       female    63.0
        male      80.0
2       female    57.0
        male      70.0
3       female    63.0
        male      74.0
Name: age, dtype: float64

&emsp;&emsp;Зверніть увагу, що тип `aggr_data` не `DataFrame`, а `Series`. Це сталося, оскільки ми агрегували лише одну колонку, відповідно, `pandas` привів результат до самого простого з можливих типів:

In [100]:
type(aggr_data)

pandas.core.series.Series

&emsp;&emsp;Перед тим, як продовжити роботу з результатом, конвертуйте його в тип `DataFrame` вручну:

In [101]:
aggr_data = pd.DataFrame(aggr_data)
aggr_data

Unnamed: 0_level_0,Unnamed: 1_level_0,age
pclass,sex,Unnamed: 2_level_1
1,female,63.0
1,male,80.0
2,female,57.0
2,male,70.0
3,female,63.0
3,male,74.0


&emsp;&emsp;Тепер зверніть увагу, що отриманий індекс виглядає незвично: ім’я строки тепер задається комбінаціями значень `pclass` + `sex`. Такий індекс називається `Multiindex` і для того, щоб отримати з його конкретну строку, необхідно в методі `loc` перевести кортеж за допомогою:

In [102]:
aggr_data.loc[
    (2, 'male')  # отримаємо рядок, в якому 2-й клас кають і пол 'male'
]

age    70.0
Name: (2, male), dtype: float64

&emsp;&emsp;Отримати набір рядків можна передаваши в метод `loc` список кортежей:

In [103]:
row_names = [
    (1, 'male'),
    (1, 'female'),
    (2, 'male'),
    (2, 'female')
]

aggr_data.loc[row_names]

Unnamed: 0_level_0,Unnamed: 1_level_0,age
pclass,sex,Unnamed: 2_level_1
1,male,80.0
1,female,63.0
2,male,70.0
2,female,57.0


&emsp;&emsp;У такому композитному індексі є рівні (`levels`) - це імена складових індексів. У нашому випадку ми маємо 2 рівня: `pclass` і `sex`, які відображаються при виведенні таблиці на екран. Таблицю можна фільтрувати за допомогою значень підмножини рівнів за допомогою методу `xs`.

&emsp;&emsp;Наприклад: отримати значення, що відповідають тільки чоловікам

In [104]:
aggr_data.xs('male', level='sex')

Unnamed: 0_level_0,age
pclass,Unnamed: 1_level_1
1,80.0
2,70.0
3,74.0


In [105]:
aggr_data.xs(2, level='pclass')

Unnamed: 0_level_0,age
sex,Unnamed: 1_level_1
female,57.0
male,70.0


&emsp;&emsp;Останній варіант роботи з композитним індексом - це вибавитися від індексу та помістити всі значення в столбці таблиці, після чого використовуватися вже розглянутою попередньою фільтрацією. Для цього передбачений метод `reset_index`:

In [106]:
# замена індекса
aggr_data.reset_index(
    drop=False,  # False означає, що існуючий індекс переміщується в колонки, а не буде видалено
    inplace=True  # виконати операцію на місці, без присвоєння нової змінної
)
aggr_data

Unnamed: 0,pclass,sex,age
0,1,female,63.0
1,1,male,80.0
2,2,female,57.0
3,2,male,70.0
4,3,female,63.0
5,3,male,74.0


&emsp;&emsp;Якщо ми з самого початку хотіли, щоб групи склали індекс, цього можна було б уникнути, передайте в аргументі `as_index` методу `groupby` значення `False`:

In [107]:
aggr_data = titanic_data.groupby(by=['pclass', 'sex'], as_index=False)['age'].max()
aggr_data

Unnamed: 0,pclass,sex,age
0,1,female,63.0
1,1,male,80.0
2,2,female,57.0
3,2,male,70.0
4,3,female,63.0
5,3,male,74.0


&emsp;&emsp;У більш загальному випадку, якщо необхідно застосувати кілька агрегуючих функцій до кількох колонок, можна скористатися методом `agg`.  

&emsp;&emsp;Приклад: вибрати мінімальний, максимальний і середній вік + відсоток, тих хто вижмв залежно від класу каюти і статі

In [108]:
aggr_data = titanic_data.groupby(by=['pclass', 'sex']).agg(
    min_age=('age', np.min),
    max_age=('age', np.max),
    mean_age=('age', np.mean),
    survival_share=('survived', np.mean)
)

aggr_data.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,min_age,max_age,mean_age,survival_share
pclass,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,female,2.0,63.0,34.611765,0.968085
1,male,0.92,80.0,41.281386,0.368852
2,female,2.0,57.0,28.722973,0.921053
2,male,0.67,70.0,30.740707,0.157407
3,female,0.75,63.0,21.75,0.5


&emsp;&emsp;Аналогами функцій `SQL` `COUNT/COUNT(DISTINCT)` в `pandas` є методи `count()/nunique()`, які в методі `agg` можна передавати просто текстом (так само, як і інші методи типу `max /min/...`:

In [109]:
aggr_data = titanic_data.groupby(by=['pclass', 'sex']).agg(
    num_records=('name', 'count'),
    num_unique_passengers=('name', 'nunique'),
    max_age=('age', 'max')
)

aggr_data.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,num_records,num_unique_passengers,max_age
pclass,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,female,94,94,63.0
1,male,122,122,80.0
2,female,76,76,57.0
2,male,108,108,70.0
3,female,144,144,63.0


&emsp;&emsp;Таким самим методом `agg` можна скористатися, якщо ми хочемо застосувати до даних якусь користувальницьку агрегуючу функцію. Наприклад, ми можемо знайти відношення максимальної ціни квитка до мінімальної таким чином:

In [110]:
def max2min(prices):
    """
    Функція приймає масив значень цін і знаходить відношення максимума до мінімума.
    При цьому 0-ва ціна ігнорується, щоб уникнути делення на 0.
    """
    
    non_zero_prices = prices[prices > 0]
    return max(non_zero_prices) / min(non_zero_prices)

custom_aggr = titanic_data.groupby(by=['pclass', 'sex']).agg(
    max2min_fare=('fare', max2min)  # все, що залишилося зробити - це скористатися нашою функцією
)

custom_aggr

Unnamed: 0_level_0,Unnamed: 1_level_0,max2min_fare
pclass,sex,Unnamed: 2_level_1
1,female,19.758774
1,male,102.46584
2,female,6.190476
2,male,7.0
3,female,10.303704
3,male,17.333333


&emsp;&emsp;Іноді буває потрібно згрупувати дані за яким-небудь стовпцем, вирахувати агреговану величину та помістити її в оригінальну таблицю. Для прикладу ми можемо вирахувати середню вартість квитка та колонку з цим значенням для створення візуального порівняння з вартістю окремих квитків. Методами, запропонованими вище, цього отримати не вдастся, оскільки після групування ми отримуємо нову таблицю меншого розміру з унікальними значеннями змінної, за якою ми групували. Для того, щоб це зробити, існує метод `transform`, який, по суті, є аналогом віконних функцій у `SQL`: 

In [111]:
titanic_data[['pclass', 'fare']].head(10)

Unnamed: 0,pclass,fare
0,3,7.25
1,1,71.2833
2,3,7.925
3,1,53.1
4,3,8.05
5,3,8.4583
6,1,51.8625
7,3,21.075
8,3,11.1333
9,2,30.0708


In [112]:
aggr_data = titanic_data.groupby(by=['pclass']).agg(
    mean_age=('fare', np.mean),
)

aggr_data.head()

Unnamed: 0_level_0,mean_age
pclass,Unnamed: 1_level_1
1,84.154687
2,20.662183
3,13.67555


In [113]:
titanic_data['AvarageTicketPrice'] = titanic_data.groupby('pclass')['fare'].transform(np.mean)
titanic_data[['pclass', 'fare', 'AvarageTicketPrice']].head(10)

Unnamed: 0,pclass,fare,AvarageTicketPrice
0,3,7.25,13.67555
1,1,71.2833,84.154687
2,3,7.925,13.67555
3,1,53.1,84.154687
4,3,8.05,13.67555
5,3,8.4583,13.67555
6,1,51.8625,84.154687
7,3,21.075,13.67555
8,3,11.1333,13.67555
9,2,30.0708,20.662183


&emsp;&emsp;Популярна операція з перетворення даних в Excel - зведена таблиця, також доступна в `pandas` у вигляді функції `pivot_table`. Розглянемо принципи її роботи на прикладі даних по продажах:

In [114]:
sales = pd.read_csv(
    'Files/SalesData.csv',
    sep=',',
    header=0,
    parse_dates=['OrderDate']
)

sales.head()

FileNotFoundError: [Errno 2] No such file or directory: 'Files/SalesData.csv'

&emsp;&emsp;Основні параметри звідної таблиці наступні:

&emsp;&emsp;`index` - колонка або список колонок, які повинні формувати рядки таблиці з результатом

&emsp;&emsp;`columns` - колонка або список колонок, які повинні бути формовати столбці таблиці з результатом

&emsp;&emsp;`values` - колонка або список колонок, до яких потрібно застосувати агрегуючу функцію при побудові таблиці

&emsp;&emsp;`aggfunc` - агрегуюча функція (можливий список або словник), яку потрібно застосувати до значень `values`

&emsp;&emsp;Для прикладу знайдемо середній продаж у розрізі регіону/даних:

In [None]:
pivot_sales = pd.pivot_table(
    data=sales,  # DataFrame з даними, на основі яких потрібно побудувати звідну таблицю
    index=['OrderDate'],  # список колонок, що формують рядки
    columns=['Region'],  # список колонок, що формують стовпці
    values=['Total'],  # колонки, до яких потрібно застосувати агрегацію
    aggfunc=np.mean  # агрегуюча функція (np.mean - значення за умовчанням)
)

pivot_sales.head()

Unnamed: 0_level_0,Total,Total,Total
Region,Central,East,West
OrderDate,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
2019-01-06,,189.05,
2019-01-23,999.5,,
2019-02-09,179.64,,
2019-02-26,539.73,,
2019-03-15,,,167.44


In [None]:
sales[(sales.OrderDate=='2019-01-06')&(sales.Region=='East')]

Unnamed: 0,OrderDate,Region,Rep,Item,Units,Unit Cost,Total
0,2019-01-06,East,Jones,Pencil,95,1.99,189.05


&emsp;&emsp;Пропуски можна змінити на бажані значення на етапі створення таблиці за допомогою аргументу `fill_value`:

In [None]:
pivot_sales = pd.pivot_table(
    data=sales,
    index=['OrderDate'],
    columns=['Region'],
    values=['Total'],
    aggfunc=np.mean,
    fill_value=0. # природно припустити, що пропуск відповідає нульовому продажу
)

pivot_sales.head()

Unnamed: 0_level_0,Total,Total,Total
Region,Central,East,West
OrderDate,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
2019-01-06,0.0,189.05,0.0
2019-01-23,999.5,0.0,0.0
2019-02-09,179.64,0.0,0.0
2019-02-26,539.73,0.0,0.0
2019-03-15,0.0,0.0,167.44


&emsp;&emsp;При вказівці кількох колонок у списку `index` утворюється `Multiindex`, який ми розглядали вище:

In [None]:
pivot_sales = pd.pivot_table(
    data=sales,
    index=['Item', 'OrderDate'],
    columns=['Region'],
    values=['Total'],
    aggfunc=np.mean,
    fill_value=0.
)

pivot_sales.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Total,Total,Total
Unnamed: 0_level_1,Region,Central,East,West
Item,OrderDate,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Binder,2019-01-23,999.5,0.0,0.0
Binder,2019-04-01,0.0,299.4,0.0
Binder,2019-06-08,0.0,539.4,0.0
Binder,2019-07-12,0.0,57.71,0.0
Binder,2019-07-29,0.0,1619.19,0.0


&emsp;&emsp;Аналогічно, якщо ми вводимо кілька колонок у аргументі `values` або `columns`, то у нас утворюється `Multiindex`, але вже в колонках таблиці:

In [None]:
pivot_sales = pd.pivot_table(
    data=sales,
    index=['Item', 'OrderDate'],
    columns=['Region'],
    values=['Total', 'Units'],
    aggfunc=np.mean,
    fill_value=0.
)

pivot_sales.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Total,Total,Total,Units,Units,Units
Unnamed: 0_level_1,Region,Central,East,West,Central,East,West
Item,OrderDate,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Binder,2019-01-23,999.5,0.0,0.0,50,0,0
Binder,2019-04-01,0.0,299.4,0.0,0,60,0
Binder,2019-06-08,0.0,539.4,0.0,0,60,0
Binder,2019-07-12,0.0,57.71,0.0,0,29,0
Binder,2019-07-29,0.0,1619.19,0.0,0,81,0


&emsp;&emsp;Звертатися до такої ієрархічної структури стовпців можна також за допомогою кортежу, як ми це робили в методі `loc` для індексу. До прикладу вибрати середні значення центрального регіону можна так:

In [None]:
pivot_sales[
    [
        ('Total', 'Central'),
        ('Units', 'Central')
    ]
].head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Total,Units
Unnamed: 0_level_1,Region,Central,Central
Item,OrderDate,Unnamed: 2_level_2,Unnamed: 3_level_2
Binder,2019-01-23,999.5,50
Binder,2019-04-01,0.0,0
Binder,2019-06-08,0.0,0
Binder,2019-07-12,0.0,0
Binder,2019-07-29,0.0,0


&emsp;&emsp;Метод `xs` також буде працювати, але для звернення до колонок потрібно вказати `axis=1`:

In [None]:
pivot_sales.xs(
    key='Total',
    level=0,  # до рівня індексу можна звертатися не тільки по імені, але і по номеру
    axis=1  # вказівка, що ми застосовуємо цей фільтр до колонок
).head()

Unnamed: 0_level_0,Region,Central,East,West
Item,OrderDate,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Binder,2019-01-23,999.5,0.0,0.0
Binder,2019-04-01,0.0,299.4,0.0
Binder,2019-06-08,0.0,539.4,0.0
Binder,2019-07-12,0.0,57.71,0.0
Binder,2019-07-29,0.0,1619.19,0.0


&emsp;&emsp;Останній спосіб роботи з `Multiindex` в колонках (можливо і для рядка) - перетворити індекс в звичайний за допомогою методу `to_flat_index` або просто замінити всі колонки на нові:

In [None]:
pivot_sales.columns = pivot_sales.columns.to_flat_index()
pivot_sales.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,"(Total, Central)","(Total, East)","(Total, West)","(Units, Central)","(Units, East)","(Units, West)"
Item,OrderDate,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Binder,2019-01-23,999.5,0.0,0.0,50,0,0
Binder,2019-04-01,0.0,299.4,0.0,0,60,0
Binder,2019-06-08,0.0,539.4,0.0,0,60,0
Binder,2019-07-12,0.0,57.71,0.0,0,29,0
Binder,2019-07-29,0.0,1619.19,0.0,0,81,0


&emsp;&emsp;Останнє, що ми розглядаємо безпосередньо до `pivot_table` - можливість застосувати кілька агрегуючих функцій. У цьому контексті існує 2 найбільш поширених сценарія:

&emsp;&emsp;1. Призначити кілька функцій до різних колонок, які можна передавати у вигляді списку в аргументі `aggfunc`:

In [None]:
pivot_sales = pd.pivot_table(
    data=sales,
    index=['Item', 'OrderDate'],
    columns=['Region'],
    values=['Total', 'Units'],
    aggfunc=[np.min, np.max],
    fill_value=0.
)

pivot_sales.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,amin,amin,amin,amin,amin,amin,amax,amax,amax,amax,amax,amax
Unnamed: 0_level_1,Unnamed: 1_level_1,Total,Total,Total,Units,Units,Units,Total,Total,Total,Units,Units,Units
Unnamed: 0_level_2,Region,Central,East,West,Central,East,West,Central,East,West,Central,East,West
Item,OrderDate,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3
Binder,2019-01-23,999.5,0.0,0.0,50,0,0,999.5,0.0,0.0,50,0,0
Binder,2019-04-01,0.0,299.4,0.0,0,60,0,0.0,299.4,0.0,0,60,0
Binder,2019-06-08,0.0,539.4,0.0,0,60,0,0.0,539.4,0.0,0,60,0
Binder,2019-07-12,0.0,57.71,0.0,0,29,0,0.0,57.71,0.0,0,29,0
Binder,2019-07-29,0.0,1619.19,0.0,0,81,0,0.0,1619.19,0.0,0,81,0


&emsp;&emsp;2. Застосувати різні функції до різних колонок можна за допомогою словника, який передається в `aggfunc`:

In [None]:
pivot_sales = pd.pivot_table(
    data=sales,
    index=['Item', 'OrderDate'],
    columns=['Region'],
    values=['Total', 'Units'],
    aggfunc={
        'Total': [np.min, np.max],  # найдем мінімум і максимум для стовпця Total
        'Units': np.mean  # найдем тільки середнє значення для стовпця Units
    },
    fill_value=0.
)

pivot_sales.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Total,Total,Total,Total,Total,Total,Units,Units,Units
Unnamed: 0_level_1,Unnamed: 1_level_1,amax,amax,amax,amin,amin,amin,mean,mean,mean
Unnamed: 0_level_2,Region,Central,East,West,Central,East,West,Central,East,West
Item,OrderDate,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3
Binder,2019-01-23,999.5,0.0,0.0,999.5,0.0,0.0,50,0,0
Binder,2019-04-01,0.0,299.4,0.0,0.0,299.4,0.0,0,60,0
Binder,2019-06-08,0.0,539.4,0.0,0.0,539.4,0.0,0,60,0
Binder,2019-07-12,0.0,57.71,0.0,0.0,57.71,0.0,0,29,0
Binder,2019-07-29,0.0,1619.19,0.0,0.0,1619.19,0.0,0,81,0


## Вправи

&emsp;&emsp; 1. Знайти середню, мінімальну і максимальну вартість квитка в залежності від місця посадки і класу каюти (`Титанік`)

&emsp;&emsp; 2. Змінити пропущені значення віку на середнє, в залежності від статі і класу каюти (`Титанік`)

&emsp;&emsp; 3. Найти загальну суму продажу по місяцях 2019-го року; вивести в форматі місяця - сума в порядку збільшення суми (`Sales`)

&emsp;&emsp; 4. Знайти всіх виконавців, у яких понад 10 альбомів (`chinook/albums`)

&emsp;&emsp; 5. Виберіть всю інформацію по інвойсам, суму яких у 3 рази вище середнього значення (`chinook/invoices`)

# Об'єднання таблиць

&emsp;&emsp;Часто необхідна нам інформація міститься у різних джерелах і під час читання потрапляє у різні таблиці. Наприклад, інформація про зарплати співробітників може зберігатися в одній БД, а у відпрацьованих годин в іншій. Для того, щоб оцінити вартість однієї години, нам необхідно об'єднати ці таблиці. Зазвичай це робиться за загальною колонкою або колонками, в нашому прикладі - по ID співробітника.

Для прикладу створимо 2 таблиці із загальною колонкою

In [None]:
salaries = pd.DataFrame(
    data={
        'WorkerID': [1, 2, 3, 4, 5, 6],  # ID співробітника
        'salary': [1000, 2000, 3000, 4000, 5000, 6000]  # ЗП в місяць
    }
)

working_hours = pd.DataFrame(
    data={
        'ID': [1, 1, 2, 2, 3, 3, 4, 4, 5, 5],  # ID співробітника
        'Period': [1, 2, 1, 2, 1, 2, 1, 2, 1, 2],  # номер місяця
        'WH': [10, 10, 12, 24, 11, 13, 23, 11, 9, 8]  # кількість робочих годин
    }
)

print(salaries)
print(working_hours)

   WorkerID  salary
0         1    1000
1         2    2000
2         3    3000
3         4    4000
4         5    5000
5         6    6000
   ID  Period  WH
0   1       1  10
1   1       2  10
2   2       1  12
3   2       2  24
4   3       1  11
5   3       2  13
6   4       1  23
7   4       2  11
8   5       1   9
9   5       2   8


&emsp;&emsp;Загальна форма об'єднання таблиць:

In [None]:
merged_data = pd.merge(
    left=salaries,  # перша таблиця
    right=working_hours,  # друга таблиця
    left_on='WorkerID',  # колонка першої таблиці, відповідність якої потрібно шукати у другій
    right_on='ID',  # колонка другої таблиці, яка відповідає "left_on"
    how='inner'  # спосіб об'єднання таблиць
)

merged_data

Unnamed: 0,WorkerID,salary,ID,Period,WH
0,1,1000,1,1,10
1,1,1000,1,2,10
2,2,2000,2,1,12
3,2,2000,2,2,24
4,3,3000,3,1,11
5,3,3000,3,2,13
6,4,4000,4,1,23
7,4,4000,4,2,11
8,5,5000,5,1,9
9,5,5000,5,2,8


&emsp;&emsp;Якщо назви колонки, за якою потрібно об'єднати таблиці збігається, можна скористатися параметром `on`:

In [None]:
working_hours.rename(columns={'ID': 'WorkerID'}, inplace=True)

merged_data = pd.merge(
    left=salaries,
    right=working_hours,
    on='WorkerID',
    how='inner'
)

merged_data

Unnamed: 0,WorkerID,salary,Period,WH
0,1,1000,1,10
1,1,1000,2,10
2,2,2000,1,12
3,2,2000,2,24
4,3,3000,1,11
5,3,3000,2,13
6,4,4000,1,23
7,4,4000,2,11
8,5,5000,1,9
9,5,5000,2,8


&emsp;&emsp;Метод об'єднання говорить про те, як діяти у випадку, якщо деякі значення не знайдені в обох таблицях. Наприклад, у другій таблиці немає робочих годин для співробітника 6. Метод `inner` повертає таблицю, в якій містяться рядки лише тоді, коли значення є в обох таблицях, тому співробітника під номером 6 в результаті немає. Якщо хочемо додати йому рядок, але не значення (оскільки значення у другій таблиці немає), можна скористатися методом `left`:

In [None]:
merged_data = pd.merge(
    left=salaries,
    right=working_hours,
    on='WorkerID',
    how='left'  # повернуться усі рядки з першої таблиці. Якщо у другій таблиці немає значень, то з'являться NaN
)
merged_data

Unnamed: 0,WorkerID,salary,Period,WH
0,1,1000,1.0,10.0
1,1,1000,2.0,10.0
2,2,2000,1.0,12.0
3,2,2000,2.0,24.0
4,3,3000,1.0,11.0
5,3,3000,2.0,13.0
6,4,4000,1.0,23.0
7,4,4000,2.0,11.0
8,5,5000,1.0,9.0
9,5,5000,2.0,8.0


&emsp;&emsp;Можна зробити навпаки - залишити всі рядки з другої таблиці, а коли в першій не буде відповідності, то замінити на NaN. Для цього метод об'єднання має бути `right`:

In [None]:
merged_data = pd.merge(
    left=working_hours,
    right=salaries,
    on='WorkerID',
    how='right'  # повернуться усі рядки з другої таблиці. Якщо в другій таблиці немає значень, то з'являться NaN
)

merged_data

Unnamed: 0,WorkerID,Period,WH,salary
0,1,1.0,10.0,1000
1,1,2.0,10.0,1000
2,2,1.0,12.0,2000
3,2,2.0,24.0,2000
4,3,1.0,11.0,3000
5,3,2.0,13.0,3000
6,4,1.0,23.0,4000
7,4,2.0,11.0,4000
8,5,1.0,9.0,5000
9,5,2.0,8.0,5000


&emsp;&emsp;Може виникнути ситуація, коли якихось даних немає у обох таблицях. У нашому випадку, для якогось співробітника в першій таблиці може не бути інформації щодо ЗП.

In [None]:
salaries.drop(1, axis=0, inplace=True)  # приберемо одного співробітника з таблиці зарплат

&emsp;&emsp;Якщо ми хочемо залишити всіх співробітників і з першої і з другої таблиці, то можна для цього вибрати метод об'єднання `outer`:

In [None]:
merged_data = pd.merge(
    left=working_hours,
    right=salaries,
    on='WorkerID',  # можна вказати список колонок, якщо об'єднання має проводитися по більше, ніж одній
    how='outer'  # повернуться всі рядки з обох таблиць
)

merged_data

Unnamed: 0,WorkerID,Period,WH,salary
0,1,1.0,10.0,1000.0
1,1,2.0,10.0,1000.0
2,2,1.0,12.0,
3,2,2.0,24.0,
4,3,1.0,11.0,3000.0
5,3,2.0,13.0,3000.0
6,4,1.0,23.0,4000.0
7,4,2.0,11.0,4000.0
8,5,1.0,9.0,5000.0
9,5,2.0,8.0,5000.0


&emsp;&emsp;Для співробітника 2 у результаті немає значення ЗП, тому що ми його прибрали з першої таблиці, а для співробітника 6 немає інформації по відпрацьованим годинам, оскільки його спочатку не було в другій таблиці. Проте вони обидва присутні у фінальній таблиці.

## Вправи

(Всі завдання необхідно вирішити лише з використанням `pandas`, без `SQL` запитів)

&emsp;&emsp;1. Вивести ім'я, прізвище співробітника та кількість його клієнтів (`chinook/employees + chinook/customers`)

&emsp;&emsp;2. Знайти всіх родичів по прізвищу. В результаті повинна вийти таблиця з двома колонками. У першій колонці повне ім'я пасажира, у другій його родичів на борту (вважати родичами пасажирів, у яких збігається прізвище) (`Titanic`)

&emsp;&emsp;3. Для всіх співробітників, які здійснювали будь-які угоди, вивести дату останньої їхньої угоди (`chinook/invoices + chinook/customers + chinook/employees`)