# Pandas

In [1]:
# pip install pandas

&emsp;&emsp;Основною структурою даних `pandas` є `DataFrame` - таблиця з даними (так само як у `numpy` основною структурою був масив). Почнемо з того, що розглянемо найпоширеніші методи створення таблиць:

In [3]:
import pandas as pd  # імпорт модуля

df = pd.DataFrame(
    # дані, які будуть у таблиці
    data={
        # ключ словника відповідає назві колонки в таблиці, 
        # а значення у вигляді списку – вмісту стовпця
        'VagetableName': ['Cucumber', 'Tomato', 'Potato', 'Onion'],
        'Fat': [0.1, 0.3, 0., 0.1],
        'Carbs': [1.4, 4.2, 13., 6.9],
        'Protein': [0.4, 0.8, 1., 0.9]
    }
)

df

Unnamed: 0,VagetableName,Fat,Carbs,Protein
0,Cucumber,0.1,1.4,0.4
1,Tomato,0.3,4.2,0.8
2,Potato,0.0,13.0,1.0
3,Onion,0.1,6.9,0.9


&emsp;&emsp;Альтернативно, можна передати список, що містить словники, де ключ - назва колонки, а значення - вміст даної колонки в конкретному рядку:

In [11]:
df = pd.DataFrame(
    data=[
        {'VagetableName': 'Cucumber', 'Fat': 0.1, 'Carbs': 1.4, 'Protein': 0.4},  #перший рядок таблиці
        {'VagetableName': 'Tomato', 'Fat': 0.3, 'Carbs': 4.2, 'Protein': 0.8},
        {'VagetableName': 'Potato', 'Fat': 0., 'Carbs': 13., 'Protein': 1.},
        {'VagetableName': 'Onion', 'Fat': 0.1, 'Carbs': 6.9, 'Protein': 0.9},
    ],
    columns=['VagetableName', 'Carbs', 'Fat', 'Protein']  # опціонально можна передати порядок колонок
)

print(df)

  VagetableName  Carbs  Fat  Protein
0      Cucumber    1.4  0.1      0.4
1        Tomato    4.2  0.3      0.8
2        Potato   13.0  0.0      1.0
3         Onion    6.9  0.1      0.9


&emsp;&emsp;Кожна таблиця має індекс - ім'я рядка. Коли ми створювали таблицю вище, індекс ми не вказували і він був автоматично створений як послідовності `(0, 1, ...)`. Роль індексу може грати будь-яка з колонок:

In [12]:
print('існуючий індекс (імена рядків): ', df.index)
df.set_index('VagetableName', inplace=True)  # заміна індексу на колонку із назвами овочів
print('новий индекс: ', df.index)
df

існуючий індекс (імена рядків):  RangeIndex(start=0, stop=4, step=1)
новий индекс:  Index(['Cucumber', 'Tomato', 'Potato', 'Onion'], dtype='object', name='VagetableName')


Unnamed: 0_level_0,Carbs,Fat,Protein
VagetableName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Cucumber,1.4,0.1,0.4
Tomato,4.2,0.3,0.8
Potato,13.0,0.0,1.0
Onion,6.9,0.1,0.9


In [13]:
df = df.set_index('VagetableName')
df

KeyError: "None of ['VagetableName'] are in the columns"

&emsp;&emsp;Індекс зазвичай використовується для отримання значень із конкретного рядка:

In [14]:
print('склад огірка:')
print(df.loc['Cucumber'])  # вибір рядка на ім'я/значення індексу
df.loc['Cucumber']

склад огірка:
Carbs      1.4
Fat        0.1
Protein    0.4
Name: Cucumber, dtype: float64


Carbs      1.4
Fat        0.1
Protein    0.4
Name: Cucumber, dtype: float64

&emsp;&emsp;Якщо ми хочемо зробити вибір не по імені рядка, а за його порядковим номером, то можна скористатися методом `iloc`. Наприклад виберемо перші 2 рядки:

In [15]:
df.iloc[0]

Carbs      1.4
Fat        0.1
Protein    0.4
Name: Cucumber, dtype: float64

In [16]:
df.iloc[:2]

Unnamed: 0_level_0,Carbs,Fat,Protein
VagetableName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Cucumber,1.4,0.1,0.4
Tomato,4.2,0.3,0.8


&emsp;&emsp;Аналогічно можна отримати всі значення із заданої колонки:

In [17]:
print('Білки в овочах:')
print(df['Protein'])  # вибір колонки на ім'я

Білки в овочах:
VagetableName
Cucumber    0.4
Tomato      0.8
Potato      1.0
Onion       0.9
Name: Protein, dtype: float64


&emsp;&emsp;Одна колонка, вибрана описаним вище чином, має тип `Series`, а не `DataFrame` як таблиця:

In [19]:
print('тип таблиці: ', type(df))
print('тип колонки: ', type(df['Protein']))

тип таблиці:  <class 'pandas.core.frame.DataFrame'>
тип колонки:  <class 'pandas.core.series.Series'>


&emsp;&emsp;Тип `Series` дозволяє проводити практично всі операції, доступні таблиці: фільтрація значень, вибір за індексом, застосування функції до значень тощо. Однак у деяких ситуаціях таблиці є методи недоступні колонкам. Для таких випадків колонку можна вибрати як таблицю таким чином:

In [20]:
print(df[['Protein']])  # ім'я єдиної колонки передаємо всередині списку
print(type(df[['Protein']]))

               Protein
VagetableName         
Cucumber           0.4
Tomato             0.8
Potato             1.0
Onion              0.9
<class 'pandas.core.frame.DataFrame'>


&emsp;&emsp;Природно, це розширюється на випадок, коли потрібно вибрати кілька колонок.:

In [21]:
df[['Protein', 'Fat']]

Unnamed: 0_level_0,Protein,Fat
VagetableName,Unnamed: 1_level_1,Unnamed: 2_level_1
Cucumber,0.4,0.1
Tomato,0.8,0.3
Potato,1.0,0.0
Onion,0.9,0.1


&emsp;&emsp;Об'єднуючи все разом можемо вибрати колонки і рядки, що цікавлять нас, таким чином:

In [22]:
df[['Protein', 'Fat']].loc[['Cucumber', 'Potato']]

Unnamed: 0_level_0,Protein,Fat
VagetableName,Unnamed: 1_level_1,Unnamed: 2_level_1
Cucumber,0.4,0.1
Potato,1.0,0.0


&emsp;&emsp;Практично всі двовимірні конструкції (вкладений список, `numpy` масив) можна привести до типу `DataFrame`:

In [23]:
# створимо таблицю харчової цінності у вигляді вкладеного списку
data = [
    [1.4, 0.1, 0.4],
    [4.2, 0.3, 0.8],
    [13.0, 0.0, 1.0],
    [6.9, 0.1, 0.9]
]

df = pd.DataFrame(
    data=data,  # дані, які будуть вмістом таблиці
    # columns=['Carbs', 'Fat', 'Protein'],  # передамо імена колонок
    # index=['Cucumber', 'Tomato', 'Potato', 'Onion']  # передамо імена рядків
)

df

Unnamed: 0,0,1,2
0,1.4,0.1,0.4
1,4.2,0.3,0.8
2,13.0,0.0,1.0
3,6.9,0.1,0.9


In [25]:
df.columns = ['Carbs', 'Fat', 'Protein']
df.index = ['Cucumber', 'Tomato', 'Potato', 'Onion']
df

Unnamed: 0,Carbs,Fat,Protein
Cucumber,1.4,0.1,0.4
Tomato,4.2,0.3,0.8
Potato,13.0,0.0,1.0
Onion,6.9,0.1,0.9


In [26]:
df[['Fat', 'Carbs', 'Protein']]

Unnamed: 0,Fat,Carbs,Protein
Cucumber,0.1,1.4,0.4
Tomato,0.3,4.2,0.8
Potato,0.0,13.0,1.0
Onion,0.1,6.9,0.9


&emsp;&emsp;Один рядок або стовпець таблиці мають тип `Series` - це "обгортка" над `numpy` масивом. Тобто з рядком або колонкою можна проводити практично всі операції, які можливі для масиву.  
&emsp;&emsp;Приклад:

In [27]:
import numpy as np

protein_in_vegetables = df['Protein']  # виберемо колонку з білками у різних овочах
print('тип самої колонки: ', type(protein_in_vegetables))
print('привести колонку до numpy масива можно вибрав її значення (values): ', type(protein_in_vegetables.values))
print('вміст колонки у вигляді numpy масиву: ', protein_in_vegetables.values)
print('максимальне значення: ', np.max(protein_in_vegetables))
print('мінімальне значення: ', np.min(protein_in_vegetables))
print('середнє значення: ', np.mean(protein_in_vegetables))

тип самої колонки:  <class 'pandas.core.series.Series'>
привести колонку до numpy масива можно вибрав її значення (values):  <class 'numpy.ndarray'>
вміст колонки у вигляді numpy масиву:  [0.4 0.8 1.  0.9]
максимальне значення:  1.0
мінімальне значення:  0.4
середнє значення:  0.775


&emsp;&emsp;Аналогічно до `numpy` масиву можна привести рядок і навіть усю таблицю:

In [28]:
print(df.values)

[[ 1.4  0.1  0.4]
 [ 4.2  0.3  0.8]
 [13.   0.   1. ]
 [ 6.9  0.1  0.9]]


# Отримання даних із різних джерел

&emsp;&emsp;Читання даних із `csv` файлу

In [46]:
titanic_data = pd.read_csv(
    'Files/TitanicDataset.csv',  # шлях до файлу, який містить дані
    sep=',',  # роздільник стовпців
    header=0  # номер рядка, що містить заголовок (якщо заголовка немає, можна передати None)
)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


&emsp;&emsp;Зазвичай для того, щоб "подивитись" дані використовують метод `head(n)`, який повертає перші `n` рядків з таблиці:

In [17]:
titanic_data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [11]:
titanic_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


&emsp;&emsp;Другим за популярністю джерелом структурованих (представлених у вигляді таблиць) даних є реляційна база даних. Існує багато різних БД, у прикладі нижче скористаємося однією з найпростіших - SQLite. Для читання з таблиці БД необхідно створити з'єднання з базою та передати `SQL` запит:

In [41]:
import sqlite3  # імпорт модуля для створення з'єднання з БД

# Для створення з'єднання з SQLite БД необхідно передати шлях до файлу, що містить дані
connection = sqlite3.connect('Files/TitanicDataset.db')

# прочитаємо ті самі дані, але з таблиці в БД
titanic_data = pd.read_sql_query(
    sql="SELECT * FROM MainTable",  # SQL запит до БД, який повертає дані
    con=connection  # відкрите з'єднання з БД
)

titanic_data.head(10)  # виведемо на екран топ 10 рядків із отриманої таблиці

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


&emsp;&emsp;Для читання даних з Excel таблиць нам доведеться доставити бібліотеку `openpyxl` як `pip install openpyxl`. Після цього читання виглядає схожим на приклади вище:

In [48]:
crime_data = pd.read_excel(
    'Files/CrimesData.xlsx',  # шлях до файлу для читання
    sheet_name='2011',  # ім'я аркуша, на якому знаходяться дані
    header=0,  # рядок, в якому знаходяться назви стовпців
    usecols="A:F",  # імена колонок, які потрібно прочитати (None – взяти всі колонки)
    nrows=100,  # прочитати лише перші 100 рядків
    skiprows=0  # кількість рядків, які потрібно пропустити на початку файлу (читання почнеться з 0-го рядка)
)

crime_data.head()

Unnamed: 0,CrimeDate,CrimeTime,CrimeCode,Location,Description,Weapon
0,01/01/2011,00:00:00,6G,0 E CROSS ST,I,
1,01/01/2011,00:10:00,5D,1900 W LOMBARD ST,I,
2,01/01/2011,01:00:00,5D,2900 WATERVIEW AV,O,
3,01/01/2011,01:38:00,4B,1500 HAZEL ST,O,KNIFE
4,01/01/2011,02:01:00,4B,0 W WILKES LN,O,KNIFE


&emsp;&emsp;В аргументі `sheet_name` можна передавати такі формати значень:

&emsp;&emsp;1. Ціло число (значення за промовчанням - 0): інтерпретується як порядковий номер листа;

&emsp;&emsp;2. Текст: інтерпретується як ім'я аркуша, наприклад `Sheet1`;

&emsp;&emsp;3. Список цілих чисел або рядків (можливо одночасно): інтерпретується як набір листів для читання, наприклад `[0, 3, 'Sheet10']` - прочитати 0-й та 3-й лист, а також лист під назвою `Sheet10`;

&emsp;&emsp;4. `None` - означає прочитати всі листи.

&emsp;&emsp;Якщо вибрано варіант, при якому читається більше одного листа, то в результаті вийде словник виду `SheetName -> DataFrame`; далі ми розберемо як можна об'єднати різні таблиці в одну за необхідності.

In [50]:
crime_data = pd.read_excel(
    'Files/CrimesData.xlsx',
    sheet_name=None,  # прочитати всі листи
    usecols="A:F",
    nrows=5
)

crime_data

{'2011':     CrimeDate CrimeTime CrimeCode           Location Description Weapon
 0  01/01/2011  00:00:00        6G       0 E CROSS ST           I    NaN
 1  01/01/2011  00:10:00        5D  1900 W LOMBARD ST           I    NaN
 2  01/01/2011  01:00:00        5D  2900 WATERVIEW AV           O    NaN
 3  01/01/2011  01:38:00        4B      1500 HAZEL ST           O  KNIFE
 4  01/01/2011  02:01:00        4B      0 W WILKES LN           O  KNIFE,
 '2012':     CrimeDate CrimeTime CrimeCode          Location Description Weapon
 0  01/01/2012  00:00:00        5C               NaN           I    NaN
 1  01/01/2012  01:00:00        6C      0 E NORTH AV           I    NaN
 2  01/01/2012  01:01:00        5A   1800 LETITIA AV           I    NaN
 3  01/01/2012  01:01:00        6E  2100 AISQUITH ST           O    NaN
 4  01/01/2012  01:10:00        4B   2200 EASTERN AV           O  KNIFE,
 '2013':     CrimeDate CrimeTime CrimeCode            Location Description Weapon
 0  01/01/2013  01:00:00      

&emsp;&emsp;Читання даних із `json` файлів можливе, якщо структура файлу дозволяє коректно відобразити вміст у вигляді таблиці. За умовчанням структура файлу повинна бути наступною: `{column -> {index -> value}}`, тобто словник, в якому ключі - це назви колонок, а значення - словники у вигляді пар `ім'я рядка - вміст`. 

&emsp;&emsp;Можливі й інші структури, описи яких необхідно дати в параметрі `orient` (детальний опис структур можна знайти у [документації](https://pandas.pydata.org/docs/reference/api/pandas.io.json.read_json.html))

In [36]:
dt = pd.read_json(
    'Files/DummyData.json',  # шлях до файлу
    orient='columns'  # тип структури ('columns' також є значенням за замовчуванням)
)

dt

Unnamed: 0,FirstColumn,SecondColumn
row1,"[1, 2]",a
row2,"[3, 4]",b


&emsp;&emsp;Комірки, що містять у собі списки значень, можна "розгорнути" за допомогою методу `explode`:

In [37]:
dt = dt.explode(
    column='FirstColumn'  # вказівка колонки із вкладеною структурою (можна передати список колонок)
)

dt

Unnamed: 0,FirstColumn,SecondColumn
row1,1,a
row1,2,a
row2,3,b
row2,4,b


# Запис даних

&emsp;&emsp;Запис даних у файл

In [38]:
titanic_data.to_csv(
    'Files/CopyOfTitanicData.csv',  # шлях до файлу, в який робимо запис
    sep=';',  # роздільник колонок
    header=True,  # чи записувати імена колонок у файл (True - записувати, False - ні)
    index=False,  # записувати індекс у файл (True - записувати, False - ні)
)

&emsp;&emsp;Запис даних у таблицю БД

In [42]:
titanic_data.to_sql(
    name='CopyOfMainTable',  # назву таблиці, в яку робити запис
    con=connection,  # відкрите з'єднання з БД
    index=False,  # записувати індекс у таблицю (True - записувати, False - ні)
    # що робити, якщо таблиця вже існує ('append' - додати рядки нижче)
    if_exists='replace'  # у разі існування таблиці - видалити та замінити
)

891

&emsp;&emsp;При записі даних у файл Excel ми можемо вказати шлях до файлу у вигляді тексту (так само, як при записі в csv), проте це часто виявляється менш зручним, якщо ми здійснюємо запис декількох таблиць на різні аркуші. Більш кращий спосіб це створити спеціальний об'єкт ExcelWriter. Такий об'єкт буде аналогом об'єкта файлу, який отримується з функції `open` або об'єкта підключення до БД з функції `connect`.

&emsp;&emsp;Далі для прикладу запишемо дані зі словника `crime_data` у новий файл на різні листи:

In [43]:
# почнемо з того, що відкриємо новий файл для запису
with pd.ExcelWriter(
    'Files/WriteExample.xlsx',  # шлях до файлу
    mode='w'  # відкриваємо на запис, поведінка та ж, що й у функції open
) as writer:
    for sheet_name, data in crime_data.items():        
        data.to_excel(
            excel_writer=writer,  # файл, у який будемо записувати
            sheet_name=sheet_name,  # назва листа, на який писати
            index=False,  # чи записувати індекс таблиці
            startrow=5,  # рядок, з якого розпочати запис у цільовому файлі
            startcol=5  # стовпець, з якого розпочати запис у цільовому файлі
        )

&emsp;&emsp;Запис в `json`:

In [44]:
dt = pd.DataFrame(
    data={
        'FirstColumn': [[1, 2], [3, 4]],
        'SecondColumn': ['a', 'b']
    },
    columns=['FirstColumn', 'SecondColumn'],
    index=['row1', 'row2']
)

dt.to_json(
    'Files/CopyDummyData.json',
    # значення, що задає структуру файлу, повинно збігатися зі значенням в аргументі orient,
    # яке передається під час читання у методі read_json
    orient='columns'
)
dt

Unnamed: 0,FirstColumn,SecondColumn
row1,"[1, 2]",a
row2,"[3, 4]",b


## Вправа:

Створіть датафрейм з трьома стовпцями та десятьмя рядками (з довільними даними). Перевірте його створення переглядом перших 5-ти рядків. Далі збережіть датафрейм в csv-файл. Нарешті, завантажте збережені дані в новий датафрейм і перегляньте чи нічого не змінилося.

In [55]:
df = pd.DataFrame({'numbers': [1, 2, 3, 4, 5, 6, 7, 8, 9, 0], 
                   'letters': ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'],
                    'caps' : ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J']})

print(df.head())

df.to_csv('testtt.csv', header = True, index = False)

df_2 = pd.read_csv('testtt.csv', header=0)

df_2.head()

   numbers letters caps
0        1       a    A
1        2       b    B
2        3       c    C
3        4       d    D
4        5       e    E


Unnamed: 0,numbers,letters,caps
0,1,a,A
1,2,b,B
2,3,c,C
3,4,d,D
4,5,e,E


# Основні операції з таблицями в pandas

&emsp;&emsp;Отримання базової інформації про вміст таблиці: імена колонок, кількість рядків, типи даних у кожній колонці та кількість непорожніх значень, обсяг пам'яті.

In [18]:
titanic_data = pd.read_csv('Files/TitanicDataset.csv', sep=',', header=0)

titanic_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


&emsp;&emsp;Отримання базової статистики за таблицею: кількість непорожніх значень, середнє значення, мінімум, максимум, медіана, стандартне відхилення, квартили. Перерахована статистика може бути порахована тільки для числових колонок - решта буде проігнорована.

In [19]:
titanic_data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


&emsp;&emsp;Для колонок з нечисловими значеннями часто має сенс отримати кількість рядків, що відповідають кожному значенню:

In [20]:
titanic_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [21]:
titanic_data['Embarked'].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

&emsp;&emsp; Отримання форми таблиці як матриці: кількість рядків і стовпців

In [22]:
titanic_data.shape

(891, 12)

&emsp;&emsp;Видалення дублікатів (рядків, що містять однакові значення)

In [23]:
print('кількість рядків у таблиці до видалення дублікатів: ', len(titanic_data))
titanic_data.drop_duplicates(inplace=True)  # видалення дублікатів
print('кількість рядків у таблиці після дублікатів: ', len(titanic_data))

кількість рядків у таблиці до видалення дублікатів:  891
кількість рядків у таблиці після дублікатів:  891


&emsp;&emsp;Як бачимо з результату, дублікатів у таблиці не було. Параметр 'inplace' означає, чи слід видалити дублікати в таблиці. Альтернативно можна було б надати результат новій змінній, вказавши при цьому `inplace=False`:

In [24]:
data_without_duplicates = titanic_data.drop_duplicates(inplace=False)
print(len(data_without_duplicates))

891


&emsp;&emsp;Наприклад продублюємо таблицю. Об'єднання двох і більше таблиць проводиться так само, як у `numpy` масивах:

In [25]:
titanic_data = pd.concat(
    [titanic_data, titanic_data],  # список таблиць, які потрібно об'єднати в одну
    axis=0  # вісь, вздовж якої проводити об'єднання
)

print(len(titanic_data))
titanic_data.drop_duplicates(inplace=True)
print(len(titanic_data))

1782
891


&emsp;&emsp;Перейменування колонок:

In [26]:
titanic_data.rename(
    columns={
        'SibSp': 'SiblingsSpouses',  # колонка "SibSp" буде перейменована на "SiblingsSpouses"
        'Parch': 'ParentsChildren'  # колонка "Parch" буде перейменована на "ParentsChildren"
    },
    inplace=True  # покажчик того, що зміни вносяться до існуючої таблиці
)

titanic_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SiblingsSpouses,ParentsChildren,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


&emsp;&emsp;Дати нові імена колонок можна всім одночасно, надавши атрибуту `columns` новий список імен. Наприклад, якщо ми хочемо зробити всі імена, що починаються з маленької літери:

In [27]:
titanic_data.columns = [c[0].lower() + c[1:] for c in titanic_data.columns]
titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


&emsp;&emsp;Фільтрація таблиці по рядках проводиться так само, як і для `numpy` масиву:

In [28]:
# Вибір рядка з ім'ям пасажира Braund, Mr. Owen Harris
titanic_data[titanic_data['name'] == 'Braund, Mr. Owen Harris']

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S


In [29]:
# вибір тільки тих, хто вижив:
titanic_data[titanic_data['survived'] == 1].head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [30]:
# вибір усіх жінок старше 30 років
titanic_data[(titanic_data['sex'] == 'female') & (titanic_data['age'] > 30)].head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S
18,19,0,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0,1,0,345763,18.0,,S


&emsp;&emsp;Для вибору порожніх значень є вбудована функція pd.isna:

In [31]:
# вибір пасажирів, для яких невідомий номер каюти чи вік
titanic_data[titanic_data['cabin'].isna() | pd.isna(titanic_data['age'])].head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


&emsp;&emsp;Для удаления пустых значений в какой-либо строке можно воспользоваться методом `dropna`

In [32]:
only_known_data = titanic_data.dropna(inplace=False)  # видалення порожніх значень та привласнення результату нової змінної
print('кількість рядків без пропусків у даних: ', len(only_known_data))
only_known_data.head()

кількість рядків без пропусків у даних:  183


Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S


&emsp;&emsp;Якщо нам потрібно відфільтрувати рядки по набору значень, можна скористатися для цього методом `isin`:

In [75]:
# виберемо рядки, що відповідають наступним пасажирам: Bonnell, Miss. Elizabeth, Hewlett, Mrs. (Mary D Kingcome)
passengers_list = ['Bonnell, Miss. Elizabeth', 'Hewlett, Mrs. (Mary D Kingcome) ']
titanic_data[titanic_data['name'].isin(passengers_list)]

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S


&emsp;&emsp;Сортування таблиці виконується за допомогою методу `sort_values`:

In [33]:
sorted_data = titanic_data.sort_values(
    by=['fare', 'age'],  # список полів, за якими потрібно сортувати
    # порядок сортування: True - за зростанням, False - за спаданням
    # у параметрі ascending можна вказати один True/False - значить все за зростанням або спаданням
    # тут ми вказуємо, що сортуємо за зростанням ціни та зменшенням віку
    ascending=[True, False],
    inplace=False
)

sorted_data.head(20)

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked
597,598,0,3,"Johnson, Mr. Alfred",male,49.0,0,0,LINE,0.0,,S
263,264,0,1,"Harrison, Mr. William",male,40.0,0,0,112059,0.0,B94,S
806,807,0,1,"Andrews, Mr. Thomas Jr",male,39.0,0,0,112050,0.0,A36,S
822,823,0,1,"Reuchlin, Jonkheer. John George",male,38.0,0,0,19972,0.0,,S
179,180,0,3,"Leonard, Mr. Lionel",male,36.0,0,0,LINE,0.0,,S
271,272,1,3,"Tornquist, Mr. William Henry",male,25.0,0,0,LINE,0.0,,S
302,303,0,3,"Johnson, Mr. William Cahoone Jr",male,19.0,0,0,LINE,0.0,,S
277,278,0,2,"Parkes, Mr. Francis ""Frank""",male,,0,0,239853,0.0,,S
413,414,0,2,"Cunningham, Mr. Alfred Fleming",male,,0,0,239853,0.0,,S
466,467,0,2,"Campbell, Mr. William",male,,0,0,239853,0.0,,S


## Вправи

&emsp;&emsp;1. Вибрати імена пасажирів, які підпадають під такі критерії:

&emsp;&emsp;&emsp;&emsp; - Клас каюти 1-й чи 3-й

&emsp;&emsp;&emsp;&emsp; - Вік в інтервалі від 20 до 40

&emsp;&emsp;&emsp;&emsp; - Ціна квитка НЕ знаходиться в інтервалі від 70 до 100


&emsp;&emsp;2. У попередньому розділі ми отримали словник таблиць при читанні з файлу Excel - `crime_data`. Необхідно об'єднати всі таблиці словника в один `DataFrame`

&emsp;&emsp;3. Знайти унікальні комбінації значень колонок `Survived/Pclass/Sex` для пасажирів, у яких не відомий вік

# Застосування функцій до стовпців

&emsp;&emsp;Створення нового стовпця у таблиці здійснюється так само, як і створення нової пари ключ-значення у словнику:

In [77]:
# створимо новий стовпець зі сталим значенням
titanic_data['constant_value_1'] = 1
titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked,constant_value_1
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,1


&emsp;&emsp;Нова колонка завжди додається до кінця таблиці, щоб додати її на певну позицію можна скористатися методом `insert`. Наприклад, вставимо ще одну колонку з константою відразу після імені пасажира:

In [78]:
titanic_data.insert(
    loc=4,  # порядковий номер нової колонки після додавання
    column='constant_value_2',  # ім'я нової колонки
    value=2  # значення (може бути масив або один об'єкт)
)

titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,constant_value_2,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked,constant_value_1
0,1,0,3,"Braund, Mr. Owen Harris",2,male,22.0,1,0,A/5 21171,7.25,,S,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",2,female,38.0,1,0,PC 17599,71.2833,C85,C,1
2,3,1,3,"Heikkinen, Miss. Laina",2,female,26.0,0,0,STON/O2. 3101282,7.925,,S,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",2,female,35.0,1,0,113803,53.1,C123,S,1
4,5,0,3,"Allen, Mr. William Henry",2,male,35.0,0,0,373450,8.05,,S,1


&emsp;&emsp;Для видалення небажаних стовпчиків можемо скористатися методом `drop`:

In [79]:
titanic_data.drop(
    ['constant_value_1', 'constant_value_2'],  # список колонок або рядків, які потрібно видалити
    axis=1,  # видалення рядків відбувається аналогічно, щоб видалити саме колонки, вибираємо відповідну вісь
    inplace=True  # видалення "на місці", без надання нової змінної
)

titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


&emsp;&emsp;Оскільки стовпці таблиці реалізовані на основі `numpy` масивів, найефективнішим та кращим способом їх зміни є векторизація:

In [80]:
# заміна текстового подання статі пасажирів числовим: female буде відповідати значенню 1, male - 0
titanic_data['IntSex'] = np.where(titanic_data['sex'] == 'female', 1, 0)
titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked,IntSex
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0


In [81]:
# застосування арифметичної функції
titanic_data['LogAge'] = np.log(titanic_data['age'])  # логарифм від віку пасажира
titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked,IntSex,LogAge
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,3.091042
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1,3.637586
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1,3.258097
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,1,3.555348
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0,3.555348


In [82]:
# операції з кількома колонками
titanic_data['SexAge'] = titanic_data['IntSex'] * titanic_data['age']  # добуток статі на вік
titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked,IntSex,LogAge,SexAge
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,3.091042,0.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1,3.637586,38.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1,3.258097,26.0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,1,3.555348,35.0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0,3.555348,0.0


In [83]:
titanic_data.drop(['IntSex', 'LogAge', 'SexAge'], axis=1, inplace=True)  # далі нам ці колонки не знадобляться

&emsp;&emsp;Однак часто виникають ситуації, коли функція, яку ми хочемо застосувати до таблиці, надто складна, і її неможливо виконати у векторизованому стилі. У таких ситуаціях можна скористатися методом `apply`, який працює аналогічно до вбудованої функції `map`.  

&emsp;&emsp;Приклад: створити нову колонку з ім'ям пасажира, де буде лише приставка та прізвище. Тобто з `Braund, Mr. Owen Harris` отримати `Mr Braund`.

In [85]:
# визначимо функцію, яку застосовуватимемо
def name_formatting(name):    
    last_name = name.split(',')[0]
    prefix = name.split(' ')[1][:-1]
    return f'{prefix} {last_name}'

# створимо нову колонку, яка міститиме відформатовану версію імен
titanic_data['FormattedName'] = titanic_data['name'].apply(name_formatting)

titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked,FormattedName
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Mr Braund
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs Cumings
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss Heikkinen
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Mrs Futrelle
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,Mr Allen


&emsp;&emsp;Як і в функціональному програмуванні, якщо функція досить мала, її краще замінити 'lambda' виразом.  
&emsp;&emsp;Приклад: створити додаткову колонку, яка містить лише прізвище пасажира

In [86]:
titanic_data['LastName'] = titanic_data['FormattedName'].apply(lambda x: x.split(' ')[-1])
titanic_data.head()

Unnamed: 0,passengerId,survived,pclass,name,sex,age,siblingsSpouses,parentsChildren,ticket,fare,cabin,embarked,FormattedName,LastName
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Mr Braund,Braund
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs Cumings,Cumings
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss Heikkinen,Heikkinen
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Mrs Futrelle,Futrelle
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,Mr Allen,Allen
