# Бібліотека Pandas  
- 1. Зчитування файлів CSV та Excel  
- 2. Коротка інформація про датафрейм  
- 3. Перейменувння стовпців  
- 4. Видалення рядків та стовпців датафрейму  
- 5. Заповнення/видалення пропущених значень  
- 6. Звернення до елементів датафрейму, отримання зрізу  
- 7. Вибір рядків за заданими умовами  
- 8. Запис датафрейму в файл


**Pandas** – це бібліотека, яка надає дуже зручні з точки зору використання інструменти для зберігання даних та роботи з ними.
Особливість pandas полягає в тому, що ця бібліотека швидка, гнучка та проста у використанні. Pandas чудово підходить для роботи з одновимірними та двовимірними таблицями даних, добре пристосована для роботи  з файлами CSV, таблицями Excel.   

  
  
 
- _Датафрейм (Dataframe) – це двовимірна структура даних зі стовпцями та рядками. Це спеціальний аналог таблиці Excel або SQL._ 

In [None]:
# імпортуємо бібліотеку Pandas
import pandas as pd

In [None]:
# встановимо, що в числах типу float виводити 3 знаки після роздільника (додаткова опція, яку можна не застосовувати)
pd.options.display.float_format = '{:.3f}'.format

### 1. Зчитування файлів CSV та Excel
#### csv:  
name_data_frame = pd.read_csv('path_to_file.csv')  
#### excel:  
name_data_frame = pd.read_excel('path_to_file.xlsx')  
якщо необхідно зчитати конкретний аркуш в листі Excel:  
name_data_frame = pd.read_excel('path_to_file.xlsx', sheet_name = 'Лист 1')  
  
- 1.1. Якщо файл з початковими даними зберігається локально, то щоб уникнути запису повного шляху до файлу, можна тримати робочий файл і файл з даними в одній папці. Тоді достатньо буде вказати тільки назву файлу з даними та його розширення.  
<font color='red'>Додатково: Якщо ви працюєте в Google Colab, то зчитати файл, що зберігається локально можна так:</font>

```from google.colab import files```  
```uploaded = files.upload()```

In [None]:
# зчитування файлу, що зберігається локально

# якщо необхідно, вказати тип розділювача sep= (за замовчанням sep=',' )
df = pd.read_csv('DE_1.csv', sep=';')
df # щоб відобразити датафрейм, необхідно надрукувати його назву

- 1.2. Якщо файл з початковими даними розміщено на GitHub:  
А. Перейдіть на сторінку файлу на GitHub.  
B. Натисніть на кнопку "Raw", щоб відкрити файл у сирому вигляді.  
C. Скопіюйте URL із адресного рядка браузера.  
D. Завантажте файл у Jupyter Notebook

In [None]:
url = 'https://raw.githubusercontent.com/OlhaOsypova/Machine-Learning-and-Data-Analytics/main/Topic_2_Pandas/DE_1.csv'
df = pd.read_csv(url, sep=';')
df

### Опис датафрейму df  
Датафрейм містить набір показників, що характеризують рівень розвитку цифрової економіки в 37 країнах:  
- Unnamed: 0 - назва країни  
- Index digital economy - індекс розвитку цифрової економіки  
- Internet use: interaction with public authorities (last 12 months) - частка звернень до органів влади, здійснена через мережу Інтернет  
- Individuals who have high overall digital skills' - частка населення, що володіє цифровими навичками на високому рівні  
- частка витрат уряду на розвиток адміністративних послуг, % до заг витрат  
- частка працівників, що проходять підвищення кваліфікації у сфері ікт  
- EU/NonEU - країна входить/не входить до ЄС  
- Unnamed: 7, Unnamed: 8, Unnamed: 9, Unnamed: 10, Unnamed: 11 - ???

### 2. Коротка інформація про датафрейм  
**довідка:** при застосуванні атрибутів та методів дотримуємося т.з. крапкового синтаксису:  
**name_of_dataframe.name_of_atribute**  
**name_of_dataframe.name_of_method()**

In [None]:
# Розмір датафрейму
df.shape

In [None]:
#Отримуємо перелік назв стовпців
df.columns

In [None]:
#Отримуємо перелік назв рядків
df.index

In [None]:
# Отримуємо перелік типів даних для кожного стовпчика
# тип інформації в кожному стовпчику (int64, float64 - числа; object - текст)
df.dtypes

In [None]:
# Коротка довідка про датафрейм
# Column - назва стовпця
# Non-Null Count - кількість заповнених значень для кожного стовпця
# Dtype - тип інформації в кожному стовпці (int64, float64 - числа; object - текст)
df.info()

In [None]:
# Відображаємо перші (за замовчанням 5) значень
df.head()

In [None]:
# Відображаємо випадкові (за замовчанням 5) значень
df.sample(4)

In [None]:
# Відображаємо останні (за замовчанням 5) значень
df.tail(3)

#### Метод describe() у бібліотеці pandas використовується для отримання основної описової статистики  
Для числових стовпців виодить наступну інформацію:  
- count: Кількість непорожніх (non-null) значень у кожному стовпці.  
- mean: Середнє арифметичне значення для кожного числового стовпця.  
- std: Стандартне відхилення, що показує розсіювання даних навколо середнього значення.  
- min: Мінімальне значення в кожному стовпці.  
- 25%: 25-й перцентиль (перша чверть), тобто значення, нижче якого знаходиться 25% даних.  
- 50%: 50-й перцентиль, або медіана, тобто значення, нижче якого знаходиться 50% даних.  
- 75%: 75-й перцентиль (третя чверть), тобто значення, нижче якого знаходиться 75% даних.  
- max: Максимальне значення в кожному стовпці.

In [None]:
# Основна описова статистика даних в таблиці
df.describe()

Якщо describe() викликається на DataFrame, що містить категоріальні дані (текстові або категорійні стовпці), він виведе іншу статистику:  
- count: Кількість непорожніх значень.  
- unique: Кількість унікальних значень.  
- top: категорія, яка зустрічається найчастіше (мода).  
- freq: частота, з якою зустрічається найпопулярніша категорія.

In [None]:
# Описова статистика для категоріальних змінних: в якості аргументу передати include=[object]
df.describe(include=[object])

### 3. Перейменування стовпців  
Перейменувати стовпці можна двома способами.    

3.1 Перший метод-це метод **rename()**, який використовується для перейменування будь-якого стовпця або декількох стовпців.  
Як аргумент методу rename передаємо словник:  
**columns = {'стара назва': 'нова назва'}**  
  
  **inplace=True - початковий фрейм даних оновлено**  
   **inplace=False - початковий фрейм даних не змінюється, результат відображається в копії датафрейму (за замовчуванням inplace=False)**

In [None]:
#Отримуємо перелік назв стовпців
df.columns

In [None]:
# Перейменовуємо перших дві колонки
df.rename(columns={'Unnamed: 0': 'Country', 
                   'Index digital economy': 'DE_index'
                   }, inplace=True)
df.head()

3.2 Другий метод. Використання **df.columns=[list_of_names]**  

Обмеження цього методу полягає в тому, що якщо один стовпець повинен бути змінений, то повинен бути переданий повний список стовпців.  
**Для стабільності і прогнозованої роботи з DataFrame всі назви стовпців рекомендується задавати як рядки (strings)**

In [None]:
df.columns = ['Country', 'DE_index', 'Users', 'Skills', 'Gov_exp', 'Workers', 'EU/NonEU', '8', '9', '10', '11', '12']
df.head()

### 4. Видалення рядків та стовпців  
#### 4.1 Видалення рядків  
**df.drop([list of row names], axis = 0, inplace=True)**    
axis = 0 - параметр означає, що ми видаляємо рядки   
  
  **Приклад**  
  видалити рядки з назвами 2,4,6 - df.drop([2, 4, 6], axis=0, inplace=True)

In [None]:
# Видалимо рядок з назвою 25
df.drop([2, 4, 6], axis=0, inplace=True)
df

#### 4.2 Видалення стовпців  
**df.drop([list of column names], axis = 1, inplace=True)**    
axis = 1 - параметр означає, що ми видаляємо стовпчики

In [None]:
# Видалимо останніх 5 стовпчиків
df.drop(['8', '9', '10', '11', '12'], axis=1, inplace=True)
df.head()

### 5. Заповнення/видалення пропущенних значень

In [None]:
df.info()

In [None]:
# Можна використати такий підхід для визначення кількості NaN елементів:
df.isnull().sum()

### 5.1 Видалення рядків із пропусками  
**df.dropna()**  
df.dropna(how='any', inplace=True) - видалити всі рядки, в яких є пропуски  
df.dropna(thresh=N, inplace=True) - залишити рядки, в яких принаймні N значень є заповненими, решту рядків - видалити

In [None]:
# thresh=4 - залишити рядки, в яких мінімум 4 заповнених значення, решту рядків - видалити
df.dropna(thresh=4, inplace=True)
df

### 5.2 Заповнення пропущених значень  
#### df.fillna()  
Метод fillna() замінює пропущене значення на вказане значення.  Наприклад:  
- df.mean() - середнє значення  
- df.median() - медіана  
- 0 - значення 0

In [None]:
#Заповнення пропущених значень середніми по совпчиках значеннями
df.fillna(df.mean(numeric_only=True), inplace=True)

In [None]:
df.info()

## 6. Звернення до елементів датафрейму, отримання зрізів  
#### 6.1 Звернення до стовпців датафрейму  
name_of_dataframe[[list_of_columns]]

In [None]:
# Звернення до конкретного стовпця
#Елементи стовпчика 'Users':
df[['Users']]
#df.Users #альтернативний варіант

In [None]:
# Звернення до кількох стовпців
df[['DE_index','Users']]

### 6.2 Отримання зрізів. Методи loc та iloc  
**loc** отримує у якості аргументів <font color='red'>імена (мітки) </font> рядків та стовпців.  
loc включає крайні значення діапазону:  
**name_of_dataframe.loc[мітки рядків, мітки стовпців]**  


**iloc** отримує <font color='red'>індекси рядків та стовпців (тому він приймає тільки цілі числа)</font>  
.iloc не включає крайні значення діапазону:  
**name_of_dataframe.iloc[індекси рядків, індекси стовпців]**

In [None]:
df
#Назви (мітки) стовпчиків: 'Country' 'DE_index' 'Users' 'Skills' 'Gov_exp' 'Workers' 'EU/NonEU'
#Назви (мітки) рядків: 0 1 3 5 7 8 9 10 і т.д.
#Індекси стовпчиків: 0 1 2 3 4 5 6
#Індекси рядків: 0 1 2 3 4 5 6 7 8 9 і т.д.

In [None]:
# lOC
# вивести інф., що міститься в 2-му та 3-му рядках стовпців Users та EU/NonEU
df.loc[[1, 3], ['Users', 'EU/NonEU']]

In [None]:
# ILOC
# вивести інф., що міститься в 2-му та 3-му рядках стовпців Users та EU/NonEU
df.iloc[[1, 2], [2, 6]]

#### Зріз (записується як початок: кінець) — техніка, яка дозволяє вибирати діапазон даних. Це дуже корисно, коли ми хочемо вибрати все, що знаходиться між двома елементами A та B (метод .loc - В включно, метод .iloc - В невключно):  
- А:В - всі елементи від А до В   
- :В - від 1-го елементу до В  
- А: - від А до останнього елементу

In [None]:
# LOC
# перші 8 рядків стовпців Users та Workers
df.loc[:10, ['Users', 'Workers']]

In [None]:
# ILOC
# перші 8 рядків стовпців Users та Workers
df.iloc[:8, [2, 5]]

In [None]:
# LOC
# вибрати рядки з мітками від 5 до 10 стовпців Users та Workers
df.loc[5:10, ['Users', 'Workers']]

In [None]:
# ILOC
# вибрати рядки з індексами від 5 до 10 стовпців Users та Workers
df.iloc[5:11, [2, 5]]

In [None]:
# LOC
# вибрати рядки з мітками від 5 до 10 і стовпці від Users до Workers
df.loc[5:10, 'Users':'Workers']

In [None]:
# ILOC
# вибрати рядки з індексами від 5 до 10 і стовпці від Users до Workers
df.iloc[5:11, 2:6]

## 7. Вибір рядків за заданими умовами

### 7.1. Вибір за категоріальною ознакою (наприклад, вибрати всі країни, що не входять до ЄС)
Конструкція **df['EU/NonEU'] == 'NonEU'** - це наша умова;   
обернувши цю умову в датафрейм, ми доручаємо бібліотеці pandas "вибрати всі рядки у нашому фреймі, де значення 'EU/NonEU' дорівнює 'NonEU'.

In [None]:
df[df['EU/NonEU'] == 'NonEU']

### 7.2.Вибір за кількісною ознакою (наприклад, вибрати всі країни, в яких значення "DE_index" вище 70)  
умова: df['DE_index'] > 70

In [None]:
df[df['DE_index'] > 70]

In [None]:
# Вибрати країни зі значенням DE_index > 70 та показати тільки стовпчики Country та DE_index
# використаємо ф-ю .loc
#.loc[діапазон рядків,   діапазон стовпчиків]
# діапазон рядків: df['DE_index'] > 70
# діапазон стовпчиків: ['Country', 'DE_index']
df.loc[df['DE_index'] > 70, ['Country', 'DE_index']]

### 7.3 Вибір за 2-ма та більше умовами  
Наприклад: Вибрати країни-учасниці ЄС, що мають індекс розвитку цифрової економіки вище 70  
#### При роботі з pandas необхідно використовувати:  
- символ & для логічного оператора AND   
- символ | для логічного оператора OR  
#### Кожну умову необхідно заключати в ():  
**df[(умова 1) & (умова 2)]**

In [None]:
#Вибрати країни-учасниці ЄС, що мають індекс розвитку цифрової економіки вище 70:  
#Умова 1: (df['EU/NonEU'] == 'EU')  
#Умова 2: (df['DE_index'] > 70)

#Вивести тільки назви країн та величину даного індексу

#Скористаємося методом .loc[діапазон рядків,   діапазон стовпчиків]
# діапазон рядків: (df['EU/NonEU'] == 'EU') & (df['DE_index'] > 70)
# діапазон стовпчиків: ['Country', 'DE_index']
df.loc[(df['EU/NonEU'] == 'EU') & (df['DE_index'] > 70), ['Country', 'DE_index']]

In [None]:
# Можна зберегти отриманий зріз в новий датафрейм, присвоївши йому нове ім'я df_new
df_new = df.loc[(df['EU/NonEU'] == 'EU') & (df['DE_index'] > 70), ['Country', 'DE_index']]
df_new

## 8. Запис датафрейму в файл  
Коли ви внесли всі необхідні зміни у датафрейм, ви можете зберегти остаточну версію датафрейму у файл:  
- df.to_csv('path_to_file.csv', index=0) **для формату csv**  
- df.to_excel('path_to_file.xlsx', index=0) **для формату excel**  
  
  Якщо ви встановлюєте index=0 (index=False), індекс рядків DataFrame не буде включений у збережений CSV файл.


In [None]:
#Цей файл буде збережено в папку, яка містить робочий ноутбук "Pandas_Library"!!!
df.to_csv('DE-index.csv', index = 0)