# Лабораторная работа №4 Введение в библиотеку Pandas

`Pandas` — это инструмент для обработки данных на основе библиотеки NumPy, созданный для решения задач анализа данных. Pandas включает ряд библиотек и некоторые стандартные модели данных, а также предоставляет функции и методы, необходимые для эффективного управления большими наборами данных.

Структуры данных Pandas: 
- Series (одномерный массив), 
- DataFrame (двумерный массив), 
- Panel (трехмерный массив), 
- Panel4D (четырехмерный массив), 
- PanelND (многомерный массив) и другие структуры данных. 

Среди них `Series` и `DataFrame` являются наиболее распространенными структурами данных.

Series представляет собой одномерный массив с метками, он может содержать данные любого типа, включая целые числа, строки, числа с плавающей запятой, объекты Python и многое другое. 
Series можно позиционировать по метке.

DataFrame представляет собой двумерную структуру данных с метками. Мы можем использовать метки для поиска данных, чего нет в NumPy.

### Цель лабораторной работы:

В этой лаборторной работе нужно познакомится с основными методами библиотеки Pandas для обработки структур данных, типа Series и DataFrame. 

Изучаются следующие разделы:

*   Создание Series
*   Основные операции над Series
*   Создание DataFrame
*   Основные операции над DataFrame
*   Операции с файлами

Лабораторная работа предоставляется на проверку в виде блокнота Jupiter Notebook с сформированными ответами в кодовых ячейках и вычисленным результатом. Ячейки с заданиями удалять не нужно.

### Инструментарий

Работа может выполняться с использованием:
- Сервиса Google Colab (обработка блокнотов формата Jupiter Notebook)
- Локального сервера Jupiter Notebook или Jupiter Lab (обработка блокнотов формата Jupiter Notebook)
- Редактора VS Studio Code с установленными плагинами языка Python.

# 1. Базовые операции в Pandas

## 1.1. Импорт модуля Pandas 

### 1.1.1. Импорт Pandas



Прежде чем практиковать Pandas, нам нужно сначала импортировать модуль `pandas` и по соглашению назначить ему псевдоним `pd`.

Это реализуется командой: `import pandas as pd`

#### Задание 1

Выполните импорт модуля Pandas под стандартным псевдонимом.

In [1]:
# В пустую ячейку введите приведенный программный код для импорта pandas, чтобы попрактиковаться.

### 1.1.2. Проверка версии Pandas

Для того, чтобы знать, какую версию модуля pandas мы использовали в работе (`работа формировалась с использованием версии 1.1.3`), ее можно можно получить через переменную .__version__. 

#### Задание 2

Выполните вывод версии импортированного модуля Pandas.

In [None]:
# Сформируйте строку программного кода для получения текущей версии Pandas

## 1.2. Создание Series


В pandas Series можно рассматривать как набор данных, состоящий из одного столбца данных.

Синтаксис создания Series: `s = pd.Series(data, index=index)`. На самом деле его можно создать разными способами. 

Мы рассмотрим три распространенных метода:
- Создание на основе списка
- Создание на основе массива ndarray
- Создание на основе словаря

### 1.2.1. Создание Series из списка

Структуру данных типа Series можно создать на основе списка.

In [2]:
arr = [0, 1, 2, 3, 4]
s1 = pd.Series(arr) # Если индекс не указан, то по умолчанию начинаем с 0
s1

0    0
1    1
2    2
3    3
4    4
dtype: int64

Если мы посмотрим на результат: 0, 1, 2, 3, 4 — это индексы текущего Series; 0, 1, 2, 3, 4 справа — значения Series

#### Задание 3

Рассмотрите фрагмент программного кода, который загружает небольшой датасет [Библиотеки. Сводные данные. Статистическая информация](https://opendata.mkrf.ru/opendata/7705851331-stat_library_summary_data#a:eyJ0YWIiOiJidWlsZF90YWJsZSJ9). В этом датасете есть столбец с данными о общем кол-ве библиотек "Общее число библиотек и библиотек-филиалов на конец отчетного года, всего (*)" с числовыми данными. На основе приведенного фрагмента кода выполните следующие действия:
- Сформируйте список числовых данных из столбца `"Общее число библиотек и библиотек-филиалов на конец отчетного года, всего (*)"` датасета.
- Удалите из списка число с общей количеством библиотек, соответствующее строке `"Всего по Российской Федерации"`.
- Создайте на основе получившегося списка Series pandas под именем `s_library`. 

In [None]:
import csv
from urllib.request import urlretrieve

csv_data = 'https://github.com/SerjiEvg/data-analysis/raw/main/data/data-2021-structure-7.csv'
urlretrieve(csv_data, 'data.csv')
with open('data.csv', encoding='utf-8') as csvfile:
    reader = csv.reader(csvfile, delimiter=',')
    for line in reader:
        print(line)

In [None]:
# Напишите в этой ячейке свой программный код для создания s_library

### 1.2.2. Создание Series из ndarray

Библиотека Numpy дает мощный и удобный высокоуровневый аппарат для работы с многомерными данными. Для работы с ними в Numpy разработана своя собственная структура данных — `массив numpy.ndarray`. Именно под эту структуру оптимизирована работа всего функционала библиотеки.

На основе этого массива данных можно создать структуру Series. У конструктора объекта есть дополнительные параметры, например, index для задания индексов.

In [6]:
import numpy as np
n = np.random.randn(5) # Создать случайный ndarray

index_symbols = ['a', 'b', 'c', 'd', 'e']
s2 = pd.Series(n, index=index_symbols)
s2

a    1.759316
b    1.504029
c   -1.723894
d    0.720585
e   -1.829362
dtype: float64

#### Задание 4

С помощью фрагмента программного кода, который мы использовали в п.1.2.1 :
- сформируйте пустой массив данных numpy ndarray_bibl для хранения значений типа "int64".
- Заполните массив ndarray_bibl на основе данных столбца 'из общего числа библиотек имеют  автоматизированные технологии для оцифровки фондов'.
- Создайте Series, используя массив ndarray_bibl и список s_library_index, в которой занесена информация по названию областей (0-й столбец).

In [None]:
# Напишите в этой ячейке свой программный код для создания s2_library

### 1.2.3. Создание Series из словаря 

In [8]:
d = {'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}
s3 = pd.Series(d)
s3

a    1
b    2
c    3
d    4
e    5
dtype: int64

#### Задание 5

С помощью фрагмента программного кода, который мы использовали в п.1.2.1 :
- сформируйте пустой словарь dict_bibl.
- Заполните словарь dict_bibl данными на основе данных столбца 'Площадь помещений, тыс.кв.м  Общая площадь помещений', которые используются в качестве значений и нулевого столбца с названиями областей в качестве ключей словаря.
- Создайте Series, используя словарь dict_bibl.

In [None]:
# Напишите в этой ячейке свой программный код для создания s3_library

## 1.3. Основные операции с Series

### 1.3.1. Изменение индекса Series 

In [10]:
print(s1) # Возьмем, к примеру, s1  
s1.index = ['A','B','C','D','E'] # Модифицированный индекс
s1

0    0
1    1
2    2
3    3
4    4
dtype: int64


A    0
B    1
C    2
D    3
E    4
dtype: int64

#### Задание 6

В задании 1.2.2 был сохранен индекс s_library_index названий регинов или Федеральных округов России. Попробуйте заменить индексы по умолчанию 0, 1, 2, ... в Series s1_library на индексы из списка s_library_index и выведите результат до и после замены.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.3.2. Вертикальное соединение Series

In [12]:
s4 = s3.append(s1) # Соединим s1 и s3
s4

a    1
b    2
c    3
d    4
e    5
A    0
B    1
C    2
D    3
E    4
dtype: int64

#### Задание 7

Выполните соединение s1_library и s2_library и выведите результат этого соединения в виде серии.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.3.3. Удаление элемента по указанному индексу

In [14]:
print(s4)
s4 = s4.drop('e') # Удалить значение с индексом e
s4

a    1
b    2
c    3
d    4
e    5
A    0
B    1
C    2
D    3
E    4
dtype: int64


a    1
b    2
c    3
d    4
A    0
B    1
C    2
D    3
E    4
dtype: int64

#### Задание 8

Выполните удаление из s3_library данных по Центральному федеральному округу и отобразите результат до и после удаления.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.3.4. Изменение элемента по указанному индексу

In [16]:
s4['A'] = 6 # Изменить значение с индексом A на 6
s4

a    1
b    2
c    3
d    4
A    6
B    1
C    2
D    3
E    4
dtype: int64

#### Задание 9

Измените значение в Series s3_library c 80.7443 на 82.3647 для Белгородской области и отобразите результат.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.3.5. Получение элемента по указанному индексу 

In [18]:
s4['B']

1

#### Задание 10

Получите данные по Калининградской области из Series s3_library и выведите это значение.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.3.6. Нарезка Series

Доступ к первым трем данным s4:

In [20]:
s4[:3]

a    1
b    2
c    3
dtype: int64

#### Задание 11

Выполните срез с 10 до 30 с шагом 3 для s3_library. Продемонстрируйте результат.

In [None]:
# Напишите в этой ячейке свой программный код

## 1.4. Операции с сериями

### 1.4.1. Дополнение к серии

Добавление серии рассчитывается по индексу, и он будет заполнен NaN (нулевое значение), если индексы разные:

In [22]:
s4.add(s3)

A    NaN
B    NaN
C    NaN
D    NaN
E    NaN
a    2.0
b    4.0
c    6.0
d    8.0
e    NaN
dtype: float64

### 1.4.1. Вычитание рядов

Вычитание ряда рассчитывается в соответствии с индексом, и он будет заполнен NaN (нулевое значение), если индексы разные:

In [23]:
s4.sub(s3)

A    NaN
B    NaN
C    NaN
D    NaN
E    NaN
a    0.0
b    0.0
c    0.0
d    0.0
e    NaN
dtype: float64

#### Задание 12

Выполните вычитание данных s2_library из s3_library и отобразите результат.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.4.2. Умножение рядов

Умножение ряда рассчитывается в соответствии с индексом, и оно будет заполнено NaN (нулевое значение), если индексы разные:

In [26]:
s4.mul(s3)

A     NaN
B     NaN
C     NaN
D     NaN
E     NaN
a     1.0
b     4.0
c     9.0
d    16.0
e     NaN
dtype: float64

#### Задание 13

Выполните умножение данных s2_library из s3_library и отобразите результат.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.4.3. Разделение серии 

Разделение серии рассчитывается в соответствии с индексом, и оно будет заполнено NaN(нулевое значение), если индексы разные:

In [27]:
s4.div(s3)

A    NaN
B    NaN
C    NaN
D    NaN
E    NaN
a    1.0
b    1.0
c    1.0
d    1.0
e    NaN
dtype: float64

#### Задание 14

Выполните деление данных s3_library на s2_library и отобразите результат.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.4.4. Получение описательной статистики

In [114]:
# Вычисление медианы
print(s4.median())

# Получение суммы серии
print(s4.sum())

# Получение максимального и минимального значения
s4.max()
s4.min()

3.0

#### Задание 15

Вычислите для s3_library описательные статистики и отобразите их.

In [None]:
# Напишите в этой ячейке свой программный код

## 1.5. Создание DataFrame

В отличие от Series, DataFrame может иметь несколько столбцов данных. 

### 1.5.1. Создание DataFrame с помощью массива NumPy

In [121]:
dates=pd.date_range('today', periods=6) # Define time sequence as index
num_arr=np.random.randn(6, 4) # Import numpy random array
columns=['A', 'B', 'C', 'D'] # Use the table as the column name
df1=pd.DataFrame(num_arr, index=dates, columns=columns)
df1

Unnamed: 0,A,B,C,D
2023-01-03 17:29:51.704127,0.399111,-0.246479,-0.1749,-0.880862
2023-01-04 17:29:51.704127,0.155721,-0.149274,0.441598,0.193326
2023-01-05 17:29:51.704127,2.731217,0.368467,-1.22166,-0.586547
2023-01-06 17:29:51.704127,0.013662,1.348182,0.058599,-0.597761
2023-01-07 17:29:51.704127,-2.575768,-0.155998,-0.088766,-0.284888
2023-01-08 17:29:51.704127,0.753442,-0.83181,0.153199,0.221495


### 1.5.2. Создание DataFrame с помощью массива словарей

In [120]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df2 = pd.DataFrame(data, index=labels)
df2

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,2.0,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


### 1.5.3. Просмотр типа DataFrame

In [None]:
df2.dtypes

## 1.6. Файловые операции с DataFrame

### 1.6.1. Загрузка DataFrame по HTTP

### 1.9.1. Запись в файл CSV 

In [None]:
df3.to_csv('animal.csv')
print("Success.")

### 1.9.2. Чтение из файла CSV

In [None]:
df_animal=pd.read_csv('animal.csv')
df_animal

### 1.9.3. Запись в электронную таблицу Excel

In [None]:
df3.to_excel('animal.xlsx', sheet_name='Sheet1')
print("Success.")

### 1.9.4. Чтение из электронной таблицы Excel

In [None]:
pd.read_excel('animal.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

## 1.7. Основные операции с DataFrame

### 1.7.1. Предварительный просмотр первых пяти строк данных DataFrame 

Этот метод очень полезен для быстрого понимания структуры незнакомых наборов данных:

In [None]:
df2.head() # It displays 5 lines by default. In the parentheses, you can specify the number of lines you want to preview as needed.

### 1.7.2. Просмотр последних 3 строк данных DataFrame

In [None]:
df2.tail(3)

### 1.7.3. Просмотр индекса DataFrame

In [None]:
df2.index

### 1.7.4. Просмотр названия столбца DataFrame

In [None]:
df2.index

### 1.7.5. Просмотр значения DataFrame

In [None]:
df2.values

### 1.7.6. Просмотр статистических данных DataFrame

In [None]:
df2.describe()

### 1.7.7. Операция транспонирования DataFrame

In [None]:
df2.T

### 1.7.8. Сортировка DataFrame по столбцу

In [None]:
df2.sort_values(by='age') # Sorted by age in ascending order

### 1.7.9. Нарезка данных DataFrame

In [None]:
df2[1:3]

### 1.7.10. Запрос к DataFrame по тегу (один столбец)

In [None]:
df2['age']

In [None]:
df2.age # Equivalent to df2['age']

### 1.7.11. Запрос к DataFrame по тегу (несколько столбцов)

In [None]:
df2[['age','animal']] # Import a list consisting of column names

### 1.7.12. Запрос к DataFrame по местоположению

In [None]:
df2.iloc[1:3] # Query rows 2，3

### 1.7.13. Создание копии DataFrame

In [None]:
# Generate the copy of DataFrame, making it convenient for datasets to be used by multiple different processes
df3=df2.copy()
df3

### 1.7.14. Проверка DataFrame на пустоту

In [None]:
df3.isnull() # Return True if it's empty 

### 1.7.15. Добавление данных столбца

In [None]:
num=pd.Series([0,1,2,3,4,5,6,7,8,9],index=df3.index)

df3['No.']=num # Add a new data column named as 'No.'
df3

### 1.7.16. Внесение изменений на основе значения нижнего индекса DataFrame

In [None]:
# Modify the value corresponding to row 2 and column 1: 3.0 → 2.0
df3.iat[1,0]=2 # The index number begins from 0, so here it's 1, 0
df3

### 1.7.17. Изменение данных в соответствии с меткой DataFrame

In [None]:
df3.loc['f','age']=1.5
df3

### 1.7.18. Получение среднего значения по DataFrame

In [None]:
df3.mean()

### 1.7.20. Операция суммирования по любому столбцу DataFrame

In [None]:
df3['visits'].sum()

## 1.8. Строковые операции

### 1.8.1. Преобразование строки в строчные буквы

In [None]:
string = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
print(string)
string.str.lower()

### 1.8.2. Преобразование строки в прописные буквы

In [None]:
string.str.upper()

## 1.9. Операции с отсутствующими значениями в DataFrame

### 1.9.1. Заполнение пропущенных значений

In [None]:
df4=df3.copy()
print(df4)
df4.fillna(value=3)

### 1.9.2.  Удаление строки с пропущенными значениями

In [None]:
df5=df3.copy()
print(df5)
df5.dropna(how='any') # Any row with NaN will be deleted

### 1.9.3. Выровнивание по указанному столбцу DataFrame

In [None]:
left = pd.DataFrame({'key': ['foo1', 'foo2'], 'one': [1, 2]})
right = pd.DataFrame({'key': ['foo2', 'foo3'], 'two': [4, 5]})

print(left)
print(right)

# After aligning according to the key column, only foo2 is the same, so it ends up as a line
pd.merge(left, right, on='key')