# Лабораторная работа №4 Введение в библиотеку Pandas

`Pandas` — это инструмент для обработки данных на основе библиотеки NumPy, созданный для решения задач анализа данных. Pandas включает ряд библиотек и некоторые стандартные модели данных, а также предоставляет функции и методы, необходимые для эффективного управления большими наборами данных.

Структуры данных Pandas: 
- Series (одномерный массив), 
- DataFrame (двумерный массив), 
- Panel (трехмерный массив), 
- Panel4D (четырехмерный массив), 
- PanelND (многомерный массив) и другие структуры данных. 

Среди них `Series` и `DataFrame` являются наиболее распространенными структурами данных.

Series представляет собой одномерный массив с метками, он может содержать данные любого типа, включая целые числа, строки, числа с плавающей запятой, объекты Python и многое другое. 
Series можно позиционировать по метке.

DataFrame представляет собой двумерную структуру данных с метками. Мы можем использовать метки для поиска данных, чего нет в NumPy.

### Цель лабораторной работы:

В этой лаборторной работе нужно познакомится с основными методами библиотеки Pandas для обработки структур данных, типа Series и DataFrame. 

Изучаются следующие разделы:

*   Создание Series
*   Основные операции над Series
*   Создание DataFrame
*   Основные операции над DataFrame
*   Операции с файлами

Лабораторная работа предоставляется на проверку в виде блокнота Jupiter Notebook с сформированными ответами в кодовых ячейках и вычисленным результатом. Ячейки с заданиями удалять не нужно.

### Инструментарий

Работа может выполняться с использованием:
- Сервиса Google Colab (обработка блокнотов формата Jupiter Notebook)
- Локального сервера Jupiter Notebook или Jupiter Lab (обработка блокнотов формата Jupiter Notebook)
- Редактора VS Studio Code с установленными плагинами языка Python.

# 1. Базовые операции в Pandas

## 1.1. Импорт модуля Pandas 

### 1.1.1. Импорт Pandas



Прежде чем практиковать Pandas, нам нужно сначала импортировать модуль `pandas` и по соглашению назначить ему псевдоним `pd`.

Это реализуется командой: `import pandas as pd`

#### Задание 1

Выполните импорт модуля Pandas под стандартным псевдонимом.

In [1]:
# В пустую ячейку введите приведенный программный код для импорта pandas, чтобы попрактиковаться.

### 1.1.2. Проверка версии Pandas

Для того, чтобы знать, какую версию модуля pandas мы использовали в работе (`работа формировалась с использованием версии 1.1.3`), ее можно можно получить через переменную .__version__. 

#### Задание 2

Выполните вывод версии импортированного модуля Pandas.

In [None]:
# Сформируйте строку программного кода для получения текущей версии Pandas

## 1.2. Создание Series


В pandas Series можно рассматривать как набор данных, состоящий из одного столбца данных.

Синтаксис создания Series: `s = pd.Series(data, index=index)`. На самом деле его можно создать разными способами. 

Мы рассмотрим три распространенных метода:
- Создание на основе списка
- Создание на основе массива ndarray
- Создание на основе словаря

### 1.2.1. Создание Series из списка

Структуру данных типа Series можно создать на основе списка.

In [2]:
arr = [0, 1, 2, 3, 4]
s1 = pd.Series(arr) # Если индекс не указан, то по умолчанию начинаем с 0
s1

0    0
1    1
2    2
3    3
4    4
dtype: int64

Если мы посмотрим на результат: 0, 1, 2, 3, 4 — это индексы текущего Series; 0, 1, 2, 3, 4 справа — значения Series

#### Задание 3

Рассмотрите фрагмент программного кода, который загружает небольшой датасет [Библиотеки. Сводные данные. Статистическая информация](https://opendata.mkrf.ru/opendata/7705851331-stat_library_summary_data#a:eyJ0YWIiOiJidWlsZF90YWJsZSJ9). В этом датасете есть столбец с данными о общем кол-ве библиотек "Общее число библиотек и библиотек-филиалов на конец отчетного года, всего (*)" с числовыми данными. На основе приведенного фрагмента кода выполните следующие действия:
- Сформируйте список числовых данных из столбца `"Общее число библиотек и библиотек-филиалов на конец отчетного года, всего (*)"` датасета.
- Удалите из списка число с общей количеством библиотек, соответствующее строке `"Всего по Российской Федерации"`.
- Создайте на основе получившегося списка Series pandas под именем `s1_library`. 

In [None]:
import csv
from urllib.request import urlretrieve

csv_data = 'https://github.com/SerjiEvg/data-analysis/raw/main/data/data-2021-structure-7.csv'
urlretrieve(csv_data, 'data.csv')
with open('data.csv', encoding='utf-8') as csvfile:
    reader = csv.reader(csvfile, delimiter=',')
    for line in reader:
        print(line)

In [None]:
# Напишите в этой ячейке свой программный код для создания s1_library

### 1.2.2. Создание Series из ndarray

Библиотека Numpy дает мощный и удобный высокоуровневый аппарат для работы с многомерными данными. Для работы с ними в Numpy разработана своя собственная структура данных — `массив numpy.ndarray`. Именно под эту структуру оптимизирована работа всего функционала библиотеки.

На основе этого массива данных можно создать структуру Series. У конструктора объекта есть дополнительные параметры, например, index для задания индексов.

In [6]:
import numpy as np
n = np.random.randn(5) # Создать случайный ndarray

index_symbols = ['a', 'b', 'c', 'd', 'e']
s2 = pd.Series(n, index=index_symbols)
s2

a    1.759316
b    1.504029
c   -1.723894
d    0.720585
e   -1.829362
dtype: float64

#### Задание 4

С помощью фрагмента программного кода, который мы использовали в п.1.2.1 :
- сформируйте пустой массив данных numpy ndarray_bibl для хранения значений типа "int64".
- Заполните массив ndarray_bibl на основе данных столбца 'из общего числа библиотек имеют  автоматизированные технологии для оцифровки фондов'.
- Создайте Series, используя массив ndarray_bibl и список s_library_index, в которой занесена информация по названию областей (0-й столбец).
- Создайте на основе получившегося массива Series pandas под именем `s2_library`. 

In [None]:
# Напишите в этой ячейке свой программный код для создания s2_library

### 1.2.3. Создание Series из словаря 

In [8]:
d = {'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}
s3 = pd.Series(d)
s3

a    1
b    2
c    3
d    4
e    5
dtype: int64

#### Задание 5

С помощью фрагмента программного кода, который мы использовали в п.1.2.1 :
- сформируйте пустой словарь dict_bibl.
- Заполните словарь dict_bibl данными на основе данных столбца 'Площадь помещений, тыс.кв.м  Общая площадь помещений', которые используются в качестве значений и нулевого столбца с названиями областей в качестве ключей словаря.
- Создайте Series, используя словарь dict_bibl.
- Создайте на основе получившегося словаря Series pandas под именем `s3_library`. 

In [None]:
# Напишите в этой ячейке свой программный код для создания s3_library

## 1.3. Основные операции с Series

### 1.3.1. Изменение индекса Series 

In [10]:
print(s1) # Возьмем, к примеру, s1  
s1.index = ['A','B','C','D','E'] # Модифицированный индекс
s1

0    0
1    1
2    2
3    3
4    4
dtype: int64


A    0
B    1
C    2
D    3
E    4
dtype: int64

#### Задание 6

В задании 1.2.2 был сохранен индекс s_library_index названий регинов или Федеральных округов России. Попробуйте заменить индексы по умолчанию 0, 1, 2, ... в Series s1_library на индексы из списка s_library_index и выведите результат до и после замены.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.3.2. Вертикальное соединение Series

In [12]:
s4 = s3.append(s1) # Соединим s1 и s3
s4

a    1
b    2
c    3
d    4
e    5
A    0
B    1
C    2
D    3
E    4
dtype: int64

#### Задание 7

Выполните соединение s1_library и s2_library и выведите результат этого соединения в виде серии.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.3.3. Удаление элемента по указанному индексу

In [14]:
print(s4)
s4 = s4.drop('e') # Удалить значение с индексом e
s4

a    1
b    2
c    3
d    4
e    5
A    0
B    1
C    2
D    3
E    4
dtype: int64


a    1
b    2
c    3
d    4
A    0
B    1
C    2
D    3
E    4
dtype: int64

#### Задание 8

Выполните удаление из s3_library данных по Центральному федеральному округу и отобразите результат до и после удаления.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.3.4. Изменение элемента по указанному индексу

In [16]:
s4['A'] = 6 # Изменить значение с индексом A на 6
s4

a    1
b    2
c    3
d    4
A    6
B    1
C    2
D    3
E    4
dtype: int64

#### Задание 9

Измените значение в Series s3_library c 80.7443 на 82.3647 для Белгородской области и отобразите результат.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.3.5. Получение элемента по указанному индексу 

In [18]:
s4['B']

1

#### Задание 10

Получите данные по Калининградской области из Series s3_library и выведите это значение.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.3.6. Нарезка Series

Доступ к первым трем данным s4:

In [20]:
s4[:3]

a    1
b    2
c    3
dtype: int64

#### Задание 11

Выполните срез с 10 до 30 с шагом 3 для s3_library. Продемонстрируйте результат.

In [None]:
# Напишите в этой ячейке свой программный код

## 1.4. Операции с сериями

### 1.4.1. Дополнение к серии

Добавление серии рассчитывается по индексу, и он будет заполнен NaN (нулевое значение), если индексы разные:

In [22]:
s4.add(s3)

A    NaN
B    NaN
C    NaN
D    NaN
E    NaN
a    2.0
b    4.0
c    6.0
d    8.0
e    NaN
dtype: float64

### 1.4.1. Вычитание рядов

Вычитание ряда рассчитывается в соответствии с индексом, и он будет заполнен NaN (нулевое значение), если индексы разные:

In [23]:
s4.sub(s3)

A    NaN
B    NaN
C    NaN
D    NaN
E    NaN
a    0.0
b    0.0
c    0.0
d    0.0
e    NaN
dtype: float64

#### Задание 12

Выполните вычитание данных s2_library из s3_library и отобразите результат.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.4.2. Умножение рядов

Умножение ряда рассчитывается в соответствии с индексом, и оно будет заполнено NaN (нулевое значение), если индексы разные:

In [26]:
s4.mul(s3)

A     NaN
B     NaN
C     NaN
D     NaN
E     NaN
a     1.0
b     4.0
c     9.0
d    16.0
e     NaN
dtype: float64

#### Задание 13

Выполните умножение данных s2_library из s3_library и отобразите результат.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.4.3. Разделение серии 

Разделение серии рассчитывается в соответствии с индексом, и оно будет заполнено NaN(нулевое значение), если индексы разные:

In [27]:
s4.div(s3)

A    NaN
B    NaN
C    NaN
D    NaN
E    NaN
a    1.0
b    1.0
c    1.0
d    1.0
e    NaN
dtype: float64

#### Задание 14

Выполните деление данных s3_library на s2_library и отобразите результат.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.4.4. Получение описательной статистики

In [114]:
# Вычисление медианы
print(s4.median())

# Получение суммы серии
print(s4.sum())

# Получение максимального и минимального значения
s4.max()
s4.min()

3.0

#### Задание 15

Вычислите для s3_library описательные статистики и отобразите их.

In [None]:
# Напишите в этой ячейке свой программный код

## 1.5. Создание DataFrame

В отличие от Series, DataFrame может иметь несколько столбцов данных. 

### 1.5.1. Создание DataFrame с помощью массива NumPy

In [None]:
dates=pd.date_range('today', periods=6) # Define time sequence as index
num_arr=np.random.randn(6, 4) # Import numpy random array
columns=['A', 'B', 'C', 'D'] # Use the table as the column name
df1=pd.DataFrame(num_arr, index=dates, columns=columns)
df1

NameError: name 'np' is not defined

#### Задание 16

Для создания DataFrame проделайте следующие действия:
- Сгенерируйте последовательность дат, начиная c 17.01.2023 и по 22.02.2023, разбитую на 24 интервала
- Сгенерируйте массив значений, распределенный по равномерному закону с числом строк, соответствующим размерности последовательности дат и количеством столбцов, равной 20.
- Создайте DataFrame `df_randline`, с индексацией по сформированным временным интервалам.
- Найдите дату (даты) где имеется максимальное суммарное значение по всем столбцам.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.5.2. Создание DataFrame с помощью массива словарей

In [None]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df2 = pd.DataFrame(data, index=labels)
df2

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,2.0,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


#### Задание 17

Для создания DataFrame проделайте следующие действия:
- Создайте словарь Python `film_dict`, где в качестве ключей будут использоваться: название фильма, время начала сеансов, жанры и стоимость билета.
- Создайте список дней недели `days` для распределения значений словаря.
- Создайте DataFrame `df_film` с использованием словаря и списка.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.5.3. Просмотр типа DataFrame

В следующем программном коде происходит загрузка DataFrame, определите типы данных в каждом из столбцов.

In [None]:
df3.dtypes

Назнавание фильма       object
Время начала сеанса     object
жанры                   object
время начала сеансов     int64
dtype: object

#### Задание 18

Выведите на консоль типы данных столбцов в DataFrame задания №17 `df_film`.

In [None]:
# Напишите в этой ячейке свой программный код

## 1.6. Файловые операции с DataFrame

### 1.6.1. Загрузка DataFrame по HTTP

In [None]:
df_contries=pd.read_csv('https://github.com/SerjiEvg/data-analysis/raw/main/data/countries.csv')
df_contries


Unnamed: 0,location,continent,population,life_expectancy,hospital_beds_per_thousand,gdp_per_capita
0,Afghanistan,Asia,38928341.0,64.83,0.50,1803.987
1,Albania,Europe,2877800.0,78.57,2.89,11803.431
2,Algeria,Africa,43851043.0,76.88,1.90,13913.839
3,Andorra,Europe,77265.0,83.73,,
4,Angola,Africa,32866268.0,61.15,,5819.495
...,...,...,...,...,...,...
205,Vietnam,Asia,97338583.0,75.40,2.60,6171.884
206,Western Sahara,Africa,597330.0,70.26,,
207,Yemen,Asia,29825968.0,66.12,0.70,1479.147
208,Zambia,Africa,18383956.0,63.89,2.00,3689.251


### 1.6.2. Запись в файл CSV 

In [None]:
df_contries.to_csv('contries_two.csv')
print("Success.")

Success.


### 1.6.3. Чтение из файла CSV

In [None]:
df_contries_two=pd.read_csv('contries_two.csv')
df_contries_two

Unnamed: 0.1,Unnamed: 0,location,continent,population,life_expectancy,hospital_beds_per_thousand,gdp_per_capita
0,0,Afghanistan,Asia,38928341.0,64.83,0.50,1803.987
1,1,Albania,Europe,2877800.0,78.57,2.89,11803.431
2,2,Algeria,Africa,43851043.0,76.88,1.90,13913.839
3,3,Andorra,Europe,77265.0,83.73,,
4,4,Angola,Africa,32866268.0,61.15,,5819.495
...,...,...,...,...,...,...,...
205,205,Vietnam,Asia,97338583.0,75.40,2.60,6171.884
206,206,Western Sahara,Africa,597330.0,70.26,,
207,207,Yemen,Asia,29825968.0,66.12,0.70,1479.147
208,208,Zambia,Africa,18383956.0,63.89,2.00,3689.251


#### Задание 19

По ссылке https://github.com/SerjiEvg/data-analysis/raw/main/data/grades.csv доступен CSV файл, содержащий статистические данные об образовании и трудоустройстве. Выполните загузку этих данных и сформируйте DataFrame под именем `df_grades`.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.6.4. Запись в электронную таблицу Excel

In [None]:
df_contries_two.to_excel('df_contries_two.xlsx', sheet_name='Sheet1')
print("Success.")

Success.


### 1.6.5. Чтение из электронной таблицы Excel

In [None]:
pd.read_excel('df_contries_two.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

Unnamed: 0.2,Unnamed: 0,Unnamed: 0.1,location,continent,population,life_expectancy,hospital_beds_per_thousand,gdp_per_capita
0,0,0,Afghanistan,Asia,38928341,64.83,0.50,1803.987
1,1,1,Albania,Europe,2877800,78.57,2.89,11803.431
2,2,2,Algeria,Africa,43851043,76.88,1.90,13913.839
3,3,3,Andorra,Europe,77265,83.73,,
4,4,4,Angola,Africa,32866268,61.15,,5819.495
...,...,...,...,...,...,...,...,...
205,205,205,Vietnam,Asia,97338583,75.40,2.60,6171.884
206,206,206,Western Sahara,Africa,597330,70.26,,
207,207,207,Yemen,Asia,29825968,66.12,0.70,1479.147
208,208,208,Zambia,Africa,18383956,63.89,2.00,3689.251


#### Задание 20

Сохраните данные столбцов `Год окончания`, `Тип диплома` и `Платеж` из DataFrame `df_grades` в рабочую книгу Excel под именем `grades.xlsx`. Выгрузку данных произвести на лист `Информация об обучении` без добавления дополнительного индекса.

In [None]:
# Напишите в этой ячейке свой программный код

## 1.7. Основные операции с DataFrame

### 1.7.1. Предварительный просмотр первых пяти строк данных DataFrame 

Этот метод очень полезен для быстрого понимания структуры незнакомых наборов данных:

In [None]:
df_contries.head() 

Unnamed: 0,location,continent,population,life_expectancy,hospital_beds_per_thousand,gdp_per_capita
0,Afghanistan,Asia,38928341.0,64.83,0.5,1803.987
1,Albania,Europe,2877800.0,78.57,2.89,11803.431
2,Algeria,Africa,43851043.0,76.88,1.9,13913.839
3,Andorra,Europe,77265.0,83.73,,
4,Angola,Africa,32866268.0,61.15,,5819.495


### 1.7.2. Просмотр последних 3 строк данных DataFrame

In [None]:
df_contries.tail(3)

Unnamed: 0,location,continent,population,life_expectancy,hospital_beds_per_thousand,gdp_per_capita
207,Yemen,Asia,29825968.0,66.12,0.7,1479.147
208,Zambia,Africa,18383956.0,63.89,2.0,3689.251
209,Zimbabwe,Africa,14862927.0,61.49,1.7,1899.775


#### Задание 21

По ссылке https://github.com/SerjiEvg/data-analysis/raw/main/data/COVID-19%20data%20by%20regions%20of%20RUSSIA.csv доступны статистические данные о COVID-19. Выполните их загрузку в DataFrame `df_covid` и выведите пять первых и пять последних строк датафрейма.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.7.3. Просмотр индекса DataFrame

In [None]:
df_contries.index

RangeIndex(start=0, stop=210, step=1)

### 1.7.4. Просмотр названия столбца DataFrame

In [None]:
df_contries.columns

Index(['location', 'continent', 'population', 'life_expectancy',
       'hospital_beds_per_thousand', 'gdp_per_capita'],
      dtype='object')

### 1.7.5. Просмотр значения DataFrame

In [None]:
df_contries.values

array([['Afghanistan', 'Asia', 38928341.0, 64.83, 0.5, 1803.987],
       ['Albania', 'Europe', 2877800.0, 78.57, 2.89, 11803.431],
       ['Algeria', 'Africa', 43851043.0, 76.88, 1.9, 13913.839],
       ...,
       ['Yemen', 'Asia', 29825968.0, 66.12, 0.7, 1479.1470000000004],
       ['Zambia', 'Africa', 18383956.0, 63.89, 2.0, 3689.251],
       ['Zimbabwe', 'Africa', 14862927.0, 61.49, 1.7, 1899.775]],
      dtype=object)

#### Задание 22

Рассмотрите созданный датафрейм `df_covid`. В одном из столбцов содержаться значения дат, только они представлены в строковом виде. Нужно выделить столбец с датами в массив numpy и преобразовать его в формат `datetime64[ns]`. Преобразованный столбец с данными нужно отобразить на экране.

In [None]:
# Напишите в этой ячейке свой программный код


### 1.7.6. Просмотр статистических данных DataFrame

In [None]:
df_contries.describe()

Unnamed: 0,population,life_expectancy,hospital_beds_per_thousand,gdp_per_capita
count,210.0,207.0,164.0,183.0
mean,36942760.0,73.529855,3.012671,19485.912399
std,142509200.0,7.560056,2.464917,19820.802488
min,809.0,53.28,0.1,661.24
25%,1031042.0,69.26,1.3,4504.151
50%,6909866.0,75.09,2.3585,13111.214
75%,26158680.0,78.94,3.89575,28349.9835
max,1439324000.0,86.75,13.8,116935.6


#### Задание 23

Из созданного датафрейма `df_covid` выполните выборку двух столбцов `случаи заболевания` и `население` с числовыми данными и вычислите для них описательную статистику: кол-во, среднее, средне-квадратическое отклонение и т.д.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.7.7. Операция транспонирования DataFrame

In [None]:
df_contries.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,200,201,202,203,204,205,206,207,208,209
location,Afghanistan,Albania,Algeria,Andorra,Angola,Anguilla,Antigua and Barbuda,Argentina,Armenia,Aruba,...,United States Virgin Islands,Uruguay,Uzbekistan,Vatican,Venezuela,Vietnam,Western Sahara,Yemen,Zambia,Zimbabwe
continent,Asia,Europe,Africa,Europe,Africa,North America,North America,South America,Asia,North America,...,North America,South America,Asia,Europe,South America,Asia,Africa,Asia,Africa,Africa
population,3.89283e+07,2.8778e+06,4.3851e+07,77265,3.28663e+07,15002,97928,4.51958e+07,2.96323e+06,106766,...,104423,3.47373e+06,3.34692e+07,809,2.84359e+07,9.73386e+07,597330,2.9826e+07,1.8384e+07,1.48629e+07
life_expectancy,64.83,78.57,76.88,83.73,61.15,81.88,77.02,76.67,75.09,76.29,...,80.58,77.91,71.72,75.12,72.06,75.4,70.26,66.12,63.89,61.49
hospital_beds_per_thousand,0.5,2.89,1.9,,,,3.8,5,4.2,,...,,2.8,4,,0.8,2.6,,0.7,2,1.7
gdp_per_capita,1803.99,11803.4,13913.8,,5819.49,,21490.9,18933.9,8787.58,35973.8,...,,20551.4,6253.1,,16745,6171.88,,1479.15,3689.25,1899.78


### 1.7.8. Сортировка DataFrame по столбцу

In [None]:
df_contries.sort_values(by='population') 

Unnamed: 0,location,continent,population,life_expectancy,hospital_beds_per_thousand,gdp_per_capita
203,Vatican,Europe,8.090000e+02,75.12,,
65,Falkland Islands,South America,3.483000e+03,81.44,,
130,Montserrat,North America,4.999000e+03,74.16,,
5,Anguilla,North America,1.500200e+04,81.88,,
24,Bonaire Sint Eustatius and Saba,North America,2.622100e+04,77.79,,
...,...,...,...,...,...,...
145,Pakistan,Asia,2.208923e+08,67.27,0.60,5034.708
91,Indonesia,Asia,2.735236e+08,71.72,1.04,11188.744
199,United States,North America,3.310026e+08,78.86,2.77,54225.446
90,India,Asia,1.380004e+09,69.66,0.53,6426.674


#### Задание 24

Выполните сортировку данных из DataFrame `df_covid` по столбцу `Федеральный округ`.  

In [None]:
# Напишите в этой ячейке свой программный код

### 1.7.9. Нарезка данных DataFrame

In [None]:
df_contries[1:3]

Unnamed: 0,location,continent,population,life_expectancy,hospital_beds_per_thousand,gdp_per_capita
1,Albania,Europe,2877800.0,78.57,2.89,11803.431
2,Algeria,Africa,43851043.0,76.88,1.9,13913.839


### 1.7.10. Запрос к DataFrame по тегу (один столбец)

In [None]:
df_contries['life_expectancy']

0      64.83
1      78.57
2      76.88
3      83.73
4      61.15
       ...  
205    75.40
206    70.26
207    66.12
208    63.89
209    61.49
Name: life_expectancy, Length: 210, dtype: float64

In [None]:
df_contries.population 

0      38928341.0
1       2877800.0
2      43851043.0
3         77265.0
4      32866268.0
          ...    
205    97338583.0
206      597330.0
207    29825968.0
208    18383956.0
209    14862927.0
Name: population, Length: 210, dtype: float64

### 1.7.11. Запрос к DataFrame по тегу (несколько столбцов)

In [None]:
df_contries[['location','population']] 

Unnamed: 0,location,population
0,Afghanistan,38928341.0
1,Albania,2877800.0
2,Algeria,43851043.0
3,Andorra,77265.0
4,Angola,32866268.0
...,...,...
205,Vietnam,97338583.0
206,Western Sahara,597330.0
207,Yemen,29825968.0
208,Zambia,18383956.0


#### Задание 25

Выполните срез DataFrame `df_covid`, сделав выборку строк с 20 по 100 и столбцов `Федеральный округ` и `население`.

In [None]:
# Напишите в этой ячейке свой программный код

### 1.7.12. Запрос к DataFrame по индексам

In [None]:
df_contries.iloc[1:3] 

Unnamed: 0,location,continent,population,life_expectancy,hospital_beds_per_thousand,gdp_per_capita
1,Albania,Europe,2877800.0,78.57,2.89,11803.431
2,Algeria,Africa,43851043.0,76.88,1.9,13913.839


### 1.7.13. Создание копии DataFrame

In [None]:
df_contries_2=df_contries.copy()
df_contries_2

Unnamed: 0,location,continent,population,life_expectancy,hospital_beds_per_thousand,gdp_per_capita
0,Afghanistan,Asia,38928341.0,64.83,0.50,1803.987
1,Albania,Europe,2877800.0,78.57,2.89,11803.431
2,Algeria,Africa,43851043.0,76.88,1.90,13913.839
3,Andorra,Europe,77265.0,83.73,,
4,Angola,Africa,32866268.0,61.15,,5819.495
...,...,...,...,...,...,...
205,Vietnam,Asia,97338583.0,75.40,2.60,6171.884
206,Western Sahara,Africa,597330.0,70.26,,
207,Yemen,Asia,29825968.0,66.12,0.70,1479.147
208,Zambia,Africa,18383956.0,63.89,2.00,3689.251


### 1.7.14. Проверка DataFrame на пустоту

In [None]:
df_contries_2.isnull() 

Unnamed: 0,location,continent,population,life_expectancy,hospital_beds_per_thousand,gdp_per_capita
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,True,True
4,False,False,False,False,True,False
...,...,...,...,...,...,...
205,False,False,False,False,False,False
206,False,False,False,False,True,True
207,False,False,False,False,False,False
208,False,False,False,False,False,False


#### Задание 26

Получите из DataFrame `df_covid` информацию о пустых значениях (NaN) и выведите ее на экран. 

In [None]:
# Напишите в этой ячейке свой программный код

### 1.7.15. Операция суммирования по любому столбцу DataFrame

In [None]:
df_contries_2['population'].sum()

7757980096.5

#### Задание 27

Найдите сумму по столбцу `население` из DataFrame `df_covid`. 

In [None]:
# Напишите в этой ячейке свой программный код

## 1.8. Строковые операции

### 1.8.1. Преобразование строки в строчные буквы

In [None]:
string = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
print(string)
string.str.lower()

0       A
1       B
2       C
3    Aaba
4    Baca
5     NaN
6    CABA
7     dog
8     cat
dtype: object


0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

### 1.8.2. Преобразование строки в прописные буквы

In [None]:
string.str.upper()

0       A
1       B
2       C
3    AABA
4    BACA
5     NaN
6    CABA
7     DOG
8     CAT
dtype: object

## 1.9. Операции с отсутствующими значениями в DataFrame

### 1.9.1. Заполнение пропущенных значений

In [None]:
df_contries_3 = df_contries_2.copy()
print(df_contries_3)
df_contries_3.fillna(value = 3)

              location continent  population  life_expectancy  \
0          Afghanistan      Asia  38928341.0            64.83   
1                    2    Europe   2877800.0            78.57   
2              Algeria    Africa  43851043.0            76.88   
3              Andorra    Europe     77265.0            83.73   
4               Angola    Africa  32866268.0            61.15   
...                ...       ...         ...              ...   
208             Zambia    Africa  18383956.0            63.89   
209           Zimbabwe    Africa  14862927.0            61.49   
f                  NaN       NaN         NaN              NaN   
continent          NaN       NaN         NaN              NaN   
age                1.5       1.5         1.5             1.50   

           hospital_beds_per_thousand  gdp_per_capita  age  
0                                0.50        1803.987  NaN  
1                                2.89       11803.431  NaN  
2                                1.9

Unnamed: 0,location,continent,population,life_expectancy,hospital_beds_per_thousand,gdp_per_capita,age
0,Afghanistan,Asia,38928341.0,64.83,0.50,1803.987,3.0
1,2,Europe,2877800.0,78.57,2.89,11803.431,3.0
2,Algeria,Africa,43851043.0,76.88,1.90,13913.839,3.0
3,Andorra,Europe,77265.0,83.73,3.00,3.000,3.0
4,Angola,Africa,32866268.0,61.15,3.00,5819.495,3.0
...,...,...,...,...,...,...,...
208,Zambia,Africa,18383956.0,63.89,2.00,3689.251,3.0
209,Zimbabwe,Africa,14862927.0,61.49,1.70,1899.775,3.0
f,3,3,3.0,3.00,3.00,3.000,1.5
continent,3,3,3.0,3.00,3.00,3.000,1.5


### 1.9.2.  Удаление строки с пропущенными значениями

In [None]:
df_contries_4 = df_contries_2.copy()
print(df_contries_4)
df_contries_4.dropna(how='any') 

              location continent  population  life_expectancy  \
0          Afghanistan      Asia  38928341.0            64.83   
1                    2    Europe   2877800.0            78.57   
2              Algeria    Africa  43851043.0            76.88   
3              Andorra    Europe     77265.0            83.73   
4               Angola    Africa  32866268.0            61.15   
...                ...       ...         ...              ...   
208             Zambia    Africa  18383956.0            63.89   
209           Zimbabwe    Africa  14862927.0            61.49   
f                  NaN       NaN         NaN              NaN   
continent          NaN       NaN         NaN              NaN   
age                1.5       1.5         1.5             1.50   

           hospital_beds_per_thousand  gdp_per_capita  age  
0                                0.50        1803.987  NaN  
1                                2.89       11803.431  NaN  
2                                1.9

Unnamed: 0,location,continent,population,life_expectancy,hospital_beds_per_thousand,gdp_per_capita,age
age,1.5,1.5,1.5,1.5,1.5,1.5,1.5


### 1.9.3. Выровнивание по указанному столбцу DataFrame

In [None]:
left = pd.DataFrame({'key': ['foo1', 'foo2'], 'one': [1, 2]})
right = pd.DataFrame({'key': ['foo2', 'foo3'], 'two': [4, 5]})

print(left)
print(right)

# After aligning according to the key column, only foo2 is the same, so it ends up as a line
pd.merge(left, right, on='key')

    key  one
0  foo1    1
1  foo2    2
    key  two
0  foo2    4
1  foo3    5


Unnamed: 0,key,one,two
0,foo2,2,4


#### Задание 28

Выполните создание копии DataFrame `df_covid` и устраните все строки с пропущенными значениями. Выведите рузультат на экран.

In [None]:
# Напишите в этой ячейке свой программный код