# Практика 05. Библиотека Pandas. Таблицы в Pandas

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

### 1. Создание датафрейма

**Задание.** Создайте датафрейм с информацией о странах и их столицах.

In [None]:
data_countries = [
    ['Исландия', 'Рейкьявик', 827497295.0, 256.345],
    ['Норвегия', 'Осло', 981246896.0, 36.654],
    ['Швеция', 'Стокгольм', 34688325.0, 2345.53],
    ['Нидерланды', 'Амстердам', 357987654.0, 817.82],
    ['Швейцария','Берн', 345678998.0, 726.94]
]

In [None]:
geography = ['country', 'capital', 'population', 'area']

In [None]:
mini_map = pd.DataFrame(data=data_countries, columns=geography)

In [None]:
mini_map

Unnamed: 0,country,capital,population,area
0,Исландия,Рейкьявик,827497295.0,256.345
1,Норвегия,Осло,981246896.0,36.654
2,Швеция,Стокгольм,34688325.0,2345.53
3,Нидерланды,Амстердам,357987654.0,817.82
4,Швейцария,Берн,345678998.0,726.94


### 2. Извлечение и обзор данных

Сброс ограничений на количество выводимых столбцов.

In [None]:
pd.set_option('display.max_columns', None)

Установка единообразного отображения вещественных чисел с двумя знаками после запятой.

In [None]:
pd.set_option('display.float_format', '{:,.2f}'.format)

Знакомство с данными, вывод первых строк датафрейма.

In [None]:
mini_map.head()

Unnamed: 0,country,capital,population,area
0,Исландия,Рейкьявик,827497295.0,256.35
1,Норвегия,Осло,981246896.0,36.65
2,Швеция,Стокгольм,34688325.0,2345.53
3,Нидерланды,Амстердам,357987654.0,817.82
4,Швейцария,Берн,345678998.0,726.94


Знакомство с данными, вывод первых десяти строк датафрейма.

In [None]:
mini_map.head(2)

Unnamed: 0,country,capital,population,area
0,Исландия,Рейкьявик,827497295.0,256.35
1,Норвегия,Осло,981246896.0,36.65


Знакомство с данными, вывод последних строк датафрейма.

In [None]:
mini_map.tail(2)

Unnamed: 0,country,capital,population,area
3,Нидерланды,Амстердам,357987654.0,817.82
4,Швейцария,Берн,345678998.0,726.94


Знакомство с данными, вывод случайной выборки из датафрейма.

In [None]:
mini_map.sample(3)

Unnamed: 0,country,capital,population,area
2,Швеция,Стокгольм,34688325.0,2345.53
1,Норвегия,Осло,981246896.0,36.65
3,Нидерланды,Амстердам,357987654.0,817.82


Знакомство с атрибутами датафрейма. Изучение общей информации о датафрейме, структуры данных.

In [None]:
mini_map.dtypes

country        object
capital        object
population    float64
area          float64
dtype: object

In [None]:
mini_map.columns

Index(['country', 'capital', 'population', 'area'], dtype='object')

In [None]:
mini_map.shape

(5, 4)

In [None]:
rows_number = mini_map.shape[0]
rows_number

5

In [None]:
columns_nums = mini_map.shape[1]
columns_nums

4

In [None]:
mini_map.info

In [None]:
mini_map.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   country     5 non-null      object 
 1   capital     5 non-null      object 
 2   population  5 non-null      float64
 3   area        5 non-null      float64
dtypes: float64(2), object(2)
memory usage: 288.0+ bytes


### 3. Предварительные выводы о данных

Согласно документации к данным.

Датасет **_** содержит информацию _.<br>


**Выводы**<br><br>
1. В датафрейме **_ записей, _ столбцов**.
2. В _ столбцах имеются **пропущенные значения**.
3. Нарушение стиля в заголовке столбца **_**, следует изменить регистр.
4. Для ряда столбцов видится возможным **изменение типа данных** для снижения нагрузки и удобства визуализации данных (отсутствия дробных частей в лейблах/подписях).
5. Из столбца **_** для более детального анализа данных следует выделить месяц/год.
6. В столбцах **_**, **_**, **_**, **_** возможны дубликаты.
7. Более детально необходимо посмотреть на строковые значения в столбцах **_** (в некоторых наименованиях в конце строки - лишний символ точки); **_** (использование различных символов для разделения нескольких стран); в столбце **_** различается принцип ввода имен собственных для иностранных и отечественных режиссеров, аналогичная ситуация со столбцом **_**.
8. ...

### 4. Работа с датафреймом

In [None]:
mini_map.rename(columns = {'capital': 'city'}, inplace = True)
mini_map.rename(columns = {'area': 'area_kv_km'}, inplace = True)

In [None]:
mini_map

Unnamed: 0,country,city,population,area_kv_km
0,Исландия,Рейкьявик,827497295.0,256.35
1,Норвегия,Осло,981246896.0,36.65
2,Швеция,Стокгольм,34688325.0,2345.53
3,Нидерланды,Амстердам,357987654.0,817.82
4,Швейцария,Берн,345678998.0,726.94


In [None]:
mini_map.dtypes

country        object
city           object
population    float64
area_kv_km    float64
dtype: object

In [None]:
mini_map.population = mini_map.population.astype('int')

In [None]:
mini_map.dtypes

country        object
city           object
population      int64
area_kv_km    float64
dtype: object

In [None]:
mini_map = mini_map.astype({'population': 'float', 'area_kv_km': 'int'})

In [None]:
mini_map

Unnamed: 0,country,city,population,area_kv_km
0,Исландия,Рейкьявик,827497295.0,256
1,Норвегия,Осло,981246896.0,36
2,Швеция,Стокгольм,34688325.0,2345
3,Нидерланды,Амстердам,357987654.0,817
4,Швейцария,Берн,345678998.0,726


In [None]:
mini_map = mini_map.astype({'population': 'int', 'area_kv_km': 'float'})

In [None]:
mini_map

Unnamed: 0,country,city,population,area_kv_km
0,Исландия,Рейкьявик,827497295,256.0
1,Норвегия,Осло,981246896,36.0
2,Швеция,Стокгольм,34688325,2345.0
3,Нидерланды,Амстердам,357987654,817.0
4,Швейцария,Берн,345678998,726.0


In [None]:
mini_map.select_dtypes(include = ['int64', 'float64'])

Unnamed: 0,population,area_kv_km
0,827497295,256.0
1,981246896,36.0
2,34688325,2345.0
3,357987654,817.0
4,345678998,726.0


In [None]:
mini_map.select_dtypes(exclude = ['int64', 'float64'])

Unnamed: 0,country,city
0,Исландия,Рейкьявик
1,Норвегия,Осло
2,Швеция,Стокгольм
3,Нидерланды,Амстердам
4,Швейцария,Берн


In [None]:
mini_map

Unnamed: 0,country,city,population,area_kv_km
0,Исландия,Рейкьявик,827497295,256.0
1,Норвегия,Осло,981246896,36.0
2,Швеция,Стокгольм,34688325,2345.0
3,Нидерланды,Амстердам,357987654,817.0
4,Швейцария,Берн,345678998,726.0


In [None]:
dict = {'country': 'Canada', 'city': 'Ottawa', 'population': 26456, 'area_kv_km': 546.2}

In [None]:
mini_map = mini_map.append(dict, ignore_index = True)
mini_map

AttributeError: 'DataFrame' object has no attribute 'append'

In [None]:
canada = pd.DataFrame({'country': 'Canada', 'city': 'Ottawa', 'population': [26456], 'area_kv_km': [546.2]})

In [None]:
mini_map = mini_map.append(canada.iloc)

In [None]:
mini_map['pop_density'] = [42, 116, 20, 37, 88]

In [None]:
mini_map = mini_map.assign(area_miles = mini_map.area_kv_km / 2.59).round(2)
mini_map

In [None]:
mini_map.drop(labels = [0, 1], axis = 0)
mini_map

# Индексация в DataFrame

### 5. Индексация по координатам

**Задание.** Выполните поиск данных в датафрейме с помощью индексации по координатам.

Содержимое ячейки из пятой строки, колонки 'title'. Доступ к индексации открывает атрибут **loc[строка, столбец]**.

In [None]:
mini_map.loc[3, 'city']

'Амстердам'

Содержимое конкретной строки.

In [None]:
mini_map.loc[3]

country       Нидерланды
city           Амстердам
population     357987654
area_kv_km        817.00
Name: 3, dtype: object

In [None]:
mini_map.loc[1:4]

Unnamed: 0,country,city,population,area_kv_km
1,Норвегия,Осло,981246896,36.0
2,Швеция,Стокгольм,34688325,2345.0
3,Нидерланды,Амстердам,357987654,817.0
4,Швейцария,Берн,345678998,726.0


Содержимое нескольких строк внутри датафрейма (**среза строк**).

In [None]:
mini_map.loc[2:4]

Содержимое последних трех строк.

In [None]:
mini_map.loc[2:]

**Что не так с данными? Верно ли получен результат?**

In [None]:
mini_map.loc[:1]

Содержимое нескольких строк внутри датафрейма и конкретного столбца.

In [None]:
mini_map.loc[1:3, 'city']

Содержимое конкретного столбца.

In [None]:
mini_map.loc[:, 'city']

Содержимое конкретных столбцов.

In [None]:
mini_map['city']

Содержимое среза нескольких столбцов.

In [None]:
mini_map.loc[:, 'city': 'area_kv_km']

**Примеры индексации**

| Данные                            | Индексация                     |
|-----------------------------------|--------------------------------|
| Одна ячейка                       | .loc[7, 'genre']               |
| Один столбец                      | .loc[:, 'genre']               |
| Несколько столбцов                | .loc[:, ['genre', 'artist']]   |
| Несколько столбцов подряд (срез)  | .loc[:, 'total play': 'genre'] |
| Одна строка                       | .loc[1]                        |
| Все строки, начиная с заданной    | .loc[1:]                       |
| Все строки до заданной            | .loc[:3]                       |
| Несколько строк подряд (срез)     | .loc[2:5]                      |

# Задание
Используйте все представленные в таблице варианты индексации и выведите результаты срезов (*используйте собственные примеры*).

In [None]:
mini_map

In [None]:
# получение одной ячейки
mini_map.loc[0, 'population']

In [None]:
# срез столбца
mini_map.loc[:, 'pop_density']

In [None]:
# срез нескольких столбцов по их названиям
mini_map.loc[:, ['city', 'area_miles']]

In [None]:
# срез нескольких столбцов от одного до другого
mini_map.loc[:, 'population': 'pop_density']

In [None]:
# одна строка
mini_map.loc[2]

In [None]:
# срез всех строк, начиная с заданной
mini_map.loc[3:]

In [None]:
# срез всех строк до заданной
mini_map.loc[:2]

In [None]:
# срез нескольких строк подряд
mini_map.loc[2:4]

**Срезы по номерам строк и списки столбцов можно сочетать**

| Данные                                                          | Индексация                          |
|-----------------------------------------------------------------|-------------------------------------|
| Срез строк в заданном диапазоне и выбор определённого столбца   | .loc[2:10, 'genre']                 |
| Срез нескольких столбцов подряд и выбор определённой строки     | .loc[5, 'total play': 'genre']      |
| Выбор заданных столбцов и определённой строки                   | .loc[10, ['total play', 'artist']]  |
| Выбор заданных столбцов и срез нескольких строк подряд          | .loc[7:10, ['total play', 'genre']] |

Проверка на пропуски

# Задание
Используйте все представленные в таблице варианты индексации и выведите результаты срезов (*используйте собственные примеры*).

In [None]:
#срез строк в заданном диапазоне и выбор определённого столбца
mini_map.loc[1:3, 'population']

In [None]:
#срез нескольких столбцов подряд и выбор определённой строки
mini_map.loc[4, 'city': 'area_kv_km']

In [None]:
#выбор заданных столбцов и определённой строки
mini_map.loc[3, ['city', 'area_kv_km']]

In [None]:
#выбор заданных столбцов и срез нескольких строк подряд
mini_map.loc[0:2, ['city', 'area_kv_km']]

**Сокращённая запись при индексации**<br>
![image.png](attachment:image.png)

# Задание
Перепишите срезы из заданий 6-7 в сокращенном виде (там, где это возможно).

In [None]:
# срез столбца
mini_map['pop_density']

In [None]:
# срез нескольких столбцов по их названиям
mini_map[['city', 'area_miles']]

In [None]:
# срез всех строк, начиная с заданной
mini_map[3:]

In [None]:
# срез всех строк до заданной
mini_map[:2]

In [None]:
# срез нескольких строк подряд
mini_map.loc[2:4]

### 6. Логическая индексация

In [None]:
mini_map

In [None]:
mini_map.loc[mini_map.loc[:, 'city'] == 'Осло']

In [None]:
mini_map.loc[mini_map.loc[:, 'city'] == 'Осло'][['country', 'city']]

Unnamed: 0,country,city
1,Норвегия,Осло


In [None]:
mini_map.loc[mini_map.loc[:, 'population'] > 567816143]

In [None]:
mini_map.loc[mini_map.loc[:, 'population'] > 567816143]['population'].count()

2

# Задание
Выполните поиск данных в датафрейме с помощью логической индексации (не менее 4ех различных условий).

In [None]:
mini_map

Unnamed: 0,country,city,population,area_kv_km,pop_density,area_miles
0,Исландия,Рейкьявик,827497295,256.0,42,98.84
1,Норвегия,Осло,981246896,36.0,116,13.9
2,Швеция,Стокгольм,34688325,2345.0,20,905.41
3,Нидерланды,Амстердам,357987654,817.0,37,315.44
4,Швейцария,Берн,345678998,726.0,88,280.31


In [None]:
mini_map.loc[mini_map.loc[:, 'country'] == 'Швеция']

Unnamed: 0,country,city,population,area_kv_km,pop_density,area_miles
2,Швеция,Стокгольм,34688325,2345.0,20,905.41


In [None]:
mini_map.loc[mini_map.loc[:, 'city'] == 'Стокгольм'][['city', 'population']]

Unnamed: 0,city,population
2,Стокгольм,34688325


In [None]:
mini_map.loc[mini_map.loc[:, 'pop_density'] > 80]

Unnamed: 0,country,city,population,area_kv_km,pop_density,area_miles
1,Норвегия,Осло,981246896,36.0,116,13.9
4,Швейцария,Берн,345678998,726.0,88,280.31


In [None]:
mini_map.loc[mini_map.loc[:, 'pop_density'] > 80]['pop_density'].count()

2

**Сокращенные** записи

In [None]:
mini_map[mini_map['country'] == 'Швеция']

Unnamed: 0,country,city,population,area_kv_km,pop_density,area_miles
2,Швеция,Стокгольм,34688325,2345.0,20,905.41


In [None]:
mini_map[mini_map['city'] == 'Стокгольм'][['city', 'population']]

Unnamed: 0,city,population
2,Стокгольм,34688325


In [None]:
mini_map[mini_map['pop_density'] > 80]

Unnamed: 0,country,city,population,area_kv_km,pop_density,area_miles
1,Норвегия,Осло,981246896,36.0,116,13.9
4,Швейцария,Берн,345678998,726.0,88,280.31


In [None]:
mini_map[mini_map['pop_density'] > 80]['pop_density'].count()

2

**В логической индексации можно использовать логические выражения с любыми логическими операциями: ==,  !=, >, <, >=, <=**, а также функции-предикаты, которые возвращают логическое значение.

In [None]:
mini_map[mini_map['area_kv_km'] >= 726]


Unnamed: 0,country,city,population,area_kv_km,pop_density,area_miles
2,Швеция,Стокгольм,34688325,2345.0,20,905.41
3,Нидерланды,Амстердам,357987654,817.0,37,315.44
4,Швейцария,Берн,345678998,726.0,88,280.31


In [None]:
mini_map[mini_map['country'] == 'Швеция']


Unnamed: 0,country,city,population,area_kv_km,pop_density,area_miles
2,Швеция,Стокгольм,34688325,2345.0,20,905.41


In [None]:
mini_map[mini_map['area_miles'] < 250]


Unnamed: 0,country,city,population,area_kv_km,pop_density,area_miles
0,Исландия,Рейкьявик,827497295,256.0,42,98.84
1,Норвегия,Осло,981246896,36.0,116,13.9


**Чтобы применить несколько условий для фильтрации**, сначала примените первое условие и сохраните результат. Затем вызовите логическую индексацию со вторым условием.

# Задание
Продумайте и выполните поиск данных в датафрейме с помощью логической индексации:
- 2 фильтра на поиск по столбцу со строковыми значениями
- 2 фильтра на поиск по столбцу с числовыми значениями
- 2 фильтра на поиск по нескольким условиями
Убедитесь, что все фильтры - рабочие.<br>
**!! Используйте все логические операции: ==, !=, >, <, >=, <=**

Для создания условий фильтра необходимо иметь представление об уникальных значениях в каждом столбце. Чтобы получить список уникальных значений в столбце, используйте код: data['type'].unique().tolist()

In [None]:
print(mini_map['country'].unique().tolist())
print(mini_map['city'].unique().tolist())
print(mini_map['population'].unique().tolist())
print(mini_map['area_kv_km'].unique().tolist())
print(mini_map['pop_density'].unique().tolist())
print(mini_map['area_miles'].unique().tolist())

['Исландия', 'Норвегия', 'Швеция', 'Нидерланды', 'Швейцария']
['Рейкьявик', 'Осло', 'Стокгольм', 'Амстердам', 'Берн']
[827497295, 981246896, 34688325, 357987654, 345678998]
[256.0, 36.0, 2345.0, 817.0, 726.0]
[42, 116, 20, 37, 88]
[98.84, 13.9, 905.41, 315.44, 280.31]


In [None]:
mini_map[mini_map['country'] == 'Исландия']


Unnamed: 0,country,city,population,area_kv_km,pop_density,area_miles
0,Исландия,Рейкьявик,827497295,256.0,42,98.84


In [None]:
mini_map[mini_map['city'] != 'Рейкьявик']

Unnamed: 0,country,city,population,area_kv_km,pop_density,area_miles
1,Норвегия,Осло,981246896,36.0,116,13.9
2,Швеция,Стокгольм,34688325,2345.0,20,905.41
3,Нидерланды,Амстердам,357987654,817.0,37,315.44
4,Швейцария,Берн,345678998,726.0,88,280.31


In [None]:
mini_map[mini_map['population'] > 54062890]

Unnamed: 0,country,city,population,area_kv_km,pop_density,area_miles
0,Исландия,Рейкьявик,827497295,256.0,42,98.84
1,Норвегия,Осло,981246896,36.0,116,13.9
3,Нидерланды,Амстердам,357987654,817.0,37,315.44
4,Швейцария,Берн,345678998,726.0,88,280.31


In [None]:
mini_map[mini_map['area_miles'] <= 100.35]

Unnamed: 0,country,city,population,area_kv_km,pop_density,area_miles
0,Исландия,Рейкьявик,827497295,256.0,42,98.84
1,Норвегия,Осло,981246896,36.0,116,13.9


In [None]:
mini_map[(mini_map['country'] == 'Швейцария') & (mini_map['pop_density'] < 90)]

Unnamed: 0,country,city,population,area_kv_km,pop_density,area_miles
4,Швейцария,Берн,345678998,726.0,88,280.31


In [None]:
mini_map[(mini_map['area_miles'] < 200) | (mini_map['area_kv_km'] >= 800)]

Unnamed: 0,country,city,population,area_kv_km,pop_density,area_miles
0,Исландия,Рейкьявик,827497295,256.0,42,98.84
1,Норвегия,Осло,981246896,36.0,116,13.9
2,Швеция,Стокгольм,34688325,2345.0,20,905.41
3,Нидерланды,Амстердам,357987654,817.0,37,315.44
