# Практика 04. Введение в модуль для работы с табличным представлением данных Pandas

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Объекты DataFrame и Series

В Pandas есть два основных объекта: `DataFrame` и `Series`. Слегка упрощая, можно сказать, что `DataFrame` — это таблица (и соответственно двумерный массив), а `Series` — столбец этой таблицы (а значит одномерный массив).

### Создание датафрейма

Датафрейм можно создать, импортировав файлы различных форматов. На лекции уже был показан пример с файлами в формате `.csv` с помощью функции `d.read_csv()`. Аналогичным образом можно импортировать файлы и в других форматах, например MS Excel или html. Рассмотрим несколько примеров.<br>

Файл `.csv` в `zip-архиве`. Если в zip-архиве содержится только один файл, его можно напрямую подгрузить в Pandas.

**Способ 1**. Создание датафрейма из файла

In [None]:
# функция read_csv() распознает zip-архивы,
# в архиве может содержаться только один файл

csv_zip = pd.read_csv('yandex_music.zip')
csv_zip.head(3)

In [None]:
# импортируем данные в формате Excel, указав номер листа, который хотим использовать

excel_data = pd.read_excel('iris.xlsx', sheet_name = 0)
excel_data.head(3)

In [None]:
# импортируем таблицу со страницы про мировое население в Википедии
# в параметре match мы передаем ключевые слова, которые помогут найти нужную таблицу

html_data = pd.read_html('https://en.wikipedia.org/wiki/World_population',
                         match = 'World population')

In [None]:
# мы получили пять результатов

len(html_data)

**Способ 2**. Подключение к базе данных SQL

**Способ 3**. Создание датафрейма из словаря

In [3]:
# создадим несколько списков и массивов Numpy с информацией о семи странах мира
country = np.array(['Kazakhstan', 'Latvia', 'Brazil', 'Canada', 'Netherlands', 'France', 'Uzbekistan'])

In [4]:
capital = ('Astana', 'Riga', 'Brasília', 'Ottawa', 'Amsterdam', 'Paris', 'Tashken')

In [5]:
# млн. человек
population = ([1900, 6543, 3343, 4343, 5334, 64545, 7345])

In [6]:
# млн. кв. км.
area = ([0.4, 0.9, 0.5, 0.4, 10.9, 3.6, 2.7])

In [16]:
# выход к морю
access_to_sea = [1] * 5 + [0, 1]

In [62]:
# создадим пустой словарь
countries_dict = {}

# превратим эти списки в значения словаря,
# одновременно снабдив необходимыми ключами

countries_dict['country'] = country
countries_dict['capital'] = capital
countries_dict['population'] = population
countries_dict['area'] = area
countries_dict['access_to_sea'] = access_to_sea

In [61]:
# посмотрим на результат
countries_dict

{'country': array(['Kazakhstan', 'Latvia', 'Brazil', 'Canada', 'Netherlands',
        'France', 'Uzbekistan'], dtype='<U11'),
 'capital': ('Astana',
  'Riga',
  'Brasília',
  'Ottawa',
  'Amsterdam',
  'Paris',
  'Tashken'),
 'population': [1900, 6543, 3343, 4343, 5334, 64545, 7345],
 'area': [0.4, 0.9, 0.5, 0.4, 10.9, 3.6, 2.7],
 'access_to_sea': [1, 1, 1, 1, 1, 0, 1]}

In [60]:
# создадим датафрейм
countries = pd.DataFrame(countries_dict)
countries

Unnamed: 0,country,capital,population,area,access_to_sea
0,Kazakhstan,Astana,1900,0.4,1
1,Latvia,Riga,6543,0.9,1
2,Brazil,Brasília,3343,0.5,1
3,Canada,Ottawa,4343,0.4,1
4,Netherlands,Amsterdam,5334,10.9,1
5,France,Paris,64545,3.6,0
6,Uzbekistan,Tashken,7345,2.7,1


**Способ 4**. Создание датафрейма из 2D массива Numpy

In [59]:
# внешнее измерение будет столбцами, внутренее - строками (матрица)
# Список в списке
arr = np.array([[4, 4, 4],
               [6, 6, 6],
               [8, 8, 8]])

pd.DataFrame(arr)

Unnamed: 0,0,1,2
0,4,4,4
1,6,6,6
2,8,8,8


### Структура и свойства датафрейма

In [58]:
# через атрибут columns можно посмотреть название столбцов
countries.columns

Index(['country', 'capital', 'population', 'area', 'access_to_sea'], dtype='object')

In [57]:
# атрибут index показывает, каким образом идентифицируются строки
countries.index

RangeIndex(start=0, stop=7, step=1)

In [56]:
# через values мы видим сами значения
countries.values

array([['Kazakhstan', 'Astana', 1900, 0.4, 1],
       ['Latvia', 'Riga', 6543, 0.9, 1],
       ['Brazil', 'Brasília', 3343, 0.5, 1],
       ['Canada', 'Ottawa', 4343, 0.4, 1],
       ['Netherlands', 'Amsterdam', 5334, 10.9, 1],
       ['France', 'Paris', 64545, 3.6, 0],
       ['Uzbekistan', 'Tashken', 7345, 2.7, 1]], dtype=object)

In [36]:
# axes[0] описание индекса DataFrame через атрибут

countries.axes[0]

RangeIndex(start=0, stop=7, step=1)

In [40]:
# axes[1]

print(countries.axes[1])

Index(['country', 'capital', 'population', 'area', 'access_to_sea'], dtype='object')


In [47]:
# также мы можем посмотреть количество измерений, размерность и общее количество элементов
# ndim, size, shape - размерность
# ndim - размнерномть датафрейма (двумерный массив);
# shape - форма(количество строк и столбоцов(7на5))
# size - количество ячеек

print(countries.ndim)
print(countries.shape)
print(countries.size)

2
(7, 5)
35


In [48]:
# атрибут dtypes выдает типы данных каждого столбца
# обязательно проверять перед тем как что-то делать типы данных
countries.dtypes

country           object
capital           object
population         int64
area             float64
access_to_sea      int64
dtype: object

In [49]:
# также можно посмотреть объем занимаемой памяти по столбцам в байтах

countries.memory_usage()

Index            128
country           56
capital           56
population        56
area              56
access_to_sea     56
dtype: int64

### Индекс

#### Присвоение индекса

In [50]:
countries

Unnamed: 0,country,capital,population,area,access_to_sea
0,Kazakhstan,Astana,1900,0.4,1
1,Latvia,Riga,6543,0.9,1
2,Brazil,Brasília,3343,0.5,1
3,Canada,Ottawa,4343,0.4,1
4,Netherlands,Amsterdam,5334,10.9,1
5,France,Paris,64545,3.6,0
6,Uzbekistan,Tashken,7345,2.7,1


In [67]:
# в датафрейме можно задать собственный индекс (например, коды стран)

custom_index = ['KZ', 'LA', 'BR', 'CN', 'ND', 'FR', 'UZ']

In [68]:
# для этого при создании датафрейма используется параметр index

countries_ind = pd.DataFrame(countries_dict,
                             index = custom_index)
countries_ind

Unnamed: 0,country,capital,population,area,access_to_sea
KZ,Kazakhstan,Astana,1900,0.4,1
LA,Latvia,Riga,6543,0.9,1
BR,Brazil,Brasília,3343,0.5,1
CN,Canada,Ottawa,4343,0.4,1
ND,Netherlands,Amsterdam,5334,10.9,1
FR,France,Paris,64545,3.6,0
UZ,Uzbekistan,Tashken,7345,2.7,1


In [69]:
# этот индекс можно сбросить
# параметр inplace = True сохраняет изменения

countries_ind.reset_index(inplace = True)
countries_ind

Unnamed: 0,index,country,capital,population,area,access_to_sea
0,KZ,Kazakhstan,Astana,1900,0.4,1
1,LA,Latvia,Riga,6543,0.9,1
2,BR,Brazil,Brasília,3343,0.5,1
3,CN,Canada,Ottawa,4343,0.4,1
4,ND,Netherlands,Amsterdam,5334,10.9,1
5,FR,France,Paris,64545,3.6,0
6,UZ,Uzbekistan,Tashken,7345,2.7,1


### Преобразование в другие форматы

In [72]:
# получившийся датафрейм можно преобразовать в словарь

print(countries.to_dict())

{'country': {0: 'Kazakhstan', 1: 'Latvia', 2: 'Brazil', 3: 'Canada', 4: 'Netherlands', 5: 'France', 6: 'Uzbekistan'}, 'capital': {0: 'Astana', 1: 'Riga', 2: 'Brasília', 3: 'Ottawa', 4: 'Amsterdam', 5: 'Paris', 6: 'Tashken'}, 'population': {0: 1900, 1: 6543, 2: 3343, 3: 4343, 4: 5334, 5: 64545, 6: 7345}, 'area': {0: 0.4, 1: 0.9, 2: 0.5, 3: 0.4, 4: 10.9, 5: 3.6, 6: 2.7}, 'access_to_sea': {0: 1, 1: 1, 2: 1, 3: 1, 4: 1, 5: 0, 6: 1}}


In [73]:
# или массив Numpy

countries.to_numpy()

array([['Kazakhstan', 'Astana', 1900, 0.4, 1],
       ['Latvia', 'Riga', 6543, 0.9, 1],
       ['Brazil', 'Brasília', 3343, 0.5, 1],
       ['Canada', 'Ottawa', 4343, 0.4, 1],
       ['Netherlands', 'Amsterdam', 5334, 10.9, 1],
       ['France', 'Paris', 64545, 3.6, 0],
       ['Uzbekistan', 'Tashken', 7345, 2.7, 1]], dtype=object)

In [74]:
# или поместить в файл (появится в "Сессионном хранилище")
# по умолчанию, индекс также станет частью .csv файла
# параметр index = False позволит этого избежать

countries.to_csv('countries.csv', index = False)

In [76]:
# столбец (Series) можно преобразовать в список, датафрейм - нельзя

print(countries.population.to_list())

[1900, 6543, 3343, 4343, 5334, 64545, 7345]


In [83]:
a = [1900, 6543, 3343, 4343, 5334, 64545, 7345]

### Создание Series

Создание Series из списка

In [84]:
countries

Unnamed: 0,country,capital,population,area,access_to_sea
0,Kazakhstan,Astana,1900,0.4,1
1,Latvia,Riga,6543,0.9,1
2,Brazil,Brasília,3343,0.5,1
3,Canada,Ottawa,4343,0.4,1
4,Netherlands,Amsterdam,5334,10.9,1
5,France,Paris,64545,3.6,0
6,Uzbekistan,Tashken,7345,2.7,1


In [85]:
# создадим список с названиями стран

country_list = ['Kazakhstan', 'Latvia', 'Brazil', 'Canada', 'Netherlands', 'France', 'Uzbekistan']

In [87]:
# передадим его в функцию pd.Series()

country_series = pd.Series(country_list)
country_series

0     Kazakhstan
1         Latvia
2         Brazil
3         Canada
4    Netherlands
5         France
6     Uzbekistan
dtype: object

In [89]:
# по числовому индексу можно получить доступ к первому элементу

country_series[4]

'Netherlands'

Создание Series из словаря

In [90]:
# создадим словарь с кодами и названиями стран

country_dict = {
    'KZ' : 'Kazakhstan',
    'LA' : 'Latvia',
    'BR' : 'Brazil',
    'CN' : 'Canada',
    'ND' : 'Netherlands',
    'FR' : 'France',
    'UZ' : 'Uzbekistan'
}

In [92]:
# передадим его в функцию pd.Series(), ключи в этом случае станут индексом

country_series = pd.Series(country_dict)
country_series

KZ     Kazakhstan
LA         Latvia
BR         Brazil
CN         Canada
ND    Netherlands
FR         France
UZ     Uzbekistan
dtype: object

In [93]:
# теперь для доступа к элементам можно использовать коды стран

country_series['KZ']

'Kazakhstan'

## Доступ к строкам и столбцам

### Циклы в датафрейме

In [94]:
countries

Unnamed: 0,country,capital,population,area,access_to_sea
0,Kazakhstan,Astana,1900,0.4,1
1,Latvia,Riga,6543,0.9,1
2,Brazil,Brasília,3343,0.5,1
3,Canada,Ottawa,4343,0.4,1
4,Netherlands,Amsterdam,5334,10.9,1
5,France,Paris,64545,3.6,0
6,Uzbekistan,Tashken,7345,2.7,1


In [95]:
# мы можем получить доступ к названиям столбцов с помощью цикла for

for column in countries:
    print(column)

country
capital
population
area
access_to_sea


In [96]:
# метод .iterrows() возвращает индекс строки и ее содержимое в формате Series

for index, row in countries.iterrows():
    print(index)
    print(row)
    print('...')

0
country          Kazakhstan
capital              Astana
population             1900
area                    0.4
access_to_sea             1
Name: 0, dtype: object
...
1
country          Latvia
capital            Riga
population         6543
area                0.9
access_to_sea         1
Name: 1, dtype: object
...
2
country            Brazil
capital          Brasília
population           3343
area                  0.5
access_to_sea           1
Name: 2, dtype: object
...
3
country          Canada
capital          Ottawa
population         4343
area                0.4
access_to_sea         1
Name: 3, dtype: object
...
4
country          Netherlands
capital            Amsterdam
population              5334
area                    10.9
access_to_sea              1
Name: 4, dtype: object
...
5
country          France
capital           Paris
population        64545
area                3.6
access_to_sea         0
Name: 5, dtype: object
...
6
country          Uzbekistan
capital             T

In [101]:
# получить доступ к данным одной строки можно по индексу Series

for _, row in countries.iterrows():
    print(row['capital'] + ' is the capitol of ' + row['country'])
    break

Astana is the capitol of Kazakhstan


### Доступ к столбцам

In [102]:
countries

Unnamed: 0,country,capital,population,area,access_to_sea
0,Kazakhstan,Astana,1900,0.4,1
1,Latvia,Riga,6543,0.9,1
2,Brazil,Brasília,3343,0.5,1
3,Canada,Ottawa,4343,0.4,1
4,Netherlands,Amsterdam,5334,10.9,1
5,France,Paris,64545,3.6,0
6,Uzbekistan,Tashken,7345,2.7,1


In [103]:
# в отличие от Series, в датафрейме через квадратные скобки
# мы получаем доступ к столбцам

countries['access_to_sea']

0    1
1    1
2    1
3    1
4    1
5    0
6    1
Name: access_to_sea, dtype: int64

In [104]:
# можно также указать название столбца через точку
# однако в этом случае название не должно содержать пробелов

countries.access_to_sea

0    1
1    1
2    1
3    1
4    1
5    0
6    1
Name: access_to_sea, dtype: int64

In [105]:
# отдельные столбцы в датафрейме имеют тип данных Series

type(countries.capital)

In [106]:
# одинарные скобки дают Series, двойные - датафрейм
# логика в том, что внутрениие скобки - это список, внешние - оператор индексации

countries[['capital']]

Unnamed: 0,capital
0,Astana
1,Riga
2,Brasília
3,Ottawa
4,Amsterdam
5,Paris
6,Tashken


In [108]:
# так мы можем получить доступ к нескольким столбцам

countries[['country', 'capital', 'area']]

Unnamed: 0,country,capital,area
0,Kazakhstan,Astana,0.4
1,Latvia,Riga,0.9
2,Brazil,Brasília,0.5
3,Canada,Ottawa,0.4
4,Netherlands,Amsterdam,10.9
5,France,Paris,3.6
6,Uzbekistan,Tashken,2.7


In [109]:
# доступ к столбцам можно также получить через метод .filter()
# с параметром items

countries.filter(items = ['country', 'capital'])

Unnamed: 0,country,capital
0,Kazakhstan,Astana
1,Latvia,Riga
2,Brazil,Brasília
3,Canada,Ottawa
4,Netherlands,Amsterdam
5,France,Paris
6,Uzbekistan,Tashken


### Доступ к строкам

In [112]:
# доступ к строкам можно получить через срез индекса
# выведем строки со второй по пятую (не включительно)

countries[1:5]

Unnamed: 0,country,capital,population,area,access_to_sea
1,Latvia,Riga,6543,0.9,1
2,Brazil,Brasília,3343,0.5,1
3,Canada,Ottawa,4343,0.4,1
4,Netherlands,Amsterdam,5334,10.9,1
