# Практика 04. Введение в модуль для работы с табличным представлением данных Pandas

In [69]:
!pip install pandas
!pip install matplotlib



In [70]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Объекты DataFrame и Series

В Pandas есть два основных объекта: `DataFrame` и `Series`. Слегка упрощая, можно сказать, что `DataFrame` — это таблица (и соответственно двумерный массив), а `Series` — столбец этой таблицы (а значит одномерный массив).

### Создание датафрейма

Датафрейм можно создать, импортировав файлы различных форматов. На лекции уже был показан пример с файлами в формате `.csv` с помощью функции `d.read_csv()`. Аналогичным образом можно импортировать файлы и в других форматах, например MS Excel или html. Рассмотрим несколько примеров.<br>

Файл `.csv` в `zip-архиве`. Если в zip-архиве содержится только один файл, его можно напрямую подгрузить в Pandas.

**Способ 1**. Создание датафрейма из файла

In [None]:
# функция read_csv() распознает zip-архивы,
# в архиве может содержаться только один файл

csv_zip = pd.read_csv('yandex_music.zip')
csv_zip.head(3)

In [None]:
# импортируем данные в формате Excel, указав номер листа, который хотим использовать

excel_data = pd.read_excel('iris.xlsx', sheet_name = 0)
excel_data.head(3)

In [None]:
# импортируем таблицу со страницы про мировое население в Википедии
# в параметре match мы передаем ключевые слова, которые помогут найти нужную таблицу

html_data = pd.read_html('https://en.wikipedia.org/wiki/World_population',
                         match = 'World population')

In [None]:
# мы получили пять результатов

len(html_data)

**Способ 2**. Подключение к базе данных SQL

**Способ 3**. Создание датафрейма из словаря

In [71]:
# создадим несколько списков и массивов Numpy с информацией о семи странах мира

country = (['Peru', 'Germany', 'Brazil', 'Spain', 'Poland', 'Norway', 'Sweden'])

In [72]:
capital = (['Lima', 'Berlin', 'Brazilia', 'Barcelona', 'Warsaw', 'Oslo', 'Stockholm'])

In [73]:
# млн. человек
population = ([34, 84, 190, 48, 38, 5, 10])

In [74]:
# млн. кв. км.
area = ([0.6, 0.2, 0.4, 1, 2.5, 1.1, 3.5])

In [75]:
# выход к морю (в этом списке его нет только у Боливии)
sea = ([1, 1, 1, 0, 0, 0, 1])

In [76]:
# создадим пустой словарь
countries_dict = {}


# превратим эти списки в значения словаря,
# одновременно снабдив необходимыми ключами
countries_dict ['country'] = country
countries_dict ['capital'] = capital
countries_dict ['population'] = population
countries_dict ['area'] = area
countries_dict ['sea'] = sea

In [77]:
# посмотрим на результат
countries_dict

{'country': ['Peru',
  'Germany',
  'Brazil',
  'Spain',
  'Poland',
  'Norway',
  'Sweden'],
 'capital': ['Lima',
  'Berlin',
  'Brazilia',
  'Barcelona',
  'Warsaw',
  'Oslo',
  'Stockholm'],
 'population': [34, 84, 190, 48, 38, 5, 10],
 'area': [0.6, 0.2, 0.4, 1, 2.5, 1.1, 3.5],
 'sea': [1, 1, 1, 0, 0, 0, 1]}

In [78]:
countries = pd.DataFrame(countries_dict)
countries

Unnamed: 0,country,capital,population,area,sea
0,Peru,Lima,34,0.6,1
1,Germany,Berlin,84,0.2,1
2,Brazil,Brazilia,190,0.4,1
3,Spain,Barcelona,48,1.0,0
4,Poland,Warsaw,38,2.5,0
5,Norway,Oslo,5,1.1,0
6,Sweden,Stockholm,10,3.5,1


In [79]:
countries

Unnamed: 0,country,capital,population,area,sea
0,Peru,Lima,34,0.6,1
1,Germany,Berlin,84,0.2,1
2,Brazil,Brazilia,190,0.4,1
3,Spain,Barcelona,48,1.0,0
4,Poland,Warsaw,38,2.5,0
5,Norway,Oslo,5,1.1,0
6,Sweden,Stockholm,10,3.5,1


**Способ 4**. Создание датафрейма из 2D массива Numpy

In [80]:
# внешнее измерение будет столбцами, внутренее - строками

arr = np.array ([[1, 1, 1],
                [2, 2, 2],
                [3, 3, 3]])
pd.DataFrame(arr)

Unnamed: 0,0,1,2
0,1,1,1
1,2,2,2
2,3,3,3


### Структура и свойства датафрейма

In [81]:
# через атрибут columns можно посмотреть название столбцов

countries.columns

Index(['country', 'capital', 'population', 'area', 'sea'], dtype='object')

In [82]:
columns = ['country', 'capital', 'population', 'area', 'sea']

In [83]:
# атрибут index показывает, каким образом идентифицируются строки

countries.index

RangeIndex(start=0, stop=7, step=1)

In [84]:
# через values мы видим сами значения

countries.values

array([['Peru', 'Lima', 34, 0.6, 1],
       ['Germany', 'Berlin', 84, 0.2, 1],
       ['Brazil', 'Brazilia', 190, 0.4, 1],
       ['Spain', 'Barcelona', 48, 1.0, 0],
       ['Poland', 'Warsaw', 38, 2.5, 0],
       ['Norway', 'Oslo', 5, 1.1, 0],
       ['Sweden', 'Stockholm', 10, 3.5, 1]], dtype=object)

In [85]:
# выведем описание индекса датафрейма через атрибут axes[0]

countries.axes[0]

RangeIndex(start=0, stop=7, step=1)

In [86]:
# axes[1] выводит названия столбцов

countries.axes[1]

Index(['country', 'capital', 'population', 'area', 'sea'], dtype='object')

In [87]:
# также мы можем посмотреть количество измерений, размерность и общее количество элементов

countries.ndim, countries.shape, countries.size

(2, (7, 5), 35)

In [88]:
# атрибут dtypes выдает типы данных каждого столбца

countries.dtypes

country        object
capital        object
population      int64
area          float64
sea             int64
dtype: object

In [89]:
# также можно посмотреть объем занимаемой памяти по столбцам в байтах

countries.memory_usage()

Index         132
country        56
capital        56
population     56
area           56
sea            56
dtype: int64

### Индекс

#### Присвоение индекса

In [90]:
countries

Unnamed: 0,country,capital,population,area,sea
0,Peru,Lima,34,0.6,1
1,Germany,Berlin,84,0.2,1
2,Brazil,Brazilia,190,0.4,1
3,Spain,Barcelona,48,1.0,0
4,Poland,Warsaw,38,2.5,0
5,Norway,Oslo,5,1.1,0
6,Sweden,Stockholm,10,3.5,1


In [91]:
# в датафрейме можно задать собственный индекс (например, коды стран)

custom_index = ['PU', 'GR', 'BR', 'SP', 'PL', 'NW', 'SW']

In [92]:
# для этого при создании датафрейма используется параметр index

countries_ind = pd.DataFrame(countries_dict,
                           index = custom_index)
countries_ind

Unnamed: 0,country,capital,population,area,sea
PU,Peru,Lima,34,0.6,1
GR,Germany,Berlin,84,0.2,1
BR,Brazil,Brazilia,190,0.4,1
SP,Spain,Barcelona,48,1.0,0
PL,Poland,Warsaw,38,2.5,0
NW,Norway,Oslo,5,1.1,0
SW,Sweden,Stockholm,10,3.5,1


In [93]:
# этот индекс можно сбросить
# параметр inplace = True сохраняет изменения

countries_ind.reset_index(inplace = True)
countries_ind

Unnamed: 0,index,country,capital,population,area,sea
0,PU,Peru,Lima,34,0.6,1
1,GR,Germany,Berlin,84,0.2,1
2,BR,Brazil,Brazilia,190,0.4,1
3,SP,Spain,Barcelona,48,1.0,0
4,PL,Poland,Warsaw,38,2.5,0
5,NW,Norway,Oslo,5,1.1,0
6,SW,Sweden,Stockholm,10,3.5,1


### Преобразование в другие форматы

In [94]:
# получившийся датафрейм можно преобразовать в словарь

print(countries.to_dict())

{'country': {0: 'Peru', 1: 'Germany', 2: 'Brazil', 3: 'Spain', 4: 'Poland', 5: 'Norway', 6: 'Sweden'}, 'capital': {0: 'Lima', 1: 'Berlin', 2: 'Brazilia', 3: 'Barcelona', 4: 'Warsaw', 5: 'Oslo', 6: 'Stockholm'}, 'population': {0: 34, 1: 84, 2: 190, 3: 48, 4: 38, 5: 5, 6: 10}, 'area': {0: 0.6, 1: 0.2, 2: 0.4, 3: 1.0, 4: 2.5, 5: 1.1, 6: 3.5}, 'sea': {0: 1, 1: 1, 2: 1, 3: 0, 4: 0, 5: 0, 6: 1}}


In [95]:
# или массив Numpy

countries.to_numpy()

array([['Peru', 'Lima', 34, 0.6, 1],
       ['Germany', 'Berlin', 84, 0.2, 1],
       ['Brazil', 'Brazilia', 190, 0.4, 1],
       ['Spain', 'Barcelona', 48, 1.0, 0],
       ['Poland', 'Warsaw', 38, 2.5, 0],
       ['Norway', 'Oslo', 5, 1.1, 0],
       ['Sweden', 'Stockholm', 10, 3.5, 1]], dtype=object)

In [96]:
# или поместить в файл (появится в "Сессионном хранилище")
# по умолчанию, индекс также станет частью .csv файла
# параметр index = False позволит этого избежать

countries.to_csv('coutries.csv', index = False)

In [97]:
# столбец (Series) можно преобразовать в список, датафрейм - нельзя

print(countries.country.to_list())

['Peru', 'Germany', 'Brazil', 'Spain', 'Poland', 'Norway', 'Sweden']


### Создание Series

Создание Series из списка

In [98]:
# создадим список с названиями стран
country_list = ['Peru', 'Germany', 'Brazil', 'Spain', 'Poland', 'Norway', 'Sweden']


In [99]:
# передадим его в функцию pd.Series()
country_series = pd.Series(country_list)
country_series

0       Peru
1    Germany
2     Brazil
3      Spain
4     Poland
5     Norway
6     Sweden
dtype: object

In [100]:
# по числовому индексу можно получить доступ к первому элементу
country_series[5]


'Norway'

Создание Series из словаря

In [101]:
# создадим словарь с кодами и названиями стран
country_dict = {
    'PR': 'Peru',
    'GM': 'Germany',
    'BZ': 'Brazil',
    'SN': 'Spain',
    'PN': 'Poland',
    'NW': 'Norway',
    'SW': 'Sweden'
}


In [102]:
# передадим его в функцию pd.Series(), ключи в этом случае станут индексом
country_series = pd.Series(country_dict)
country_series


PR       Peru
GM    Germany
BZ     Brazil
SN      Spain
PN     Poland
NW     Norway
SW     Sweden
dtype: object

In [103]:
# теперь для доступа к элементам можно использовать коды стран
country_series['NW']


'Norway'

## Доступ к строкам и столбцам

In [104]:
countries

Unnamed: 0,country,capital,population,area,sea
0,Peru,Lima,34,0.6,1
1,Germany,Berlin,84,0.2,1
2,Brazil,Brazilia,190,0.4,1
3,Spain,Barcelona,48,1.0,0
4,Poland,Warsaw,38,2.5,0
5,Norway,Oslo,5,1.1,0
6,Sweden,Stockholm,10,3.5,1


### Циклы в датафрейме

In [105]:
# мы можем получить доступ к названиям столбцов с помощью цикла for
for column in countries:
    print(column)


country
capital
population
area
sea


In [106]:
# метод .iterrows() возвращает индекс строки и ее содержимое в формате Series
for index, row in countries.iterrows():
    print(index)
    print(row)
    print('...')


0
country       Peru
capital       Lima
population      34
area           0.6
sea              1
Name: 0, dtype: object
...
1
country       Germany
capital        Berlin
population         84
area              0.2
sea                 1
Name: 1, dtype: object
...
2
country         Brazil
capital       Brazilia
population         190
area               0.4
sea                  1
Name: 2, dtype: object
...
3
country           Spain
capital       Barcelona
population           48
area                1.0
sea                   0
Name: 3, dtype: object
...
4
country       Poland
capital       Warsaw
population        38
area             2.5
sea                0
Name: 4, dtype: object
...
5
country       Norway
capital         Oslo
population         5
area             1.1
sea                0
Name: 5, dtype: object
...
6
country          Sweden
capital       Stockholm
population           10
area                3.5
sea                   1
Name: 6, dtype: object
...


In [107]:
# получить доступ к данным одной строки можно по индексу Series
for _, row in countries.iterrows():
    print(row['capital'] + ' is the capital of ' + row ['country'])
    break

Lima is the capital of Peru


### Доступ к столбцам

In [108]:
# в отличие от Series, в датафрейме через квадратные скобки
# мы получаем доступ к столбцам

countries['capital']


0         Lima
1       Berlin
2     Brazilia
3    Barcelona
4       Warsaw
5         Oslo
6    Stockholm
Name: capital, dtype: object

In [109]:
# можно также указать название столбца через точку
# однако в этом случае название не должно содержать пробелов

countries.capital

0         Lima
1       Berlin
2     Brazilia
3    Barcelona
4       Warsaw
5         Oslo
6    Stockholm
Name: capital, dtype: object

In [110]:
# отдельные столбцы в датафрейме имеют тип данных Series

type(countries.capital)


pandas.core.series.Series

In [111]:
# одинарные скобки дают Series, двойные - датафрейм
# логика в том, что внутрениие скобки - это список, внешние - оператор индексации

countries[['capital']]


Unnamed: 0,capital
0,Lima
1,Berlin
2,Brazilia
3,Barcelona
4,Warsaw
5,Oslo
6,Stockholm


In [112]:
# так мы можем получить доступ к нескольким столбцам

countries[['country', 'capital', 'area']]


Unnamed: 0,country,capital,area
0,Peru,Lima,0.6
1,Germany,Berlin,0.2
2,Brazil,Brazilia,0.4
3,Spain,Barcelona,1.0
4,Poland,Warsaw,2.5
5,Norway,Oslo,1.1
6,Sweden,Stockholm,3.5


In [113]:
# доступ к столбцам можно также получить через метод .filter()
# с параметром items

countries.filter(items = ['country', 'capital'])


Unnamed: 0,country,capital
0,Peru,Lima
1,Germany,Berlin
2,Brazil,Brazilia
3,Spain,Barcelona
4,Poland,Warsaw
5,Norway,Oslo
6,Sweden,Stockholm


### Доступ к строкам

In [114]:
# доступ к строкам можно получить через срез индекса
# выведем строки со второй по пятую (не включительно)

countries[1:5]

Unnamed: 0,country,capital,population,area,sea
1,Germany,Berlin,84,0.2,1
2,Brazil,Brazilia,190,0.4,1
3,Spain,Barcelona,48,1.0,0
4,Poland,Warsaw,38,2.5,0
