# Практика 04. Введение в модуль для работы с табличным представлением данных Pandas

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Объекты DataFrame и Series

В Pandas есть два основных объекта: `DataFrame` и `Series`. Слегка упрощая, можно сказать, что `DataFrame` — это таблица (и соответственно двумерный массив), а `Series` — столбец этой таблицы (а значит одномерный массив).

### Создание датафрейма

Датафрейм можно создать, импортировав файлы различных форматов. На лекции уже был показан пример с файлами в формате `.csv` с помощью функции `d.read_csv()`. Аналогичным образом можно импортировать файлы и в других форматах, например MS Excel или html. Рассмотрим несколько примеров.<br>

Файл `.csv` в `zip-архиве`. Если в zip-архиве содержится только один файл, его можно напрямую подгрузить в Pandas.

**Способ 1**. Создание датафрейма из файла

In [2]:
# функция read_csv() распознает zip-архивы,
# в архиве может содержаться только один файл

csv_zip = pd.read_csv('yandex_music.zip')
csv_zip.head(3)

FileNotFoundError: [Errno 2] No such file or directory: 'yandex_music.zip'

In [None]:
# импортируем данные в формате Excel, указав номер листа, который хотим использовать

excel_data = pd.read_excel('iris.xlsx', sheet_name = 0)
excel_data.head(3)

In [None]:
# импортируем таблицу со страницы про мировое население в Википедии
# в параметре match мы передаем ключевые слова, которые помогут найти нужную таблицу

html_data = pd.read_html('https://en.wikipedia.org/wiki/World_population',
                         match = 'World population')

In [None]:
# мы получили пять результатов

len(html_data)

**Способ 2**. Подключение к базе данных SQL

**Способ 3**. Создание датафрейма из словаря

In [3]:
# создадим несколько списков и массивов Numpy с информацией о семи странах мира

country = np.array(['Russia', 'China', 'Japane', 'France', 'Spain', 'USA', 'Italy'])

In [4]:
capital = (['Moscow', 'Pekin', 'Tokio', 'Paris', 'Barcelona', 'Washington', 'Rim'])

In [5]:
# млн. человек
population = ([1200, 5600, 3250, 5400, 1300, 2050, 3500])

In [6]:
# млн. кв. км.
area = ([5.7, 0.2, 4.2, 0.7, 3.5, 0.8, 2.5])

In [7]:
# выход к морю (в этом списке его нет только у Боливии)
sea = [1] * 5 + [0, 1]

In [8]:
# создадим пустой словарь
countries_dict = {}

# превратим эти списки в значения словаря,
# одновременно снабдив необходимыми ключами
countries_dict['country'] = country
countries_dict['capital'] = capital
countries_dict['population'] = population
countries_dict['area'] = area
countries_dict['sea'] = sea


In [9]:
# посмотрим на результат
countries_dict

{'country': array(['Russia', 'China', 'Japane', 'France', 'Spain', 'USA', 'Italy'],
       dtype='<U6'),
 'capital': ['Moscow',
  'Pekin',
  'Tokio',
  'Paris',
  'Barcelona',
  'Washington',
  'Rim'],
 'population': [1200, 5600, 3250, 5400, 1300, 2050, 3500],
 'area': [5.7, 0.2, 4.2, 0.7, 3.5, 0.8, 2.5],
 'sea': [1, 1, 1, 1, 1, 0, 1]}

In [10]:
# создадим датафрейм

countries = pd.DataFrame(countries_dict)
countries

Unnamed: 0,country,capital,population,area,sea
0,Russia,Moscow,1200,5.7,1
1,China,Pekin,5600,0.2,1
2,Japane,Tokio,3250,4.2,1
3,France,Paris,5400,0.7,1
4,Spain,Barcelona,1300,3.5,1
5,USA,Washington,2050,0.8,0
6,Italy,Rim,3500,2.5,1


**Способ 4**. Создание датафрейма из 2D массива Numpy

In [11]:
# внешнее измерение будет столбцами, внутренее - строками

arr = np.array([[1, 1, 1], [2, 2, 2], [3, 3, 3]])
pd.DataFrame(arr)

Unnamed: 0,0,1,2
0,1,1,1
1,2,2,2
2,3,3,3


### Структура и свойства датафрейма

In [12]:
# через атрибут columns можно посмотреть название столбцов

countries.columns

Index(['country', 'capital', 'population', 'area', 'sea'], dtype='object')

In [13]:
columns = ['country', 'capital', 'population', 'area', 'sea']

In [14]:
# атрибут index показывает, каким образом идентифицируются строки

countries.index

RangeIndex(start=0, stop=7, step=1)

In [15]:
# через values мы видим сами значения

countries.values

array([['Russia', 'Moscow', 1200, 5.7, 1],
       ['China', 'Pekin', 5600, 0.2, 1],
       ['Japane', 'Tokio', 3250, 4.2, 1],
       ['France', 'Paris', 5400, 0.7, 1],
       ['Spain', 'Barcelona', 1300, 3.5, 1],
       ['USA', 'Washington', 2050, 0.8, 0],
       ['Italy', 'Rim', 3500, 2.5, 1]], dtype=object)

In [16]:
# выведем описание индекса датафрейма через атрибут axes[0]

countries.axes[0]

RangeIndex(start=0, stop=7, step=1)

In [17]:
# axes[1] выводит названия столбцов

countries.axes[1]

Index(['country', 'capital', 'population', 'area', 'sea'], dtype='object')

In [18]:
# также мы можем посмотреть количество измерений, размерность и общее количество элементов

countries.ndim, countries.shape, countries.size

(2, (7, 5), 35)

In [19]:
# атрибут dtypes выдает типы данных каждого столбца

countries.dtypes

Unnamed: 0,0
country,object
capital,object
population,int64
area,float64
sea,int64


In [20]:
# также можно посмотреть объем занимаемой памяти по столбцам в байтах

countries.memory_usage()

Unnamed: 0,0
Index,128
country,56
capital,56
population,56
area,56
sea,56


### Индекс

#### Присвоение индекса

In [21]:
# в датафрейме можно задать собственный индекс (например, коды стран)

custom_index = ['RU', 'CH', 'JP', 'FR', 'SP', 'US', 'IT']

In [22]:
# для этого при создании датафрейма используется параметр index

countries_ind = pd.DataFrame(countries_dict, index = custom_index)
countries_ind

Unnamed: 0,country,capital,population,area,sea
RU,Russia,Moscow,1200,5.7,1
CH,China,Pekin,5600,0.2,1
JP,Japane,Tokio,3250,4.2,1
FR,France,Paris,5400,0.7,1
SP,Spain,Barcelona,1300,3.5,1
US,USA,Washington,2050,0.8,0
IT,Italy,Rim,3500,2.5,1


In [23]:
# этот индекс можно сбросить
# параметр inplace = True сохраняет изменения

countries_ind.reset_index(inplace = True)
countries_ind

Unnamed: 0,index,country,capital,population,area,sea
0,RU,Russia,Moscow,1200,5.7,1
1,CH,China,Pekin,5600,0.2,1
2,JP,Japane,Tokio,3250,4.2,1
3,FR,France,Paris,5400,0.7,1
4,SP,Spain,Barcelona,1300,3.5,1
5,US,USA,Washington,2050,0.8,0
6,IT,Italy,Rim,3500,2.5,1


### Преобразование в другие форматы

In [24]:
# получившийся датафрейм можно преобразовать в словарь

print(countries.to_dict())

{'country': {0: 'Russia', 1: 'China', 2: 'Japane', 3: 'France', 4: 'Spain', 5: 'USA', 6: 'Italy'}, 'capital': {0: 'Moscow', 1: 'Pekin', 2: 'Tokio', 3: 'Paris', 4: 'Barcelona', 5: 'Washington', 6: 'Rim'}, 'population': {0: 1200, 1: 5600, 2: 3250, 3: 5400, 4: 1300, 5: 2050, 6: 3500}, 'area': {0: 5.7, 1: 0.2, 2: 4.2, 3: 0.7, 4: 3.5, 5: 0.8, 6: 2.5}, 'sea': {0: 1, 1: 1, 2: 1, 3: 1, 4: 1, 5: 0, 6: 1}}


In [25]:
# или массив Numpy

countries.to_numpy()

array([['Russia', 'Moscow', 1200, 5.7, 1],
       ['China', 'Pekin', 5600, 0.2, 1],
       ['Japane', 'Tokio', 3250, 4.2, 1],
       ['France', 'Paris', 5400, 0.7, 1],
       ['Spain', 'Barcelona', 1300, 3.5, 1],
       ['USA', 'Washington', 2050, 0.8, 0],
       ['Italy', 'Rim', 3500, 2.5, 1]], dtype=object)

In [26]:
# или поместить в файл (появится в "Сессионном хранилище")
# по умолчанию, индекс также станет частью .csv файла
# параметр index = False позволит этого избежать

countries.to_csv('countries.csv', index = False)

In [27]:
# столбец (Series) можно преобразовать в список, датафрейм - нельзя

print(countries.country.to_list())

['Russia', 'China', 'Japane', 'France', 'Spain', 'USA', 'Italy']


### Создание Series

Создание Series из списка

In [28]:
# создадим список с названиями стран

countries


Unnamed: 0,country,capital,population,area,sea
0,Russia,Moscow,1200,5.7,1
1,China,Pekin,5600,0.2,1
2,Japane,Tokio,3250,4.2,1
3,France,Paris,5400,0.7,1
4,Spain,Barcelona,1300,3.5,1
5,USA,Washington,2050,0.8,0
6,Italy,Rim,3500,2.5,1


In [29]:
country_list = ['Russia', 'China', 'Brazil', 'France', 'Germany', 'Japane', 'Italy']

In [30]:
# передадим его в функцию pd.Series()

country_series = pd.Series(country_list)
country_series

Unnamed: 0,0
0,Russia
1,China
2,Brazil
3,France
4,Germany
5,Japane
6,Italy


In [31]:
# по числовому индексу можно получить доступ к первому элементу


country_series[:5]

Unnamed: 0,0
0,Russia
1,China
2,Brazil
3,France
4,Germany


Создание Series из словаря

In [32]:
# создадим словарь с кодами и названиями стран

country_dict = {'RU':'Russia', 'CH':'China', 'BR':'Brazil', 'FR':'France', 'GR':'Germany', 'JP':'Japane', 'IT':'Italy'}

In [33]:
# передадим его в функцию pd.Series(), ключи в этом случае станут индексом

country_series = pd.Series(country_dict)
country_series

Unnamed: 0,0
RU,Russia
CH,China
BR,Brazil
FR,France
GR,Germany
JP,Japane
IT,Italy


In [34]:
# теперь для доступа к элементам можно использовать коды стран

country_series['RU']

'Russia'

## Доступ к строкам и столбцам

### Циклы в датафрейме

In [35]:
# мы можем получить доступ к названиям столбцов с помощью цикла for

countries
for column in countries:
  print(column)

country
capital
population
area
sea


In [36]:
# метод .iterrows() возвращает индекс строки и ее содержимое в формате Series

for index, row in countries.iterrows():
  print(index)
  print(row)
  print('...')

0
country       Russia
capital       Moscow
population      1200
area             5.7
sea                1
Name: 0, dtype: object
...
1
country       China
capital       Pekin
population     5600
area            0.2
sea               1
Name: 1, dtype: object
...
2
country       Japane
capital        Tokio
population      3250
area             4.2
sea                1
Name: 2, dtype: object
...
3
country       France
capital        Paris
population      5400
area             0.7
sea                1
Name: 3, dtype: object
...
4
country           Spain
capital       Barcelona
population         1300
area                3.5
sea                   1
Name: 4, dtype: object
...
5
country              USA
capital       Washington
population          2050
area                 0.8
sea                    0
Name: 5, dtype: object
...
6
country       Italy
capital         Rim
population     3500
area            2.5
sea               1
Name: 6, dtype: object
...


In [37]:
# получить доступ к данным одной строки можно по индексу Series

for _, row in countries.iterrows():
  print(row['capital'] + ' is the capital of ' + row['country'])
  break

Moscow is the capital of Russia


### Доступ к столбцам

In [38]:
# в отличие от Series, в датафрейме через квадратные скобки
# мы получаем доступ к столбцам

countries['capital']

Unnamed: 0,capital
0,Moscow
1,Pekin
2,Tokio
3,Paris
4,Barcelona
5,Washington
6,Rim


In [39]:
# можно также указать название столбца через точку
# однако в этом случае название не должно содержать пробелов

countries.capital

Unnamed: 0,capital
0,Moscow
1,Pekin
2,Tokio
3,Paris
4,Barcelona
5,Washington
6,Rim


In [40]:
# отдельные столбцы в датафрейме имеют тип данных Series

type(countries.capital)

In [41]:
# одинарные скобки дают Series, двойные - датафрейм
# логика в том, что внутрениие скобки - это список, внешние - оператор индексации

countries[['capital']]

Unnamed: 0,capital
0,Moscow
1,Pekin
2,Tokio
3,Paris
4,Barcelona
5,Washington
6,Rim


In [42]:
# так мы можем получить доступ к нескольким столбцам

countries[['country', 'capital', 'area']]

Unnamed: 0,country,capital,area
0,Russia,Moscow,5.7
1,China,Pekin,0.2
2,Japane,Tokio,4.2
3,France,Paris,0.7
4,Spain,Barcelona,3.5
5,USA,Washington,0.8
6,Italy,Rim,2.5


In [43]:
# доступ к столбцам можно также получить через метод .filter()
# с параметром items

countries.filter(items = ['country', 'capital'])

Unnamed: 0,country,capital
0,Russia,Moscow
1,China,Pekin
2,Japane,Tokio
3,France,Paris
4,Spain,Barcelona
5,USA,Washington
6,Italy,Rim


### Доступ к строкам

In [44]:
# доступ к строкам можно получить через срез индекса
# выведем строки со второй по пятую (не включительно)

countries[1:5]

Unnamed: 0,country,capital,population,area,sea
1,China,Pekin,5600,0.2,1
2,Japane,Tokio,3250,4.2,1
3,France,Paris,5400,0.7,1
4,Spain,Barcelona,1300,3.5,1
