# Введение в науку о данных – лекция 2: Списки, кортежи, множества, словари, классы/объекты, Pandas Series

В этой лекции после краткого обзора  познакомимся с другими структурами данных: кортежами, множествами, словарями и рядами данных. Хотя множества и словари являются встроенными структурами данных Python, ряды (и фреймы данных) являются частью [библиотеки pandas](http://pandas.pydata.org/). Рассмотрим кратко объекты и объектно-ориентированное программирование.

### List

Список

[Подробнее о списках](https://docs.python.org/3/tutorial/datastructures.html) — это компактный способ изменения или создания списков в Python.
omprehension Recap
синтаксис:

```python
[new_element for original_element in original_list] 
```

* `new_element` может быть любым выражением, включая просто число или операцию. Вы также можете обратиться к `new_element` в этом выражении.
* `original_element` — это просто элемент исходного списка. Иногда не нужен этот исходный элемент, тогда просто пишем `_` .
* `original_list` — это список, который используется в качестве основы для понимания списка. Это может быть существующий список с данными или диапозон данных.
 
Обратите внимание, что на практике для некоторых из этих примеров вам придется просто использовать простую функцию, которая описывает диапазон данных.

In [1]:
my_list = list(range(10))
my_list

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

Инициализировать список с помощью 0-й. Не использовать `original_element`, следовательно, `_`.

In [2]:
[0 for _ in my_list]

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

Явное испоьзование диапазона в понимании списка:

In [3]:
[0 for _ in range(10)]

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

Здесь мы используем  `original_element`. Это оптимально копирует список.

In [4]:
[original_element for original_element in my_list]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

Здесь используем операцию с исходным_элементом в списке.

In [5]:
[original_element*2 for original_element in my_list]

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

Здесь комбинируется операция среза в `my_list`, которая сопоставляет `my_list` в списка.

In [6]:
[original_element*2 for original_element in my_list[::-1]]

[18, 16, 14, 12, 10, 8, 6, 4, 2, 0]

Использование списка с функциями:

In [7]:
[len(my_list) for _ in my_list]

[10, 10, 10, 10, 10, 10, 10, 10, 10, 10]

In [8]:
import random
rands = [random.random() * 10 for _ in range(10)]
rands

[6.587419050549154,
 5.132914456867015,
 9.961096116054994,
 2.3573657899854727,
 5.982350608440448,
 3.256094806918565,
 5.443622471779928,
 0.25008246933907685,
 4.774621106917571,
 4.962768067149632]

## 1. Кортежи

[Кортежи](https://docs.python.org/3/tutorial/datastructures.html#tuples-and-sequences) — это структура данных, похожая на список, которая, в отличие от списков, **неизменяема**.

Назначение кортежей — хранить объекты разных типов. Списки должны содержать только **однородные данные**, а списки numpy даже требуют этого; Кортежи предназначены для **гетерогенного использования**.

Кроме того, кортежи имеют практическое значение для производительности и `HashTables`.

Инициализация кортежа:

In [9]:
person = "Иван", 1981, "Computer Science"
person

('Иван', 1981, 'Computer Science')

Инициализация с круглыми скобками предпочтительнее, поскольку она более понятна:

In [10]:
person = ("Иван", 1981, "Austria")
person

('Иван', 1981, 'Austria')

Доступ к ним такой же, как к массивам:

In [11]:
person[0]

'Иван'

Однако нельзя поэлементно изменять данные. Это выдает **TypeError**.

In [12]:
# throws TypeError
person[1] = 1985

TypeError: 'tuple' object does not support item assignment

Произвольные объекты могут быть частью кортежа:

In [13]:
train_schedule = ("Train 1", [7,11])
train_schedule[1]
# это работает, потому что модифицируем изменяемый массив внутри неизменяемого кортежа.
train_schedule[1][0] = 15
train_schedule

('Train 1', [15, 11])

Конечно, это включает в себя кортежи:

In [14]:
train_schedule = ("Train 1", (7,11))
# это не работает
#train_schedule[1][0] = 15
train_schedule

('Train 1', (7, 11))

Это позволяет нам создавать функции с **несколькими возвращаемыми значениями**.

Рассмотрим следующий код:

In [15]:
def multiply(a, b, c):
    return (a*b), (a*c), (b*c), (a*b*c)

Здесь похоже, что мы возвращаем несколько значений – это невозможно в большинстве языков программирования! Но это очень удобно. На практике мы «всего лишь» возвращаем кортеж.

Давайте попробуем:

In [16]:
multiply(3, 7, 11)

(21, 33, 77, 231)

Круглые скобки в возвращаемых значениях указывают, что происходит: на самом деле возвращается кортеж!

Можно использовать это возвращаемое значение для одновременного назначения нескольких переменных:

In [17]:
ab, ac, bc, abc = multiply(3, 7, 11)
my_tuple = multiply(3, 7, 11)
print(my_tuple)
print(ab)
ab = 19 
print(ab)

(21, 33, 77, 231)
21
19


Для этого никакая функция не нужна. Можно просто сделать следующее:

In [18]:
what, i_s, going, on = "this", "is", "really", "nice" # use () явное определение кортежа
print(what, i_s, going, on)

this is really nice


## 2. Множества

[множество](https://docs.python.org/3/tutorial/datastructures.html#sets) — это изменяемая коллекция, похожая на список:
  * **не упорядочено**, и
  * **не может содержать один и тот же элемент дважды**

Пример:

In [19]:
# Инициализация с помощью {}
beatles = {"John", "Paul", "Ringo", "George"}
beatles

{'George', 'John', 'Paul', 'Ringo'}

Обратите внимание, что  порядок вывода отличается от порядка ввода: 
`{'George', 'John', 'Paul', 'Ringo'}`

Мы также можем инициализировать набор с помощью массива или кортежа:

In [20]:
usernames = set(["Jimmy", "Robert", "John", "John"])
usernames

{'Jimmy', 'John', 'Robert'}

Мы инициализировали множество `usernames` массивом имен. Выбран массив, птак как требуется отсутствие повторяющихся имен пользователей.

Однако **во втором примере массив содержал дубликат — Джон был указан дважды**. Однако мы видим, что **Джон содержится во множестве только один раз**.

Множества отлично подходят для различных задач. Например, их можно использовать для удаления повторяющихся записей из списков. Самое главное, они позволяют очень эффективно проверить, существует ли элемент.

Набор работает на основе математической функции, которая создает «хэш-код». Этот хэш-код затем используется как индекс массива. Например, «Джимми» может иметь хэш-значение 13, и, соответственно, Джимми будет помещен в 13-й индекс массива. Когда мы хотим проверить, находится ли «Джимми» уже в наборе, мы просто вычисляем хеш, который снова дает 13, а затем проверяем, хранится ли что-то по индексу 13.

Мы можем проверить, содержит ли набор значение, используя ключевое слово `in` :

In [21]:
"Jimmy" in usernames

True

In [22]:
"Ringo" in usernames

False

Это также работает со списками, но если множество или список большой, это будет работать значительно медленнее.

In [23]:
username_list = ["Jimmy", "Robert", "John", "John"]
"John" in username_list

True

Добавление элементов `.add`:

In [24]:
usernames.add("JohnB")
usernames

{'Jimmy', 'John', 'JohnB', 'Robert'}

Удаление элементов `.remove`:

In [25]:
usernames.remove("John")
usernames

{'Jimmy', 'JohnB', 'Robert'}

Если множество не содержит ключа, который требуется удалить, он выдаст `KeyError`.

In [26]:
usernames.remove("Joseph")

KeyError: 'Joseph'

Для избежания этой ошибки, рекомендуется сначала проверить, действительно ли множество содержит значение, если вы не уверены на 100%: 

In [27]:
if ("johnB" in usernames):
    usernames.remove("johnB")

usernames    

{'Jimmy', 'JohnB', 'Robert'}

Возможен перебор значений. Порядок при этом может не сохраниться.

In [28]:
for name in usernames:
    print (name)

Jimmy
Robert
JohnB


Обязательно ознакомьтесь с [документацией](https://docs.python.org/3/library/stdtypes.html), чтобы узнать больше возможностей работы с множествами.

## 3. Словари

[Словари](https://docs.python.org/3/tutorial/datastructures.html#dictionaries) связаны с множествами, но они более эффективны: в дополнение к **ключу**, используемому для идентификации элемента в установлено, словари также сохраняют **значение**, связанное с ключом. В словарях хранятся **пары «ключ-значение»**. Другими терминами, обычно используемыми для словарей, являются *ассоциативные массивы*, *(хэш) карты* и *хэш-таблицы*.

Пример:

In [29]:
musicians = {"John":"Zeppelin", "Jimmy":"Zeppelin", "Paul":"Beatles", "Ringo":"Beatles"}
musicians

{'John': 'Zeppelin',
 'Jimmy': 'Zeppelin',
 'Paul': 'Beatles',
 'Ringo': 'Beatles'}

Словарь можно создать с помощью фигурных скобок и списка пар ключ-значение, разделенных `:`. Здесь имена — это ключи, связь — это значения.

Есть и другие способы создания словаря. Передача в словарь списка кортежей,  также можем передать список списков.

In [30]:
more_musicians = dict([("Thom", "Radiohead"), ("Dave", "Foo Fighters")])
more_musicians

{'Thom': 'Radiohead', 'Dave': 'Foo Fighters'}

Конечно, словарь может иметь любой тип данных. Вот пример с `int` в качестве ключей и плавающими значениями:

In [31]:
numbers = {3:1.45, 4:1.32, 19:9.97, 6:9.99}
numbers

{3: 1.45, 4: 1.32, 19: 9.97, 6: 9.99}

Обратите внимание: не рекомендуется использовать числа с плавающей запятой в качестве ключей, поскольку они хранятся только в виде приближенного значения. В основном следует использовать целые числа или строки.

Значения часто представляют собой сложные типы данных, такие как списки, числа с плавающей запятой, строки или общие объекты.

In [32]:
multi_band_musicians = {"Dave":["Nirvana", "Foo Fighters"], "Eric":["Yardbirds", "Cream","Solo"]}
multi_band_musicians

{'Dave': ['Nirvana', 'Foo Fighters'], 'Eric': ['Yardbirds', 'Cream', 'Solo']}

Доступ к элементам словаря осуществляется так же, как к элементам списка, через квадратные скобки, но вместо индекса  передаем ключ: 

In [33]:
numbers[3]

1.45

In [34]:
multi_band_musicians["Eric"]

['Yardbirds', 'Cream', 'Solo']

Добавление элементов в `dict`

In [35]:
musicians["Thom"] = "Radiohead"
musicians

{'John': 'Zeppelin',
 'Jimmy': 'Zeppelin',
 'Paul': 'Beatles',
 'Ringo': 'Beatles',
 'Thom': 'Radiohead'}

И удалите их, используя ключевое слово `del`:

In [36]:
del musicians["Thom"]
musicians

{'John': 'Zeppelin',
 'Jimmy': 'Zeppelin',
 'Paul': 'Beatles',
 'Ringo': 'Beatles'}

`KeyError`.

In [37]:
del musicians["Thom"]

KeyError: 'Thom'

Доступ к списку ключей и значений возможно организовать по отдельности:

In [None]:
musicians.keys()

Обратите внимание, что результатом является не список или множество, а [объект представления](https://docs.python.org/3/library/stdtypes.html#dict-views). Объект представления обновляется при изменении словаря, и можно использовать его для перебора словаря.

In [38]:
for musician in musicians.keys():
    print(musician)

John
Jimmy
Paul
Ringo


Это также работает с `values()` и `items()`:

In [39]:
musicians.values()

dict_values(['Zeppelin', 'Zeppelin', 'Beatles', 'Beatles'])

In [40]:
musicians.items()

dict_items([('John', 'Zeppelin'), ('Jimmy', 'Zeppelin'), ('Paul', 'Beatles'), ('Ringo', 'Beatles')])

Последнее особенно удобно для перебора пар ключ-значение в словаре:

In [42]:
# обратите внимание, что перебираем кортежи и присваиваем элементам кортежа значения `k` и `v` соответственно.
for k, v in musicians.items():
    print (k + ", Связан: " + v)

John, Связан: Zeppelin
Jimmy, Связан: Zeppelin
Paul, Связан: Beatles
Ringo, Связан: Beatles


Другой способ записи предыдущего выражения был бы таким: 

In [44]:
for k in musicians.keys():
    print(k + ", Связан: " +  musicians[k])

John, Связан: Zeppelin
Jimmy, Связан: Zeppelin
Paul, Связан: Beatles
Ringo, Связан: Beatles


Обязательно ознакомьтесь с [документацией по словарю](https://docs.python.org/3/library/stdtypes.html#typesmapping) для получения дополнительной информации.

## 4. Classes and Objects

*Обратите внимание, что это не подробное введение в объектно-ориентированное программирование (ООП).*

Будем использовать объекты в том виде, в каком они возвращаются библиотекой.

**Объекты** – это полностью настраиваемая структура данных. Они также предоставляют интерфейсы для управления этими данными.

[**Объектно-ориентированное программирование**](https://en.wikipedia.org/wiki/Объектно-ориентированное_программирование). Основано на объединении данных с функциональностью, т. е. представляет собой комбинацию структуры данных и функций, называемых **методами**, которые работают с данными объекта.

**Классы** — это шаблоны (типы данных) для **объектов**. Объект класса также называется **экземпляром** этого класса.

Определим класс:

In [45]:
class Person: 
    # переменная класса, каждый экземпляр имеет свою копию
    name = "blank"
    
    def __init__(self):
        pass
    
    # метод, устанавливающий значение
    def set_name(self, name):
        self.name = name
        # self.name = name.strip()
    
    # метод, который что-то делает без переменной
    def print_name(self):
        print("Name:", self.name)

In [46]:
class HobbyPerson: 
    # переменная класса, общая для всех экземпляров
    name = "blank"
    hobby = "blank"
    
newPerson = HobbyPerson()
print(newPerson.name)
print(newPerson.hobby)

newPerson.name = "Robert"
newPerson.hobby = "swimming"

print(newPerson.name)
print(newPerson.hobby)

blank
blank
Robert
swimming


Обратите внимание на использование ключевого слова `class` для определения класса.

Методы определяются так же, как и функции, но у них есть переменная `self`. Имя этой переменной на самом деле не имеет значения, но ее принято называть `self`. Это ссылка на конкретный экземпляр. Вы не указываете эту переменную при вызове метода, она предоставляется автоматически в зависимости от вызываемого объекта.

Создать экземпляр класса и устанавить параметр с помощью метода; затем использовать метод  `print_name()`:

In [47]:
ringo = Person()
# метод без параметра
ringo.print_name()
# вызвать метод с параметром
ringo.set_name("Ringo")
ringo.print_name()
# доступ к элементу класса
ringo.name

Name: blank
Name: Ringo


'Ringo'

Ключевым моментом здесь является способ доступа к функциям (и элементам) объектов с обозначением `.`:

`object.method()`

Выполнить этот метод для этого конкретного объекта. Теперь будем использовать постоянно!

Создать другого человека: 

In [48]:
paul = Person()
paul.set_name("Paul")
paul.print_name()
ringo.print_name()

Name: Paul
Name: Ringo


Если запросить тип данных  переменной `ringo`, увидим, что это экземпляр класса:

In [49]:
type(ringo)

__main__.Person

Можно использовать сокращение для инициализации объектов необходимыми переменными. Для этого использовать метод `__init__` (здесь имя имеет значение). Этот метод `__init__` также называется «конструктором».

In [50]:
class Musician: 
    # создание экземпляра
    def __init__(a, name, instrument):
        # переменная экземпляра, уникальна для этого экземпляра
        a.name = name
        a.instrument = instrument
        a.inname = name + instrument
    
    def print_musician(a):
        print(a.name, "plays", a.instrument)

С помощью этого определения создается объект и одновременно указываем его параметры.

In [51]:
ringo = Musician("Ringo", "Drums")
ringo.print_musician()

Ringo plays Drums


In [52]:
ringo.instrument

'Drums'

Если есть конструктор с подписью, его придется также использовать.

In [53]:
# выдаст ошибку `Type Error`, потому что мы не использовали правильную подпись
paul = Musician()

TypeError: __init__() missing 2 required positional arguments: 'name' and 'instrument'

Обходной путь — использовать значения по умолчанию:

In [54]:
class Musician: 
    def __init__(self, name="MyName", instrument="default", backup_singer=False):
        # переменная экземпляра, уникальная для этого экземпляра
        self.instrument = instrument
        self.name = name
    
    def print_musician(self):
        print(self.name, "plays", self.instrument)

In [55]:
paul = Musician()
paul.print_musician()
paul.name

MyName plays default


'MyName'

``Объектно-ориентированный подход`` — это нечто большее, чем то, что рассмотрено здесь. Например, `наследование` — это распространенная парадигма, которая также поддерживается в Python.  Узнать больше можно из [официальной документации](https://docs.python.org/3/tutorial/classes.html).

## 5. Работа с модулями

Хотя кратко коснулись модулей (помните оператор `import math`), еще не говорили о том, что такое модуль. Модули используются для модульности кода :). Вы можете написать модуль, просто создав файл `.py`.

Чтобы импортировать модуль, просто напишите

```python
import module_name
```
Затем можно использовать функции, определенные в модуле, с обозначением `.`, точно так же, как это делается для объектов. Вот пример:

In [56]:
import math
math.sqrt(9)

3.0

Можно использовать нотацию `from` для импорта определенных функций из пакета и добавления их непосредственно в пространство имен:

In [57]:
from math import log10
# обратите внимание, что доступ к этому НЕ осуществляется через math.log10()
log10(3)

0.47712125471966244

Можно импортировать все функции модуля в локальное пространство имен, однако это **настоятельно не рекомендуется**, так как это может привести к конфликтам имен и в конечном итоге сделает  код нечитаемым.

In [58]:
from math import * 
log2(3)

1.584962500721156

Можно переопределить имя модуля. Это полезно для определения сокращений для длинных имен библиотек.

In [59]:
import math as m 
m.sqrt(13)

3.605551275463989

## 6. Библиотека Pandas: Series 

`Pandas` — популярная библиотека для управления векторами, таблицами и временными рядами. Мы будем часто использовать структуры данных `Pandas` вместо встроенных структур данных Python, поскольку они предоставляют гораздо более гибкую функциональность. Кроме того, Pandas **ускоряет вычисления**, что упрощает работу с большими наборами данных. Узнать больше о  pandas [http://pandas.pydata.org/](http://pandas.pydata.org/).

Это руководство частично основано на [книге Мэтта Харрисона] (https://www.amazon.com/Learning-Pandas-Library-Analysis-Visualization-ebook/dp/B01GIE03GW/).

Когда работаете с `Pandas`, удобно иметь под рукой [шпаргалку](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf).

`Pandas` предоставляет `три` структуры данных:

  * **series**, представляющий один столбец данных, аналогичный списку Python.
  * **data frame**, который представляет несколько серий данных.
  * **panel**, представляющая несколько кадров данных.
 
В основном будем работать с рядами и фреймами данных.

`Pandas` уже должен быть частью вашей установки `anaconda`. Если нет, просто запустите:

```
$ conda install pandas
```

Чтобы сделать  `pandas` доступным, импортируем модуль в этот блокнот. `pandas` принято импортировать как `pd`:

In [60]:
import pandas as pd

`Series` — это самая фундаментальная структура данных в `pandas`. Создать две простые `Series` на основе массивов:

In [61]:
bands = pd.Series(["Stones", "Beatles", "Zeppelin", "Pink Floyd"])
bands

0        Stones
1       Beatles
2      Zeppelin
3    Pink Floyd
dtype: object

In [62]:
founded = pd.Series([1962, 1960, 1968, 1965])
founded

0    1962
1    1960
2    1968
3    1965
dtype: int64

Когда выводим эти объекты, видим индекс, также называемый осью, который по умолчанию представляет собой целочисленную последовательность, начинающуюся с 0, и связанные значения.

| Index | Value | 
| - | - |
| 0  |        Stones
|1   |    Beatles
|2  |    Zeppelin
|3 |    Pink Floyd

`Pandas` также сообщает тип данных значений `object` для первой серии — в данном случае это строка, `int64` (64-битное целое число) — для второй.

Обратите внимание, что `int64` — это не тип данных Python, а целое число c длиной 64 бита, которое, в отличие от целых чисел Python, может переполняться!

Можно использовать другие типы данных в качестве индексов, и в этом случае ряд схож со словарем:

In [63]:
bands_founded = pd.Series([1962, 1960, 1968, 1965, 2012],
                          index=["Stones", "Beatles", "Zeppelin", "Pink Floyd", "Pink Floyd"], 
                          name="Bands founded")
bands_founded

Stones        1962
Beatles       1960
Zeppelin      1968
Pink Floyd    1965
Pink Floyd    2012
Name: Bands founded, dtype: int64

| Index | Value | 
| - | - |
| Stones     |    1962
| Beatles    |    1960
| Zeppelin     |  1968
| Pink Floyd |    1965
| Pink Floyd |    2012

Здесь видим кое-что интересное: использовали один и тот же индекс (Pink Floyd) дважды: один раз для первоначального основания группы и один раз для воссоединения, начавшегося в 2012 году. Кроме того, порядок записей сохраняется.

`series` — это и список, и словарь!

In [64]:
bands.values

array(['Stones', 'Beatles', 'Zeppelin', 'Pink Floyd'], dtype=object)

In [65]:
bands.index

RangeIndex(start=0, stop=4, step=1)

Видим, что это не явный список, а скорее набор правил, похожий на диапазоны.

Давайте сравним это с индексом, в котором использовали явные метки:

In [66]:
bands_founded.index

Index(['Stones', 'Beatles', 'Zeppelin', 'Pink Floyd', 'Pink Floyd'], dtype='object')

Можем получить доступ к отдельным записям так же, как к массиву или словарю:

In [67]:
bands[0]

'Stones'

In [68]:
bands_founded["Beatles"]

1960

Существует также метод поиска значения:

In [None]:
bands_founded.get("Stones")

Обратите внимание, что эти методы доступа работают так же быстро, как поиск по словарю, и намного быстрее, чем поиск в списке.

Это также работает с массивами меток, и в этом случае тип возвращаемого значения — это серия, а не одно значение.

In [69]:
bands_founded.get(["Stones", "Beatles"])

Stones     1962
Beatles    1960
Name: Bands founded, dtype: int64

Обратите внимание: когда обращаемся к данным с несколькими индексами,  не получаем простой тип данных, как в приведенных выше случаях, а вместо этого получаем другую серию:

In [70]:
bands_founded["Pink Floyd"]

Pink Floyd    1965
Pink Floyd    2012
Name: Bands founded, dtype: int64

`Series` также имеют индексаторы для доступа на основе меток: [`loc`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.loc.html).

In [71]:
# И еще один способ поиска значения:
bands_founded.loc["Stones"]
# это эквивалентно
# bands_founded["Stones"]

1962

С индексатором `loc` связан индексатор [`iloc`](http://pandas.pydata.org/pandas-docs/version/0.17.0/generated/pandas.DataFrame.iloc.html). Однако вместо того, чтобы работать с индексом нашей метки, `iloc` работает исключительно с позицией:

In [72]:
bands_founded.iloc[1]

1960

Существует также индексатор `ix`, который устарел и не должен использоваться.

Эти способы доступа к фрагментам набора данных (`loc`, `iloc`) будут иметь больше смысла, когда используем фреймы данных вместо серий — в фреймах данных `loc` и `iloc` оперируют со строками, тогда как квадратные скобки работают со столбцами.

### Повторение

In [73]:
for band in bands:
    print(band)

Stones
Beatles
Zeppelin
Pink Floyd


In [74]:
for band, founded in bands_founded.items():
    print(band + ", " + str(founded))

Stones, 1962
Beatles, 1960
Zeppelin, 1968
Pink Floyd, 1965
Pink Floyd, 2012


### Обновление

In [75]:
bands[2] = "The Doors"
bands

0        Stones
1       Beatles
2     The Doors
3    Pink Floyd
dtype: object

Можно добавить новый элемент, напрямую присвоив ему новый индекс.

In [76]:
bands[4] = "Zeppelin"
bands

0        Stones
1       Beatles
2     The Doors
3    Pink Floyd
4      Zeppelin
dtype: object

Обратите внимание, что индексы не обязательно должны быть последовательными.

In [77]:
bands[17] = "The Who"
bands

0         Stones
1        Beatles
2      The Doors
3     Pink Floyd
4       Zeppelin
17       The Who
dtype: object

Когда обновляем на основе индекса, который встречается более одного раза, обновляются все экземпляры:

In [78]:
bands_founded["Pink Floyd"] = 2015
bands_founded

Stones        1962
Beatles       1960
Zeppelin      1968
Pink Floyd    2015
Pink Floyd    2015
Name: Bands founded, dtype: int64

Способ обновить конкретную запись, когда индекс используется несколько раз, - это использовать индексатор `iloc`. Можно использовать массив `iloc` для установки значений, основанных исключительно на позиции. Однако все это довольно ужасно и сложно!

In [79]:
bands_founded.iloc[3] = 1965
bands_founded

Stones        1962
Beatles       1960
Zeppelin      1968
Pink Floyd    1965
Pink Floyd    2015
Name: Bands founded, dtype: int64

### Удаление 

Удаление редко выполняется со структурами данных `pandas`, вместо этого используются фильтры и маски. Это возможно на основе индексов:

In [80]:
del bands_founded["Stones"]
bands_founded

Beatles       1960
Zeppelin      1968
Pink Floyd    1965
Pink Floyd    2015
Name: Bands founded, dtype: int64

### Индексация и срезы

Индексация и срезы работают в основном так же, как в обычном python, но вместо прямого использования обозначений в квадратных скобках рекомендуется использовать `iloc` для индексации по позиции и `loc` для индексации по помеченным индексам.

In [81]:
# slicing by position
bands_founded.iloc[1:3]

Zeppelin      1968
Pink Floyd    1965
Name: Bands founded, dtype: int64

При срезе по маркированному индексу последним указанным значением является *included*, что отличается от обычного выполнения среза в Python.

In [82]:
# slicing by index
bands_founded.loc["Zeppelin" : "Pink Floyd"]

Zeppelin      1968
Pink Floyd    1965
Pink Floyd    2015
Name: Bands founded, dtype: int64

In [83]:
# Note that index 17 is included
bands.loc[1:17]

1        Beatles
2      The Doors
3     Pink Floyd
4       Zeppelin
17       The Who
dtype: object

Опять же, для рядов (не для фреймов данных) `loc` и просто использование обозначения в квадратных скобках идентичны:

In [84]:
bands[2:17]

2      The Doors
3     Pink Floyd
4       Zeppelin
17       The Who
dtype: object

И `iloc`, и `loc` можно использовать с массивами, что невозможно в Python:

In [85]:
bands_founded.iloc[[0,3]]

Beatles       1960
Pink Floyd    2015
Name: Bands founded, dtype: int64

In [86]:
bands_founded.loc[["Beatles", "Pink Floyd"]]

Beatles       1960
Pink Floyd    1965
Pink Floyd    2015
Name: Bands founded, dtype: int64

И все эти варианты также могут быть использованы с логическими массивами:

In [87]:
bands_founded

Beatles       1960
Zeppelin      1968
Pink Floyd    1965
Pink Floyd    2015
Name: Bands founded, dtype: int64

In [88]:
bands_founded.loc[[True, False, False, True]]

Beatles       1960
Pink Floyd    2015
Name: Bands founded, dtype: int64

### Masking и Filtering

С помощью pandas можем создавать логические массивы, которые используют для шаблонов и фильтрации набора данных. В следующем выражении создадим новый ряд, имеющий значение "True" для каждой группы, сформированной после 1964 года:

In [89]:
mask = bands_founded > 1964
mask

Beatles       False
Zeppelin       True
Pink Floyd     True
Pink Floyd     True
Name: Bands founded, dtype: bool

Это называется **широковещанием**. Мы можем использовать широковещание с различными операциями:

In [90]:
# Не особенно полезно для этого набора данных.
founding_months = bands_founded * 12
founding_months

Beatles       23520
Zeppelin      23616
Pink Floyd    23580
Pink Floyd    24180
Name: Bands founded, dtype: int64

Можно использовать логическую маску для фильтрации ряда, как в примере ранее:

In [91]:
# применение маски к исходному массиву
# обратите внимание, что почти все эти операции возвращают новую копию
bands_founded[mask]

Zeppelin      1968
Pink Floyd    1965
Pink Floyd    2015
Name: Bands founded, dtype: int64

Краткая форма здесь была бы такой:

In [92]:
bands_founded[bands_founded > 1967]

Zeppelin      1968
Pink Floyd    2015
Name: Bands founded, dtype: int64

В приведенном выше примере это выражение:
`bands_founded > 1967` создает серию с логическими значениями, которые затем используются для фильтрации серии `bands_founded`.

### Изучение Series

Есть разные способы исследовать `Series`. Можно подсчитать количество ненулевых значений: 

In [93]:
numbers = pd.Series([1962, 1960, 1968, 1965, 2012, None, 2016])
numbers.count()

6

In [94]:
numbers

0    1962.0
1    1960.0
2    1968.0
3    1965.0
4    2012.0
5       NaN
6    2016.0
dtype: float64

Можно получить сумму, среднее значение, медиану ряда:

In [95]:
numbers.sum()

11883.0

In [96]:
numbers.mean()

1980.5

In [97]:
numbers.median()

1966.5

Можно также можем получить обзор статистических свойств ряда:

In [98]:
numbers.describe()

count       6.000000
mean     1980.500000
std        26.120873
min      1960.000000
25%      1962.750000
50%      1966.500000
75%      2001.000000
max      2016.000000
dtype: float64

Обратите внимание, что значения `None/NaN` здесь игнорируются. Можно удалить все значения NaN, если захотим:

In [100]:
numbers = numbers.dropna()
numbers

0    1962.0
1    1960.0
2    1968.0
3    1965.0
4    2012.0
6    2016.0
dtype: float64

In [101]:
bands.describe()

count          6
unique         6
top       Stones
freq           1
dtype: object

Другие полезные методы запрашивают конкретный квантиль, минимум, максимум и т. д.

In [102]:
numbers.quantile(0.25)

1962.75

In [103]:
numbers.max()

2016.0

In [104]:
numbers.min()

1960.0

### Sorting 

сортировать серию

In [105]:
numbers.sort_values()

1    1960.0
0    1962.0
3    1965.0
2    1968.0
4    2012.0
6    2016.0
dtype: float64

И сделаем сортировку по убыванию:

In [106]:
sorted_numbers = numbers.sort_values(ascending=False)
sorted_numbers

6    2016.0
4    2012.0
2    1968.0
3    1965.0
0    1962.0
1    1960.0
dtype: float64

Обратите внимание, индексы остаются прежними! Можно **сбросить индексы**:

In [107]:
# Если не укажем значение drop true, предыдущие индексы сохраняются в отдельном столбце.
sorted_numbers = sorted_numbers.reset_index(drop=True)
sorted_numbers

0    2016.0
1    2012.0
2    1968.0
3    1965.0
4    1962.0
5    1960.0
dtype: float64

сортировать по индексу

In [108]:
# сначала смешиваем индексы
new_sorted_numbers = numbers.sort_values()
print(new_sorted_numbers)
new_sorted_numbers.sort_index()

1    1960.0
0    1962.0
3    1965.0
2    1968.0
4    2012.0
6    2016.0
dtype: float64


0    1962.0
1    1960.0
2    1968.0
3    1965.0
4    2012.0
6    2016.0
dtype: float64

### Применение функции

Часто нужно применить функцию ко всем значениям серии. Можно сделать это с помощью функции [`map()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.map.html):

In [109]:
import datetime

# Преобразуйте  год в дату, приняв 1 января за день и месяц.
def to_date(year):
    return datetime.date(int(year), 1, 1)
    
new_sorted_numbers.map(to_date)

1    1960-01-01
0    1962-01-01
3    1965-01-01
2    1968-01-01
4    2012-01-01
6    2016-01-01
dtype: object

Это невероятно мощная концепция, которую можно использовать для изменения рядов сложными способами.

Другой способ использования функции `map` — передать словарь, который затем применяется к соответствующим объектам:

In [110]:
new_sorted_numbers.map({1965:1945, 2012:1999, 1968:"What"})

1     NaN
0     NaN
3    1945
2    What
4    1999
6     NaN
dtype: object

### Заключение

Ряды (и фреймы данных) невероятно эффективны. Здесь рассмотрены лишь небольшая часть функций. Обязательно ознакомьтесь с такими ресурсами, как [10 minutes to pandas guide] (http://pandas.pydata.org/pandas-docs/stable/10min.html).