## Глава 3. Методы класса Series

Файлы CSV представляют собой открытый текст, в котором строки данных разделяются символом переноса строк, а значения внутри строк - запятыми. Первая стргока содержит названия столбцов

Для импорта файлов CSV используется функция **read_scv**, которая всегда испортирует данные в объект DataFrame - двумерную структуру данных pandas, то есть несколько строк и столбцов.  Так как мы в данной главе работаем с объектом *Series*, то сохраним DataFrame в меньшей по размеру структуре данных.

**filepath_or_buffer** - первый параметр функции, куда передается имя файла (можно не прописывать)

*Первая проблема:* набор данных включает два столбца (Pokemon и Type), но *Series поддерживает только один столбец данных*.

*Простейшее решение* — сделать из одного из столбцов данных индекс Series. Для задания столбца индекса можно воспользоваться параметром **index_col**. Не забудьте о чувствительности к регистру: строковое значение должно совпадать с заголовком в наборе данных. 

Параметр **squeeze** приводит к использованию Series вместо DataFrame.

In [4]:
import pandas as pd

In [5]:
# Импортируем файл со списком покемонов и их типами: вода, огонь, трава
# Передадим строковое значение "Pokemon" в качестве аргумента параметра index_col
# Также присвоим объект переменной

pokemon = pd.read_csv('pokemon.csv', index_col = 'Pokemon', squeeze = True)
pokemon.head()



  pokemon = pd.read_csv('pokemon.csv', index_col = 'Pokemon', squeeze = True)


Pokemon
Bulbasaur     Grass / Poison
Ivysaur       Grass / Poison
Venusaur      Grass / Poison
Charmander              Fire
Charmeleon              Fire
Name: Type, dtype: object

При импорте данных из файла *"google_stocks.csv"* обратим внимание на столбец *Data* со значениями даты/времени в формате *YYYY-MM-DD*. Можно явным образом указать обработку данного столбца из типа строки в метку даты/времени.

Параметр **parse_dates** позволяет задать список строковых значений в формат даты/времени

In [6]:
# Аналогично добавим еще два файла с данными
# Набор ежедневных курсов акций в долларах США для Google

google = pd.read_csv(
    "google_stocks.csv",
    parse_dates = ["Date"],
    index_col = "Date",
    squeeze = True
)
google



  google = pd.read_csv(


Date
2004-08-19      49.98
2004-08-20      53.95
2004-08-23      54.50
2004-08-24      52.24
2004-08-25      52.80
               ...   
2019-10-21    1246.15
2019-10-22    1242.80
2019-10-23    1259.13
2019-10-24    1260.99
2019-10-25    1265.13
Name: Close, Length: 3824, dtype: float64

Для файла *"revolutionary_war.csv"* сделаем столбец *Start Date* индексом.

С помощью параметра **usecols** функции *read_csv* можно указать список импортируемых библиотекой pandas столбцов. Включим в него только Start Date и State

In [7]:
# список битв периода Войны за независимость СШA

battles = pd.read_csv(
    "revolutionary_war.csv",
    index_col = "Start Date",
    parse_dates = ["Start Date"],
    usecols = ["State", "Start Date"],
    squeeze = True
)
battles



  battles = pd.read_csv(


Start Date
1774-09-01    Massachusetts
1774-12-14    New Hampshire
1775-04-19    Massachusetts
1775-04-19    Massachusetts
1775-04-20         Virginia
                  ...      
1782-09-11         Virginia
1782-09-13              NaN
1782-10-18              NaN
1782-12-06              NaN
1783-01-22         Virginia
Name: State, Length: 232, dtype: object

**.sort_value** - возвращает *новый объект* с отсортированными в порядке возрастания значениями. 

В порядке возрастания = от начала алфавита к его концу, от заглавной буквы к строчной.

**.sort_value(ascending = False)** - сортировка в порядке убывания.

**.sort_value(na_position = 'last')** - параметр определяет размещение значения *NaN* и помещает его в конец сортируемого списка. По умолчанию задано значение 'last'.

**.sort_value(na_position = 'first')** - выводит сначала значения *NaN*.

**dropna()** - возвращает объект Series, из которого удалены все отсутствующие значения.

In [8]:
pokemon.sort_values()

Pokemon
Illumise                Bug
Silcoon                 Bug
Pinsir                  Bug
Burmy                   Bug
Wurmple                 Bug
                  ...      
Tirtouga       Water / Rock
Relicanth      Water / Rock
Corsola        Water / Rock
Carracosta     Water / Rock
Empoleon      Water / Steel
Name: Type, Length: 809, dtype: object

In [9]:
# Пример сортировки разных типов строк

pd.Series(data = ['Ann', 'ann', 'Zack', 'zack', '1', '10', '2']).sort_values()

4       1
5      10
6       2
0     Ann
2    Zack
1     ann
3    zack
dtype: object

In [10]:
# battles.sort_values() аналогично:

battles.sort_values(na_position = "last")

Start Date
1781-09-06    Connecticut
1779-07-05    Connecticut
1777-04-27    Connecticut
1777-09-03       Delaware
1777-05-17        Florida
                 ...     
1782-08-08            NaN
1782-08-25            NaN
1782-09-13            NaN
1782-10-18            NaN
1782-12-06            NaN
Name: State, Length: 232, dtype: object

In [11]:
battles.sort_values(na_position = "first")

Start Date
1775-09-17         NaN
1775-12-31         NaN
1776-03-03         NaN
1776-03-25         NaN
1776-05-18         NaN
                ...   
1781-07-06    Virginia
1781-07-01    Virginia
1781-06-26    Virginia
1781-04-25    Virginia
1783-01-22    Virginia
Name: State, Length: 232, dtype: object

In [12]:
# Обратим внимание, что значений стало меньше

battles.dropna().sort_values()

Start Date
1781-09-06    Connecticut
1779-07-05    Connecticut
1777-04-27    Connecticut
1777-09-03       Delaware
1777-05-17        Florida
                 ...     
1781-07-06       Virginia
1781-07-01       Virginia
1781-06-26       Virginia
1781-04-25       Virginia
1783-01-22       Virginia
Name: State, Length: 162, dtype: object

**sort_index()** - сортировка по индексам. Метод принимает параметры *ascending*, *na_position*


In [13]:
# pokemon.sort_index() аналогично:

pokemon.sort_index(ascending = True)

Pokemon
Abomasnow        Grass / Ice
Abra                 Psychic
Absol                   Dark
Accelgor                 Bug
Aegislash      Steel / Ghost
                  ...       
Zoroark                 Dark
Zorua                   Dark
Zubat        Poison / Flying
Zweilous       Dark / Dragon
Zygarde      Dragon / Ground
Name: Type, Length: 809, dtype: object

In [14]:
battles.sort_index(na_position = "first").head()

Start Date
NaT              New Jersey
NaT                Virginia
NaT                     NaN
NaT                     NaN
1774-09-01    Massachusetts
Name: State, dtype: object

**.nlargest(n = n)** - возвращает максимальные значения из объекта Series.

**.nsmallest(n = n)** - возвращает минимальные значения объекта Series, отсортированные в порядке возрастания.

**n** - число записей

**!** Ни один из этих методов не работает для объектов Series со строковыми значениями.

In [15]:
# google.nsmallest(5) аналогично:

google.nsmallest(n = 5)

Date
2004-09-03    49.82
2004-09-01    49.94
2004-08-19    49.98
2004-09-02    50.57
2004-09-07    50.60
Name: Close, dtype: float64

*Перезапись объекта Series:*

**.sort_values(inplace = True)** - данный метод позволяет модифицировать объект, для которого вызван метод. У него есть одна особенностьЖ он предполагает модификацию/изменение уже существующего объекта вместо создания копии. Это сокращает количество копий, также расходует меньшее количество памяти

**.value_counts()** - подсчитывающий количество вхождений каждого значения объекта Series. Он возвращает новый объект. К данному методу можно применить параметр *ascending*, который по умолчанию *True*. Аналогично, параметр *normalize*.

**value_counts(bins = buckets)** - с данным параметром можно описать интервал группировки в виде значений в списке и сгруппировать по нему объект Series.

In [17]:
battles.sort_values(inplace = True)
battles.head(3)

Start Date
1781-09-06    Connecticut
1779-07-05    Connecticut
1777-04-27    Connecticut
Name: State, dtype: object

In [18]:
pokemon.value_counts()

Normal                65
Water                 61
Grass                 38
Psychic               35
Fire                  30
                      ..
Fire / Psychic         1
Normal / Ground        1
Psychic / Fighting     1
Dark / Ghost           1
Fire / Ghost           1
Name: Type, Length: 159, dtype: int64

In [19]:
# Можно домножить значения и округлить их

(pokemon.value_counts(normalize = True) * 100).round(2)

Normal                8.03
Water                 7.54
Grass                 4.70
Psychic               4.33
Fire                  3.71
                      ... 
Fire / Psychic        0.12
Normal / Ground       0.12
Psychic / Fighting    0.12
Dark / Ghost          0.12
Fire / Ghost          0.12
Name: Type, Length: 159, dtype: float64

In [20]:
buckets = [0, 200, 400, 600, 800, 1000, 1200, 1400]
google.value_counts(bins = buckets)

(200.0, 400.0]      1568
(-0.001, 200.0]      595
(400.0, 600.0]       575
(1000.0, 1200.0]     406
(600.0, 800.0]       380
(800.0, 1000.0]      207
(1200.0, 1400.0]      93
Name: Close, dtype: int64

In [21]:
# Цепочка вызовов методов - методика последовательного вызова нескольких методов

google.value_counts(bins = buckets).sort_index()

(-0.001, 200.0]      595
(200.0, 400.0]      1568
(400.0, 600.0]       575
(600.0, 800.0]       380
(800.0, 1000.0]      207
(1000.0, 1200.0]     406
(1200.0, 1400.0]      93
Name: Close, dtype: int64

*Интервалы:*

* круглая скобка означает, что значение не включается в интервал;
* квадратная скобка означает, что значение включается в интервал.

* Замкнутый интервал (closed interval) включает обе граничные точки
* Открытый интервал (open interval) не включает ни одной из граничных точек
* Полуоткрытый интервал, включает одну из граничных точек и не включает другую

Параметр **bins** метода *value_counts* также принимает целочисленный аргумент

In [22]:
google.value_counts(bins = 6, sort = False)

(48.581, 256.113]      1204
(256.113, 462.407]     1104
(462.407, 668.7]        507
(668.7, 874.993]        380
(874.993, 1081.287]     292
(1081.287, 1287.58]     337
Name: Close, dtype: int64

In [23]:
# Можно с помощью метода value_counts выяснить, 
# в каких штатах проходило наибольшее число битв в ходе Войны за независимость США:

battles.value_counts().head()

South Carolina    31
New York          28
New Jersey        24
Virginia          21
Massachusetts     11
Name: State, dtype: int64

In [24]:
# Выясним, на какие даты приходилось максимальное количество битв во время Войны за независимость США

battles.index

DatetimeIndex(['1781-09-06', '1779-07-05', '1777-04-27', '1777-09-03',
               '1777-05-17', '1779-09-10', '1779-09-07', '1780-03-02',
               '1778-06-30', '1781-01-07',
               ...
               '1782-05-06', '1782-05-25', '1782-05-28', '1782-07-01',
               '1782-07-06', '1782-08-08', '1782-08-25', '1782-09-13',
               '1782-10-18', '1782-12-06'],
              dtype='datetime64[ns]', name='Start Date', length=232, freq=None)

In [25]:
battles.index.value_counts()

1781-04-25    2
1781-04-15    2
1777-08-22    2
1782-01-11    2
1775-04-19    2
             ..
1776-09-16    1
1781-10-25    1
1777-07-08    1
1779-07-22    1
1782-12-06    1
Name: Start Date, Length: 217, dtype: int64

**Функция** - объект первого класса, то есть язык обрабатывыает их, как любой другой тип данных. всё, что можно сделать с числом, можно сделать с функцией:

* хранить функцию в списке;
* присваивать ключу словаря функцию в качестве значения;
* передавать одну функцию в другую в качестве аргумента;
* возвращать одну функцию из другой;

**Функция** — это последовательность инструкций, генерирующих какой-либо результат.

**Вызов функции (function invocation)** — это само выполнение инструкций

In [26]:
funcs = [len, max, min]

for func in funcs:
    print(func(google))

3824
1287.58
49.82
