# Доступ к данным

Импорт библиотек

In [1]:
import pandas as pd
import numpy as np

## Доступ к строкам

**Датафрейм с числовой индексацией**

У нас есть данные - цены на акции компании Google (Alphabet Inc.) за определенные дни. В каждом списке списка dat aприсутствую  следующие данные:
-  дата торгов
-  цена открытия
-  максимальная цена за торговый день
-  минимальная цена и цена, по которой закрылась торговая сессия.

In [2]:
data = [['2023-06-01',122.820000,124.419998,122.620003,123.720001],
['2023-06-02',123.989998,126.150002,123.760002,124.669998],
['2023-06-05',124.010002,127.430000,123.839996,126.010002],
['2023-06-06',126.010002,128.289993,125.360001,127.309998],
['2023-06-07',126.970001,129.039993,122.120003,122.500000],
['2023-06-08',122.230003,123.230003,121.239998,122.139999],
['2023-06-09',122.250000,123.760002,121.910004,122.230003],
['2023-06-12',122.790001,124.050003,121.660004,123.639999],
['2023-06-13',124.980003,125.160004,123.180000,123.830002],
['2023-06-14',123.099998,124.050003,121.449997,123.669998],
['2023-06-15',123.139999,125.459999,122.400002,125.089996],
['2023-06-16',125.930000,126.110001,123.279999,123.529999]]
col = ['date','open','high','low','close']

Создаём датафрейм и приводим столбец 'date' к типу datetime64[ns]:

In [3]:
google = pd.DataFrame(data, columns=col)
google['date'] = pd.to_datetime(google['date'])

In [4]:
display(google.head())  # команда в Jupyter Notebook

Unnamed: 0,date,open,high,low,close
0,2023-06-01,122.82,124.419998,122.620003,123.720001
1,2023-06-02,123.989998,126.150002,123.760002,124.669998
2,2023-06-05,124.010002,127.43,123.839996,126.010002
3,2023-06-06,126.010002,128.289993,125.360001,127.309998
4,2023-06-07,126.970001,129.039993,122.120003,122.5


Доступ к строке доступен через срез:

In [5]:
google[2:3]

Unnamed: 0,date,open,high,low,close
2,2023-06-05,124.010002,127.43,123.839996,126.010002


Если необходим доступ к нескольким строкам, то так же работаем через срез:

In [6]:
google[0:3]

Unnamed: 0,date,open,high,low,close
0,2023-06-01,122.82,124.419998,122.620003,123.720001
1,2023-06-02,123.989998,126.150002,123.760002,124.669998
2,2023-06-05,124.010002,127.43,123.839996,126.010002


Или же нам нужна каждая третья строка:

In [7]:
google[::3]

Unnamed: 0,date,open,high,low,close
0,2023-06-01,122.82,124.419998,122.620003,123.720001
3,2023-06-06,126.010002,128.289993,125.360001,127.309998
6,2023-06-09,122.25,123.760002,121.910004,122.230003
9,2023-06-14,123.099998,124.050003,121.449997,123.669998


"Перевернём" наш датафрейм:

In [8]:
google[::-1]

Unnamed: 0,date,open,high,low,close
11,2023-06-16,125.93,126.110001,123.279999,123.529999
10,2023-06-15,123.139999,125.459999,122.400002,125.089996
9,2023-06-14,123.099998,124.050003,121.449997,123.669998
8,2023-06-13,124.980003,125.160004,123.18,123.830002
7,2023-06-12,122.790001,124.050003,121.660004,123.639999
6,2023-06-09,122.25,123.760002,121.910004,122.230003
5,2023-06-08,122.230003,123.230003,121.239998,122.139999
4,2023-06-07,126.970001,129.039993,122.120003,122.5
3,2023-06-06,126.010002,128.289993,125.360001,127.309998
2,2023-06-05,124.010002,127.43,123.839996,126.010002


**Датафрейм с нечисловыми метками индекса**

Преобразуем наш датафрейм, сделав столбец 'date' индексом:

In [9]:
google = google.set_index('date')

In [10]:
google.head(3)

Unnamed: 0_level_0,open,high,low,close
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2023-06-01,122.82,124.419998,122.620003,123.720001
2023-06-02,123.989998,126.150002,123.760002,124.669998
2023-06-05,124.010002,127.43,123.839996,126.010002


Как и в случае с числовым индексом, мы также можем получить отдельную строку датафрейма, используя срез:

In [11]:
google[5:6]

Unnamed: 0_level_0,open,high,low,close
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2023-06-08,122.230003,123.230003,121.239998,122.139999


И еще у нас добавляется возможность обращаться к датафрейму, указывая в срезе имена индексов:

In [12]:
google['2023-06-08':'2023-06-09']

Unnamed: 0_level_0,open,high,low,close
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2023-06-08,122.230003,123.230003,121.239998,122.139999
2023-06-09,122.25,123.760002,121.910004,122.230003


Только теперь верхняя граница среза включается в выдаваемый результат, и для получения какой-либо одной строки, надо указывать одинаковое наименование нижней и верхней границ среза:

In [13]:
google['2023-06-08':'2023-06-08']

Unnamed: 0_level_0,open,high,low,close
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2023-06-08,122.230003,123.230003,121.239998,122.139999



Для получения среза строк можно использовать или числовую индексацию, или индексацию по меткам индексов.

Выведем на экран все записи датафреймо д6 07.06.2023 включительно:

In [14]:
google[:'2023-06-07']

Unnamed: 0_level_0,open,high,low,close
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2023-06-01,122.82,124.419998,122.620003,123.720001
2023-06-02,123.989998,126.150002,123.760002,124.669998
2023-06-05,124.010002,127.43,123.839996,126.010002
2023-06-06,126.010002,128.289993,125.360001,127.309998
2023-06-07,126.970001,129.039993,122.120003,122.5


Или, например, с 01.06.2023 по 12.06.2023 выведем на экран каждую вторую запись датафрейма:

In [15]:
google['2023-06-01':'2023-06-12':2]

Unnamed: 0_level_0,open,high,low,close
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2023-06-01,122.82,124.419998,122.620003,123.720001
2023-06-05,124.010002,127.43,123.839996,126.010002
2023-06-07,126.970001,129.039993,122.120003,122.5
2023-06-09,122.25,123.760002,121.910004,122.230003


## Доступ к столбцам 


Вернёмся к датафрейму, в котором числовая индексация:

In [16]:
google.head()

Unnamed: 0_level_0,open,high,low,close
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2023-06-01,122.82,124.419998,122.620003,123.720001
2023-06-02,123.989998,126.150002,123.760002,124.669998
2023-06-05,124.010002,127.43,123.839996,126.010002
2023-06-06,126.010002,128.289993,125.360001,127.309998
2023-06-07,126.970001,129.039993,122.120003,122.5


Выведем столбец с ценами открытия:

In [17]:
google['open']

date
2023-06-01    122.820000
2023-06-02    123.989998
2023-06-05    124.010002
2023-06-06    126.010002
2023-06-07    126.970001
2023-06-08    122.230003
2023-06-09    122.250000
2023-06-12    122.790001
2023-06-13    124.980003
2023-06-14    123.099998
2023-06-15    123.139999
2023-06-16    125.930000
Name: open, dtype: float64

In [18]:
print(type(google['open']))

<class 'pandas.core.series.Series'>


На выходе получили данные колонки 'open' в виде объекта Series.

Если нам нужно получить столбец в виде объекта DataFrame, то наименование получаемого столбца указываем в дополнительных квадратных скобках:

In [19]:
google[['open']]

Unnamed: 0_level_0,open
date,Unnamed: 1_level_1
2023-06-01,122.82
2023-06-02,123.989998
2023-06-05,124.010002
2023-06-06,126.010002
2023-06-07,126.970001
2023-06-08,122.230003
2023-06-09,122.25
2023-06-12,122.790001
2023-06-13,124.980003
2023-06-14,123.099998


In [20]:
print(type(google[['open']]))

<class 'pandas.core.frame.DataFrame'>


Для того, чтобы получить данные из нескольких колонок, нужно в конструкцию DataFrame[ ] ( в нашем случае google[ ]) передать список нужных нам столбцов (например, ['low', 'high']).

In [21]:
google[['low', 'high']]

Unnamed: 0_level_0,low,high
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2023-06-01,122.620003,124.419998
2023-06-02,123.760002,126.150002
2023-06-05,123.839996,127.43
2023-06-06,125.360001,128.289993
2023-06-07,122.120003,129.039993
2023-06-08,121.239998,123.230003
2023-06-09,121.910004,123.760002
2023-06-12,121.660004,124.050003
2023-06-13,123.18,125.160004
2023-06-14,121.449997,124.050003


Если имена столбцов мы не заключим в дополнительные квадратные скобки, то получим ошибку.

## Доступ к данным по условию

Также получать доступ к данным можно с использованием логических выражений. В этом случае применяются операторы сравнения и побитовые операторы.

Операторы сравнения:
- `==` - равно;
- `!=` - не равно;
- `>` - больше;
- `<` - меньше;
- `>=` - больше или равно;
- `<=`  - меньше или равно.

Побитовые операторы:
- `~` - отрицание;
- `&` - "И";
- `|` - "ИЛИ";
- `^` - исключающее "ИЛИ".

In [22]:
display(google)

Unnamed: 0_level_0,open,high,low,close
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2023-06-01,122.82,124.419998,122.620003,123.720001
2023-06-02,123.989998,126.150002,123.760002,124.669998
2023-06-05,124.010002,127.43,123.839996,126.010002
2023-06-06,126.010002,128.289993,125.360001,127.309998
2023-06-07,126.970001,129.039993,122.120003,122.5
2023-06-08,122.230003,123.230003,121.239998,122.139999
2023-06-09,122.25,123.760002,121.910004,122.230003
2023-06-12,122.790001,124.050003,121.660004,123.639999
2023-06-13,124.980003,125.160004,123.18,123.830002
2023-06-14,123.099998,124.050003,121.449997,123.669998


Например, зададим условие, при котором цена открытия больше 125:

In [23]:
google['open'] > 125

date
2023-06-01    False
2023-06-02    False
2023-06-05    False
2023-06-06     True
2023-06-07     True
2023-06-08    False
2023-06-09    False
2023-06-12    False
2023-06-13    False
2023-06-14    False
2023-06-15    False
2023-06-16     True
Name: open, dtype: bool

Получаем логический ряд, в котором значения соответствуют условию: цена открытия 'open' > 125. Если передадим этот ряд в конструкцию DataFrame[], то получим все строки датафрейма, в которых цена открытия 'open' > 125:

In [24]:
google[google['open'] > 125]

Unnamed: 0_level_0,open,high,low,close
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2023-06-06,126.010002,128.289993,125.360001,127.309998
2023-06-07,126.970001,129.039993,122.120003,122.5
2023-06-16,125.93,126.110001,123.279999,123.529999


При объединении условий, каждое из условий заключается в круглые скобки ().
В выведем все строки, в которых цена открытия 'open' больше 125 или цена закрытия 'close' больше 125:

In [25]:
google[(google['open'] > 125) | (google['close'] > 125)]

Unnamed: 0_level_0,open,high,low,close
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2023-06-05,124.010002,127.43,123.839996,126.010002
2023-06-06,126.010002,128.289993,125.360001,127.309998
2023-06-07,126.970001,129.039993,122.120003,122.5
2023-06-15,123.139999,125.459999,122.400002,125.089996
2023-06-16,125.93,126.110001,123.279999,123.529999


Или, например, получим все строки, в которых максимальная цена 'high' была выше 125 и минимальная цена 'low' - ниже 123:

In [26]:
google[(google['high'] > 125) & (google['low'] < 123)]

Unnamed: 0_level_0,open,high,low,close
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2023-06-07,126.970001,129.039993,122.120003,122.5
2023-06-15,123.139999,125.459999,122.400002,125.089996
