## Структурированные списки Numpy

Импортируем numpy

In [3]:
import numpy as np

Создаём структурированный список

In [4]:
sync_frame = np.dtype([('Info', np.uint32),
                        ('Second', np.uint32),
                        ('Index', np.uint32),
                        ('Type', np.uint32),
                        ('Direct', np.uint32),
                        ('way', np.float64)])

In [5]:
sync_frame

dtype([('Info', '<u4'), ('Second', '<u4'), ('Index', '<u4'), ('Type', '<u4'), ('Direct', '<u4'), ('way', '<f8')])

In [6]:
sync_data = np.array([(10000, 2145255, 2, 1, 0, 264.365),
                      (20000, 2645256, 5, 0, 1, 546.345),
                      (100, 58161363, 3, 2, 1, 5634.689),
                      (524, 63576357, 11, 4, 0, 678.544),
                      (634, 52362724, 7, 3, 1, 8425.465)], dtype=sync_frame)

Выведем массив

In [7]:
sync_data

array([(10000,  2145255,  2, 1, 0,  264.365),
       (20000,  2645256,  5, 0, 1,  546.345),
       (  100, 58161363,  3, 2, 1, 5634.689),
       (  524, 63576357, 11, 4, 0,  678.544),
       (  634, 52362724,  7, 3, 1, 8425.465)],
      dtype=[('Info', '<u4'), ('Second', '<u4'), ('Index', '<u4'), ('Type', '<u4'), ('Direct', '<u4'), ('way', '<f8')])

In [9]:
print(sync_data)

[(10000,  2145255,  2, 1, 0,  264.365)
 (20000,  2645256,  5, 0, 1,  546.345)
 (  100, 58161363,  3, 2, 1, 5634.689)
 (  524, 63576357, 11, 4, 0,  678.544)
 (  634, 52362724,  7, 3, 1, 8425.465)]


Выведем элемент с индексом 1

In [10]:
sync_data[1]

(20000, 2645256, 5, 0, 1, 546.345)

Возьмём срез двух элементов с конца

In [11]:
sync_data[-2:]

array([(524, 63576357, 11, 4, 0,  678.544),
       (634, 52362724,  7, 3, 1, 8425.465)],
      dtype=[('Info', '<u4'), ('Second', '<u4'), ('Index', '<u4'), ('Type', '<u4'), ('Direct', '<u4'), ('way', '<f8')])

Элементы поля по его названию

In [12]:
sync_data['way']

array([ 264.365,  546.345, 5634.689,  678.544, 8425.465])

In [13]:
sync_data[['way', 'Info']]

array([( 264.365, 10000), ( 546.345, 20000), (5634.689,   100),
       ( 678.544,   524), (8425.465,   634)],
      dtype={'names':['way','Info'], 'formats':['<f8','<u4'], 'offsets':[20,0], 'itemsize':28})

In [14]:
sync_data[['way', 'Info']][1]

(546.345, 20000)

In [15]:
sync_data[['way', 'Info']][2]

(5634.689, 100)

Изменение элементов

In [17]:
sync_data[2] = (500, 987389672, 11, 42, 0, 643.275)

In [18]:
sync_data

array([(10000,   2145255,  2,  1, 0,  264.365),
       (20000,   2645256,  5,  0, 1,  546.345),
       (  500, 987389672, 11, 42, 0,  643.275),
       (  524,  63576357, 11,  4, 0,  678.544),
       (  634,  52362724,  7,  3, 1, 8425.465)],
      dtype=[('Info', '<u4'), ('Second', '<u4'), ('Index', '<u4'), ('Type', '<u4'), ('Direct', '<u4'), ('way', '<f8')])

In [19]:
sync_data['Index'][2] = 3

In [20]:
sync_data

array([(10000,   2145255,  2,  1, 0,  264.365),
       (20000,   2645256,  5,  0, 1,  546.345),
       (  500, 987389672,  3, 42, 0,  643.275),
       (  524,  63576357, 11,  4, 0,  678.544),
       (  634,  52362724,  7,  3, 1, 8425.465)],
      dtype=[('Info', '<u4'), ('Second', '<u4'), ('Index', '<u4'), ('Type', '<u4'), ('Direct', '<u4'), ('way', '<f8')])

## Чтение/запись списков

Запишем его в файл формата `.npy`: сначала укажем название файла, а затем – сам массив, который сохраняем.

In [21]:
np.save("sync_data.npy", sync_data)

Теперь этот файл можно увидеть во вкладке *Home* в Jupyter Notebook, в рабочей папке. Попробуем выполнить обратную операцию: считаем массив из numpy-файла:

In [22]:
np.load('sync_data.npy')

array([(10000,   2145255,  2,  1, 0,  264.365),
       (20000,   2645256,  5,  0, 1,  546.345),
       (  500, 987389672,  3, 42, 0,  643.275),
       (  524,  63576357, 11,  4, 0,  678.544),
       (  634,  52362724,  7,  3, 1, 8425.465)],
      dtype=[('Info', '<u4'), ('Second', '<u4'), ('Index', '<u4'), ('Type', '<u4'), ('Direct', '<u4'), ('way', '<f8')])

Сохранение в `.txt`

In [23]:
np.savetxt("sync_data.txt", sync_data)

In [24]:
np.loadtxt('sync_data.txt')

array([[1.00000000e+04, 2.14525500e+06, 2.00000000e+00, 1.00000000e+00,
        0.00000000e+00, 2.64365000e+02],
       [2.00000000e+04, 2.64525600e+06, 5.00000000e+00, 0.00000000e+00,
        1.00000000e+00, 5.46345000e+02],
       [5.00000000e+02, 9.87389672e+08, 3.00000000e+00, 4.20000000e+01,
        0.00000000e+00, 6.43275000e+02],
       [5.24000000e+02, 6.35763570e+07, 1.10000000e+01, 4.00000000e+00,
        0.00000000e+00, 6.78544000e+02],
       [6.34000000e+02, 5.23627240e+07, 7.00000000e+00, 3.00000000e+00,
        1.00000000e+00, 8.42546500e+03]])

In [26]:
sync_data.tolist()

[(10000, 2145255, 2, 1, 0, 264.365),
 (20000, 2645256, 5, 0, 1, 546.345),
 (500, 987389672, 3, 42, 0, 643.275),
 (524, 63576357, 11, 4, 0, 678.544),
 (634, 52362724, 7, 3, 1, 8425.465)]

In [27]:
np.array2string(sync_data)

'[(10000,   2145255,  2,  1, 0,  264.365)\n (20000,   2645256,  5,  0, 1,  546.345)\n (  500, 987389672,  3, 42, 0,  643.275)\n (  524,  63576357, 11,  4, 0,  678.544)\n (  634,  52362724,  7,  3, 1, 8425.465)]'

## Основные структуры Pandas

Импортируем pandas

In [None]:
import pandas as pd

Создаём датафрейм

In [32]:
df = pd.DataFrame([(10000, 2145255, 2, 1, 0, 264.365),
                  (20000, 2645256, 5, 0, 1, 546.345),
                  (100, 58161363, 3, 2, 1, 5634.689),
                  (524, 63576357, 11, 4, 0, 678.544),
                  (634, 52362724, 7, 3, 1, 8425.465)])

In [33]:
df

Unnamed: 0,0,1,2,3,4,5
0,10000,2145255,2,1,0,264.365
1,20000,2645256,5,0,1,546.345
2,100,58161363,3,2,1,5634.689
3,524,63576357,11,4,0,678.544
4,634,52362724,7,3,1,8425.465


In [34]:
type(df)

pandas.core.frame.DataFrame

Выведем второй столбец

In [35]:
df[1]

0     2145255
1     2645256
2    58161363
3    63576357
4    52362724
Name: 1, dtype: int64

## Индексы и метод `.iloc`

Добавим названия столбцов в нашу таблицу

In [37]:
df.columns = ['Info', 'Second', 'Index', 'Type', 'Direct', 'way']

In [38]:
df

Unnamed: 0,Info,Second,Index,Type,Direct,way
0,10000,2145255,2,1,0,264.365
1,20000,2645256,5,0,1,546.345
2,100,58161363,3,2,1,5634.689
3,524,63576357,11,4,0,678.544
4,634,52362724,7,3,1,8425.465


Выберем некоторые элементы из датафрейма

In [40]:
df.iloc[2, -1]

5634.689

In [41]:
df.iloc[:2, 3]

0    1
1    0
Name: Type, dtype: int64

In [42]:
df.iloc[:, 4]

0    0
1    1
2    1
3    0
4    1
Name: Direct, dtype: int64

In [43]:
df.iloc[-2:, :]

Unnamed: 0,Info,Second,Index,Type,Direct,way
3,524,63576357,11,4,0,678.544
4,634,52362724,7,3,1,8425.465


Можно попробовать ввести индекс без `.loc` и посмотреть, что получится: 

In [44]:
df[0]

KeyError: 0

In [45]:
df[1:3]

Unnamed: 0,Info,Second,Index,Type,Direct,way
1,20000,2645256,5,0,1,546.345
2,100,58161363,3,2,1,5634.689


## Индексы и метод `.loc`

В pandas, как и структурированных списках numpy, можно обращаться к столбцам по назваию

In [47]:
df['Second']

0     2145255
1     2645256
2    58161363
3    63576357
4    52362724
Name: Second, dtype: int64

In [48]:
df[['Second', 'Direct']]

Unnamed: 0,Second,Direct
0,2145255,0
1,2645256,1
2,58161363,1
3,63576357,0
4,52362724,1


С использоваием метода `.loc` можно выполнять стрезы по названиям строк и столбцов

In [50]:
df.loc[:, 'Type':'way']

Unnamed: 0,Type,Direct,way
0,1,0,264.365
1,0,1,546.345
2,2,1,5634.689
3,4,0,678.544
4,3,1,8425.465


При помощи метода index можно задавать имена строк

In [62]:
df.index = ['Строка %s' % i for i in range(len(df.index))]

In [63]:
df

Unnamed: 0,Info,Second,Index,Type,Direct,way
Строка 0,10000,2145255,2,1,0,264.365
Строка 1,20000,2645256,5,0,1,546.345
Строка 2,100,58161363,3,2,1,5634.689
Строка 3,524,63576357,11,4,0,678.544
Строка 4,634,52362724,7,3,1,8425.465


In [64]:
df.loc['Строка 1', 'Index']

5

In [66]:
df.loc['Строка 1': 'Строка 3', 'Second': 'Direct']

Unnamed: 0,Second,Index,Type,Direct
Строка 1,2645256,5,0,1
Строка 2,58161363,3,2,1
Строка 3,63576357,11,4,0


In [67]:
df.loc['Строка 1': 'Строка 3', ['Info', 'way']]

Unnamed: 0,Info,way
Строка 1,20000,546.345
Строка 2,100,5634.689
Строка 3,524,678.544


## Характеристики датафрейма `pandas`

Сводная информация

In [69]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, Строка 0 to Строка 4
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Info    5 non-null      int64  
 1   Second  5 non-null      int64  
 2   Index   5 non-null      int64  
 3   Type    5 non-null      int64  
 4   Direct  5 non-null      int64  
 5   way     5 non-null      float64
dtypes: float64(1), int64(5)
memory usage: 452.0+ bytes


Число строк и столбцов

In [70]:
df.shape

(5, 6)

In [71]:
df.shape[0]

5

In [72]:
df.shape[1]

6

Описательные статистики по столбцам данного датафрейма:

In [73]:
df.describe()

Unnamed: 0,Info,Second,Index,Type,Direct,way
count,5.0,5.0,5.0,5.0,5.0,5.0
mean,6251.6,35778190.0,5.6,2.0,0.6,3109.8816
std,8736.046291,30731730.0,3.577709,1.581139,0.547723,3715.177197
min,100.0,2145255.0,2.0,0.0,0.0,264.365
25%,524.0,2645256.0,3.0,1.0,0.0,546.345
50%,634.0,52362720.0,5.0,2.0,1.0,678.544
75%,10000.0,58161360.0,7.0,3.0,1.0,5634.689
max,20000.0,63576360.0,11.0,4.0,1.0,8425.465


In [74]:
df.columns

Index(['Info', 'Second', 'Index', 'Type', 'Direct', 'way'], dtype='object')

In [75]:
type(df.columns)

pandas.core.indexes.base.Index

In [76]:
df.columns[1]

'Second'

Изменять название столбцов через индексацию нельзя

In [77]:
df.columns[1] = 'name'

TypeError: Index does not support mutable operations

In [78]:
list(df.columns)

['Info', 'Second', 'Index', 'Type', 'Direct', 'way']

In [79]:
df.index

Index(['Строка 0', 'Строка 1', 'Строка 2', 'Строка 3', 'Строка 4'], dtype='object')

## Операции над датафреймами

Первые несколько строк:

In [80]:
df.head()

Unnamed: 0,Info,Second,Index,Type,Direct,way
Строка 0,10000,2145255,2,1,0,264.365
Строка 1,20000,2645256,5,0,1,546.345
Строка 2,100,58161363,3,2,1,5634.689
Строка 3,524,63576357,11,4,0,678.544
Строка 4,634,52362724,7,3,1,8425.465


In [81]:
df.head(3)

Unnamed: 0,Info,Second,Index,Type,Direct,way
Строка 0,10000,2145255,2,1,0,264.365
Строка 1,20000,2645256,5,0,1,546.345
Строка 2,100,58161363,3,2,1,5634.689


In [82]:
df.tail()

Unnamed: 0,Info,Second,Index,Type,Direct,way
Строка 0,10000,2145255,2,1,0,264.365
Строка 1,20000,2645256,5,0,1,546.345
Строка 2,100,58161363,3,2,1,5634.689
Строка 3,524,63576357,11,4,0,678.544
Строка 4,634,52362724,7,3,1,8425.465


In [83]:
df.tail(2)

Unnamed: 0,Info,Second,Index,Type,Direct,way
Строка 3,524,63576357,11,4,0,678.544
Строка 4,634,52362724,7,3,1,8425.465


Если в датафрейме присутствуют строки с пропущенными значениями (`NaN`, *Not a number*), то их можно удалить:

In [84]:
df = df.dropna()

In [85]:
df

Unnamed: 0,Info,Second,Index,Type,Direct,way
Строка 0,10000,2145255,2,1,0,264.365
Строка 1,20000,2645256,5,0,1,546.345
Строка 2,100,58161363,3,2,1,5634.689
Строка 3,524,63576357,11,4,0,678.544
Строка 4,634,52362724,7,3,1,8425.465


#### Выбор строк по условиям

In [86]:
df[df['Info'] > 1000]

Unnamed: 0,Info,Second,Index,Type,Direct,way
Строка 0,10000,2145255,2,1,0,264.365
Строка 1,20000,2645256,5,0,1,546.345


In [92]:
df[(df['Direct'] == 1) & (df['Index'] < 10)]

Unnamed: 0,Info,Second,Index,Type,Direct,way
Строка 1,20000,2645256,5,0,1,546.345
Строка 2,100,58161363,3,2,1,5634.689
Строка 4,634,52362724,7,3,1,8425.465


In [93]:
df[(df['Direct'] == 0) | (df['way'] < 1000)]

Unnamed: 0,Info,Second,Index,Type,Direct,way
Строка 0,10000,2145255,2,1,0,264.365
Строка 1,20000,2645256,5,0,1,546.345
Строка 3,524,63576357,11,4,0,678.544


#### Создание новых столбцов

In [94]:
df['avg_way'] = sum(df['way']) / 2
df

Unnamed: 0,Info,Second,Index,Type,Direct,way,avg_way
Строка 0,10000,2145255,2,1,0,264.365,7774.704
Строка 1,20000,2645256,5,0,1,546.345,7774.704
Строка 2,100,58161363,3,2,1,5634.689,7774.704
Строка 3,524,63576357,11,4,0,678.544,7774.704
Строка 4,634,52362724,7,3,1,8425.465,7774.704


In [95]:
df['info_sec'] = df['Second'] + df['Info']
df

Unnamed: 0,Info,Second,Index,Type,Direct,way,avg_way,info_sec
Строка 0,10000,2145255,2,1,0,264.365,7774.704,2155255
Строка 1,20000,2645256,5,0,1,546.345,7774.704,2665256
Строка 2,100,58161363,3,2,1,5634.689,7774.704,58161463
Строка 3,524,63576357,11,4,0,678.544,7774.704,63576881
Строка 4,634,52362724,7,3,1,8425.465,7774.704,52363358


In [96]:
df['status'] = 'RVNC'
df

Unnamed: 0,Info,Second,Index,Type,Direct,way,avg_way,info_sec,status
Строка 0,10000,2145255,2,1,0,264.365,7774.704,2155255,RVNC
Строка 1,20000,2645256,5,0,1,546.345,7774.704,2665256,RVNC
Строка 2,100,58161363,3,2,1,5634.689,7774.704,58161463,RVNC
Строка 3,524,63576357,11,4,0,678.544,7774.704,63576881,RVNC
Строка 4,634,52362724,7,3,1,8425.465,7774.704,52363358,RVNC


In [97]:
df['processed'] = [1, 0, 1, 1, 0]
df

Unnamed: 0,Info,Second,Index,Type,Direct,way,avg_way,info_sec,status,processed
Строка 0,10000,2145255,2,1,0,264.365,7774.704,2155255,RVNC,1
Строка 1,20000,2645256,5,0,1,546.345,7774.704,2665256,RVNC,0
Строка 2,100,58161363,3,2,1,5634.689,7774.704,58161463,RVNC,1
Строка 3,524,63576357,11,4,0,678.544,7774.704,63576881,RVNC,1
Строка 4,634,52362724,7,3,1,8425.465,7774.704,52363358,RVNC,0
