# Основы Pandas

In [229]:
import pandas as pd

В течение данного занятия будем сравнивать удобство и скорость выполения ряда операций с помощью стандартных методов и библиотеки 
` pandas`.<br>


Для начала работы нам понадобится создать хранилище с данными. Пусть будет 3 физические величины. Создадим три массива, где будут храниться значения, которые в теории могут принимать эти физические величины.  

Значения тока должны лежать в пределах от 20 до 30 с шагом в 1, значения для магнитного поля в пределах от 40 до 60 с шагом в 2.  

In [230]:
current_all = []
field_all = []

...

Теперь представим, что мы провели реальный физический эксперимент, в котором меняли поле и ток в заданных диапазонах (значения могут повторяться) и измеряли значение напряжение. 

Напишите функцию, которая рандомно выбирает значение тока и магнитного поля их списков `current_all` и `field_all` и генерирует  рандомное значение напряжения в пределах от 0 В до 100 В. 

На вход подаются два массива значений (current_all, field_all). На выходе список из трех элементов: ток, магнитное поле, напряжение. 

In [231]:
from random import choice, uniform

def gen_values(current=current_all , field = field_all) -> list:
    row = []
    ...
    return row
    

Теперь можем приступить к формированию баз данных. Каждый способ будем применять поочерёдно, измеряя время его выполнения. `time.perf_counter()` поможет в этом. 

Для увеличения точности эксперимента создайте словарь, содержащий три физические велечины, каждой из которых соотвествует  список из M = 1000 значений. Получите время выполнения данного примера. 


In [232]:
from time import perf_counter

# Число измерений
N = 1000  

In [None]:
start = perf_counter()


dict_storage = {'H': [],
                'I': [],
                'U': []}
...

print(perf_counter() - start)

In [None]:
start = perf_counter()

pandas_storage = pd.DataFrame(columns=['H', 'I', 'U'])
...

print(perf_counter() - start)

Разница в 100 раз сразу даёт понять, что лучше использовать словарь, а уже после этого преобразовывать его в DataFrame

Потом можете попробовать придумать более быстрый алгоритм, а мы перейдём к работе с матрицами. Среди любых данных будет присутсвовать шум. Предположим, что у нас он постоянный, поэтому нас интересуют значения тока и поля, при которых напряжение было больше 3. Найдём нужные нам строки

In [236]:
pandas_storage.loc[pandas_storage['U'] > 5]

Unnamed: 0,H,I,U
0,20,46,25.703458
1,30,44,81.043743
2,23,54,15.762136
3,25,56,8.770395
4,30,52,90.818649
...,...,...,...
995,25,52,13.285095
996,29,46,30.806454
997,20,56,59.773475
998,29,54,59.221976


Получили меньшую по вертикальному размеру матрицу, но с неправильной нумирацией строк. Восстановим её методом `df.reset_index()`

In [237]:
pandas_storage.loc[pandas_storage['U'] > 5].reset_index()

Unnamed: 0,index,H,I,U
0,0,20,46,25.703458
1,1,30,44,81.043743
2,2,23,54,15.762136
3,3,25,56,8.770395
4,4,30,52,90.818649
...,...,...,...,...
944,995,25,52,13.285095
945,996,29,46,30.806454
946,997,20,56,59.773475
947,998,29,54,59.221976


Почти получили требуемые данные, удалим лишний столбец методом `df.drop(label, axis=0, inplace=False,...)`

In [238]:
pandas_storage_new = pandas_storage.loc[pandas_storage['U'] > 5].reset_index().drop('index', axis=1)
pandas_storage_new

Unnamed: 0,H,I,U
0,20,46,25.703458
1,30,44,81.043743
2,23,54,15.762136
3,25,56,8.770395
4,30,52,90.818649
...,...,...,...
944,25,52,13.285095
945,29,46,30.806454
946,20,56,59.773475
947,29,54,59.221976


Теперь найдём среднее значение напряжение при каждой комбинации полей и тока, например, для построения трёхмерного графика

In [239]:
pandas_storage_new.groupby(['H', 'I']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,U
H,I,Unnamed: 2_level_1
20,40,51.513941
20,42,42.064408
20,44,64.465407
20,46,39.592509
20,48,67.626537
...,...,...
30,52,50.840503
30,54,44.626392
30,56,66.239735
30,58,56.958432


И переведём данные обратно в словарь

In [240]:
pandas_storage_new.groupby(['H', 'I']).mean().to_dict()

{'U': {(20, 40): 51.51394115247767,
  (20, 42): 42.06440761878909,
  (20, 44): 64.46540748625894,
  (20, 46): 39.59250899205013,
  (20, 48): 67.62653672724967,
  (20, 50): 72.01007537942387,
  (20, 52): 49.3053392808179,
  (20, 54): 64.70691025497841,
  (20, 56): 60.78663301965168,
  (20, 58): 24.095716475636134,
  (20, 60): 75.36746225844182,
  (21, 40): 51.310615495814275,
  (21, 42): 34.33074776109933,
  (21, 44): 63.868489627097425,
  (21, 46): 58.21225992866439,
  (21, 48): 58.1869599479831,
  (21, 50): 42.34155121697316,
  (21, 52): 55.96480364453748,
  (21, 54): 59.06309152790738,
  (21, 56): 44.53289409151393,
  (21, 58): 43.081236794355135,
  (21, 60): 79.38343488477263,
  (22, 40): 71.99837917881013,
  (22, 42): 27.9345698002787,
  (22, 44): 30.747402309816923,
  (22, 46): 50.722421744901574,
  (22, 48): 55.91571442125473,
  (22, 50): 50.670775226059725,
  (22, 52): 32.69825793296415,
  (22, 54): 57.056980589379926,
  (22, 56): 45.43545150724766,
  (22, 58): 63.55245096963799

Также можно отдельные столбцы и строки преобразовывать в списки (`Serial.to_list()`)

Для исследования зависимости значения физической величины от двух других параметров, можно создать матрицу, используя значения 
этих величин в качестве индексов. Используем уже созданный pandas_storage_new и его сгруппированную версию.  В качестве индексов будем испольовать значения поля, а для названий столбцов возьмем значения тока. 





In [241]:
print(pandas_storage['H'].unique())
print(pandas_storage['I'].unique())

[20 30 23 25 28 29 22 21 26 27 24]
[46 44 54 56 52 60 58 42 40 48 50]


Очевидно, что метод `.unique()` вернёт набор уникальных значений, причём в порядке следования в хранилище. Удобнее держать его отсортированным. Используем фунцкцию из библиотеки Numpy, так как все массивы являются массивами из неё. Подробнее об этом в следующей главе

In [242]:
import numpy as np

print(indexes := np.sort(pandas_storage['H'].unique()))
print(columns := np.sort(pandas_storage['I'].unique()))

massive = pd.DataFrame(index=indexes, columns=columns)
massive

[20 21 22 23 24 25 26 27 28 29 30]
[40 42 44 46 48 50 52 54 56 58 60]


Unnamed: 0,40,42,44,46,48,50,52,54,56,58,60
20,,,,,,,,,,,
21,,,,,,,,,,,
22,,,,,,,,,,,
23,,,,,,,,,,,
24,,,,,,,,,,,
25,,,,,,,,,,,
26,,,,,,,,,,,
27,,,,,,,,,,,
28,,,,,,,,,,,
29,,,,,,,,,,,


Раз создали матрицу, пора заполнять её числами! У нас есть словарь, ключами которого являются пара значений (индекс, столбец), которым соотвествует искомое значение напряжения, остаётся правильно расположить его. Для заполнения используйте метод `df.loc[index, column] = ...` Решение может быть реализовано одной строкой)

In [None]:
...

**Задача 2.3.** Из имеющегося массива данных вычислите среднее значение сопротивления при каждом из параметров, кроме нулевого тока. 

Создайте общий DataFrame для трех обрацов. Индексы в DataFrame должны соответствовать значениям температуры. 

In [244]:
Sample_1 = {'T': [300, 300, 300, 250, 250, 200, 200, 200, 150, 150, 150, 150, 100],
            'I': [0, 10, 20, 0, 10, 0, 10, 20, 0, 10, 20, 20, 0],
            'R': [1, 4, 7, 1, 6, 1, 8, 15, 1, 11, 21, 22, 1]}
Sample_2 = {'T': [300, 300, 300, 300, 250, 250, 200, 200, 200, 150, 150, 150, 100],
            'I': [0, 30, 40, 0, 40, 0, 30, 40, 0, 30, 40, 40, 0],
            'R': [0, 4, 8, 7, 0, 6, 0, 7, 14, 0, 10, 20, 0]}
Sample_3 = {'T': [300, 300, 300, 250, 250, 200, 200, 200, 150, 150, 150, 150, 100],
            'I': [0, 10, 20, 0, 10, 0, 10, 20, 0, 10, 20, 30, 0],
            'R': [1, 2, 3, 1, 4, 7, 1, 6, 1, 7, 12, 18, 1]}

Поступал вопрос про вычисление корреляции двух последовательностей. В `Pandas` есть такой метод: `df.corr()` принимает массив из *DF* и вычисляет действительное число зависимости содержимого от строки, к которой применён метод

In [None]:
import pandas as pd
data = { 'Region': ['North', 'South', 'East', 'West'], 'Sales': [200, 150, 300, 250], 'Advertising': [50, 40, 70, 60] }
df = pd.DataFrame(data)
correlation = df['Sales'].corr(df['Advertising'])
float(correlation)

1.0