# ***Pandas***

***Pandas*** это высокоуровневая Python библиотека для анализа данных. Почему я её называю высокоуровневой, потому что построена она поверх более низкоуровневой библиотеки NumPy (написана на С), что является большим плюсом в производительности. 
В экосистеме Python, pandas является наиболее продвинутой и быстроразвивающейся библиотекой для обработки и анализа данных.

[***Документация***](https://pandas.pydata.org/)

[***Презентация***](https://docs.google.com/presentation/d/1-fECM3dRyoctiSlZ-I7cPBUKWw7bIHoi/edit#slide=id.p15)

# ***Библиотека pandas***

Библиотека pandas (http://pandas.pydata.org/) предоставляет дополнительные структуры данных для работы с массивами данных на языке Python. Ee основная абстракция - это проиндексированный многомерный массив значений DataFrame. 
Если вы собираетесь использовать Python для преобразования, разбиения, группирования и управления наборами данных, то pandas является бесценным инструментом для этих целей.

В рамках данного раздела мы будем использовать датасет [CERN Electron Collision Data](https://www.kaggle.com/datasets/fedesoriano/cern-electron-collision-data?resource=download)




# ***О датасете***

Этот набор данных содержит 100 тыс. диэлектронных событий в диапазоне инвариантных масс 2-110 ГэВ для использования в информационно-пропагандистской деятельности и образовании. Эти данные были отобраны для использования в образовательных и информационно-пропагандистских целях и содержат подмножество общей информации о событии. Критерии выбора могут отличаться от тех, которые используются в результатах CMS physics.

# ***Структура датасета***

1) Run: номер запуска события.



2) Event: номер события.

3, 11) E1, E2: полная энергия электрона (ГэВ) для электронов 1 и 2.

4, 5, 6, 12, 13, 14) px1, py1, px1, px2, py2, pz2: Компоненты импульса электрона 1 и 2(ГэВ).

7, 15) pt1, pt2: Поперечный импульс электрона 1 и 2 (ГэВ).

8, 16) eta1, eta2: Псевдоразвитость электрона 1 и 2.

9, 17) phi1, phi2: Угол П электрона 1 и 2 (рад).

10, 18) Q1, Q2: Заряд электрона 1 и 2.

19) M: Инвариантная масса двух электронов (ГэВ).

# ***Создание датафрейма на основе словаря python***


In [None]:
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B':[4,5,6], 'C':[7,8,9]})
print(df)



   A  B  C
0  1  4  7
1  2  5  8
2  3  6  9


In [None]:
# Получение информации о датафрейме 
print(df.info()) 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      int64
 2   C       3 non-null      int64
dtypes: int64(3)
memory usage: 200.0 bytes
None


# ***Получение первых N строк датафрейма***

In [None]:
df.head(11) # где N=11, по умолчанию df.head() вернет первые 5 записей


Unnamed: 0,Run,Event,E1,px1,py1,pz1,pt1,eta1,phi1,Q1,E2,px2,py2,pz2,pt2,eta2,phi2,Q2,M
0,147115,366639895,58.7141,-7.31132,10.531,-57.2974,12.8202,-2.20267,2.17766,1,11.2836,-1.03234,-1.88066,-11.0778,2.14537,-2.34403,-2.07281,-1,8.94841
1,147115,366704169,6.61188,-4.15213,-0.579855,-5.11278,4.19242,-1.02842,-3.00284,-1,17.1492,-11.7135,5.04474,11.4647,12.7536,0.808077,2.73492,1,15.893
2,147115,367112316,25.5419,-11.4809,2.04168,22.7246,11.661,1.42048,2.9656,1,15.8203,-1.4728,2.25895,-15.5888,2.69667,-2.45508,2.14857,1,38.3877
3,147115,366952149,65.3959,7.51214,11.8871,63.8662,14.0619,2.21838,1.00721,1,25.1273,4.08786,2.59641,24.6563,4.84272,2.33021,0.565865,-1,3.72862
4,147115,366523212,61.4504,2.95284,-14.6227,-59.6121,14.9179,-2.09375,-1.37154,-1,13.8871,-0.277757,-2.4256,-13.6708,2.44145,-2.4237,-1.68481,-1,2.74718
5,147115,366663412,6.39616,-5.45672,-2.09068,-2.60078,5.84352,-0.431551,-2.77571,-1,21.3865,15.1698,-8.8703,-12.1893,17.5728,-0.64745,-0.52912,-1,18.4023
6,147115,366639101,84.5058,8.82436,10.5789,83.3753,13.7761,2.50032,0.875576,1,12.6784,-1.13446,-3.20939,-12.2128,3.404,-1.98956,-1.91057,-1,65.3239
7,147115,367133576,77.0057,10.0029,9.17545,-75.8,13.5737,-2.42103,0.742282,1,9.11623,-1.72295,-1.48674,-8.82761,2.27574,-2.06494,-2.42965,1,11.2912
8,147115,368639137,9.68787,1.11192,2.05064,-9.40284,2.3327,-2.10218,1.07394,1,63.4597,-1.85844,12.7946,-62.1287,12.9289,-2.27355,1.71504,1,3.58678
9,147115,367825395,27.8812,11.939,-18.3462,17.2696,21.8888,0.724032,-0.993887,1,12.9218,-5.0263,11.6026,2.66263,12.6445,0.20905,1.9796,-1,34.2685


# ***Считывание данных из файла***

In [None]:
import pandas as pd

df = pd.read_csv("/content/sample_data/dielectron.csv")
df

Unnamed: 0,Run,Event,E1,px1,py1,pz1,pt1,eta1,phi1,Q1,E2,px2,py2,pz2,pt2,eta2,phi2,Q2,M
0,147115,366639895,58.71410,-7.311320,10.531000,-57.29740,12.82020,-2.202670,2.177660,1,11.28360,-1.032340,-1.88066,-11.077800,2.14537,-2.344030,-2.072810,-1,8.94841
1,147115,366704169,6.61188,-4.152130,-0.579855,-5.11278,4.19242,-1.028420,-3.002840,-1,17.14920,-11.713500,5.04474,11.464700,12.75360,0.808077,2.734920,1,15.89300
2,147115,367112316,25.54190,-11.480900,2.041680,22.72460,11.66100,1.420480,2.965600,1,15.82030,-1.472800,2.25895,-15.588800,2.69667,-2.455080,2.148570,1,38.38770
3,147115,366952149,65.39590,7.512140,11.887100,63.86620,14.06190,2.218380,1.007210,1,25.12730,4.087860,2.59641,24.656300,4.84272,2.330210,0.565865,-1,3.72862
4,147115,366523212,61.45040,2.952840,-14.622700,-59.61210,14.91790,-2.093750,-1.371540,-1,13.88710,-0.277757,-2.42560,-13.670800,2.44145,-2.423700,-1.684810,-1,2.74718
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,146511,522575834,12.31310,-10.658000,5.164440,3.36858,11.84330,0.280727,2.690370,-1,1.80181,0.668609,-1.58437,0.537805,1.71967,0.307851,-1.171470,1,8.44779
99996,146511,522786431,18.46420,7.854990,15.133000,-7.08659,17.05020,-0.404510,1.092010,1,14.69110,-1.418020,-2.28117,-14.443500,2.68598,-2.383880,-2.126960,1,20.71540
99997,146511,522906124,4.18566,-3.273500,-0.308507,-2.59013,3.28801,-0.723075,-3.047630,1,72.81740,-11.074900,-9.28179,-71.369300,14.45010,-2.300410,-2.444050,-1,12.71350
99998,146511,523243830,54.46220,11.352600,11.880900,51.92400,16.43280,1.867800,0.808132,-1,8.58671,0.378009,3.07828,8.007050,3.10141,1.677170,1.448610,1,4.69670


# ***Аттрибуты датафрейма***

In [None]:
df.columns

Index(['Run', 'Event', 'E1', 'px1 ', 'py1', 'pz1', 'pt1', 'eta1', 'phi1', 'Q1',
       'E2', 'px2', 'py2', 'pz2', 'pt2', 'eta2', 'phi2', 'Q2', 'M'],
      dtype='object')

In [None]:
df.index

RangeIndex(start=0, stop=100000, step=1)

In [None]:
df.tail(7) # вывод 7 последних строк 

Unnamed: 0,Run,Event,E1,px1,py1,pz1,pt1,eta1,phi1,Q1,E2,px2,py2,pz2,pt2,eta2,phi2,Q2,M
99993,146511,521826394,37.1051,-12.0587,-6.47407,34.4886,13.6867,1.65458,-2.64888,1,1.23867,-0.089044,1.17499,0.381819,1.17836,0.318609,1.64643,-1,8.86858
99994,146511,522722226,69.6006,-63.5037,-8.94414,27.0467,64.1305,0.410148,-3.00167,-1,53.9217,26.8988,-40.8564,22.6883,48.9162,0.448619,-0.988556,1,94.6793
99995,146511,522575834,12.3131,-10.658,5.16444,3.36858,11.8433,0.280727,2.69037,-1,1.80181,0.668609,-1.58437,0.537805,1.71967,0.307851,-1.17147,1,8.44779
99996,146511,522786431,18.4642,7.85499,15.133,-7.08659,17.0502,-0.40451,1.09201,1,14.6911,-1.41802,-2.28117,-14.4435,2.68598,-2.38388,-2.12696,1,20.7154
99997,146511,522906124,4.18566,-3.2735,-0.308507,-2.59013,3.28801,-0.723075,-3.04763,1,72.8174,-11.0749,-9.28179,-71.3693,14.4501,-2.30041,-2.44405,-1,12.7135
99998,146511,523243830,54.4622,11.3526,11.8809,51.924,16.4328,1.8678,0.808132,-1,8.58671,0.378009,3.07828,8.00705,3.10141,1.67717,1.44861,1,4.6967
99999,146511,524172389,7.64,0.886162,5.4789,-5.25033,5.5501,-0.842662,1.41044,1,52.1088,16.8075,-4.6051,49.1084,17.427,1.75925,-0.267427,-1,36.5043


# ***Анализ датафрейма***

In [None]:
df.describe()

Unnamed: 0,Run,Event,E1,px1,py1,pz1,pt1,eta1,phi1,Q1,E2,px2,py2,pz2,pt2,eta2,phi2,Q2,M
count,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,99915.0
mean,147935.32723,495721200.0,36.436466,0.135897,0.182291,-1.508037,14.412167,-0.064095,0.021614,-0.00548,44.002901,-0.003984,0.124654,-1.590559,13.802036,-0.07283,0.021385,-0.00422,30.019521
std,920.306064,403770300.0,41.216203,13.404976,13.470281,51.603652,12.38874,1.462137,1.799562,0.99999,46.751132,13.127404,13.168867,61.43004,12.460549,1.738033,1.817031,0.999996,25.255847
min,146511.0,6414.0,0.377928,-250.587,-126.079,-840.987,0.219629,-4.16538,-3.14158,-1.0,0.4725,-233.73,-145.651,-655.396,0.026651,-7.06479,-3.14158,-1.0,2.00008
25%,147114.0,202397000.0,8.458595,-5.233675,-5.276248,-15.859825,3.771172,-1.283883,-1.52703,-1.0,11.055725,-4.79477,-4.605965,-22.03695,3.738103,-1.892287,-1.556925,-1.0,12.4452
50%,147929.0,390275900.0,21.717,0.141339,0.099092,-0.312987,12.9678,-0.061178,0.034324,-1.0,25.2646,-0.035638,0.083665,-0.690244,11.69095,-0.135911,0.026986,-1.0,21.2831
75%,149011.0,633889100.0,50.00335,5.71456,5.648087,13.21265,20.018925,1.144408,1.562355,1.0,66.925525,4.81954,5.06186,19.005825,19.5964,1.768253,1.596737,1.0,39.02505
max,149182.0,1791247000.0,850.602,134.539,147.467,760.096,265.578,2.62297,3.14142,1.0,948.375,227.33,166.283,935.558,281.654,3.06055,3.14129,1.0,109.999


# ***Транспонирование датафрейма***

In [None]:
df.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Run,100000.0,147935.3,920.3061,146511.0,147114.0,147929.0,149011.0,149182.0
Event,100000.0,495721200.0,403770300.0,6414.0,202397000.0,390275900.0,633889100.0,1791247000.0
E1,100000.0,36.43647,41.2162,0.377928,8.458595,21.717,50.00335,850.602
px1,100000.0,0.1358968,13.40498,-250.587,-5.233675,0.1413385,5.71456,134.539
py1,100000.0,0.1822913,13.47028,-126.079,-5.276248,0.09909205,5.648087,147.467
pz1,100000.0,-1.508037,51.60365,-840.987,-15.85983,-0.312987,13.21265,760.096
pt1,100000.0,14.41217,12.38874,0.219629,3.771172,12.9678,20.01892,265.578
eta1,100000.0,-0.06409547,1.462137,-4.16538,-1.283883,-0.0611785,1.144408,2.62297
phi1,100000.0,0.0216143,1.799562,-3.14158,-1.52703,0.03432395,1.562355,3.14142
Q1,100000.0,-0.00548,0.99999,-1.0,-1.0,-1.0,1.0,1.0


# ***Выборка нескольких столбцов датафрейма***

In [None]:
import pandas as pd

necessary_columns = ["pt1","py1","pz1"]

df[necessary_columns]


Unnamed: 0,pt1,py1,pz1
0,12.82020,10.531000,-57.29740
1,4.19242,-0.579855,-5.11278
2,11.66100,2.041680,22.72460
3,14.06190,11.887100,63.86620
4,14.91790,-14.622700,-59.61210
...,...,...,...
99995,11.84330,5.164440,3.36858
99996,17.05020,15.133000,-7.08659
99997,3.28801,-0.308507,-2.59013
99998,16.43280,11.880900,51.92400


# ***Вычисление новых значений датафрейма***

In [None]:
df["delta E"] = abs(df["E2"] - df["E1"])
df["sum Q"] = abs(df["Q2"] + df["Q1"])
df.head()

Unnamed: 0,Run,Event,E1,px1,py1,pz1,pt1,eta1,phi1,Q1,...,py2,pz2,pt2,eta2,phi2,Q2,M,check_deltaE,delta E,sum Q
0,147115,366639895,58.7141,-7.31132,10.531,-57.2974,12.8202,-2.20267,2.17766,1,...,-1.88066,-11.0778,2.14537,-2.34403,-2.07281,-1,8.94841,,47.4305,0
1,147115,366704169,6.61188,-4.15213,-0.579855,-5.11278,4.19242,-1.02842,-3.00284,-1,...,5.04474,11.4647,12.7536,0.808077,2.73492,1,15.893,,10.53732,0
2,147115,367112316,25.5419,-11.4809,2.04168,22.7246,11.661,1.42048,2.9656,1,...,2.25895,-15.5888,2.69667,-2.45508,2.14857,1,38.3877,,9.7216,2
3,147115,366952149,65.3959,7.51214,11.8871,63.8662,14.0619,2.21838,1.00721,1,...,2.59641,24.6563,4.84272,2.33021,0.565865,-1,3.72862,,40.2686,0
4,147115,366523212,61.4504,2.95284,-14.6227,-59.6121,14.9179,-2.09375,-1.37154,-1,...,-2.4256,-13.6708,2.44145,-2.4237,-1.68481,-1,2.74718,,47.5633,2


# ***Удаление колонок***

In [None]:
df = df.drop("sum Q", axis=1)
df.head()

Unnamed: 0,Run,Event,E1,px1,py1,pz1,pt1,eta1,phi1,Q1,...,px2,py2,pz2,pt2,eta2,phi2,Q2,M,check_deltaE,delta E
0,147115,366639895,58.7141,-7.31132,10.531,-57.2974,12.8202,-2.20267,2.17766,1,...,-1.03234,-1.88066,-11.0778,2.14537,-2.34403,-2.07281,-1,8.94841,,47.4305
1,147115,366704169,6.61188,-4.15213,-0.579855,-5.11278,4.19242,-1.02842,-3.00284,-1,...,-11.7135,5.04474,11.4647,12.7536,0.808077,2.73492,1,15.893,,10.53732
2,147115,367112316,25.5419,-11.4809,2.04168,22.7246,11.661,1.42048,2.9656,1,...,-1.4728,2.25895,-15.5888,2.69667,-2.45508,2.14857,1,38.3877,,9.7216
3,147115,366952149,65.3959,7.51214,11.8871,63.8662,14.0619,2.21838,1.00721,1,...,4.08786,2.59641,24.6563,4.84272,2.33021,0.565865,-1,3.72862,,40.2686
4,147115,366523212,61.4504,2.95284,-14.6227,-59.6121,14.9179,-2.09375,-1.37154,-1,...,-0.277757,-2.4256,-13.6708,2.44145,-2.4237,-1.68481,-1,2.74718,,47.5633


# ***Получение строк датафрейма***

In [None]:
df.iloc[0]

Run        1.471150e+05
Event      3.666399e+08
E1         5.871410e+01
px1       -7.311320e+00
py1        1.053100e+01
pz1       -5.729740e+01
pt1        1.282020e+01
eta1      -2.202670e+00
phi1       2.177660e+00
Q1         1.000000e+00
E2         1.128360e+01
px2       -1.032340e+00
py2       -1.880660e+00
pz2       -1.107780e+01
pt2        2.145370e+00
eta2      -2.344030e+00
phi2      -2.072810e+00
Q2        -1.000000e+00
M          8.948410e+00
delta E    4.743050e+01
Name: 0, dtype: float64

In [None]:
df.loc[20:90]

Unnamed: 0,Run,Event,E1,px1,py1,pz1,pt1,eta1,phi1,Q1,E2,px2,py2,pz2,pt2,eta2,phi2,Q2,M,delta E
20,147115,369036793,28.21650,22.393300,-4.739480,16.49980,22.88940,0.669664,-0.208569,1,97.14670,-18.019500,9.989440,-94.93680,20.60320,-2.232480,2.63540,-1,97.55450,68.93020
21,147115,369225601,2.29842,-1.727750,-0.311871,1.48336,1.75567,0.767344,-2.963010,-1,43.09170,-8.480810,2.074530,-42.19800,8.73085,-2.279190,2.90169,-1,17.18330,40.79328
22,147115,369782322,64.31160,-0.026877,13.331100,-62.91480,13.33110,-2.255870,1.572810,1,19.72170,-1.305860,3.891280,-19.28990,4.10455,-2.251760,1.89457,-1,2.37002,44.58990
23,147115,369347180,52.00280,-16.466400,4.645760,49.10770,17.10920,1.776600,2.866600,-1,3.47042,-1.658430,-1.428750,-2.69296,2.18900,-1.035180,-2.43045,1,24.16800,48.53238
24,147115,369345005,10.26680,5.896800,0.961480,8.34934,5.97467,1.136500,0.161629,1,8.97432,-0.854865,7.906080,-4.15952,7.95216,-0.501749,1.67851,1,15.76750,1.29248
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
86,147115,489268210,21.62680,-16.622600,11.810900,7.20479,20.39140,0.346359,2.523830,1,17.23740,1.835830,-2.709750,-16.92380,3.27308,-2.345360,-0.97534,-1,33.38390,4.38940
87,147115,489293867,149.78400,10.886100,-23.601900,-147.51200,25.99150,-2.436960,-1.138640,1,3.15509,1.094940,-2.046040,-2.13763,2.32060,-0.824509,-1.07943,1,13.93190,146.62891
88,147115,489348979,63.44790,30.117300,-55.645400,4.70911,63.27290,0.074357,-1.074710,1,12.98140,-10.867600,-0.577937,7.07651,10.88300,0.611422,-3.08846,-1,46.59320,50.46650
89,147115,490083197,70.63290,-8.108840,-10.122000,-69.43200,12.96950,-2.379500,-2.246210,-1,134.10100,24.396300,-0.789991,-131.86100,24.40910,-2.388400,-0.03237,-1,31.82500,63.46810


# ***Выборка данных по условию (Conditional filtering)***


In [None]:
condition_expression = df["E1"] >= 45

df[condition_expression]


### Или

df[df["E1"] >= 45]

Unnamed: 0,Run,Event,E1,px1,py1,pz1,pt1,eta1,phi1,Q1,E2,px2,py2,pz2,pt2,eta2,phi2,Q2,M,delta E
0,147115,366639895,58.7141,-7.31132,10.53100,-57.2974,12.8202,-2.202670,2.177660,1,11.283600,-1.032340,-1.880660,-11.077800,2.145370,-2.344030,-2.072810,-1,8.94841,47.430500
3,147115,366952149,65.3959,7.51214,11.88710,63.8662,14.0619,2.218380,1.007210,1,25.127300,4.087860,2.596410,24.656300,4.842720,2.330210,0.565865,-1,3.72862,40.268600
4,147115,366523212,61.4504,2.95284,-14.62270,-59.6121,14.9179,-2.093750,-1.371540,-1,13.887100,-0.277757,-2.425600,-13.670800,2.441450,-2.423700,-1.684810,-1,2.74718,47.563300
6,147115,366639101,84.5058,8.82436,10.57890,83.3753,13.7761,2.500320,0.875576,1,12.678400,-1.134460,-3.209390,-12.212800,3.404000,-1.989560,-1.910570,-1,65.32390,71.827400
7,147115,367133576,77.0057,10.00290,9.17545,-75.8000,13.5737,-2.421030,0.742282,1,9.116230,-1.722950,-1.486740,-8.827610,2.275740,-2.064940,-2.429650,1,11.29120,67.889470
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99975,146511,514859797,169.6360,-7.01273,-35.29550,-165.7750,35.9854,-2.232240,-1.766930,1,0.972091,0.501227,0.775205,0.304612,0.923131,0.324265,0.996834,1,22.19350,168.663909
99982,146511,521045633,98.9674,-19.70370,1.75639,96.9702,19.7818,2.293030,3.052690,-1,8.334640,0.154482,3.197970,-7.695150,3.201700,-1.610770,1.522530,1,56.00870,90.632760
99992,146511,522163364,68.6939,-23.62530,-43.57650,-47.5582,49.5688,-0.852401,-2.067600,-1,2.695400,1.385470,2.195680,0.724318,2.596250,0.275488,1.007890,1,26.38240,65.998500
99994,146511,522722226,69.6006,-63.50370,-8.94414,27.0467,64.1305,0.410148,-3.001670,-1,53.921700,26.898800,-40.856400,22.688300,48.916200,0.448619,-0.988556,1,94.67930,15.678900


and -> & = ЛОГИЧЕСКОЕ И



---


or -> | = ЛОГИЧЕСКОЕ ИЛИ

In [None]:
df[(df["E1"] >= 45) & (df["delta E"] > 200)]

Unnamed: 0,Run,Event,E1,px1,py1,pz1,pt1,eta1,phi1,Q1,E2,px2,py2,pz2,pt2,eta2,phi2,Q2,M,delta E
392,147115,257101612,210.5220,-27.12650,60.1724,-199.9070,66.0043,-1.82748,1.994330,1,8.28061,0.383579,5.10716,-6.50679,5.12154,-1.060320,1.495830,1,17.06380,202.24139
812,147115,394438222,285.8900,-9.33644,-54.0914,280.5710,54.8912,2.33406,-1.741720,1,11.09680,-0.802220,-2.95716,10.66540,3.06404,1.960440,-1.835700,1,5.02381,274.79320
983,147115,259682476,257.8160,41.39260,-16.7979,-253.9160,44.6713,-2.43847,-0.385513,1,41.72770,-12.967900,4.97794,-39.34790,13.89050,-1.764170,2.775070,1,52.67630,216.08830
1007,147115,284296195,75.2396,-11.39370,25.7692,69.7648,28.1757,1.63830,1.987100,1,280.98500,28.972700,-62.57970,272.39100,68.96120,2.082490,-1.137210,-1,90.33960,205.74540
1633,147115,559872400,251.6700,-41.97540,-22.5413,-247.1190,47.6450,-2.34841,-2.648780,1,2.85850,-1.938080,-0.26903,2.08386,1.95666,0.926602,-3.003660,1,47.89460,248.81150
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
98768,146511,345960451,221.1870,25.99490,-28.4854,217.7990,38.5636,2.43216,-0.831079,-1,8.10663,2.605130,1.00829,-7.61013,2.79345,-1.727450,0.369286,-1,82.60210,213.08037
98998,146511,530673657,315.3150,71.06340,32.7461,305.4530,78.2452,2.07111,0.431800,1,10.88380,-4.701720,5.90082,-7.84414,7.54493,-0.909140,2.243580,-1,109.25900,304.43120
99085,146511,124056260,219.3540,-15.65770,35.8780,-215.8330,39.1458,-2.40848,1.982300,1,3.74935,2.392170,1.94025,2.13790,3.08011,0.647826,0.681464,-1,50.03420,215.60465
99240,146511,20113870,263.5320,-29.45520,-41.3651,258.5940,50.7807,2.33039,-2.189580,1,7.18883,1.314840,3.88032,5.90707,4.09704,1.162030,1.244090,1,33.65110,256.34317


In [None]:
df[(df["E1"] >= 300) | (df["E2"] > 200)]

Unnamed: 0,Run,Event,E1,px1,py1,pz1,pt1,eta1,phi1,Q1,E2,px2,py2,pz2,pt2,eta2,phi2,Q2,M,delta E
80,147115,489463767,5.97084,-2.073170,0.937601,-5.520310,2.27533,-1.619450,2.716870,-1,262.043,33.172400,-31.98640,257.959,46.0819,2.42341,-0.767198,1,78.57970,256.07216
421,147115,207091758,2.23519,0.774322,-0.858923,-1.912780,1.15643,-1.277280,-0.837151,1,243.487,20.282400,-39.44100,-239.414,44.3506,-2.38769,-1.095820,-1,8.56858,241.25181
504,147115,215883828,3.33603,2.041170,-2.501180,-0.840719,3.22836,-0.257560,-0.886325,1,218.723,33.975400,25.89140,-214.511,42.7164,-2.31670,0.651177,-1,33.00700,215.38697
510,147115,512885578,9.99363,-2.081190,-1.096110,-9.712870,2.35219,-2.125600,-2.656840,-1,228.272,29.442600,37.04230,223.314,47.3181,2.25587,0.899211,-1,95.41650,218.27837
810,147115,393564750,9.05709,-1.835400,-1.782420,-8.688220,2.55846,-1.936720,-2.370840,-1,207.020,0.364749,42.50500,-202.609,42.5066,-2.26559,1.562220,-1,19.55070,197.96291
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99426,146511,103339840,192.43700,43.813400,-13.167300,-186.920000,45.74930,-2.115300,-0.291944,1,338.882,-19.187300,46.33980,-335.150,50.1550,-2.59816,1.963360,-1,89.64500,146.44500
99695,146511,354666222,5.14515,0.902665,3.408790,3.746720,3.52628,0.924894,1.311930,1,262.533,-9.605980,-50.63160,-257.425,51.5348,-2.31149,-1.758290,-1,70.66160,257.38785
99755,146511,36452466,5.83732,3.283880,-0.242895,4.819900,3.29285,1.174480,-0.073832,-1,205.587,-41.572500,-8.73696,201.151,42.4806,2.25912,-2.934450,1,27.01670,199.74968
99792,146511,275492932,2.66404,-0.358910,-2.025980,-1.692250,2.05753,-0.750118,-1.746130,1,258.036,50.426800,-16.34410,252.532,53.0094,2.26506,-0.313432,-1,46.89900,255.37196


# ***Apply***

Функция Pandas DataFrame.apply() позволяет пользователю передать функцию и применить ее к каждому отдельному значению серии Pandas. Эта функция улучшает возможности библиотеки Pandas, поскольку помогает разделять данные в соответствии с требуемыми условиями. Так что ее можно эффективно использовать для науки о данных и машинного обучения.

Объекты, которые должны быть переданы в функцию, представляют собой объекты Series, индекс которых является либо индексом DataFrame, т. е. ось = 0, либо столбцами DataFrame, т. е. ось = 1.

По умолчанию result_type=None, а окончательный тип возвращаемого значения выводится из типа возвращаемого значения примененной функции. В противном случае это зависит от аргумента result_type.


In [None]:
def check_deltaE(delta_E):

  if delta_E <= 15.2:
    return "Значение находится в самом низком диапазоне датафрейма"

  if delta_E > 15.2 and delta_E < 36.6:
    return "Значение находится в среднем диапазоне датафрейма"
  
  else:
    return "Значение находится в диапазоне самых больших чисел датафрейма"


df = df[df["delta E"] != 0]

df["check_deltaE"] = df["delta E"].apply(check_deltaE)


df

Unnamed: 0,Run,Event,E1,px1,py1,pz1,pt1,eta1,phi1,Q1,...,px2,py2,pz2,pt2,eta2,phi2,Q2,M,check_deltaE,delta E
0,147115,366639895,58.71410,-7.311320,10.531000,-57.29740,12.82020,-2.202670,2.177660,1,...,-1.032340,-1.88066,-11.077800,2.14537,-2.344030,-2.072810,-1,8.94841,Значение находится в диапазоне самых больших ч...,47.43050
1,147115,366704169,6.61188,-4.152130,-0.579855,-5.11278,4.19242,-1.028420,-3.002840,-1,...,-11.713500,5.04474,11.464700,12.75360,0.808077,2.734920,1,15.89300,Значение находится в самом низком диапазоне да...,10.53732
2,147115,367112316,25.54190,-11.480900,2.041680,22.72460,11.66100,1.420480,2.965600,1,...,-1.472800,2.25895,-15.588800,2.69667,-2.455080,2.148570,1,38.38770,Значение находится в самом низком диапазоне да...,9.72160
3,147115,366952149,65.39590,7.512140,11.887100,63.86620,14.06190,2.218380,1.007210,1,...,4.087860,2.59641,24.656300,4.84272,2.330210,0.565865,-1,3.72862,Значение находится в диапазоне самых больших ч...,40.26860
4,147115,366523212,61.45040,2.952840,-14.622700,-59.61210,14.91790,-2.093750,-1.371540,-1,...,-0.277757,-2.42560,-13.670800,2.44145,-2.423700,-1.684810,-1,2.74718,Значение находится в диапазоне самых больших ч...,47.56330
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,146511,522575834,12.31310,-10.658000,5.164440,3.36858,11.84330,0.280727,2.690370,-1,...,0.668609,-1.58437,0.537805,1.71967,0.307851,-1.171470,1,8.44779,Значение находится в самом низком диапазоне да...,10.51129
99996,146511,522786431,18.46420,7.854990,15.133000,-7.08659,17.05020,-0.404510,1.092010,1,...,-1.418020,-2.28117,-14.443500,2.68598,-2.383880,-2.126960,1,20.71540,Значение находится в самом низком диапазоне да...,3.77310
99997,146511,522906124,4.18566,-3.273500,-0.308507,-2.59013,3.28801,-0.723075,-3.047630,1,...,-11.074900,-9.28179,-71.369300,14.45010,-2.300410,-2.444050,-1,12.71350,Значение находится в диапазоне самых больших ч...,68.63174
99998,146511,523243830,54.46220,11.352600,11.880900,51.92400,16.43280,1.867800,0.808132,-1,...,0.378009,3.07828,8.007050,3.10141,1.677170,1.448610,1,4.69670,Значение находится в диапазоне самых больших ч...,45.87549


# ***Apply для нескольких колонок***

In [None]:
def calculate_ratio(first_column, second_column):
  return first_column / second_column


df["delta_pz"] = df[["pz1","pz2"]].apply(    
            lambda df: calculate_ratio(df["pz1"], df["pz2"]), axis=1)

df["delta_py"] = df[["py1","py2"]].apply(    
            lambda df: calculate_ratio(df["py1"], df["py2"]), axis=1)


df[["delta_py", "delta_pz"]]

Unnamed: 0,delta_py,delta_pz
0,-5.599630,5.172272
1,-0.114942,-0.445958
2,0.903818,-1.457752
3,4.578283,2.590259
4,6.028488,4.360542
...,...,...
99995,-3.259617,6.263571
99996,-6.633876,0.490642
99997,0.033238,0.036292
99998,3.859590,6.484785


In [None]:
import numpy as np


def calculate_ratio(first_column, second_column):
  return first_column / second_column


df["delta_pz"] = df[["pz1","pz2"]].apply(    
            lambda df: calculate_ratio(df["pz1"], df["pz2"]), axis=1)

df["delta_py"] = df[["py1","py2"]].apply(    
            lambda df: calculate_ratio(df["py1"], df["py2"]), axis=1)


df[["delta_py", "delta_pz"]]


Unnamed: 0,delta_py,delta_pz
0,-5.599630,5.172272
1,-0.114942,-0.445958
2,0.903818,-1.457752
3,4.578283,2.590259
4,6.028488,4.360542
...,...,...
99995,-3.259617,6.263571
99996,-6.633876,0.490642
99997,0.033238,0.036292
99998,3.859590,6.484785


# ***Статистическая информация и сортировка данных***

In [None]:
# сортировка колонки по возрастанию

df.sort_values("E1") 

Unnamed: 0,Run,Event,E1,px1,py1,pz1,pt1,eta1,phi1,Q1,...,px2,py2,pz2,pt2,eta2,phi2,Q2,M,delta_py,delta_pz
16815,146644,1379012365,0.377928,-0.124127,-0.181189,0.307560,0.219629,1.138190,-2.171430,1,...,16.66250,2.180900,80.02050,16.80460,2.264620,0.130147,-1,4.18421,-0.083080,0.003844
88676,146944,403888037,0.518048,0.207286,-0.141191,0.453290,0.250803,1.354010,-0.597957,1,...,-12.44150,7.253050,-51.44070,14.40130,-1.985300,2.613790,-1,10.44930,-0.019466,-0.008812
90561,146944,362924107,0.603627,0.203458,-0.273321,0.498264,0.340734,1.173680,-0.930895,1,...,-1.77371,-2.618870,-5.98489,3.16299,-1.394340,-2.166110,1,3.66422,0.104366,-0.083254
90923,146944,666532875,0.606448,0.060149,-0.523052,0.300962,0.526499,0.544346,-1.456300,-1,...,-7.46449,17.121200,44.62260,18.67760,1.605230,1.981930,-1,7.11488,-0.030550,0.006745
2050,147115,179690108,0.664275,-0.103378,-0.647509,0.106331,0.655710,0.161459,-1.729120,-1,...,6.41110,5.926720,-39.71690,8.73087,-2.219930,0.746159,1,8.45415,-0.109253,-0.002677
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
85509,147926,546698466,521.058000,79.950000,-83.184200,508.123000,115.376000,2.188320,-0.805221,1,...,-4.87176,4.318010,6.42982,6.50993,0.872645,2.416380,1,67.07040,-19.264476,79.026007
44073,149011,382219754,521.519000,85.669800,-27.320100,513.709000,89.920500,2.443450,-0.308705,1,...,-3.69279,-0.840981,14.13990,3.78734,2.027960,-2.917680,-1,36.43500,32.485990,36.330455
44885,149011,570784547,770.583000,-22.689700,124.649000,760.096000,126.697000,2.491670,1.750850,-1,...,-4.32788,0.947612,17.85040,4.43041,2.101740,2.926040,-1,27.86430,131.540124,42.581455
21447,149181,1027009861,838.830000,-250.587000,-87.965200,-795.679000,265.578000,-1.817190,-2.803990,-1,...,-11.83550,4.618670,-37.63370,12.70480,-1.806410,2.769530,1,40.36690,-19.045569,21.142726


In [None]:
# сортировка колонки по убыванию

df.sort_values("E1", ascending=False) 

Unnamed: 0,Run,Event,E1,px1,py1,pz1,pt1,eta1,phi1,Q1,...,px2,py2,pz2,pt2,eta2,phi2,Q2,M,delta_py,delta_pz
18749,149181,791043155,850.602000,53.777600,115.639000,-840.987000,127.532000,-2.585060,1.135500,1,...,-2.08829,-1.129120,1.67872,2.37400,0.658496,-2.645930,1,90.86020,-102.415155,-500.969191
21447,149181,1027009861,838.830000,-250.587000,-87.965200,-795.679000,265.578000,-1.817190,-2.803990,-1,...,-11.83550,4.618670,-37.63370,12.70480,-1.806410,2.769530,1,40.36690,-19.045569,21.142726
44885,149011,570784547,770.583000,-22.689700,124.649000,760.096000,126.697000,2.491670,1.750850,-1,...,-4.32788,0.947612,17.85040,4.43041,2.101740,2.926040,-1,27.86430,131.540124,42.581455
44073,149011,382219754,521.519000,85.669800,-27.320100,513.709000,89.920500,2.443450,-0.308705,1,...,-3.69279,-0.840981,14.13990,3.78734,2.027960,-2.917680,-1,36.43500,32.485990,36.330455
85509,147926,546698466,521.058000,79.950000,-83.184200,508.123000,115.376000,2.188320,-0.805221,1,...,-4.87176,4.318010,6.42982,6.50993,0.872645,2.416380,1,67.07040,-19.264476,79.026007
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2050,147115,179690108,0.664275,-0.103378,-0.647509,0.106331,0.655710,0.161459,-1.729120,-1,...,6.41110,5.926720,-39.71690,8.73087,-2.219930,0.746159,1,8.45415,-0.109253,-0.002677
90923,146944,666532875,0.606448,0.060149,-0.523052,0.300962,0.526499,0.544346,-1.456300,-1,...,-7.46449,17.121200,44.62260,18.67760,1.605230,1.981930,-1,7.11488,-0.030550,0.006745
90561,146944,362924107,0.603627,0.203458,-0.273321,0.498264,0.340734,1.173680,-0.930895,1,...,-1.77371,-2.618870,-5.98489,3.16299,-1.394340,-2.166110,1,3.66422,0.104366,-0.083254
88676,146944,403888037,0.518048,0.207286,-0.141191,0.453290,0.250803,1.354010,-0.597957,1,...,-12.44150,7.253050,-51.44070,14.40130,-1.985300,2.613790,-1,10.44930,-0.019466,-0.008812


In [None]:
# Получение максимального и минимального значения
df["E1"].max()

df["E1"].min()


0.377928

In [None]:
# Получение индекса максимального и минимального значения

min_id = df["E2"].idxmin()
max_id = df["E2"].idxmax()

df.iloc[min_id] , df.iloc[max_id]


(Run         1.471150e+05
 Event       1.499815e+08
 E1          6.787770e+00
 px1        -8.137180e-01
 py1         3.697690e+00
 pz1        -5.633720e+00
 pt1         3.786160e+00
 eta1       -1.188070e+00
 phi1        1.787410e+00
 Q1          1.000000e+00
 E2          4.725000e-01
 px2        -1.474660e-02
 py2         2.770680e-01
 pz2         3.824560e-01
 pt2         2.774600e-01
 eta2        1.125370e+00
 phi2        1.623970e+00
 Q2         -1.000000e+00
 M           2.941210e+00
 delta_py    1.334579e+01
 delta_pz   -1.473037e+01
 Name: 1057, dtype: float64, Run         1.491810e+05
 Event       1.226811e+09
 E1          3.403680e+00
 px1        -1.879450e+00
 py1        -1.435470e-01
 pz1         2.834100e+00
 pt1         1.884920e+00
 eta1        1.196740e+00
 phi1       -3.065360e+00
 Q1         -1.000000e+00
 E2          9.483750e+02
 px2         1.387450e+02
 py2         6.996180e+01
 pz2         9.355580e+02
 pt2         1.553860e+02
 eta2        2.495210e+00
 phi2     

# ***Вычисление коэффициента корреляции***

In [None]:
df.corr()

Unnamed: 0,Run,Event,E1,px1,py1,pz1,pt1,eta1,phi1,Q1,...,px2,py2,pz2,pt2,eta2,phi2,Q2,M,delta_py,delta_pz
Run,1.0,0.177591,0.09316,-0.000805,0.002612,-0.008263,0.154394,-0.005313,-0.001447,0.002163,...,0.002809,-0.004938,0.002738,0.151615,0.005224,0.000432,0.00211,0.129452,0.004737,0.00406
Event,0.177591,1.0,0.040582,-0.001221,0.001085,-0.003456,0.059086,-0.005444,-0.000474,-0.005656,...,-0.000759,-0.004475,0.002236,0.05889,0.003076,-0.00361,0.003686,0.052364,-0.002877,0.001446
E1,0.09316,0.040582,1.0,0.006,0.033998,-0.042896,0.716405,-0.02054,0.020598,0.018693,...,-0.010165,-0.020166,-0.000463,-0.139307,-0.008389,-0.007031,-0.001123,0.285231,0.005458,0.003413
px1,-0.000805,-0.001221,0.006,1.0,-0.008246,-0.012964,-0.004785,-0.010422,-0.007364,-0.005349,...,-0.326203,0.001338,-0.004637,-0.003673,-0.003684,0.0024,0.005808,0.006112,0.001956,-0.000696
py1,0.002612,0.001085,0.033998,-0.008246,1.0,-0.01019,0.014005,-0.01157,0.593994,-0.002777,...,0.002932,-0.333377,0.000201,0.002553,-0.001624,-0.221696,0.003516,0.007538,0.005325,0.00324
pz1,-0.008263,-0.003456,-0.042896,-0.012964,-0.01019,1.0,-0.010538,0.77154,-0.011113,-0.002696,...,0.0026,-0.001779,0.205669,0.005678,0.229279,0.003791,0.000509,0.011526,0.014808,-0.00637
pt1,0.154394,0.059086,0.716405,-0.004785,0.014005,-0.010538,1.0,0.012602,0.005075,0.018449,...,-0.008233,-0.020131,0.012364,-0.031569,0.004559,-0.006604,-0.003217,0.43714,0.001426,0.001803
eta1,-0.005313,-0.005444,-0.02054,-0.010422,-0.01157,0.77154,0.012602,1.0,-0.013193,-0.001729,...,-0.000823,-0.004075,0.223965,-0.005242,0.245753,0.002155,0.003021,0.017102,0.005665,-0.005472
phi1,-0.001447,-0.000474,0.020598,-0.007364,0.593994,-0.011113,0.005075,-0.013193,1.0,0.000666,...,0.00323,-0.217198,3.7e-05,-0.000796,0.000695,-0.13425,-0.001711,0.001833,0.001647,0.001703
Q1,0.002163,-0.005656,0.018693,-0.005349,-0.002777,-0.002696,0.018449,-0.001729,0.000666,1.0,...,-0.003489,0.003405,-0.005289,-0.008557,-0.004432,-0.001543,-0.141087,0.005624,0.005337,0.002046


# ***Вычисляем количество значений в датафрейме***

In [None]:
df["Q1"].value_counts()

-1    50274
 1    49726
Name: Q1, dtype: int64

# ***Вычисляем количество уникальных значений столбца в датафрейме***

In [None]:
df["py1"].unique() # получаем массив уникальных значений

df["py1"].nunique() # получаем количество значений

97153

In [None]:
import pandas as pd

test_df = pd.DataFrame([1,1,2,2,3,3,3],["a", "b", "c", "d", "e", "f", "g"])

print(test_df)

print('')

test_df_without_duplicates = test_df.drop_duplicates()
test_df_without_duplicates

   0
a  1
b  1
c  2
d  2
e  3
f  3
g  3



Unnamed: 0,0
a,1
c,2
e,3


# ***between как альтернатива and***

In [None]:
df[df["E1"].between(20, 30, inclusive=True)]

#inclusive=True для включения крайнего значения (в нашем случае 30)

  df[df["E1"].between(20, 30, inclusive=True)]


Unnamed: 0,Run,Event,E1,px1,py1,pz1,pt1,eta1,phi1,Q1,...,px2,py2,pz2,pt2,eta2,phi2,Q2,M,delta_py,delta_pz
2,147115,367112316,25.5419,-11.48090,2.041680,22.72460,11.66100,1.420480,2.965600,1,...,-1.472800,2.25895,-15.58880,2.69667,-2.45508,2.148570,1,38.3877,0.903818,-1.457752
9,147115,367825395,27.8812,11.93900,-18.346200,17.26960,21.88880,0.724032,-0.993887,1,...,-5.026300,11.60260,2.66263,12.64450,0.20905,1.979600,-1,34.2685,-1.581215,6.485918
16,147115,367999432,21.7122,-14.85560,10.176800,-12.13110,18.00710,-0.630977,2.540970,1,...,-2.916700,0.61632,15.23230,2.98111,2.33371,2.933350,1,30.7306,16.512201,-0.796406
20,147115,369036793,28.2165,22.39330,-4.739480,16.49980,22.88940,0.669664,-0.208569,1,...,-18.019500,9.98944,-94.93680,20.60320,-2.23248,2.635400,-1,97.5545,-0.474449,-0.173798
30,147115,369721190,22.3401,4.75581,17.536600,-12.99730,18.17000,-0.665170,1.305970,1,...,0.648815,-8.15422,34.14810,8.18000,2.13621,-1.491400,1,52.3106,-2.150616,-0.380616
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99958,146511,508652787,22.7767,-3.91522,-3.682610,-22.13340,5.37499,-2.122910,-2.386800,-1,...,-8.834430,14.93210,-89.58810,17.34980,-2.34404,2.105050,1,15.2279,-0.246624,0.247057
99961,146511,509206813,24.5966,-23.08210,-0.994177,8.43928,23.10350,0.357610,-3.098550,-1,...,14.036900,-6.42968,85.57860,15.43940,2.41370,-0.429533,1,58.8950,0.154623,0.098614
99968,146511,513547222,24.1512,-4.79166,-1.213510,-23.64000,4.94294,-2.268880,-2.893550,1,...,12.970700,15.29790,-102.99400,20.05650,-2.33861,0.867538,1,18.9787,-0.079325,0.229528
99988,146511,521432150,27.4324,24.92900,0.629888,11.43190,24.93690,0.443729,0.025262,-1,...,3.068200,-3.16243,19.97590,4.40623,2.21660,-0.800520,-1,22.7289,-0.199178,0.572285


In [None]:
df["E1"].nlargest(8) # Получение N самых больших значений

18749    850.602
21447    838.830
44885    770.583
44073    521.519
85509    521.058
35893    516.635
32676    494.841
67625    478.070
Name: E1, dtype: float64

In [None]:
df["E1"].nsmallest(6) # Получение N самых маленьких значений

16815    0.377928
88676    0.518048
90561    0.603627
90923    0.606448
2050     0.664275
38694    0.759882
Name: E1, dtype: float64

# ***Получение части датафрейма рандомным образом***

In [None]:
random_data = df.sample(3) # получение 3 строк

frac_random_data = df.sample(frac=0.03) #получение 3% датафрейма

frac_random_data

Unnamed: 0,Run,Event,E1,px1,py1,pz1,pt1,eta1,phi1,Q1,...,px2,py2,pz2,pt2,eta2,phi2,Q2,M,delta_py,delta_pz
627,147115,468256266,5.31581,4.80652,1.79571,-1.38947,5.13101,-0.267593,0.357542,-1,...,-10.152700,11.95070,-65.99930,15.68110,-2.144160,2.27503,1,24.34100,0.150260,0.021053
63847,147754,284342968,36.72080,12.91550,-10.81650,-32.62840,16.84660,-1.415010,-0.697182,1,...,-8.853280,9.38633,-51.62200,12.90290,-2.094910,2.32698,1,31.15920,-1.152367,0.632064
20204,149181,1238226966,100.91100,8.92682,16.06800,-99.22240,18.38120,-2.387650,1.063690,-1,...,-0.030357,-1.52153,1.75566,1.52183,0.985956,-1.59075,1,29.44070,-10.560423,-56.515726
59317,148031,596843467,14.45540,-8.05143,11.62270,3.00782,14.13900,0.211159,2.176630,1,...,-2.165570,3.85128,-18.79680,4.41838,-2.154600,2.08303,-1,23.38630,3.017880,-0.160018
94341,149182,111172806,40.04530,-14.51290,36.72180,6.67176,39.48560,0.168173,1.947170,-1,...,-3.084470,7.69926,4.07661,8.29413,0.473601,1.95184,1,5.54946,4.769523,1.636595
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
59618,148031,527685155,24.36150,12.36440,-4.88756,20.41360,13.29530,1.214240,-0.376443,1,...,-6.587220,8.06780,47.25680,10.41540,2.217380,2.25551,-1,25.88710,-0.605811,0.431972
62033,147754,323971446,16.16190,-8.74913,9.32552,-9.88405,12.78720,-0.711417,2.324320,-1,...,0.011618,-2.64104,-11.01730,2.64106,-2.135500,-1.56640,1,14.06700,-3.531003,0.897139
73563,147929,509880897,59.40170,8.50207,15.08510,56.82180,17.31600,1.903880,1.057560,1,...,1.847410,-7.30479,-30.12620,7.53478,-2.094300,-1.32309,-1,85.45150,-2.065097,-1.886126
22400,149181,797485601,249.04300,36.59380,27.19490,-244.83400,45.59240,-2.382540,0.639107,-1,...,-36.296500,-35.25660,-270.80100,50.60100,-2.379180,-2.37073,-1,95.85470,-0.771342,0.904110


# ***Работа с отсутствующими значениями (missing data)***

In [None]:
import pandas as pd
import numpy as np

test_data = pd.DataFrame({'A': [1, 2, np.nan], 'B':[np.nan,5,6], 'C':[7,np.nan,9], "D":[9,9,9]})

test_data


Unnamed: 0,A,B,C,D
0,1.0,,7.0,9
1,2.0,5.0,,9
2,,6.0,9.0,9


In [None]:
test_data.isnull()

Unnamed: 0,A,B,C
0,False,True,False
1,False,False,True
2,True,False,False


In [None]:
test_data.notnull()

Unnamed: 0,A,B,C
0,True,False,True
1,True,True,False
2,False,True,True


In [None]:
t_ = test_data.dropna(axis=1) # удаление столбцов с NaN значением
t = test_data.dropna(axis=0) # удаление строк с NaN значением
t_

Unnamed: 0,D
0,9
1,9
2,9


In [None]:
data = test_data.dropna(subset=['A']) # удаляем строку с Nan значением в столбце A
data

Unnamed: 0,A,B,C,D
0,1.0,,7.0,9
1,2.0,5.0,,9


In [None]:
test_data.fillna("значение не NaN")  # установка нового значения для всех NaN значений 

Unnamed: 0,A,B,C,D
0,1.0,значение не NaN,7.0,9
1,2.0,5.0,значение не NaN,9
2,значение не NaN,6.0,9.0,9


In [None]:
# Замена отсутстсвующих значений на среднее значение столбца

test_data["A"] = test_data["A"].fillna(test_data["A"].mean())

test_data["B"] = test_data["B"].fillna(test_data["B"].mean())

test_data["C"] = test_data["C"].fillna(test_data["C"].mean())

test_data

Unnamed: 0,A,B,C,D
0,1.0,5.5,7.0,9
1,2.0,5.0,8.0,9
2,0.0,6.0,9.0,9


# ***Замена отсутствующих данных с помощью интерполяции***

In [None]:
test_serie = pd.Series({'A': 2, 'B':np.nan, 'C':6, "D":8})

test_serie.interpolate()


A    2.0
B    4.0
C    6.0
D    8.0
dtype: float64

# ***Объединение датафреймов***

In [None]:
import pandas as pd

# Объединение датафреймов с помощью методв concat

df_1 = pd.DataFrame({'A': [1, 2, 3], 'B':[4,5,6], 'C':[7,8,9], "D":[9,10,11]})

df_2 = pd.DataFrame({'E': [12,13,14], 'F':[15,16, 17]})


result_df = pd.concat([df_1, df_2], axis=1) # при передаче axis = 1 
                                            # объединение происходит по строкам

column_result_df = pd.concat([df_1, df_2], axis=0) # при передаче axis = 0 
                                            # объединение происходит по столбцам
print("AXIS = 0")
print(column_result_df)

print("AXIS = 1")
print(result_df)

AXIS = 0
     A    B    C     D     E     F
0  1.0  4.0  7.0   9.0   NaN   NaN
1  2.0  5.0  8.0  10.0   NaN   NaN
2  3.0  6.0  9.0  11.0   NaN   NaN
0  NaN  NaN  NaN   NaN  12.0  15.0
1  NaN  NaN  NaN   NaN  13.0  16.0
2  NaN  NaN  NaN   NaN  14.0  17.0
AXIS = 1
   A  B  C   D   E   F
0  1  4  7   9  12  15
1  2  5  8  10  13  16
2  3  6  9  11  14  17


# ***Объединение датафреймов с помощью команды merge***

Для объединения датафрейма командой merge используется следующий синтаксис:
pd.merge(first_df, second_df, how="merge_type", on="column_name")

где first_df и second_df - датафреймы для слияния, а 
name - имя колонки по которой мы будем соединять два датафрейма(должно быть уникальным значением), 
how - тип слияния ( inner/ left/ right/ outer)


В примере ниже рассмотрим два датафрейма:
experiment_data содержит данные зависимости напряжения в определенный момент времени, а в experiment_data_res мы записывали значения сопротивления в этот же момент времени. Теперь нам нужно объединить данные в один датафрейм идентифицируя строки по значению времени.



In [None]:
experiment_data = pd.DataFrame({"Time": [0.0000, 0.1000,	0.2000,	0.3000, 
                                         0.4000,	0.5000,	0.6000,	0.7000,	
                                         0.8000,	0.9000,	1.0000,	1.1000,
                                         1.2000, 1.3000, 1.4000, 1.5000, 
                                         1.6000, 1.7000, 1.8000, 1.9000,
                                         2.0000, 2.1000, 2.2000, 2.3000, 
                                         2.4000, 2.5000, 2.6000, 2.7000,
                                         2.8000, 2.9000, 3.0000, 3.1000,
                                         3.2000, 3.3000, 3.4000, 3.5000, 
                                         3.6000, 3.7000, 3.8000, 3.9000,4.0000],
                                 
                                 "Voltage":[ 0.002, 0.003, 0.002, 0.003, 0.002,
                                            0.002, 0.002, 0.004, 0.003, 0.003,
                                            0.002, 0.003, 0.003, 0.001, 
                                            -6.104E-4, 0.005, 0.004, 0.004, 
                                            0.005,0.002, 1.308, 1.307, 1.305,
                                            1.303, 1.301, 1.300, 1.299, 1.295,
                                            1.295, 1.293, 1.291, 1.290, 1.288,
                                            1.287,1.285, 1.284, 1.281, 1.281,
                                            1.279,1.276,1.275
                                            ]})


experiment_data_res = pd.DataFrame({"Time": [0.0000, 0.1000,	0.2000,	0.3000, 
                                         0.4000,	0.5000,	0.6000,	0.7000,	
                                         0.8000,	0.9000,	1.0000,	1.1000,
                                         1.2000, 1.3000, 1.4000, 1.5000, 
                                         1.6000, 1.7000, 1.8000, 1.9000,
                                         2.0000, 2.1000, 2.2000, 2.3000, 
                                         2.4000, 2.5000, 2.6000, 2.7000,
                                         2.8000, 2.9000, 3.0000, 3.1000,
                                         3.2000, 3.3000, 3.4000, 3.5000, 
                                         3.6000, 3.7000, 3.8000, 3.9000,4.0000],
                                 
                                 "Resistance":[ 0.78, 0.8, 0.81, 0.79, 0.81,
                                            0.82, 0.83, 0.8, 0.81, 0.83,
                                            0.002, 0.84, 0.79, 0.84, 
                                            -6.104E-3, 0.9, 0.89, 0.92, 
                                            0.93,0.9, 1.2, 1.1, 1.3,
                                            1.25, 1.33, 1.35, 1.299, 1.299,
                                            1.29, 1.223, 1.231, 1.210, 1.388,
                                            1.281,1.282, 1.384, 1.181, 1.241,
                                            1.124,1.179,1.205
                                            ]})

result_df = pd.merge(experiment_data, experiment_data_res, 
                     how="inner", on="Time")
result_df

Unnamed: 0,Time,Voltage,Resistance
0,0.0,0.002,0.78
1,0.1,0.003,0.8
2,0.2,0.002,0.81
3,0.3,0.003,0.79
4,0.4,0.002,0.81
5,0.5,0.002,0.82
6,0.6,0.002,0.83
7,0.7,0.004,0.8
8,0.8,0.003,0.81
9,0.9,0.003,0.83


# ***Виды соединений***

Виды соединений - Inner, Left, Right и Outer Joins


---

## ***Внутреннее соединение - Inner Join***

Соединяет строки, для которых ключ присутствует в ОБЕИХ таблицах. В результате такого соединения мы не получим значений NaN, потому что по определению значения в ключевых колонках должны существовать в обеих таблицах.


## ***Левое соединение - Left Join***

Находит соответствующие строки и включает в результат все строки из левой таблицы (если смотреть на список таблиц - левая таблица это та таблица, которая находится слева в этом списке).
Выводим все строки из левой таблицы experiment_data, и если у них нет строки в таблице experiment_data_res, то заполняем колонки значениями NaN.

## ***Правое соединение - Right Join***

Находит соответствующие строки и включает в результат все строки из правой таблицы.
Отобразить все строки из правой таблицы, и если для них нет соответствия в левой таблице, то записать в колонки из левой таблицы значения NaN.


## ***Внешнее соединение - Outer Join***

Показать строки, которые нашлись или в левой, или в правой таблице. В нашем примере это все строки из таблицы experiment_data и из таблицы experiment_data_res. Там, где не нашлись соответствующие строки, пишем значения NaN.


In [None]:
# LEFT JOIN
experiment_data = pd.DataFrame({"Time": [0.0000, 0.1000,	0.2000,	0.3000, 
                                         0.4000,	0.5000,	0.6000,	0.7000,	
                                         0.8000,	0.9000,	1.0000,	1.1000,
                                         1.2000, 1.3000, 1.4000, 1.5000, 
                                         1.6000, 1.7000, 1.8000, 1.9000,
                                         2.0000, 2.1000, 2.2000, 2.3000, 
                                         2.4000, 2.5000, 2.6000, 2.7000,
                                         2.8000, 2.9000, 3.0000, 3.1000,
                                         3.2000, 3.3000, 3.4000, 3.5000, 
                                         3.6000, 3.7000, 3.8000, 3.9000,4.0000,
                                         #Добавим новые значения Time, которых нет в 
                                         # experiment_data_res
                                         4.2, 4.1, 4.3, 4.4, 4.5

                                         ],
                                 
                                 "Voltage":[ 0.002, 0.003, 0.002, 0.003, 0.002,
                                            0.002, 0.002, 0.004, 0.003, 0.003,
                                            0.002, 0.003, 0.003, 0.001, 
                                            -6.104E-4, 0.005, 0.004, 0.004, 
                                            0.005,0.002, 1.308, 1.307, 1.305,
                                            1.303, 1.301, 1.300, 1.299, 1.295,
                                            1.295, 1.293, 1.291, 1.290, 1.288,
                                            1.287,1.285, 1.284, 1.281, 1.281,
                                            1.279,1.276,1.275,
                                            #Добавим новые значения Voltage, 
                                            # соответствующие новым значениям для Time
                                            1.222, 2.3333, 1.1111, 1.4333, 1.5

                                            ]})

experiment_data_res = pd.DataFrame({"Time": [0.0000, 0.1000,	0.2000,	0.3000, 
                                         0.4000,	0.5000,	0.6000,	0.7000,	
                                         0.8000,	0.9000,	1.0000,	1.1000,
                                         1.2000, 1.3000, 1.4000, 1.5000, 
                                         1.6000, 1.7000, 1.8000, 1.9000,
                                         2.0000, 2.1000, 2.2000, 2.3000, 
                                         2.4000, 2.5000, 2.6000, 2.7000,
                                         2.8000, 2.9000, 3.0000, 3.1000,
                                         3.2000, 3.3000, 3.4000, 3.5000, 
                                         3.6000, 3.7000, 3.8000, 3.9000,4.0000],
                                 
                                 "Resistance":[ 0.78, 0.8, 0.81, 0.79, 0.81,
                                            0.82, 0.83, 0.8, 0.81, 0.83,
                                            0.002, 0.84, 0.79, 0.84, 
                                            -6.104E-3, 0.9, 0.89, 0.92, 
                                            0.93,0.9, 1.2, 1.1, 1.3,
                                            1.25, 1.33, 1.35, 1.299, 1.299,
                                            1.29, 1.223, 1.231, 1.210, 1.388,
                                            1.281,1.282, 1.384, 1.181, 1.241,
                                            1.124,1.179,1.205
                                            ]})

result_df = pd.merge(experiment_data, experiment_data_res, 
                     how="left", on="Time")
result_df[35:]

Unnamed: 0,Time,Voltage,Resistance
35,3.5,1.284,1.384
36,3.6,1.281,1.181
37,3.7,1.281,1.241
38,3.8,1.279,1.124
39,3.9,1.276,1.179
40,4.0,1.275,1.205
41,4.2,1.222,
42,4.1,2.3333,
43,4.3,1.1111,
44,4.4,1.4333,


In [None]:
# RIGHT JOIN

experiment_data = pd.DataFrame({"Time": [0.0000, 0.1000,	0.2000,	0.3000, 
                                         0.4000,	0.5000,	0.6000,	0.7000,	
                                         0.8000,	0.9000,	1.0000,	1.1000,
                                         1.2000, 1.3000, 1.4000, 1.5000, 
                                         1.6000, 1.7000, 1.8000, 1.9000,
                                         2.0000, 2.1000, 2.2000, 2.3000, 
                                         2.4000, 2.5000, 2.6000, 2.7000,
                                         2.8000, 2.9000, 3.0000, 3.1000,
                                         3.2000, 3.3000, 3.4000, 3.5000, 
                                         3.6000, 3.7000, 3.8000, 3.9000,4.0000,
                                         #Добавим новые значения Time, которых нет в 
                                         # experiment_data_res
                                         4.2, 4.1, 4.3, 4.4, 4.5

                                         ],
                                 
                                 "Voltage":[ 0.002, 0.003, 0.002, 0.003, 0.002,
                                            0.002, 0.002, 0.004, 0.003, 0.003,
                                            0.002, 0.003, 0.003, 0.001, 
                                            -6.104E-4, 0.005, 0.004, 0.004, 
                                            0.005,0.002, 1.308, 1.307, 1.305,
                                            1.303, 1.301, 1.300, 1.299, 1.295,
                                            1.295, 1.293, 1.291, 1.290, 1.288,
                                            1.287,1.285, 1.284, 1.281, 1.281,
                                            1.279,1.276,1.275,
                                            #Добавим новые значения Voltage, 
                                            # соответствующие новым значениям для Time
                                            1.222, 2.3333, 1.1111, 1.4333, 1.5

                                            ]})

experiment_data_res = pd.DataFrame({"Time": [0.0000, 0.1000,	0.2000,	0.3000, 
                                         0.4000,	0.5000,	0.6000,	0.7000,	
                                         0.8000,	0.9000,	1.0000,	1.1000,
                                         1.2000, 1.3000, 1.4000, 1.5000, 
                                         1.6000, 1.7000, 1.8000, 1.9000,
                                         2.0000, 2.1000, 2.2000, 2.3000, 
                                         2.4000, 2.5000, 2.6000, 2.7000,
                                         2.8000, 2.9000, 3.0000, 3.1000,
                                         3.2000, 3.3000, 3.4000, 3.5000, 
                                         3.6000, 3.7000, 3.8000, 3.9000,4.0000],
                                 
                                 "Resistance":[ 0.78, 0.8, 0.81, 0.79, 0.81,
                                            0.82, 0.83, 0.8, 0.81, 0.83,
                                            0.002, 0.84, 0.79, 0.84, 
                                            -6.104E-3, 0.9, 0.89, 0.92, 
                                            0.93,0.9, 1.2, 1.1, 1.3,
                                            1.25, 1.33, 1.35, 1.299, 1.299,
                                            1.29, 1.223, 1.231, 1.210, 1.388,
                                            1.281,1.282, 1.384, 1.181, 1.241,
                                            1.124,1.179,1.205
                                            ]})

result_df = pd.merge(experiment_data_res, experiment_data, 
                     how="right", on="Time")
result_df[35:]

Unnamed: 0,Time,Resistance,Voltage
35,3.5,1.384,1.284
36,3.6,1.181,1.281
37,3.7,1.241,1.281
38,3.8,1.124,1.279
39,3.9,1.179,1.276
40,4.0,1.205,1.275
41,4.2,,1.222
42,4.1,,2.3333
43,4.3,,1.1111
44,4.4,,1.4333


In [None]:
# OUTER JOIN

experiment_data = pd.DataFrame({"Time": [0.0000, 0.1000,	0.2000,	0.3000, 
                                         0.4000,	0.5000,	0.6000,	0.7000,	
                                         0.8000,	0.9000,	1.0000,	1.1000,
                                         1.2000, 1.3000, 1.4000, 1.5000, 
                                         1.6000, 1.7000, 1.8000, 1.9000,
                                         2.0000, 2.1000, 2.2000, 2.3000, 
                                         2.4000, 2.5000, 2.6000, 2.7000,
                                         2.8000, 2.9000, 3.0000, 3.1000,
                                         3.2000, 3.3000, 3.4000, 3.5000, 
                                         3.6000, 3.7000, 3.8000, 3.9000,4.0000,
                                         #Добавим новые значения Time, которых нет в 
                                         # experiment_data_res
                                         4.2, 4.1, 4.3, 4.4, 4.5

                                         ],
                                 
                                 "Voltage":[ 0.002, 0.003, 0.002, 0.003, 0.002,
                                            0.002, 0.002, 0.004, 0.003, 0.003,
                                            0.002, 0.003, 0.003, 0.001, 
                                            -6.104E-4, 0.005, 0.004, 0.004, 
                                            0.005,0.002, 1.308, 1.307, 1.305,
                                            1.303, 1.301, 1.300, 1.299, 1.295,
                                            1.295, 1.293, 1.291, 1.290, 1.288,
                                            1.287,1.285, 1.284, 1.281, 1.281,
                                            1.279,1.276,1.275,
                                            #Добавим новые значения Voltage, 
                                            # соответствующие новым значениям для Time
                                            1.222, 2.3333, 1.1111, 1.4333, 1.5

                                            ]})

experiment_data_res = pd.DataFrame({"Time": [0.0000, 0.1000,	0.2000,	0.3000, 
                                         0.4000,	0.5000,	0.6000,	0.7000,	
                                         0.8000,	0.9000,	1.0000,	1.1000,
                                         1.2000, 1.3000, 1.4000, 1.5000, 
                                         1.6000, 1.7000, 1.8000, 1.9000,
                                         2.0000, 2.1000, 2.2000, 2.3000, 
                                         2.4000, 2.5000, 2.6000, 2.7000,
                                         2.8000, 2.9000, 3.0000, 3.1000,
                                         3.2000, 3.3000, 3.4000, 3.5000, 
                                         3.6000, 3.7000, 3.8000, 3.9000,4.0000],
                                 
                                 "Resistance":[ 0.78, 0.8, 0.81, 0.79, 0.81,
                                            0.82, 0.83, 0.8, 0.81, 0.83,
                                            0.002, 0.84, 0.79, 0.84, 
                                            -6.104E-3, 0.9, 0.89, 0.92, 
                                            0.93,0.9, 1.2, 1.1, 1.3,
                                            1.25, 1.33, 1.35, 1.299, 1.299,
                                            1.29, 1.223, 1.231, 1.210, 1.388,
                                            1.281,1.282, 1.384, 1.181, 1.241,
                                            1.124,1.179,1.205
                                            ]})

result_df = pd.merge(experiment_data_res, experiment_data, 
                     how="outer", on="Time")
result_df

Unnamed: 0,Time,Resistance,Voltage
0,0.0,0.78,0.002
1,0.1,0.8,0.003
2,0.2,0.81,0.002
3,0.3,0.79,0.003
4,0.4,0.81,0.002
5,0.5,0.82,0.002
6,0.6,0.83,0.002
7,0.7,0.8,0.004
8,0.8,0.81,0.003
9,0.9,0.83,0.003


# ***Запись датафрейма в файл***

In [None]:
experiment_data = pd.DataFrame({"Time": [0.0000, 0.1000,	0.2000,	0.3000, 
                                         0.4000,	0.5000,	0.6000,	0.7000,	
                                         0.8000,	0.9000,	1.0000,	1.1000,
                                         1.2000, 1.3000, 1.4000, 1.5000, 
                                         1.6000, 1.7000, 1.8000, 1.9000,
                                         2.0000, 2.1000, 2.2000, 2.3000, 
                                         2.4000, 2.5000, 2.6000, 2.7000,
                                         2.8000, 2.9000, 3.0000, 3.1000,
                                         3.2000, 3.3000, 3.4000, 3.5000, 
                                         3.6000, 3.7000, 3.8000, 3.9000,4.0000,
                                         #Добавим новые значения Time, которых нет в 
                                         # experiment_data_res
                                         4.2, 4.1, 4.3, 4.4, 4.5

                                         ],
                                 
                                 "Voltage":[ 0.002, 0.003, 0.002, 0.003, 0.002,
                                            0.002, 0.002, 0.004, 0.003, 0.003,
                                            0.002, 0.003, 0.003, 0.001, 
                                            -6.104E-4, 0.005, 0.004, 0.004, 
                                            0.005,0.002, 1.308, 1.307, 1.305,
                                            1.303, 1.301, 1.300, 1.299, 1.295,
                                            1.295, 1.293, 1.291, 1.290, 1.288,
                                            1.287,1.285, 1.284, 1.281, 1.281,
                                            1.279,1.276,1.275,
                                            #Добавим новые значения Voltage, 
                                            # соответствующие новым значениям для Time
                                            1.222, 2.3333, 1.1111, 1.4333, 1.5

                                            ]})

experiment_data_res = pd.DataFrame({"Time": [0.0000, 0.1000,	0.2000,	0.3000, 
                                         0.4000,	0.5000,	0.6000,	0.7000,	
                                         0.8000,	0.9000,	1.0000,	1.1000,
                                         1.2000, 1.3000, 1.4000, 1.5000, 
                                         1.6000, 1.7000, 1.8000, 1.9000,
                                         2.0000, 2.1000, 2.2000, 2.3000, 
                                         2.4000, 2.5000, 2.6000, 2.7000,
                                         2.8000, 2.9000, 3.0000, 3.1000,
                                         3.2000, 3.3000, 3.4000, 3.5000, 
                                         3.6000, 3.7000, 3.8000, 3.9000,4.0000],
                                 
                                 "Resistance":[ 0.78, 0.8, 0.81, 0.79, 0.81,
                                            0.82, 0.83, 0.8, 0.81, 0.83,
                                            0.002, 0.84, 0.79, 0.84, 
                                            -6.104E-3, 0.9, 0.89, 0.92, 
                                            0.93,0.9, 1.2, 1.1, 1.3,
                                            1.25, 1.33, 1.35, 1.299, 1.299,
                                            1.29, 1.223, 1.231, 1.210, 1.388,
                                            1.281,1.282, 1.384, 1.181, 1.241,
                                            1.124,1.179,1.205
                                            ]})

result_df = pd.merge(experiment_data_res, experiment_data, 
                     how="outer", on="Time")

# Запись датафрейма в формат CSV
file_ = result_df.to_csv("result_df")


# Запись датафрейма в формат JSON
file_ = result_df.to_json("result_json_df")


# Запись датафрейма в формат xlsx
file_ = result_df.to_excel("result_excel_df.xlsx")


# ***Агрегация данных с groupby***


Чтобы использовать объект groupby, нам нужно сообщить pandas, как мы хотим агрегировать данные.

# ***Наиболее частые варианты:***
mean(): среднее значение 

sum(): сумма значений

size(): размер группы

count(): количество элементов

std(): среднеквадратичное отклонение 
(standard deviation)

var(): дисперсия (variance)

sem(): стандартная ошибка среднего (standard error of the mean)

describe(): суммарные статистики

first(): первое значение

last(): последнее значение

nth() : n-ое значение, или набор значений если n является списком

min(): минимальное значение

max(): максимальное значение


In [None]:
import pandas as pd

experiment_data = pd.DataFrame({"Time": [0.0000, 0.1000,	0.2000,	0.3000, 
                                         0.4000,	0.5000,	0.6000,	0.7000,	
                                         0.8000,	0.9000,	1.0000,	1.1000,
                                         1.2000, 1.3000, 1.4000, 1.5000, 
                                         1.6000, 1.7000, 1.8000, 1.9000,
                                         2.0000, 2.1000, 2.2000, 2.3000, 
                                         2.4000, 2.5000, 2.6000, 2.7000,
                                         2.8000, 2.9000, 3.0000, 3.1000,
                                         3.2000, 3.3000, 3.4000, 3.5000, 
                                         3.6000, 3.7000, 3.8000, 3.9000,4.0000
                                         ],
                                 
                                 "Voltage":[ 0.002, 0.003, 0.002, 0.003, 0.002,
                                            0.002, 0.002, 0.004, 0.003, 0.003,
                                            0.002, 0.003, 0.003, 0.001, 
                                            -6.104E-4, 0.005, 0.004, 0.004, 
                                            0.005,0.002, 1.308, 1.307, 1.305,
                                            1.303, 1.301, 1.300, 1.299, 1.295,
                                            1.295, 1.293, 1.291, 1.290, 1.288,
                                            1.287,1.285, 1.284, 1.281, 1.281,
                                            1.279,1.276,1.275],
                                
                                "Resistance":[ 0.78, 0.8, 0.81, 0.79, 0.81,
                                            0.82, 0.83, 0.8, 0.81, 0.83,
                                            0.002, 0.84, 0.79, 0.84, 
                                            -6.104E-3, 0.9, 0.89, 0.92, 
                                            0.93,0.9, 1.2, 1.1, 1.3,
                                            1.25, 1.33, 1.35, 1.299, 1.299,
                                            1.29, 1.223, 1.231, 1.210, 1.388,
                                            1.281,1.282, 1.384, 1.181, 1.241,
                                            1.124,1.179,1.205
                                            ],
                                
                                "Laboratory": ['Laboratory_2',
                                                'Laboratory_3',
                                                'Laboratory_3',
                                                'Laboratory_1',
                                                'Laboratory_3',
                                                'Laboratory_1',
                                                'Laboratory_1',
                                                'Laboratory_3',
                                                'Laboratory_2',
                                                'Laboratory_2',
                                                'Laboratory_1',
                                                'Laboratory_2',
                                                'Laboratory_3',
                                                'Laboratory_3',
                                                'Laboratory_2',
                                                'Laboratory_3',
                                                'Laboratory_3',
                                                'Laboratory_3',
                                                'Laboratory_1',
                                                'Laboratory_1',
                                                'Laboratory_3',
                                                'Laboratory_2',
                                                'Laboratory_3',
                                                'Laboratory_3',
                                                'Laboratory_3',
                                                'Laboratory_3',
                                                'Laboratory_3',
                                                'Laboratory_1',
                                                'Laboratory_3',
                                                'Laboratory_2',
                                                'Laboratory_1',
                                                'Laboratory_3',
                                                'Laboratory_3',
                                                'Laboratory_3',
                                                'Laboratory_3',
                                                'Laboratory_1',
                                                'Laboratory_2',
                                                'Laboratory_2',
                                                'Laboratory_3',
                                                'Laboratory_1',
                                               'Laboratory_3']})

group_data = experiment_data.groupby("Laboratory")

group_data.mean()

Unnamed: 0_level_0,Time,Voltage,Resistance
Laboratory,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Laboratory_1,1.92,0.5162,0.9365
Laboratory_2,1.833333,0.57471,0.888766
Laboratory_3,2.104545,0.765591,1.094045


# ***Задачи для самостоятельного решения*** 


# ***О датасете***
[Набор данных](https://www.kaggle.com/datasets/deepu1109/star-dataset), состоящий из нескольких характеристик звезд.
Можно скачать по ссылке или из блокнота ниже.

Это набор данных, состоящий из нескольких характеристик звезд.

***Некоторые из них являются:***

Абсолютная температура (в К)

Относительная яркость (L/Lo)

Относительный радиус (R/Ro)

Абсолютная магнитуда (Мв)

Цвет звезды (белый, красный, синий, желтый, желто-оранжевый и т.д.)

Спектральный класс (O, B,A, F, G, K,,M)

Тип звезды 
** (Красный карлик, Коричневый карлик, Белый карлик, Главная последовательность, Сверхгиганты, гипергиганты)**

(Red Dwarf, Brown Dwarf, White Dwarf, Main Sequence , SuperGiants, HyperGiants)

Lo = 3,828 x 10^26 Вт (средняя яркость Солнца)

Ro = 6,9551 x 10^8 м (средний радиус Солнца)


**Цель:**

Цель создания набора данных - доказать, что звезды соответствуют определенному графику в небесном пространстве,
конкретно называемому диаграммой Герцшпрунга-Рассела или просто HR-диаграммой
, чтобы мы могли классифицировать звезды, нанося их характеристики на основе этого графика.



In [None]:
import pandas as pd

df = pd.read_csv("https://storage.googleapis.com/kagglesdsdata/datasets/391127/754362/6%20class%20csv.csv?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20230309%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20230309T202714Z&X-Goog-Expires=259200&X-Goog-SignedHeaders=host&X-Goog-Signature=23aceffe8c6522e64347ccc62baacc671f3d6375e48dc95bb99c27e22b36223633b4cb362ea5e15ef7de4b0ad1d848c7409f4e2bd0367c1541d1b814669452026f13cc26cd40ebddddf7e79a16c1c4ff68e671dbc953f31995b6de2470f7f4c6d254d81a9c8bd1caced68bfec395083267258d0d076c97baec4d5a89540827f0776eddb281bbbf56c485da7d850ae123b98b9e6db9326ef57c372e73262fa4ad24f9389ee1ac87681b39996217f8207f3ca849ae350b21ee1037b4ec0b0293c2bd0fc95188d820c900a3276f4479919b973f8c7095aeddfe5a749a1f54100eca6872a30c1a3ef7dbfc5ea23d81013f30f726dde47da95abdcebfbc53eef04b9d")
df

Unnamed: 0,Temperature (K),Luminosity(L/Lo),Radius(R/Ro),Absolute magnitude(Mv),Star type,Star color,Spectral Class
0,3068,0.002400,0.1700,16.12,0,Red,M
1,3042,0.000500,0.1542,16.60,0,Red,M
2,2600,0.000300,0.1020,18.70,0,Red,M
3,2800,0.000200,0.1600,16.65,0,Red,M
4,1939,0.000138,0.1030,20.06,0,Red,M
...,...,...,...,...,...,...,...
235,38940,374830.000000,1356.0000,-9.93,5,Blue,O
236,30839,834042.000000,1194.0000,-10.63,5,Blue,O
237,8829,537493.000000,1423.0000,-10.73,5,White,A
238,9235,404940.000000,1112.0000,-11.23,5,White,A


# Web Scrapping

In [None]:
import pandas as pd 

the_most_popular_films_df = pd.read_html("https://en.wikipedia.org/wiki/List_of_highest-grossing_films")
the_most_popular_films_df[0]

Unnamed: 0,Rank,Peak,Title,Worldwide gross,Year,Reference(s)
0,1,1,Avatar,"$2,923,706,026",2009,[# 1][# 2]
1,2,1,Avengers: Endgame,"$2,797,501,328",2019,[# 3][# 4]
2,3,3,Avatar: The Way of Water,"$2,311,060,014",2022,[# 5]
3,4,1,Titanic,"T$2,249,227,387",1997,[# 6][# 7]
4,5,3,Star Wars: The Force Awakens,"$2,068,223,624",2015,[# 8][# 9]
5,6,4,Avengers: Infinity War,"$2,048,359,754",2018,[# 10][# 11]
6,7,6,Spider-Man: No Way Home,"$1,921,847,111",2021,[# 12][# 13]
7,8,3,Jurassic World,"$1,671,537,444",2015,[# 14][# 15]
8,9,7,The Lion King,"$1,656,943,394",2019,[# 16][# 4]
9,10,3,The Avengers,"$1,518,815,515",2012,[# 17][# 18]


In [None]:
import pandas as pd 

the_most_popular_films_df = pd.read_html("https://en.wikipedia.org/wiki/List_of_highest-grossing_films")
length = len(the_most_popular_films_df) - 1
films_list = []

for index in range(length):
  elem = the_most_popular_films_df[index]
  films_list.append(elem)

print(films_list)




[    Rank  Peak                                          Title  \
0      1     1                                         Avatar   
1      2     1                              Avengers: Endgame   
2      3     3                       Avatar: The Way of Water   
3      4     1                                        Titanic   
4      5     3                   Star Wars: The Force Awakens   
5      6     4                         Avengers: Infinity War   
6      7     6                        Spider-Man: No Way Home   
7      8     3                                 Jurassic World   
8      9     7                                  The Lion King   
9     10     3                                   The Avengers   
10    11     4                                      Furious 7   
11    12    11                              Top Gun: Maverick   
12    13    10                                      Frozen II   
13    14     5                        Avengers: Age of Ultron   
14    15     9          

# ***Задачи для самостоятельного решения по разделу Pandas***





1.   Получить подробную информацию о датафрейме (count, mean, std, min, 25%, 50%, 75%, max). Полученный датафрейм транспонировать. Также вывести список колонок датафрейма и информацию о типах данных колонок датафрейма. На основе полученной информации создать датафрейм и записать его в формате JSON.


2.   Вычислить среднее значение колонки Temperature и добавить новую колонку delta_T, в которой хранится модуль разности текущей Temperature и средней. Проверить содержит ли датафрейм NaN значения.
Вычислить максимальное значение Temperature.
Вернуть датафрейм в котором delta_T <= Tmax/2 и Temperature >= delta_Tmin.
Полученный датафрейм сохранить в формате CSV.

3.   Вычислить коэффициент корреляции датафрейма. 
Вычислить среднее значение Absolute magnitude(Mv) для каждого Star type. Вычислить количество записей для каждого спектрального класса. 

4.   Для каждого спектрального класса вычислить дисперсию для Luminosity(L/Lo), стандартная ошибка среднего для Absolute magnitude(Mv) и среднеквадратичное отклонение для Temperature. На основе данных создать датафрейм и записать в excel файл. 

5. На основании датасета df создать новый датафрейм new_df с двумя колонками Temperature и temperature_C, где 

  `new_df["Temperature"] = df["Temperature"] `

  а в колонке temperature_C хранится значение температуры в С.

  Соединить два датафрейма в один, как минимум тремя разными способами.

  После соединения проверить датафрейм на наличие NaN значений.
  Заменить отсутствующие данные следующими способами:
  1. Для всех NaN значений установить среднее значение столбца.

  2. Заменить NaN значения с помощью интерполяции.

  3. Удалить строки содержащие NaN значения. 
