  # Занятие 8

### Индексирование логического массива

Создаем линейний массив:

In [1]:
import numpy as np

linear_range = np.arange(20)
linear_range

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

Применяем логические операции (`>`, `<` `==`, `<=`, `>=`) для каждого элемента массива:

In [2]:
linear_range < 10

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True, False, False, False, False, False, False, False, False,
       False, False])

In [3]:
linear_range > 10

array([False, False, False, False, False, False, False, False, False,
       False, False,  True,  True,  True,  True,  True,  True,  True,
        True,  True])

In [4]:
linear_range >= 18

array([False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
        True,  True])

In [5]:
linear_range <= 3

array([ True,  True,  True,  True, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False])

In [6]:
linear_range == 0

array([ True, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False])

Чтобы получить элементы, которые соответствуют логическому условию, можем записать:

In [7]:
linear_range[linear_range < 10] # простое условие

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [8]:
linear_range[(linear_range < 10) * (linear_range % 2 == 0)] # более сложное условие

array([0, 2, 4, 6, 8])

**Для любознательных:** В NumPy массив можно передать другой массив (или обычный `list`, но не `tuple` - он работает иначе) такого же размера, 
состоящий из значений `True`/`False`. В таком случае второй массив будет использоваться 
для создания нового масива только с теми элементами, которым соответствует значение `True`.

In [9]:
linear_range_to_5 = np.arange(5)
linear_range_to_5[[1, False, True, False, False]]

array([1, 0, 1, 0, 0])

### Вещание по массиву

В некоторых случаях арифметические операции на массивах с разными формами разрешены и выполняются с помощью *широковещательной передачи*. При определенных ограничениях меньший массив «транслируется» по большему массиву, так что они имеют совместимые формы. 

In [10]:
first_shape = np.ones((3, 5))
first_shape

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [11]:
second_shape = np.ones((2, 7)) * 3
second_shape

array([[3., 3., 3., 3., 3., 3., 3.],
       [3., 3., 3., 3., 3., 3., 3.]])

NumPy не понимает, как выполнить следующую операцию, ведь формы массивов совершенно разные:

In [12]:
# first_shape + second_shape

In [13]:
# third_shape = np.ones(5) * 2
third_shape = np.array([1, 2, 3, 4, 5])
third_shape

array([1, 2, 3, 4, 5])

В случае массивов `third_shape` (5,) и `first_shape` (3, 5) имеют одну одинаковую размерность: 5. В таком случае NumPy сможет сделать широковещательную передачу:

In [14]:
third_shape + first_shape

array([[2., 3., 4., 5., 6.],
       [2., 3., 4., 5., 6.],
       [2., 3., 4., 5., 6.]])

Но это не сработает, если массивы будут размерами (3,) и (3, 5) соответственно:

In [15]:
fourth_shape = np.ones(3) * 2
fourth_shape

array([2., 2., 2.])

In [16]:
# fourth_shape * first_shape

Более подробно о мезанизме "трансляции" можно почитать в [официальной документации](https://numpy.org/doc/stable/user/basics.broadcasting.html#general-broadcasting-rules).

### Генерация случайних чисел

Функция `np.random.random` возвращает случайные числа с плавающей запятой в полуоткрытом интервале [0.0, 1.0):

In [17]:
np.random.random(size=10)

array([0.68518349, 0.53977152, 0.37745501, 0.33618044, 0.27525567,
       0.47465213, 0.04556795, 0.92332887, 0.42613669, 0.90861963])

Параметр `size` отвечает за форму нового массива:

In [18]:
np.random.random(size=(5, 5))

array([[0.32811832, 0.86399515, 0.43642066, 0.60886913, 0.09507117],
       [0.19389543, 0.37350269, 0.20149314, 0.41486182, 0.15848894],
       [0.92622955, 0.86220865, 0.94962188, 0.29870362, 0.91050235],
       [0.24709663, 0.78325202, 0.90600279, 0.60065009, 0.11506721],
       [0.33539981, 0.49070861, 0.86686043, 0.31471966, 0.694757  ]])

В `np.random.randint`, помимо `size`, можно передать дипазон случайных значений:

In [19]:
np.random.randint(5, 10, size=(5, 5))

array([[5, 7, 8, 7, 8],
       [9, 8, 7, 9, 5],
       [5, 9, 7, 8, 5],
       [6, 5, 8, 9, 7],
       [6, 9, 6, 9, 5]])

In [20]:
np.random.randint(5, 10, size=(5, 5)) > 5

array([[ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [False,  True,  True,  True,  True],
       [ True,  True,  True, False,  True],
       [ True,  True, False,  True, False]])

### Методы `argmin`, `argmax`, `argsort`
Создаём новый масив:

In [21]:
randint_arr = np.random.randint(10, 100, size=20)

`argmin` возвращает **индексы** минимальных значений по оси. Найдем **ИНДЕКС** минимального числа.

In [22]:
randint_arr.argmin(axis=0)

1

Теперь, используя этот индекс, получаем само минимальное число:

In [23]:
randint_arr[randint_arr.argmin()]

10

Если индекс не важен и надо просто получить минимальное число, можно использовать метод `min`, который сразу возвразает минимальное число.

In [24]:
randint_arr.min()

10

Аналогично работают `argmax` и `max`:

In [25]:
randint_arr.argmax()

15

In [26]:
randint_arr.max(), randint_arr[randint_arr.argmax()]

(98, 98)

Метод `argsort` возвращает упорядоченные **ИНДЕКСЫ** от самого большого числа, до самого маленького:

In [27]:
randint_arr.argsort()

array([ 1,  5, 16, 19,  8,  9,  2, 17, 10,  6, 12,  0, 18, 14, 11, 13,  4,
        7,  3, 15])

In [28]:
np.array([5, 3, 7, 1, 9])[[3, 1, 0, 2, 4]]

array([1, 3, 5, 7, 9])

In [29]:
randint_arr[randint_arr.argsort()]

array([10, 12, 29, 33, 39, 39, 48, 53, 55, 63, 64, 66, 69, 71, 86, 90, 91,
       93, 95, 98])

### Percentile (Процентиль)

Процентиль — мера, в которой процентное значение общих значений равно этой мере или меньше ее. Например, 90 % значений данных находятся ниже 90-го процентиля, а 10 % значений данных находятся ниже 10-го процентиля. Занимательная [статья](https://habr.com/ru/post/274303/) на тему проценетелей.
![](https://www.obzorzarplat.ru/_img/forum6.JPG)

In [30]:
randint_arr = np.array([*np.random.randint(0, 10, size=20), 1000, 1000, 1000, 1000, 1000])
randint_arr

array([   0,    5,    2,    9,    0,    4,    9,    5,    6,    2,    1,
          0,    2,    2,    1,    5,    8,    1,    1,    8, 1000, 1000,
       1000, 1000, 1000])

In [31]:
np.percentile(randint_arr, 10)

0.40000000000000036

In [32]:
np.percentile(randint_arr, 75)

9.0

In [33]:
np.percentile(randint_arr, 50)

5.0

Проверим медиану массива и наглядно убедимся, что она равна 50 персентелю. Чтобы освежить в памяти, что такое медиана: [сслыка](https://pythobyte.com/numpy-median-21908/).

In [34]:
np.median(randint_arr)

5.0

In [35]:
np.sort(randint_arr)

array([   0,    0,    0,    1,    1,    1,    1,    2,    2,    2,    2,
          4,    5,    5,    5,    6,    8,    8,    9,    9, 1000, 1000,
       1000, 1000, 1000])

In [36]:
np.percentile(randint_arr, 0)

0.0

In [37]:
randint_arr.min()

0

In [38]:
np.percentile(randint_arr, 100)

1000.0

In [39]:
randint_arr.max()

1000

In [40]:
randint_arr[randint_arr <= np.percentile(randint_arr, 99)]

array([   0,    5,    2,    9,    0,    4,    9,    5,    6,    2,    1,
          0,    2,    2,    1,    5,    8,    1,    1,    8, 1000, 1000,
       1000, 1000, 1000])

### Сохранение / загрузка массивов в файлы

Задача: сохранить массив NumPy в файл и загрузить массив из файла в новый масив, чтобы убедиться, что мы можем сохранять массивы для дальнейшей работы с ним.

Сначала создаем исходный массив:

In [41]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Чтобы сохранить массив, используем функцию `np.save`, в которую передаем имя файла (без расширения или с расширением `.npy`) и сам массив. Если не указать расширение `.npy`, NumPy сам его установит.

In [42]:
np.save('', x)

После этого файл сохранён. Загрузим его в другой массив, не используя исходный. Для этого используем функцию `np.load`, в которую передаём название файла:

In [43]:
y = np.load('array_file.npy')
y

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Во время закрузки файла с массива **важно** указывать расширение!

## Pandas - Python data analysis library

Чтобы эффективно работать с Pandas, необходимо освоить самые главные структуры данных библиотеки: *DataFrame* и *Series*.

Для установки библиотеки напишите в терминале:
```shell
pip install pandas
```

### Series

Структура/объект **Series** представляет из себя объект, похожий на одномерный массив (Python `list`, например), но отличительной его чертой является наличие ассоциированных меток, т.н. индексов, вдоль каждого элемента из списка. Такая особенность делает его похожим на ассоциативный массив или словарь в Python.

Импортируем Pandas и создадим Series объект:

In [44]:
import pandas as pd

In [45]:
series = pd.Series([1, 2, 3, 4, 5], dtype=np.int16)
series

0    1
1    2
2    3
3    4
4    5
dtype: int16

В строковом представлении объекта Series, индекс находится слева, а сам элемент справа. Если индекс явно не задан, то pandas автоматически создаёт RangeIndex от 0 до N-1, где N общее количество элементов. Также стоит обратить, что у Series есть тип хранимых элементов, в нашем случае это int64, т.к. мы передали целочисленные значения.

У объекта Series есть атрибуты через которые можно получить список элементов и индексы, это values и index соответственно.

In [46]:
series.index

RangeIndex(start=0, stop=5, step=1)

In [47]:
series.values, type(series.values)

(array([1, 2, 3, 4, 5], dtype=int16), numpy.ndarray)

In [48]:
series[4] # series[-1] - не поддерживается

5

Индексы можно задавать явно:

In [49]:
indexed_series = pd.Series([5, 6, 7, 8, 9, 10], index=['a', 'b', 'c', 'd', 'e', 'f'])
indexed_series

a     5
b     6
c     7
d     8
e     9
f    10
dtype: int64

In [50]:
indexed_series['a']

5

Так же можно делать выборку по нескольким индексам и осуществлять групповое присваивание:

In [51]:
indexed_series[['a', 'b', 'f']]

a     5
b     6
f    10
dtype: int64

In [52]:
indexed_series[['a', 'b', 'f']] = 42
indexed_series

a    42
b    42
c     7
d     8
e     9
f    42
dtype: int64

Много операций, что справедливы для массивов NumPy, справедливы и для Series:

In [53]:
indexed_series[indexed_series >= 9]

a    42
b    42
e     9
f    42
dtype: int64

In [54]:
indexed_series[indexed_series >= 9] * 5
indexed_series * 5

a    210
b    210
c     35
d     40
e     45
f    210
dtype: int64

Series умеет работать со словарями, где ключом является индекс, а значением сам элемент, то можно сделать так:

In [55]:
dict_series = pd.Series({'a': 5, 'b': 6, 'c': 7, 'd': 8})
dict_series

a    5
b    6
c    7
d    8
dtype: int64

In [56]:
'b' in dict_series

True

У объекта Series и его индекса есть атрибут name, задающий имя объекту и индексу соответственно.

In [57]:
dict_series.name = 'Series from dictionary'
dict_series.index.name = 'letters'
dict_series

letters
a    5
b    6
c    7
d    8
Name: Series from dictionary, dtype: int64

Индекс можно поменять "на лету", присвоив список атрибуту index объекта Series

In [58]:
dict_series.index = [1, 2, 3, 4]
dict_series

1    5
2    6
3    7
4    8
Name: Series from dictionary, dtype: int64

**ВАЖНО**: список с индексами по длине должен совпадать с количеством элементов в Series.

### DataFrame

Объект DataFrame лучше всего представлять себе в виде обычной таблицы и это правильно, ведь DataFrame является табличной структурой данных. В любой таблице всегда присутствуют строки и столбцы. Столбцами в объекте DataFrame выступают объекты Series, строки которых являются их непосредственными элементами.

DataFrame проще всего понять на примере Python словаря:

In [59]:
df = pd.DataFrame(
    [
        {
            'element': 'Helium', 
            'symbol': 'He', 
            'atomic_number': 2
        }, 
        {
            'element': 'Magnesium',
            'symbol': 'Mg',
            'atomic_number': 12
        }
    ]
)
df

Unnamed: 0,element,symbol,atomic_number
0,Helium,He,2
1,Magnesium,Mg,12


Чтобы убедиться, что столбец в DataFrame это Series, извлекаем столбец "symbol":

In [60]:
df['symbol'], df.symbol, type(df.symbol)

(0    He
 1    Mg
 Name: symbol, dtype: object,
 0    He
 1    Mg
 Name: symbol, dtype: object,
 pandas.core.series.Series)

Объект DataFrame имеет 2 индекса: по строкам и по столбцам. Если индекс по строкам явно не задан (например, колонка по которой нужно их строить), то pandas задаёт целочисленный индекс RangeIndex от 0 до N-1, где N это количество строк в таблице.

In [61]:
df.columns

Index(['element', 'symbol', 'atomic_number'], dtype='object')

In [62]:
df.index

RangeIndex(start=0, stop=2, step=1)

В таблице у нас 2 элемента от 0 до 1.

Признаки NumPy:

In [63]:
df.shape

(2, 3)

In [64]:
df[['element', 'symbol']]

Unnamed: 0,element,symbol
0,Helium,He
1,Magnesium,Mg


#### Доступ по индексу в DataFrame
Индекс по строкам можно задать разными способами, например, при формировании самого объекта DataFrame:

In [65]:
data = [
    {
        'element': 'Helium', 
        'symbol': 'He', 
        'atomic_number': 2
    }, 
    {
        'element': 'Magnesium',
        'symbol': 'Mg',
        'atomic_number': 12
    }
]
indexes = ['HE', 'MG']

df = pd.DataFrame(data, index=indexes)
df

Unnamed: 0,element,symbol,atomic_number
HE,Helium,He,2
MG,Magnesium,Mg,12


Или "на лету":

In [66]:
df.index = ['HE', 'MG']
df.index.name = 'Element code'
df

Unnamed: 0_level_0,element,symbol,atomic_number
Element code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
HE,Helium,He,2
MG,Magnesium,Mg,12


Индексу было задано имя - "Element code". 

**ВАЖНО**: Объекты Series из DataFrame будут иметь те же индексы, что и объект DataFrame:

In [67]:
df['element']

Element code
HE       Helium
MG    Magnesium
Name: element, dtype: object

#### Доступ по индексу

Доступ по индексу возможен несколькими способами:

* `.loc` - используется для доступа по строковой метке индекса
* `.iloc` - используется для доступа по числовому значению индекса (начиная от 0)

In [68]:
df.loc['MG']

element          Magnesium
symbol                  Mg
atomic_number           12
Name: MG, dtype: object

In [69]:
df.iloc[1]

element          Magnesium
symbol                  Mg
atomic_number           12
Name: MG, dtype: object

Можно делать выборку по индексу и интересующим колонкам:

In [70]:
df.loc[['HE', 'MG'], 'element']

Element code
HE       Helium
MG    Magnesium
Name: element, dtype: object

In [71]:
df.loc[['MG', 'HE'], 'symbol']

Element code
MG    Mg
HE    He
Name: symbol, dtype: object

Как можно заметить, `.loc` в квадратных скобках принимает 2 аргумента: интересующий индекс, в том числе поддерживается slice и колонки:

In [72]:
df.loc['HE':'MG', 'symbol']

Element code
HE    He
MG    Mg
Name: symbol, dtype: object

Обратите внимание, что в последнем примере порядок индексов важен!

Можем указать список колонок:

In [73]:
df.loc['HE':'MG', ['symbol']]

Unnamed: 0_level_0,symbol
Element code,Unnamed: 1_level_1
HE,He
MG,Mg


Или тоже использовать slice для колонок:

In [74]:
df.loc['HE':'MG', 'symbol':'atomic_number']

Unnamed: 0_level_0,symbol,atomic_number
Element code,Unnamed: 1_level_1,Unnamed: 2_level_1
HE,He,2
MG,Mg,12


Фильтровать DataFrame с помощью т.н. булевых массивов:

In [75]:
df[df.atomic_number > 5]

Unnamed: 0_level_0,element,symbol,atomic_number
Element code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MG,Magnesium,Mg,12


Pandas при операциях над DataFrame, возвращает новый объект DataFrame.

Создадим DataFrame с большим колличеством данных. В работах стоит избегать вставки огромного колличества данных в код, вместо этого загружайте эти данных из соответствующих файлов.

In [76]:
import json
with open('periodic-table.json') as file:
    periodic_table_df = pd.DataFrame(json.load(file))
    
periodic_table_df

Unnamed: 0,name,appearance,atomic_mass,boil,category,density,discovered_by,melt,molar_heat,named_by,...,symbol,xpos,ypos,shells,electron_configuration,electron_configuration_semantic,electron_affinity,electronegativity_pauling,ionization_energies,cpk-hex
0,Hydrogen,colorless gas,1.008,20.271,diatomic nonmetal,0.08988,Henry Cavendish,13.99,28.836,Antoine Lavoisier,...,H,1,1,[1],1s1,1s1,72.769,2.2,[1312],ffffff
1,Helium,"colorless gas, exhibiting a red-orange glow wh...",4.0026022,4.222,noble gas,0.1786,Pierre Janssen,0.95,,,...,He,18,1,[2],1s2,1s2,-48,,"[2372.3, 5250.5]",d9ffff
2,Lithium,silvery-white,6.94,1603,alkali metal,0.534,Johan August Arfwedson,453.65,24.86,,...,Li,1,2,"[2, 1]",1s2 2s1,[He] 2s1,59.6326,0.98,"[520.2, 7298.1, 11815]",cc80ff
3,Beryllium,white-gray metallic,9.01218315,2742,alkaline earth metal,1.85,Louis Nicolas Vauquelin,1560,16.443,,...,Be,2,2,"[2, 2]",1s2 2s2,[He] 2s2,-48,1.57,"[899.5, 1757.1, 14848.7, 21006.6]",c2ff00
4,Boron,black-brown,10.81,4200,metalloid,2.08,Joseph Louis Gay-Lussac,2349,11.087,,...,B,13,2,"[2, 3]",1s2 2s2 2p1,[He] 2s2 2p1,26.989,2.04,"[800.6, 2427.1, 3659.7, 25025.8, 32826.7]",ffb5b5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
114,Moscovium,,289,1400,"unknown, probably post-transition metal",13.5,Joint Institute for Nuclear Research,670,,,...,Mc,15,7,"[2, 8, 18, 32, 32, 18, 5]",1s2 2s2 2p6 3s2 3p6 4s2 3d10 4p6 5s2 4d10 5p6 ...,*[Rn] 5f14 6d10 7s2 7p3,35.3,,[],
115,Livermorium,,293,1085,"unknown, probably post-transition metal",12.9,Joint Institute for Nuclear Research,709,,,...,Lv,16,7,"[2, 8, 18, 32, 32, 18, 6]",1s2 2s2 2p6 3s2 3p6 4s2 3d10 4p6 5s2 4d10 5p6 ...,*[Rn] 5f14 6d10 7s2 7p4,74.9,,[],
116,Tennessine,,294,883,"unknown, probably metalloid",7.17,Joint Institute for Nuclear Research,723,,,...,Ts,17,7,"[2, 8, 18, 32, 32, 18, 7]",1s2 2s2 2p6 3s2 3p6 4s2 3d10 4p6 5s2 4d10 5p6 ...,*[Rn] 5f14 6d10 7s2 7p5,165.9,,[],
117,Oganesson,,294,350,"unknown, predicted to be noble gas",4.95,Joint Institute for Nuclear Research,,,,...,Og,18,7,"[2, 8, 18, 32, 32, 18, 8]",1s2 2s2 2p6 3s2 3p6 4s2 3d10 4p6 5s2 4d10 5p6 ...,*[Rn] 5f14 6d10 7s2 7p6,5.40318,,[],


### Datatypes, type casts

В файле таблице выше все отображается корректно, но если мы проверим через код типы данных, то увидим неточности:

In [77]:
periodic_table_df.boil

0      20.271
1       4.222
2        1603
3        2742
4        4200
        ...  
114      1400
115      1085
116       883
117       350
118       630
Name: boil, Length: 119, dtype: object

In [78]:
periodic_table_df.atomic_mass

0           1.008
1       4.0026022
2            6.94
3      9.01218315
4           10.81
          ...    
114           289
115           293
116           294
117           294
118           315
Name: atomic_mass, Length: 119, dtype: object

Обратите внимание, на `dtype: object`. Это не похоже на `int` или `float` и мы в этом убедимся, если попытаемся выполнить некоторые математические операции с этими данными: `periodic_table_df.atomic_mass / 2`.

Все дело в том, что файл из которого загружались данные (json) содержал как значение только строки, даже там где находятся числа, поэтому для Pandas (Numpy) это все просто строки-object.

Иногда это просто вызывает ошибки, а иногда это очень опасно, как например в этом случае:

In [79]:
periodic_table_df.atomic_mass * 2

0                1.0081.008
1        4.00260224.0026022
2                  6.946.94
3      9.012183159.01218315
4                10.8110.81
               ...         
114                  289289
115                  293293
116                  294294
117                  294294
118                  315315
Name: atomic_mass, Length: 119, dtype: object

Попробуйте ответить, почему это опасно?

Чтобы исправить эту проблему, мы можем использовать следующую запись:

In [80]:
periodic_table_df.boil[periodic_table_df.boil != ''].astype(np.float16) * 2

0        40.531250
1         8.445312
2      3206.000000
3      5484.000000
4      8400.000000
          ...     
114    2800.000000
115    2170.000000
116    1766.000000
117     700.000000
118    1260.000000
Name: boil, Length: 105, dtype: float16

Так же можно использовать типы данных от NumPy:

In [81]:
periodic_table_df.atomic_mass.astype(np.float16) * 2

0        2.015625
1        8.007812
2       13.882812
3       18.031250
4       21.625000
          ...    
114    578.000000
115    586.000000
116    588.000000
117    588.000000
118    630.000000
Name: atomic_mass, Length: 119, dtype: float16

### Чтение файлов CSV с помощью Pandas

In [82]:
df = pd.read_csv('periodic-table.csv')
df.head(5)

Unnamed: 0,name,appearance,atomic_mass,boil,category,density,discovered_by,melt,molar_heat,named_by,...,symbol,xpos,ypos,shells,electron_configuration,electron_configuration_semantic,electron_affinity,electronegativity_pauling,ionization_energies,cpk-hex
0,Hydrogen,colorless gas,1.008,20.271,diatomic nonmetal,0.08988,Henry Cavendish,13.99,28.836,Antoine Lavoisier,...,H,1,1,[1],1s1,1s1,72.769,2.2,[1312],ffffff
1,Helium,"colorless gas, exhibiting a red-orange glow wh...",4.002602,4.222,noble gas,0.1786,Pierre Janssen,0.95,,,...,He,18,1,[2],1s2,1s2,-48.0,,"[2372.3, 5250.5]",d9ffff
2,Lithium,silvery-white,6.94,1603.0,alkali metal,0.534,Johan August Arfwedson,453.65,24.86,,...,Li,1,2,"[2, 1]",1s2 2s1,[He] 2s1,59.6326,0.98,"[520.2, 7298.1, 11815]",cc80ff
3,Beryllium,white-gray metallic,9.012183,2742.0,alkaline earth metal,1.85,Louis Nicolas Vauquelin,1560.0,16.443,,...,Be,2,2,"[2, 2]",1s2 2s2,[He] 2s2,-48.0,1.57,"[899.5, 1757.1, 14848.7, 21006.6]",c2ff00
4,Boron,black-brown,10.81,4200.0,metalloid,2.08,Joseph Louis Gay-Lussac,2349.0,11.087,,...,B,13,2,"[2, 3]",1s2 2s2 2p1,[He] 2s2 2p1,26.989,2.04,"[800.6, 2427.1, 3659.7, 25025.8, 32826.7]",ffb5b5


#### Генерация общей статистики

Генерация общей статистики использует числовые значения и объекты, которые могут быть сведены к числу, и генерирует общие показатели:

In [83]:
df.describe()

Unnamed: 0,atomic_mass,boil,density,melt,molar_heat,number,period,xpos,ypos,electron_affinity,electronegativity_pauling
count,119.0,105.0,115.0,107.0,78.0,119.0,119.0,119.0,119.0,110.0,100.0
mean,147.904483,2457.306981,9.9725,1233.424281,26.30509,60.0,5.277311,10.0,6.033613,56.087864,1.7074
std,90.613592,1595.480116,8.599184,855.956156,5.623312,34.496377,1.630869,5.313877,2.497228,93.660585,0.629298
min,1.008,4.222,0.08988,0.95,8.517,1.0,1.0,1.0,1.0,-223.22,0.79
25%,67.55255,1085.0,4.1105,516.04,24.87425,30.5,4.0,5.5,4.0,11.5125,1.2375
50%,144.2423,2673.0,7.52,1173.0,25.8945,60.0,6.0,10.0,6.0,46.887,1.605
75%,229.017941,3505.0,12.675,1801.0,27.1875,89.5,7.0,15.0,8.5,101.03425,2.115
max,315.0,6203.0,40.7,3695.0,62.7,119.0,8.0,18.0,10.0,348.575,3.98


Мы так же можем посчитать колличество повторений значений в таблице:

In [84]:
values = df.discovered_by.value_counts()
values.sort_values(ascending=False)

Joint Institute for Nuclear Research     8
Lawrence Berkeley National Laboratory    7
Gesellschaft für Schwerionenforschung    6
Carl Wilhelm Scheele                     5
Glenn T. Seaborg                         3
                                        ..
Claude François Geoffroy                 1
RIKEN                                    1
5000 BC                                  1
Franz-Joseph Müller von Reichenstein     1
William Cruickshank (chemist)            1
Name: discovered_by, Length: 74, dtype: int64

In [85]:
df.phase.value_counts().sort_values(ascending=False)

Solid     105
Gas        12
Liquid      2
Name: phase, dtype: int64

### Векторные операции

In [86]:
(df.atomic_mass * 1000).astype(str) + ' grams'

0                  1008.0 grams
1      4002.6022000000003 grams
2                  6940.0 grams
3              9012.18315 grams
4                 10810.0 grams
                 ...           
114              289000.0 grams
115              293000.0 grams
116              294000.0 grams
117              294000.0 grams
118              315000.0 grams
Name: atomic_mass, Length: 119, dtype: object

### Сохранение результатов в CSV

In [87]:
df.phase.value_counts().sort_values(ascending=False).to_csv('periodic-statistics.csv')

In [88]:
with open('periodic-statistics.csv') as file:
    print(file.read())

,phase
Solid,105
Gas,12
Liquid,2



### Обработка пустых значений

In [89]:
df.isna()

Unnamed: 0,name,appearance,atomic_mass,boil,category,density,discovered_by,melt,molar_heat,named_by,...,symbol,xpos,ypos,shells,electron_configuration,electron_configuration_semantic,electron_affinity,electronegativity_pauling,ionization_energies,cpk-hex
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,True,True,...,False,False,False,False,False,False,False,True,False,False
2,False,False,False,False,False,False,False,False,False,True,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,True,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,True,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
114,False,True,False,False,False,False,False,False,True,True,...,False,False,False,False,False,False,False,True,False,True
115,False,True,False,False,False,False,False,False,True,True,...,False,False,False,False,False,False,False,True,False,True
116,False,True,False,False,False,False,False,False,True,True,...,False,False,False,False,False,False,False,True,False,True
117,False,True,False,False,False,False,False,True,True,True,...,False,False,False,False,False,False,False,True,False,True


In [90]:
df.isna().sum()

name                                 0
appearance                          33
atomic_mass                          0
boil                                14
category                             0
density                              4
discovered_by                        1
melt                                12
molar_heat                          41
named_by                           107
number                               0
period                               0
phase                                0
source                               0
spectral_img                        98
summary                              0
symbol                               0
xpos                                 0
ypos                                 0
shells                               0
electron_configuration               0
electron_configuration_semantic      0
electron_affinity                    9
electronegativity_pauling           19
ionization_energies                  0
cpk-hex                  

### Удаление дубликатов

In [91]:
df = pd.DataFrame([
    {'a': 1, 'b': 2, 'c': 3}, 
    {'a': 1, 'b': 2, 'c': 4}, 
    {'a': 1, 'b': 100, 'c': 1000}, 
    {'a': 1, 'b': 2, 'c': 3}
])
df

Unnamed: 0,a,b,c
0,1,2,3
1,1,2,4
2,1,100,1000
3,1,2,3


In [92]:
df.drop_duplicates() # это новая таблица!

Unnamed: 0,a,b,c
0,1,2,3
1,1,2,4
2,1,100,1000


In [93]:
df.duplicated().sum()

1

### Сортировка значений

Во время сортировки значений методом `sort_values` мы получаем индексы которые соответствуют сортировке.
![](https://www.sharpsightlabs.com/wp-content/uploads/2022/01/pandas-sort-values_syntax-explanation.png)

In [94]:
periodic_table_df.sort_values('atomic_mass').sort_index()

Unnamed: 0,name,appearance,atomic_mass,boil,category,density,discovered_by,melt,molar_heat,named_by,...,symbol,xpos,ypos,shells,electron_configuration,electron_configuration_semantic,electron_affinity,electronegativity_pauling,ionization_energies,cpk-hex
0,Hydrogen,colorless gas,1.008,20.271,diatomic nonmetal,0.08988,Henry Cavendish,13.99,28.836,Antoine Lavoisier,...,H,1,1,[1],1s1,1s1,72.769,2.2,[1312],ffffff
1,Helium,"colorless gas, exhibiting a red-orange glow wh...",4.0026022,4.222,noble gas,0.1786,Pierre Janssen,0.95,,,...,He,18,1,[2],1s2,1s2,-48,,"[2372.3, 5250.5]",d9ffff
2,Lithium,silvery-white,6.94,1603,alkali metal,0.534,Johan August Arfwedson,453.65,24.86,,...,Li,1,2,"[2, 1]",1s2 2s1,[He] 2s1,59.6326,0.98,"[520.2, 7298.1, 11815]",cc80ff
3,Beryllium,white-gray metallic,9.01218315,2742,alkaline earth metal,1.85,Louis Nicolas Vauquelin,1560,16.443,,...,Be,2,2,"[2, 2]",1s2 2s2,[He] 2s2,-48,1.57,"[899.5, 1757.1, 14848.7, 21006.6]",c2ff00
4,Boron,black-brown,10.81,4200,metalloid,2.08,Joseph Louis Gay-Lussac,2349,11.087,,...,B,13,2,"[2, 3]",1s2 2s2 2p1,[He] 2s2 2p1,26.989,2.04,"[800.6, 2427.1, 3659.7, 25025.8, 32826.7]",ffb5b5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
114,Moscovium,,289,1400,"unknown, probably post-transition metal",13.5,Joint Institute for Nuclear Research,670,,,...,Mc,15,7,"[2, 8, 18, 32, 32, 18, 5]",1s2 2s2 2p6 3s2 3p6 4s2 3d10 4p6 5s2 4d10 5p6 ...,*[Rn] 5f14 6d10 7s2 7p3,35.3,,[],
115,Livermorium,,293,1085,"unknown, probably post-transition metal",12.9,Joint Institute for Nuclear Research,709,,,...,Lv,16,7,"[2, 8, 18, 32, 32, 18, 6]",1s2 2s2 2p6 3s2 3p6 4s2 3d10 4p6 5s2 4d10 5p6 ...,*[Rn] 5f14 6d10 7s2 7p4,74.9,,[],
116,Tennessine,,294,883,"unknown, probably metalloid",7.17,Joint Institute for Nuclear Research,723,,,...,Ts,17,7,"[2, 8, 18, 32, 32, 18, 7]",1s2 2s2 2p6 3s2 3p6 4s2 3d10 4p6 5s2 4d10 5p6 ...,*[Rn] 5f14 6d10 7s2 7p5,165.9,,[],
117,Oganesson,,294,350,"unknown, predicted to be noble gas",4.95,Joint Institute for Nuclear Research,,,,...,Og,18,7,"[2, 8, 18, 32, 32, 18, 8]",1s2 2s2 2p6 3s2 3p6 4s2 3d10 4p6 5s2 4d10 5p6 ...,*[Rn] 5f14 6d10 7s2 7p6,5.40318,,[],


In [95]:
periodic_table_df.duplicated().sum()

0

In [96]:
pd.Series([None, 1, 2, 3, None, None, 4, 5]).isna().sum()

3

In [97]:
1000 * 60 * 60 * 24 * 365 * 51

1608336000000

In [98]:
pd.to_datetime('30.10.2021 02:12:20.1000')

Timestamp('2021-10-30 02:12:20.100000')

In [103]:
Out[98] - pd.to_datetime('30.10.2021 01:12:20.1000');

In [104]:
pd.to_datetime(['01/01/2020', '02/01/2020', '03/01/2020', '04/01/2020'])

DatetimeIndex(['2020-01-01', '2020-02-01', '2020-03-01', '2020-04-01'], dtype='datetime64[ns]', freq=None)

In [123]:
strings_table = pd.DataFrame(data=[['1'], ['mac n cheese'], ['fried fish'], ['fish n chips']], columns=['name'])
strings_table

Unnamed: 0,name
0,1
1,mac n cheese
2,fried fish
3,fish n chips


In [113]:
strings_table.name.str.upper()

0             NaN
1    MAC N CHEESE
2      FRIED FISH
3    FISH N CHIPS
Name: name, dtype: object

In [114]:
strings_table.name.str.replace('mac', '***')

0             NaN
1    *** n cheese
2      fried fish
3    fish n chips
Name: name, dtype: object

In [115]:
strings_table

Unnamed: 0,name
0,1
1,mac n cheese
2,fried fish
3,fish n chips


In [116]:
strings_table.name.str.contains('mac')

0      NaN
1     True
2    False
3    False
Name: name, dtype: object

In [124]:
strings_table.name + 'foo'

0               1foo
1    mac n cheesefoo
2      fried fishfoo
3    fish n chipsfoo
Name: name, dtype: object

In [126]:
strings_table.name.isin(['1'])

0     True
1    False
2    False
3    False
Name: name, dtype: bool

In [130]:
marks = np.random.randint(5, 101, size=40)
marks

array([11, 44, 24, 80, 58, 91, 68, 46, 67, 27, 75, 50, 13, 47, 49, 47, 78,
       53, 55, 38, 85, 32, 49, 59, 45, 34, 23, 38, 66, 53, 84, 86, 74, 22,
       79, 78, 68, 78, 25, 75])

In [131]:
def to_american_system(number):
    if 80 < number <= 100:
        return 'A'
    elif 60 < number <= 80:
        return 'B'
    elif 40 < number <= 60:
        return 'C'
    elif 20 < number <=40:
        return 'D'
    elif 0 <= number <= 20:
        return 'E'

In [136]:
marks_df = pd.DataFrame(marks, columns=['mark'])
marks_df

Unnamed: 0,mark
0,11
1,44
2,24
3,80
4,58
5,91
6,68
7,46
8,67
9,27


In [137]:
marks_df.mark.apply(to_american_system)

0     E
1     C
2     D
3     B
4     C
5     A
6     B
7     C
8     B
9     D
10    B
11    C
12    E
13    C
14    C
15    C
16    B
17    C
18    C
19    D
20    A
21    D
22    C
23    C
24    C
25    D
26    D
27    D
28    B
29    C
30    A
31    A
32    B
33    D
34    B
35    B
36    B
37    B
38    D
39    B
Name: mark, dtype: object

In [155]:
df1 = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})
df2 = pd.DataFrame({'A': [9, 10, 11, 12]})

pd.concat([df1, df2], axis='index')

Unnamed: 0,A,B
0,1,5.0
1,2,6.0
2,3,7.0
3,4,8.0
0,9,
1,10,
2,11,
3,12,


In [160]:
df1 = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})
df2 = pd.DataFrame({'A': [9, 10, 11, 12], 'B': [13, 14, 15, 16]})

pd.concat([df1, df2], axis='columns')

Unnamed: 0,A,B,A.1,B.1
0,1,5,9,13
1,2,6,10,14
2,3,7,11,15
3,4,8,12,16


In [161]:
pd.concat([marks_df, Out[137]], axis='columns')

Unnamed: 0,mark,mark.1
0,11,E
1,44,C
2,24,D
3,80,B
4,58,C
5,91,A
6,68,B
7,46,C
8,67,B
9,27,D


In [165]:
import pandas as pd

In [177]:
df = pd.read_excel('https://data.gov.ua/dataset/6e24b7d1-218f-4899-b187-19de3ad1ded6/resource/85b0bf89-1021-4e07-bafc-f7b7c5125555/download/14-valovii-regionalnii-produkt-u-faktichnikh-tsinakh-mln-grn.xlsx', sheet_name='Валовий регіональний продукт en', index_col=[0, 1, 2])
df

0            коди
1      0000000000
2      0100000000
3      0500000000
4      0700000000
          ...    
472    7100000000
473    7300000000
474    7400000000
475    8000000000
476    8500000000
Name: code, Length: 477, dtype: object