## Series

**Series** - **одномерный массив**, имеющий специальные метки (индексы) и способные хранить данные любого типа

In [1]:
import pandas as pd
import numpy as np
pd.Series([2, False, 3.1, 'у меня разные данные', np.nan, 0])

0                       2
1                   False
2                     3.1
3    у меня разные данные
4                     NaN
5                       0
dtype: object

По дефолту мало чем отличается от обычных списков, просто индексы списка функция `print()` не выводит. Индексы поменять (будет как словарь с парой ключ:значение)

In [2]:
pd.Series(np.random.randint(1, 13, 5), index=[i for i in 'abcde'])

a     6
b    10
c     2
d     5
e    10
dtype: int32

In [3]:
p = pd.Series({k:v for k, v in zip(np.random.randn(7), 'abcdefg')}) 
# можно передавать индексы и значения в генераторе словаря
p # тут индексами являются рандомные числа, а значениями алфавит

-0.494666    a
 0.844596    b
-1.340067    c
 0.777414    d
-0.447223    e
-0.212243    f
 1.769210    g
dtype: object

**В Series ключами являются индексы, которые располагаются в строку, в DataFrame ключами являются названия колонок**

Когда индексами являются числа с плавающей точкой, то это может быть проблемой, т.к. в превью ключа число с плавающей точкой округляется. Если ввести это округленное для представления значение, то pandas выдаст ошибку

In [4]:
p[-0.494666] # выдаст ошибку, что такого ключа нет

KeyError: -0.494666

Посмотрим список всех атрибутов:

In [5]:
p.__dict__

{'_is_copy': None,
 '_mgr': SingleBlockManager
 Items: Float64Index([ -0.4946664814683758,   0.8445961696643061,  -1.3400667655866814,
                 0.7774142764991754, -0.44722271853339957,  -0.2122426565789188,
                  1.769210482531311],
              dtype='float64')
 ObjectBlock: 7 dtype: object,
 '_item_cache': {},
 '_attrs': {},
 '_flags': <Flags(allows_duplicate_labels=True)>,
 '_name': None,
 '_index': Float64Index([ -0.4946664814683758,   0.8445961696643061,  -1.3400667655866814,
                 0.7774142764991754, -0.44722271853339957,  -0.2122426565789188,
                  1.769210482531311],
              dtype='float64')}

Среди них выведем все индексы:

In [6]:
p._index

Float64Index([ -0.4946664814683758,   0.8445961696643061,  -1.3400667655866814,
                0.7774142764991754, -0.44722271853339957,  -0.2122426565789188,
                 1.769210482531311],
             dtype='float64')

In [7]:
p[-0.4946664814683758] # теперь верно отобразит значения

'a'

Фильтр по значеням - говорим условия для `p`:

In [8]:
p[p!='a']

 0.844596    b
-1.340067    c
 0.777414    d
-0.447223    e
-0.212243    f
 1.769210    g
dtype: object

In [9]:
p[(p>'b') & (p!='d') & (p<'g')] 
# Важно брать в скобки, иначе не поймет синтаксис
# для логического "ИЛИ" используется | вместо or

-1.340067    c
-0.447223    e
-0.212243    f
dtype: object

## DataFrame

**DataFrame** - это **двумерный массив (матрица, таблица)**, который хранит в своих столбцах данные разных типов

In [10]:
df = pd.DataFrame([[2, 3], [5, 6], [8, 9]],
     index=['cobra', 'viper', 'sidewinder'],
     columns=['max_speed', 'shield'])
df

Unnamed: 0,max_speed,shield
cobra,2,3
viper,5,6
sidewinder,8,9


<img src="pandas-dataframe-loc.png">

Чтобы создавать DataFrame из словаря, нужно у класса **DataFrame** использовать метод `from_dict()`.

In [11]:
"""Допустим, мы хотим спарсить таблицу со списком терминов с Википедии 
- они чаще всего каждый находятся в отдельном абзаце <p> и выделены жирным шрифтом <b>. 
С beutifulsoup парсить теги проще, но его надо устанавливать, в этом примере можно регулярки использовать"""
import re
import requests
terms = re.findall(r"<p><b>(.*?)<\/b>", 
                    requests.get("https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BD").text)
terms

['Нейро́н',
 'Си́напс',
 '<a href="/w/index.php?title=%D0%91%D0%B5%D0%B7%D0%B0%D0%BA%D1%81%D0%BE%D0%BD%D0%BD%D1%8B%D0%B5_%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D1%8B&amp;action=edit&amp;redlink=1" class="new" title="Безаксонные нейроны (страница отсутствует)">Безаксонные нейроны</a>',
 '<a href="/w/index.php?title=%D0%A3%D0%BD%D0%B8%D0%BF%D0%BE%D0%BB%D1%8F%D1%80%D0%BD%D1%8B%D0%B5_%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D1%8B&amp;action=edit&amp;redlink=1" class="new" title="Униполярные нейроны (страница отсутствует)">Униполярные нейроны</a>',
 '<a href="/wiki/%D0%91%D0%B8%D0%BF%D0%BE%D0%BB%D1%8F%D1%80%D0%BD%D1%8B%D0%B5_%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D1%8B" title="Биполярные нейроны">Биполярные нейроны</a>',
 '<a href="/w/index.php?title=%D0%9C%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BF%D0%BE%D0%BB%D1%8F%D1%80%D0%BD%D1%8B%D0%B5_%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D1%8B&amp;action=edit&amp;redlink=1" class="new" title="Мультиполярные нейроны (страница отсутствует)">Мультиполярные нейроны</a>'

In [12]:
"""Удалим в найденном всю разметку, если они есть, на пустую строку 
с помощью re.sub(find_pattern, replace_to, original_text), """

cleared_terms = [i if not re.search("<.*?>", i) else re.sub("<.*?>", "", i) for i in terms]
cleared_terms

['Нейро́н',
 'Си́напс',
 'Безаксонные нейроны',
 'Униполярные нейроны',
 'Биполярные нейроны',
 'Мультиполярные нейроны',
 'Псевдоуниполярные нейроны',
 'Афферентные нейроны',
 'Эфферентные нейроны',
 'Ассоциативные нейроны',
 'Секреторные нейроны']

In [13]:
"""Теперь создаем из этого таблицу"""
table = pd.DataFrame.from_dict({"Термины": cleared_terms, 
                                "Определение": np.nan, 
                                "Номер билета": [np.random.randint(1, 100) for i in range(len(cleared_terms))]})
table

Unnamed: 0,Термины,Определение,Номер билета
0,Нейро́н,,25
1,Си́напс,,20
2,Безаксонные нейроны,,54
3,Униполярные нейроны,,52
4,Биполярные нейроны,,56
5,Мультиполярные нейроны,,77
6,Псевдоуниполярные нейроны,,32
7,Афферентные нейроны,,60
8,Эфферентные нейроны,,60
9,Ассоциативные нейроны,,66


In [14]:
table.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11 entries, 0 to 10
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Термины       11 non-null     object 
 1   Определение   0 non-null      float64
 2   Номер билета  11 non-null     int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 392.0+ bytes


In [15]:
table.shape # атрибут (количество_строк, количество_колонок)

(11, 3)

In [16]:
table.dtypes # атрибут - типы колонок

Термины          object
Определение     float64
Номер билета      int64
dtype: object

Можно сказать, что якобы Series могут хранить данные разных типов, но если посмотреть на нее как на транспонированный датафрейм, только у каждой колонки просто одна ячейка со значением, то станет понятно, что у Series так же как и DataFrame имеет один тип для каждой колонки.

У DataFrame есть `@property` loc, с помощью которого мы можем выбрать определенную ячейку (двойные индексы как для вложенного списка или массива numpy, например, здесь не работают) или группу ячеек. 

In [17]:
table.loc[0] # по умолчанию принимает индекс

Термины         Нейро́н
Определение         NaN
Номер билета         25
Name: 0, dtype: object

In [18]:
table.loc[[0, 4]] # либо список индексов

Unnamed: 0,Термины,Определение,Номер билета
0,Нейро́н,,25
4,Биполярные нейроны,,56


In [19]:
table.loc[0, 'Термины'] 
# если две переменные передать вне скобок, то первую будет воспринимать как индекс, а вторую как label

'Нейро́н'

In [20]:
table.loc[[5, 6], ["Термины"]] 

Unnamed: 0,Термины
5,Мультиполярные нейроны
6,Псевдоуниполярные нейроны


In [22]:
table['Номер билета'] > 35

0     False
1     False
2      True
3      True
4      True
5      True
6     False
7      True
8      True
9      True
10     True
Name: Номер билета, dtype: bool

In [23]:
table[table['Номер билета'] > 35]

Unnamed: 0,Термины,Определение,Номер билета
2,Безаксонные нейроны,,54
3,Униполярные нейроны,,52
4,Биполярные нейроны,,56
5,Мультиполярные нейроны,,77
7,Афферентные нейроны,,60
8,Эфферентные нейроны,,60
9,Ассоциативные нейроны,,66
10,Секреторные нейроны,,82


Метод `.isin()` фильтрует строки в колонках на значения, которые содержатся в переданном ей множестве:

In [24]:
table[table['Термины'].isin(['Биполярные нейроны', 'Униполярные нейроны'])]

Unnamed: 0,Термины,Определение,Номер билета
3,Униполярные нейроны,,52
4,Биполярные нейроны,,56


# Копирование

Если таблицу нужно изменить, нужно сделать ее копию. Если просто присвоить новой переменной старую таблицу (по типу `new_table = table`), то объект в памяти останется тем же, на него просто появится новая ссылка, а не создаться дубль объекта. Это относится вообще к языку Python, а не только к библиотеке Pandas.

**Глубокая копия (deep copy)** создает новую и отдельную копию всего объекта или списка со своим уникальным адресом памяти. Любые изменения, внесенные вами в новую копию объекта или списка, не будут отражаться в исходной. Этот процесс происходит следующим образом: сначала создается новый объект, а затем рекурсивно копируются все элементы из исходного в новый.
Для глубокого копирования в python используют модуль `copy`

In [25]:
a = [2, 3, 9]
b = a
b[0] = 1 # изменит 2 на 1 в исходном списке, т.к. b - просто ссылка, а не новый объект
print(a, b, id(a)==id(b))

import copy
c = copy.deepcopy(a) # создает новый объект в памяти
c[0] = 'string'
print(a, c, id(a)==id(c))

[1, 3, 9] [1, 3, 9] True
[1, 3, 9] ['string', 3, 9] False


**Поверхностная копия (shallow copy)** - это промежуточный вариант между просто созданием ссылки и глубоким копированием: он создает новый объект списка, но элементы в нем имеют те же адреса в памяти, что и исходный список. 

In [26]:
inner = [[1, 2, 3], [5, 4]]
e = copy.copy(inner)
e.append("new")
print(f"{inner}\n{e} - добавление нового элемента не меняет исходный список")
e[0][0] = "value"
print(f'--------------\n{inner}\n{e} - зато модификация вложенного меняет исходный, т.к. вложенный является тем же объектом')

[[1, 2, 3], [5, 4]]
[[1, 2, 3], [5, 4], 'new'] - добавление нового элемента не меняет исходный список
--------------
[['value', 2, 3], [5, 4]]
[['value', 2, 3], [5, 4], 'new'] - зато модификация вложенного меняет исходный, т.к. вложенный является тем же объектом


In [27]:
"""Для копирования (вместо создания новой ссылки) используется функция copy, которая по умолчанию 
является поверхностной копией объекта. Чтобы сделать глубокую копию, нужно присвоить флажку deep=True"""
tmp_table = table.copy(deep=True)

"""Для присваивания нового значения пользуются атрибутом loc, но вызывают ее не как """
tmp_table.loc[[3], ["Определение"]]= "нейроны с одним отростком, присутствуют, например в сенсорном ядре тройничного нерва (проходит вдоль челюсти) в среднем мозге"
tmp_table.head(4)

Unnamed: 0,Термины,Определение,Номер билета
0,Нейро́н,,25
1,Си́напс,,20
2,Безаксонные нейроны,,54
3,Униполярные нейроны,"нейроны с одним отростком, присутствуют, напри...",52


In [28]:
tmp_table.drop(labels="Номер билета", axis=1)

Unnamed: 0,Термины,Определение
0,Нейро́н,
1,Си́напс,
2,Безаксонные нейроны,
3,Униполярные нейроны,"нейроны с одним отростком, присутствуют, напри..."
4,Биполярные нейроны,
5,Мультиполярные нейроны,
6,Псевдоуниполярные нейроны,
7,Афферентные нейроны,
8,Эфферентные нейроны,
9,Ассоциативные нейроны,


<img src="2022-04-14_21-29-30.png" style="display: inline-block; float: left; margin-right: 20px;">
Pandas умеет читать данные с JSON, pickle, html, sql, excel, csv и т.п. Для полного списка в jupyter нужно написать `pd.read_` и нажать `tab`