# **Создание объекта Series в Pandas**

**Series** - один из основных объектов, использующихся в Pandas – одномерный массив с метками, которые могут содержать данные любого типа (числовые, строковые, логические и т.п.). Каждый элемент объекта **Series** имеет свою уникальную метку (индекс), которая может быть явно задана пользователем или сгенерирована автоматически.

Объект **Series** можно создать из любых итерируемых объектов, например, из списка, массива NumPy или словаря Python. Для создания объекта **Series** можно использовать функцию `pd.Series()`.

In [None]:
# создание объекта Series из списка
import pandas as pd

my_list = [1, 2, 3, 4, 5]
s = pd.Series(my_list)

print(s)

In [None]:
# создание объекта Series из массива NumPy
import pandas as pd
import numpy as np

my_array = np.array([1, 2, 3, 4, 5])
s = pd.Series(my_array)

print(s)

Если в **Series** передаётся словарь, то его ключи автоматически становятся его индексами (как в примере ниже).

In [None]:
# создание объекта Series из словаря Python
import pandas as pd

my_dict = {'a': 1, 
           'b': 2, 
           'c': 3, 
           'd': 4, 
           'e': 5}

s = pd.Series(my_dict)

print(s)

In [None]:
# создание объекта Series из скалярного значения (из заданного количества одинаковых значений)
import pandas as pd
import pandas as pd

s = pd.Series(5, index=['a', 'b', 'c'])

print(s)

Можно создать новый объект **Series** на основе уже существующего объекта **Series**. Это создаст новый объект **Series**, который будет идентичен исходному объекту.

In [None]:
# создание нового объекта Series на основе существующего
import pandas as pd

s1 = pd.Series([1, 2, 3])
s2 = pd.Series(s1)

print(s2)

Следует иметь в виду, что функция `pd.Series` принимает множество аргументов, из которых обязательным является аргумент `data`, в который передается структура данных для преобразования в объект типа Series. Также в некоторых примерах выше использовался параметр `index`, в который передается список с наименованиями индексов создаваемого объекта.

# **Атрибуты index и values объекта pandas.Series**

Объект **Series** очень похож на массив NumPy, но в отличие от массива NumPy, объект **Series** имеет свойства/атрибуты index и values.

Атрибут `index` объекта **Series** представляет собой метки, связанные с элементами объекта **Series**. Метки могут быть любого типа, но часто используются целочисленные значения или строки. По умолчанию, метки являются целочисленными значениями от 0 до N-1, где N - длина объекта **Series**.

Атрибут `values` объекта **Series** представляет собой массив NumPy ndarray, содержащий фактические данные объекта **Series**. Данные могут быть любого типа, но часто используются числа или строки.

Объекты Index и ndarray могут быть использованы вместе для доступа и манипулирования данными в объекте **Series**. Например, мы можем использовать индекс для выбора элементов из массива значений и наоборот, мы можем использовать значения для создания нового объекта **Series** с другими метками или индексами. 
Класс Index является неизменяемым.

In [None]:
# cоздание объекта Series с пользовательскими метками
import pandas as pd

s = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])

print(s.index) # просмотр индексов
print(s.values) # просмотр данных

In [None]:
# cоздание объекта Series с пользовательскими метками
import pandas as pd

s = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])

# sыбор элементов по меткам
print(s['a']) #10
print(s[['a', 'c']]) 

# a    10
# c    30
# dtype: int64

In [None]:
# изменение элемента по метке
import pandas as pd

s = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
s['a'] = 50

print(s.values) # [50 20 30 40]

In [None]:
# выполнение операций над элементами
import pandas as pd

s = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])

s = s * 2

print(s.values) # [20 40 60 80]

Пример демонстрирует поэлементное умножение объекта **Series** на число. При выполнении операции умножения на число, каждый элемент объекта **Series** умножается на это число по отдельности, а результат сохраняется в новый объект **Series**. Это характерная особенность массивов NumPy - поэлементное выполнение операций.

# **Типы данных в Pandas, явное задание типов**

Одним из наиболее важных атрибутов объекта `pandas.Series` является **dtype**, который определяет тип данных, хранящихся в столбцах серии.

В Python и pandas существуют различные типы данных, каждый из которых предназначен для работы с конкретными видами данных. Атрибутом **dtype** также обладают массивы NumPy, и это не случайно, так как Pandas построен поверх NumPy.

Все доступные типы данных в Pandas:
1.	`Int`. Целочисленные значения – знаковые (signed) или беззнаковые (unsigned). Используется для представления целых чисел в диапазоне от -2147483648 до 2147483647.
2.	`Float`. Используется для представления чисел с плавающей точкой. В pandas этот тип данных может хранить числа с плавающей точкой любой точности.
3.	`Complex`. Используется для представления комплексных чисел, состоящих из вещественной и мнимой частей. В Python комплексные числа представляются с использованием суффикса "j" или "J", например, 1 + 2j. В pandas этот тип данных может хранить комплексные числа любой точности.
4.	`Bool`. Может принимать значения True и False.
5.	`Object`. Используется для хранения строк и других нечисловых данных, таких как списки, словари и т.д. В pandas этот тип данных может хранить любые объекты Python.
6.	`Category`. Используется для хранения данных, которые могут принимать ограниченный набор значений. Этот тип данных может использоваться для оптимизации памяти и ускорения операций сравнения. В pandas этот тип данных может хранить данные любого типа, которые можно преобразовать в категориальный тип.
7.	`Datetime64`: Используется для хранения даты и времени с разрешением вплоть до наносекунд. Этот тип данных позволяет выполнять операции сравнения, арифметические операции и конвертировать данные в другие форматы.
8.	`Timedelta`: Используется для хранения разницы между двумя датами и временем. Этот тип данных позволяет выполнять операции сравнения и арифметические операции с разницей времени. 
9.	`Period`: Используется для хранения периодов времени, таких как месяцы, годы, кварталы и т.д. Этот тип данных позволяет выполнять операции сравнения и арифметические операции с периодами времени.
10.	`Sparse`: Тип данных sparse (разреженная матрица) используется для хранения больших матриц, содержащих множество нулевых элементов. Этот тип данных позволяет сэкономить память, не храня нулевые элементы, и ускорить операции с матрицами.
11.	Тип данных `interval` используется для хранения интервалов значений, таких как диапазоны чисел или дат. Этот тип данных позволяет выполнять операции сравнения и арифметические операции с интервалами.
12.	Тип данных `UInt` (unsigned integer) представляет беззнаковые целочисленные значения, которые могут использоваться для хранения только положительных целых чисел.
Кроме того, при создании объекта pandas.Series можно задать тип данных с помощью параметра `dtype`.

In [None]:
# пример задавания типа данных с помощью параметра dtype
import pandas as pd

s = pd.Series([1, 2, 3, 4, 5], dtype='float')

print(s)

# 0    1.0
# 1    2.0
# 2    3.0
# 3    4.0
# 4    5.0
# dtype: float64

In [None]:
# создание серии с целочисленными значениями
import pandas as pd

s = pd.Series([1, 2, 3, 4, 5], dtype=int)

print(s)

# 0    1
# 1    2
# 2    3
# 3    4
# 4    5
# dtype: int32

In [None]:
# создание серии с датами
import pandas as pd

s = pd.Series(['2022-04-01', '2022-04-02', '2022-04-03'], dtype='datetime64[ns]')

print(s)

# 0   2022-04-01
# 1   2022-04-02
# 2   2022-04-03
# dtype: datetime64[ns]

In [None]:
# создание серии с категориальными значениями
import pandas as pd

s = pd.Series(["dog", "cat", "dog", "fish", "cat"], dtype="category")

print(s)

# 0     dog
# 1     cat
# 2     dog
# 3    fish
# 4     cat
# dtype: category
# Categories (3, object): ['cat', 'dog', 'fish']

Как видно из примеров, параметр dtype позволяет задавать разные типы данных для элементов серии. Это очень удобно, когда мы знаем, какой тип данных должен использоваться в конкретной серии, и хотим избежать автоматической конвертации типов данных, которая может привести к нежелательным результатам.

Некоторые типы данных имеют подтипы.
1.	`Int8`, `Int16`, `Int32`, `Int64`. Используются для представления целочисленных значений с определенным размером в битах. Например, `Int8` используется для представления целых чисел со знаком в диапазоне от -128 до 127. В pandas эти типы данных могут использоваться для оптимизации памяти и ускорения операций сравнения.
2.	`UInt8`, `UInt16`, `UInt32`, `UInt64`. Используются для представления беззнаковых целочисленных значений с определенным размером в битах. Например, `UInt8` используется для представления беззнаковых целых чисел в диапазоне от 0 до 255. В pandas эти типы данных могут использоваться для оптимизации памяти и ускорения операций сравнения.
3.	`float16`, `float32`, `float64`. Используются для представления чисел с плавающей точкой с определенной точностью. Например, `float16` используется для представления чисел с плавающей точкой в формате половинной точности, `float32` - в формате одинарной точности, а `float64` - в формате двойной точности
4.	`complex64`, `complex128`. Используются для представления комплексных чисел с определенной точностью. `complex64` используется для представления комплексных чисел с плавающей точкой в формате одинарной точности, а `complex128` - в формате двойной точности.

При создании объекта **Series** в pandas без явного указания параметра `dtype`, pandas автоматически определяет тип данных для каждого элемента серии на основе его значений. Если все значения элементов имеют один тип данных, то тип данных для всей серии будет соответствовать этому типу. Если же значения элементов имеют разные типы данных, то pandas будет искать наиболее общий тип данных, который может содержать все значения.

Например, если мы создадим серию, содержащую целочисленные и вещественные значения, тип данных для всей серии будет выбран автоматически наиболее общим типом, который может содержать оба типа данных (`float64`).

В версии pandas 1.0.0 была добавлена новая категория данных `string`, которая позволяет хранить текстовые данные и выполнить с ними операции, аналогичные операциям с обычными строками. Она была создана для ускорения работы с текстовыми данными, поскольку строковые объекты в pandas имеют высокую стоимость хранения и медленные операции сравнения. Однако, в предыдущих версиях Pandas, до 1.0.0, не было такой категории данных, поэтому при создании объекта **Series** из строк по умолчанию использовался dtype object. Таким образом, если используется более ранняя версия pandas, нужно будет использовать dtype object для хранения строковых данных.

Со строками (категория данных string) мы можем использовать функции строковые функции (подробнее в 'Extra'), к примеру, `s.str.startswith()` и `s.str.endswith()` (проверяют, на какую букву строки начинаются или заканчиваются).

In [None]:
# пример использования startswith() и endswith()
import pandas as pd

df = pd.Series(['коза', 'казак', 'корова', 'кома', 'котёл'], dtype='string')

new_df = df[(df.str.startswith('к')) & (df.str.endswith('а'))] # поместит в новый датафрейм только те слова, которые начинаются на "к" и кончаются на "а"

print(new_df)

# 0      коза
# 2    корова
# 3      кома
# dtype: string

In [None]:
# также к Series можно применять прочие методы. К примеру, replace
import pandas as pd

df = pd.Series(['коза', 'казак', 'корова', 'кома', 'котёл'], dtype='string')
df = df.replace('коза', 'роза') #меняем элемент "коза" на "роза"

print(df)

# 0      роза
# 1     казак
# 2    корова
# 3      кома
# 4     котёл
# dtype: string

# **Применение математических функций и операторов к объекту pandas.Series**

К **Series** можно применять разные математические методы и операторы. Операторы могут использоваться для выполнения различных операций, таких как арифметические операции (сложение, вычитание, умножение, деление), операции сравнения (равенство, больше, меньше, и т.д.), логические операции (and, or, not) и др. Это может быть полезно, например, для фильтрации данных в серии или для создания новых столбцов на основе уже существующих данных.

Методы `pd.Series`, связанные с математическими операциями, могут использоваться для выполнения различных вычислительных операций над данными в серии. Например, методы `.sum()`, `.mean()`, `.std()`, `.max()`, `.min()` могут использоваться для вычисления суммы, среднего значения, стандартного отклонения, максимального и минимального значения в серии.

**Функции из модуля math:**

* `math.sin(x)` - возвращает синус x (x в радианах).

* `math.cos(x)` - возвращает косинус x (x в радианах).

* `math.tan(x)` - возвращает тангенс x (x в радианах).

* `math.exp(x)` - возвращает экспоненту x.

* `math.log(x)` - возвращает натуральный логарифм x.

* `math.sqrt(x)` - возвращает квадратный корень из x.

**Функции из модуля numpy:**

* `numpy.abs(x)` - возвращает абсолютное значение x.

* `numpy.round(x, n)` - округляет x до n знаков после запятой.

* `numpy.floor(x)` - округляет x вниз до ближайшего целого числа.

* `numpy.ceil(x)` - округляет x вверх до ближайшего целого числа.

* `numpy.power(x, n)` - возвращает x в степени n.

* `numpy.exp(x)` - возвращает экспоненту x.

* `numpy.log(x)` - возвращает натуральный логарифм x.

* `numpy.sqrt(x)` - возвращает квадратный корень из x.

Кроме того, в Python также доступны операторы математических операций, такие как `+`, `-`, `*`, `/`, `%` и др., которые могут использоваться для выполнения арифметических операций над числами. Операторы сравнения (`==`, `>`, `<`, `>=`, `<=`) могут использоваться для выполнения операций сравнения, а операторы логических операций (`&` (and) , `|` (or), `~` (not)) могут использоваться для выполнения операций логического сравнения.


In [None]:
# сложение двух pd.Series (умножение, деление и т.п. по аналогии)
import pandas as pd

s1 = pd.Series([1, 2, 3])
s2 = pd.Series([4, 5, 6])
s3 = s1 + s2

print(s3)

# 0    5
# 1    7
# 2    9
# dtype: int64

In [None]:
# сравнение двух pd.Series
import pandas as pd

s1 = pd.Series([1, 2, 3])
s2 = pd.Series([4, 5, 6])
mask = s1 < s2

print(mask)

# 0    True
# 1    True
# 2    True
# dtype: bool

Т.е. при сравнении получается булев массив, как при сравнении двух NumPy массивов.

In [None]:
# использование логических операторов
import pandas as pd
import numpy as np

s1 = pd.Series([1, 2, 3]) 
s2 = pd.Series([4, 5, 6]) 
mask = (s1 < s2) & (s1 > 2)

print(mask)

# 0    False
# 1    False
# 2     True
# dtype: bool

In [None]:
# использование условных выражений для pd.Series
import pandas as pd

s1 = pd.Series([7, 2, 3]) 
s2 = pd.Series([4, 5, 6]) 

mask = s1 < s2 

print(mask) 

# 0    False
# 1     True
# 2     True
# dtype: bool

s3 = pd.Series([10, 20, 30]) 
s4 = s3[mask] 

print(s4)

# 1    20
# 2    30
# dtype: int64

In [None]:
# нахождение синуса и косинуса
import pandas as pd
import numpy as np

s = pd.Series([0, np.pi/2, np.pi])

sin_s = np.sin(s)
cos_s = np.cos(s)

print(sin_s)
print(cos_s)

# 0    0.000000e+00
# 1    1.000000e+00
# 2   -1.224647e-16
# dtype: float64
# 0    1.000000e+00
# 1    6.123234e-17
# 2   -1.000000e+00
# dtype: float64

In [None]:
# вычисление экспоненты и логарифма
import pandas as pd
import numpy as np

s = pd.Series([0, 1, 2, 3])

exp_s = np.exp(s)
log_s = np.log(s)

print(exp_s)
print(log_s)

# 0     1.000000
# 1     2.718282
# 2     7.389056
# 3    20.085537
# dtype: float64
# 0        -inf
# 1    0.000000
# 2    0.693147
# 3    1.098612
# dtype: float64

# **Атрибут name объекта pandas.Series, объект pandas.Index**

Атрибут `name` объекта **Series** позволяет задавать имя для объекта **Series**. Оно может быть удобно для описания данных, содержащихся в объекте **Series**. Имя можно задать при создании объекта **Series** или позже, используя атрибут `name`.

In [None]:
# создание объекта Series с именем
import pandas as pd

data = [1, 2, 3, 4, 5]
s = pd.Series(data, name="my_series")

print(s)

# 0    1
# 1    2
# 2    3
# 3    4
# 4    5
# Name: my_series, dtype: int64

# еще один способ задать имя для объекта Series – использовать атрибут name после создания объекта
s.name = "new_name"
print(s)

# 0    1
# 1    2
# 2    3
# 3    4
# 4    5
# Name: new_name, dtype: int64

## **Объект pandas.Index и его атрибуты**

В pandas есть особый объект, называемый `pandas.Index`, который является базовым объектом, хранящим метки осей для всех объектов pandas. Объект `pd.Index` в pandas представляет собой одномерный неизменяемый массив меток осей (**labels**), используемых для идентификации и выбора данных в объектах pandas, таких, как например **Series**. Этот объект предоставляет множество методов и атрибутов для работы с метками, выполняя важную роль в структуре данных Pandas. Он также имеет атрибут `name`, который позволяет задавать имя для индекса. Оно может быть удобно для описания данных, содержащихся в индексе. Имя можно задать при создании индекса или позже, используя атрибут `name`.

In [None]:
# пример создания индекса с именем
import pandas as pd

data = [1, 2, 3, 4, 5]
index = pd.Index(data, name="my_index")

print(index)

# Int64Index([1, 2, 3, 4, 5], dtype='int64', name='my_index')

# еще один способ задать имя для индекса – использовать атрибут name после создания индекса
index.name = "new_name"

print(index)

# Index([1, 2, 3, 4, 5], dtype='int64', name='new_name')

У объекта `pandas.Index` есть атрибуты `name`, `dtype`. Сами значения индекса хранятся в атрибуте `values`.

In [None]:
# вывод значения индексов
import pandas as pd

index = pd.Index([1, 2, 3, 4, 5])

print(index.values)  # [1 2 3 4 5]

Имя объекта **Series** и имя объекта индекса могут использоваться для идентификации данных при работе с набором данных. Например, если у нас есть несколько объектов **Series** или индексов в наборе данных, мы можем использовать их имена, чтобы легче отслеживать, какие данные содержатся в каждом объекте.

In [None]:
# озаглавливаем колонку с индексами
import pandas as pd

data = [1, 2, 3, 4, 5]
s = pd.Series(data, name="my_series")
s.index.name = 'индекс'

print(s)

# индекс
# 0    1
# 1    2
# 2    3
# 3    4
# 4    5
# Name: my_series, dtype: int64

In [None]:
# индексы и параметры для них можно задавать отдельно через pd.Index()
import pandas as pd

ind = pd.Index(['2024-12-25', '2024-12-26', '2024-12-27' ], dtype='datetime64[ns]', name='дата')
s1 = pd.Series([-27, -21, -18], index=ind, dtype='int16', name='температура')

print(s1)

# дата
# 2024-12-25   -27
# 2024-12-26   -21
# 2024-12-27   -18
# Name: температура, dtype: int16

print (ind)

# DatetimeIndex(['2024-12-25', '2024-12-26', '2024-12-27'], dtype='datetime64[ns]', name='дата', freq=None)

Кроме того, имя объекта **Series** и имя объекта индекса используются в некоторых методах и операциях в Pandas. Например, если мы объединяем два объекта **Series**, то их имена будут сохранены в результирующем объекте **Series**. Также мы можем использовать имя индекса для доступа к элементам индекса или для переименования индекса.

Если **Series** создаётся из словаря или из другой серии, то атрибут `index` отберёт только указанные значения.

In [None]:
# пример создания Series из словаря с атрибутом index
import pandas as pd

d = {'a': 1, 'b': 2, 'c': 3, 'd': 4}
s = pd.Series(d, index=['b', 'd', 'f'])

print(s)

# b    2.0
# d    4.0
# f    NaN
# dtype: float64

s1 = pd.Series(s, index=['b', 'f'])

print(s1)

# b    2.0
# f    NaN
# dtype: float64

# **Атрибут copy объекта Pandas Series**

При значении **False** объект **Series** будет ссылаться на первоначальный объект. По умолчанию имеет значение **True**, следовательно, Series ссылается не на первоначальный объект, а на новый.

Но это почему-то работает только с `np.array`, а со списками не работает.

In [None]:
# пример работы copy
import pandas as pd
import numpy as np

array = np.array([1, 2, 3, 4, 5])
s = pd.Series(array, copy=False)
s += 1

print(array) # [2 3 4 5 6]