# Pandas

Программная библиотека на языке Python для обработки и анализа данных. Работа pandas с данными строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня. Предоставляет специальные структуры данных и операции для манипулирования числовыми таблицами и временными рядами. Название библиотеки происходит от эконометрического термина «панельные данные»*, используемого для описания многомерных структурированных наборов информации. pandas распространяется под новой лицензией BSD. 

* Сайт - https://pandas.pydata.org/
* PyPI - https://pypi.org/project/pandas/


*Панельные данные - данные получаемые серией измерений или наблюдений за несколько периодов времени для одних и тех же компаний или людей. 
Например данные за месяц о количестве шагов проденных студентами группы

## Подключение библиотеки к проекту


Для использования библиотеки в проекте ее необходимо установить и импортировать:

Установка выполняется командой bash
```bash 
pip install pandas 
```


Импорт
```python 
import numpy as np
```

Доступна функция настройки представления объектов pandas в Jupiter Notebook - set_option

In [3]:
# Подключение библиотеки к проекту

import sys
import numpy as np
import pandas as pd
print(f"Python version: {sys.version}")
print(f"Numpy version: {np.version.version}")
print(f"Pandas version: {pd.__version__}")
pd.set_option('display.max_row',10)
pd.set_option('display.max_column',8)

Python version: 3.12.2 (main, Mar 12 2024, 08:01:18) [GCC 12.2.0]
Numpy version: 2.1.0
Pandas version: 2.2.2


## Series (Серия)

**Series** - это базовая структура данных в библиотеке pandas. Серия похожа на массив NumPy, но отличается от него тем, что имеет индекс, который позволяет осуществлять гораздо более гибкий поиск элементов, а не только по индексу массива, в котором отчет начинается с нуля. 
Такая особенность делает похожим Series на ассоциативный массив или словарь в Python.

В строковом представлении объекта Series, индекс находится слева, а сам элемент справа. Если индекс явно не задан, то pandas автоматически создаёт RangeIndex от 0 до N-1, где N общее количество элементов.

### Создание серий

Из скалярныйх значений

In [2]:
s_scal_1 = pd.Series(1)
s_scal_1

0    1
dtype: int64

Создание на основе списков

In [None]:
s_list_1 = pd.Series([1,2,3,4])
s_list_2 = pd.Series('hello')
s_list_3 = pd.Series(range(1,10,2))
s_list_4 = pd.Series([3]*10)

Создание на основе словарей

In [None]:
s_dic_1 = pd.Series({'a':1, 'b':2, 'c': 3})
s_dic_1

Из объектов NumPy

In [None]:
s_nm_1 = pd.Series(np.arange(1,10))
s_nm_2 = pd.Series(np.random.normal(size=10))
s_nm_2

### Значения

Получение заначений из серии.  Значения получем в виде массива NumPy

In [None]:
s_list_1 = pd.Series([1,2,3,4]).values
s_list_2 = pd.Series('hello').values
s_nm_1 = pd.Series(np.arange(1,10)).values
print(s_list_1, s_list_2, s_nm_1)
print(type(s_list_1), type(s_list_2), type(s_nm_1))

Получение размера и формы серии

In [None]:
s_list_1 = pd.Series([1,2,3,4])
print(len(s_list_1))
print(s_list_1.shape)

### Индексы

Создание простого объекта Series с автоматическим индексом

In [None]:
s_auto_indexs = pd.Series([1,2,3,4])
print(s_auto_indexs)
print(s_auto_indexs.index)
print(type(s_auto_indexs))
print(type(s_auto_indexs.index))

Создание простого объекта Series c пользовательским индексом

In [None]:
s_char_index = pd.Series([1,2,3,4], index=['a', 'b', 'c', 'd'])
print(type(s_char_index))
print(s_char_index)
print(s_char_index.index)

Создание простого объекта Series c индексом в виде даты

In [None]:
date_index = pd.date_range('2024-01-01','2024-01-4')
s_date_index = pd.Series([1,2,3,4], index=date_index)
print(date_index)
print(s_date_index)

Индексы можно создать и присвоить позднее

In [None]:
date_index = pd.date_range('2024-01-01','2024-01-4')
s_date_index = pd.Series([1,2,3,4])
s_date_index.index = date_index
print(s_date_index)

### Поиск элементов

Поиск по метки индекса

In [None]:

s_auto_indexs = pd.Series([1,2,3,4])
print(s_auto_indexs[1])      # Перый элемент
print(s_auto_indexs[:])      # Все
print(s_auto_indexs[2:])     # Начиная со 2-ого
print(s_auto_indexs[1:3])    # С 1-ого по 3-й (3-й не включается)
print(s_auto_indexs[:2])     # С начало до 2-ого (2-й не включается)
print(s_auto_indexs[::2])    # Только четные
print(s_auto_indexs[[1,3]])  # Явно перечисленные

s_char_index = pd.Series([1,2,3,4], index=['a', 'b', 'c', 'd'])
print(s_char_index['a'])
print(s_char_index[['a','d']])
print(s_char_index[[1,3]])

s_date_index = pd.Series([1,2,3,4], index=pd.date_range('2024-01-01','2024-01-4'))
print(s_date_index[1])
print(s_date_index[['2024-01-01','2024-01-03']])

#  Проблема
#s_int_indexs = pd.Series([1,2,3,4], index=[10,11,12,13])
#s_int_indexs[1]

Явный поиск по позиции iloc

In [None]:
s_int_indexs = pd.Series([1,2,3,4], index=[10,11,12,13])
s_int_indexs.iloc[1]
s_int_indexs.iloc[1:3]

Явный поиск по метке loc

In [None]:
s_int_indexs = pd.Series([1,2,3,4], index=[10,11,12,13])
s_int_indexs.loc[10]

Методы Series

In [None]:
s = pd.Series(np.arange(1,10), index=list('abcdefghi'))
s.head(2) # Первые 2 элемента
s.tail(2) # Последние 2 элемента
s.take([1,2,3]) #  Элементы по целочисленной позиции

### Арифметические операция над сериями

In [None]:


s1 = pd.Series([1,2,3,4,5], index=pd.date_range('2024-01-01', '2024-01-05'))
s2 = pd.Series([10,20,30,40,50], index=pd.date_range('2024-01-01', '2024-01-05'))

s2-s1
s1+s2
s1*s2
s2/s1
s2//s1
s2**s1

### Векторизованные операции над строкам

In [111]:
monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terry Gilliam',
'Eric Idle', 'Terry Jones', 'Michael Palin'])


monte.str.lower()
monte.str.startswith('T')
monte.str.split()

0    [Graham, Chapman]
1       [John, Cleese]
2     [Terry, Gilliam]
3         [Eric, Idle]
4       [Terry, Jones]
5     [Michael, Palin]
dtype: object

### Статистические функции

In [None]:
s1.max()
s1.min()
s1.mean()
s2.median()
s2.describe()

### Выравнивание по меткам индекса

Выравнивание данных в объекте Series с помощью меток индекса является фундаментальным принципом библиотеки pandas, а также одним из ее самых главных преимуществ. Выравнивание осуществляет автоматическое согласование связанных друг с другом значений в нескольких объектах Series на основе меток индекса.

In [None]:
s1 = pd.Series([1, 2], index=['a', 'b'])
s2 = pd.Series([4, 3], index=['b', 'a'])
s1+s2

In [None]:
s3 = pd.Series([5, 6], index=['b', 'c'])
s1+s3

In [56]:
s4 = pd.Series([7, 8,9,10], index=['b','b','b', 'c'])


### Логический отбор

Индексы предлагают очень мощный и эффективный способ поиска значений в объекте Series на основе их меток. Но что, если вы хотите найти записи в обьекте Series на основе значений?
Для решения этой задачи библиотека pandas предлагает воспользоваться логическим отбором (отбором на основе булевых значений). Он применяет логическое выражение к значениям объекта Series и возвращает новую серию булевых значений, представляющую собой результат применения этого выражения к каждому значению. Затем этот результат можно использовать для извлечения лишь тех значений, где был получен результат Тгие. 

In [12]:
s = pd. Series(np.arange(0, 5), index=list('abcde'))
logical_results = s >= 3
logical_results

a    False
b    False
c    False
d     True
e     True
dtype: bool

In [13]:
s[logical_results]

d    3
e    4
dtype: int64

In [14]:
s[s >= 3]

d    3
e    4
dtype: int64

In [21]:
s[(s >= 3) & (s<4)]
s[(s < 2) | (s > 3)]

a    0
b    1
e    4
dtype: int64

In [19]:
(s >= 3).any()
(s >= 3).all()
(s >= 3).sum()

np.int64(2)

Удаление пустых значений

In [61]:
s1 = pd.Series([1, 2], index=['a', 'b'])
s3 = pd.Series([5, 6], index=['b', 'c'])
s_all = s1+s3
(s_all).isna()
s_all[~(s_all).isna()]

b    7.0
dtype: float64

In [65]:
s_all.fillna(0)

a    0.0
b    7.0
c    0.0
dtype: float64

## DataFrame

Представляет собой один или нескольок объктов Series, упорядоченных по меткам индекса

В некоторм роде DataFrame похож на таблицу реляционной базы данных. 

In [69]:
belgorod = pd.Series([7, 12,9,13,15,16,15,15,14,14], index=pd.date_range('2023-04-01', '2023-04-10'))
kursk = pd.Series([10,12,12,13,14,15,14,13,15,15], index=pd.date_range('2023-04-01', '2023-04-10'))
temp_df= pd.DataFrame({
    "Belgorod": belgorod,
    "Kursk": kursk,
})
print(type(temp_df))
temp_df


<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Belgorod,Kursk
2023-04-01,7,10
2023-04-02,12,12
2023-04-03,9,12
2023-04-04,13,13
2023-04-05,15,14
2023-04-06,16,15
2023-04-07,15,14
2023-04-08,15,13
2023-04-09,14,15
2023-04-10,14,15


In [72]:
temp_df.head(3) # Первые N строк датафрейма

Unnamed: 0,Belgorod,Kursk,Orel
2023-04-01,7,10,10
2023-04-02,12,12,12
2023-04-03,9,12,12


### Получение столбца фрейма

Столбец таблицы представляет собой Series и может быть получен из DataFrame с помощью операции извлечения по индексу.

In [24]:
print(type(temp_df), type(temp_df["Kursk"]))
s = temp_df["Kursk"]
# s = temp_df.Kursk
s

# s['2023-04-01']
# temp_df["Kursk"]['2023-04-01']
#temp_df[["Kursk","Belogorod"]]

<class 'pandas.core.frame.DataFrame'> <class 'pandas.core.series.Series'>


2023-04-01    10
2023-04-02    12
2023-04-03    12
2023-04-04    13
2023-04-05    14
2023-04-06    15
2023-04-07    14
2023-04-08    13
2023-04-09    15
2023-04-10    15
Freq: D, Name: Kursk, dtype: int64

### Арифметические операция над фреймами

In [27]:
temp_df["Kursk"] - temp_df["Belgorod"] 

2023-04-01    3
2023-04-02    0
2023-04-03    3
2023-04-04    0
2023-04-05   -1
2023-04-06   -1
2023-04-07   -1
2023-04-08   -2
2023-04-09    1
2023-04-10    1
Freq: D, dtype: int64

### Добавление серии

In [70]:
orel = pd.Series([10,12,12,13,14,14,11,12,14,17], index=pd.date_range('2023-04-01', '2023-04-10'))
temp_df["Orel"] = orel
temp_df

Unnamed: 0,Belgorod,Kursk,Orel
2023-04-01,7,10,10
2023-04-02,12,12,12
2023-04-03,9,12,12
2023-04-04,13,13,13
2023-04-05,15,14,14
2023-04-06,16,15,14
2023-04-07,15,14,11
2023-04-08,15,13,12
2023-04-09,14,15,14
2023-04-10,14,15,17


### Получение строки фрейма

метод iloc

In [30]:

print(temp_df.iloc[1])
print("--")
print(type(temp_df.iloc[1]))
print("--")
print(temp_df.iloc[1].index)

Belgorod    12
Kursk       12
Orel        12
Name: 2023-04-02 00:00:00, dtype: int64
--
<class 'pandas.core.series.Series'>
--
Index(['Belgorod', 'Kursk', 'Orel'], dtype='object')


метод loc

In [225]:
print(temp_df.loc['2023-04-1'])
print("--")
print(type(temp_df.loc['2023-04-1']))
print("--")
print(temp_df.loc['2023-04-1'].index)

Belgorod     7
Kursk       10
Orel        10
Name: 2023-04-01 00:00:00, dtype: int64
--
<class 'pandas.core.series.Series'>
--
Index(['Belgorod', 'Kursk', 'Orel'], dtype='object')


### Логический отбор

Логический отбор или отбор на основе булевых значений (Boolean Selection)
Отбор строк на основе значений конкретных столбцов (аналогичен where в SQL)

In [62]:
belgorod_gt_12_log = temp_df["Belgorod"] > 12
belgorod_gt_12_log

0    False
1    False
Name: Belgorod, dtype: bool

In [63]:
temp_df[belgorod_gt_12_log]

Unnamed: 0,Belgorod,Kursk


In [71]:
temp_df["Belgorod"] == temp_df["Kursk"]
(temp_df["Belgorod"] < 8) & (temp_df["Kursk"] > 8)
temp_df["Belgorod"] != temp_df["Orel"]


2023-04-01     True
2023-04-02    False
2023-04-03     True
2023-04-04    False
2023-04-05     True
2023-04-06     True
2023-04-07     True
2023-04-08     True
2023-04-09    False
2023-04-10     True
Freq: D, dtype: bool

### Агрегирование и группировка

Объекты Series и DataFrame имеют методы, соответствующие всем распростра
ненным агрегирующим функциям. Кроме того, они имеют
удобный метод describe, вычисляющий сразу несколько самых распространенных
сводных показателей для каждого столбца и возвращающий результат. 

In [91]:
temp_df.max()
temp_df.min()
temp_df.sum()
temp_df.mean()
temp_df.count()

temp_df.describe() # Описание данных

Unnamed: 0,Belgorod,Kursk,Orel
count,10.0,10.0,10.0
mean,13.0,13.3,12.9
std,2.905933,1.636392,1.969207
min,7.0,10.0,10.0
25%,12.25,12.25,12.0
50%,14.0,13.5,12.5
75%,15.0,14.75,14.0
max,16.0,15.0,17.0


In [92]:
titanic_json_df = pd.read_json("/code/data/titanic.json" ) 
titanic_json_df


Unnamed: 0,Pclass,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked
0,3,male,34.5,0,0,7.8292,,Q
1,3,female,47.0,1,0,7.0000,,S
2,2,male,62.0,0,0,9.6875,,Q
3,3,male,27.0,0,0,8.6625,,S
4,3,female,22.0,1,1,12.2875,,S
...,...,...,...,...,...,...,...,...
413,3,male,,0,0,8.0500,,S
414,1,female,39.0,0,0,108.9000,C105,C
415,3,male,38.5,0,0,7.2500,,S
416,3,male,,0,0,8.0500,,S


In [105]:
titanic_json_df["Age"].mean()
titanic_json_df.groupby('Sex')["Age"].mean()
titanic_json_df.groupby('Sex')["Age"].aggregate(['min', 'max', 'sum'])


Unnamed: 0_level_0,min,max,sum
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.17,76.0,3844.59
male,0.33,67.0,6205.91


### Сводные таблицы

In [108]:
titanic_json_df.pivot_table('Age', index='Sex', columns='Pclass',
aggfunc='mean')

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,41.333333,24.376552,23.0734
male,40.52,30.940678,24.525104


 ## Загрузка данных

### Загрузка CSV файлов

In [45]:
beauty_df = pd.read_csv("/code/data/beauty.csv", delimiter=';')
beauty_df

Unnamed: 0,wage,exper,union,goodhlth,...,married,service,educ,looks
0,5.73,30,0,1,...,1,1,14,4
1,4.28,28,0,1,...,1,0,12,3
2,7.96,35,0,1,...,0,0,10,4
3,11.57,38,0,1,...,1,1,16,3
4,11.42,27,0,1,...,1,0,16,3
...,...,...,...,...,...,...,...,...,...
1255,1.61,25,0,1,...,0,1,12,3
1256,1.68,4,0,1,...,1,1,12,2
1257,3.29,35,0,1,...,0,1,12,3
1258,2.31,15,0,1,...,1,1,10,3


In [None]:
goog_df = pd.read_csv("/code/data/goog.csv", parse_dates=["Date"], index_col='Date')
goog_df

### Загрузка данных в формате Excel

In [46]:
titanic_df = pd.read_excel("/code/data/titanic.xls") # Требуется библиотека xlrd
titanic_df

Unnamed: 0,pclass,survived,name,sex,...,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,...,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,...,S,11,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,...,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,...,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,...,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...
1304,3,0,"Zabour, Miss. Hileni",female,...,C,,328.0,
1305,3,0,"Zabour, Miss. Thamine",female,...,C,,,
1306,3,0,"Zakarian, Mr. Mapriededer",male,...,C,,304.0,
1307,3,0,"Zakarian, Mr. Ortin",male,...,C,,,


### Загрузка данных в формате json

In [47]:

titanic_json_df = pd.read_json("/code/data/titanic.json" ) 
titanic_json_df

Unnamed: 0,Pclass,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked
0,3,male,34.5,0,0,7.8292,,Q
1,3,female,47.0,1,0,7.0000,,S
2,2,male,62.0,0,0,9.6875,,Q
3,3,male,27.0,0,0,8.6625,,S
4,3,female,22.0,1,1,12.2875,,S
...,...,...,...,...,...,...,...,...
413,3,male,,0,0,8.0500,,S
414,1,female,39.0,0,0,108.9000,C105,C
415,3,male,38.5,0,0,7.2500,,S
416,3,male,,0,0,8.0500,,S


### Сохранение данных

In [48]:
temp_df.to_csv('/code/data/temp.csv')

## Список литературы
1. Плас, Д.В. Python  для  сложных  задач:  наука  о  данных.  2-е  междунар.  изд./Джейк Вандер Плас. — Астана: «Спринт Бук», 2024. — 592 с.: ил.
2. Хейдт М.  Изучаем Pandas / Хейдт М. А.В. Груздев - М: ДМК Пресс, 2019. - 682с.ил.