# Pandas

Программная библиотека на языке Python для обработки и анализа данных. Работа pandas с данными строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня. Предоставляет специальные структуры данных и операции для манипулирования числовыми таблицами и временны́ми рядами. Название библиотеки происходит от эконометрического термина «панельные данные»*, используемого для описания многомерных структурированных наборов информации. pandas распространяется под новой лицензией BSD. 

* Сайт - https://pandas.pydata.org/
* PyPI - https://pypi.org/project/pandas/


*Панельные данные - данные получаемые серией измерений или наблюдений за несколько периодов времени для одних и тех же компаний или людей. 
Например данные за месяц о количестве шагов проденных студентами группы

## Подключение библиотеки к проекту


Для использованиея библиотеки в проекте ее необходимо установить и импортировать:

Установка выполняется коммандой bash
```bash 
pip install pandas 
```


Импорт
```python 
import numpy as np
```

Доступна функция настройки представления объектов pandas в Jupiter Notebook - set_option

In [None]:
# Подключение библиотеки к проекту

import sys
import numpy as np
import pandas as pd
print(f"Python version: {sys.version}")
print(f"Numpy version: {np.version.version}")
print(f"Pandas version: {pd.__version__}")
pd.set_option('display.max_row',10)
pd.set_option('display.max_column',8)

## Series (Серия)

**Series** - это базовая структура данных в библиотеке pandas. Серия похожа на массив NumPy, но отличается от него тем, что имеет индекс, который позволяет осуществлять гораздо более гибкий поиск элементов, а не только по индексу массива, в котором отчет начинается с нуля. 
Такая особенность делает похожим Series на ассоциативный массив или словарь в Python.

В строковом представлении объекта Series, индекс находится слева, а сам элемент справа. Если индекс явно не задан, то pandas автоматически создаёт RangeIndex от 0 до N-1, где N общее количество элементов.

### Создание серий

Из скалярныйх значений

In [None]:
s_scal_1 = pd.Series(1)
s_scal_1

Создание на основе списков

In [None]:
s_list_1 = pd.Series([1,2,3,4])
s_list_2 = pd.Series('hello')
s_list_3 = pd.Series(range(1,10,2))
s_list_4 = pd.Series([3]*10)

Создание на основе словарей

In [None]:
s_dic_1 = pd.Series({'a':1, 'b':2, 'c': 3})
s_dic_1

Из объектов NumPy

In [None]:
s_nm_1 = pd.Series(np.arange(1,10))
s_nm_2 = pd.Series(np.random.normal(size=10))
s_nm_2

### Значения

Получение заначений из серии.  Значения получем в виде массива NumPy

In [None]:
s_list_1 = pd.Series([1,2,3,4]).values
s_list_2 = pd.Series('hello').values
s_nm_1 = pd.Series(np.arange(1,10)).values
print(s_list_1, s_list_2, s_nm_1)
print(type(s_list_1), type(s_list_2), type(s_nm_1))

Получение размера и формы серии

In [None]:
s_list_1 = pd.Series([1,2,3,4])
print(len(s_list_1))
print(s_list_1.shape)

### Индексы

Создание простого объекта Series с автоматическим индексом

In [None]:
s_auto_indexs = pd.Series([1,2,3,4])
print(s_auto_indexs)
print(s_auto_indexs.index)
print(type(s_auto_indexs))
print(type(s_auto_indexs.index))

Создание простого объекта Series c пользовательским индексом

In [None]:
s_char_index = pd.Series([1,2,3,4], index=['a', 'b', 'c', 'd'])
print(type(s_char_index))
print(s_char_index)
print(s_char_index.index)

Создание простого объекта Series c индексом в виде даты

In [None]:
date_index = pd.date_range('2024-01-01','2024-01-4')
s_date_index = pd.Series([1,2,3,4], index=date_index)
print(date_index)
print(s_date_index)

Индексы можно создать и присвоить позднее

In [None]:
date_index = pd.date_range('2024-01-01','2024-01-4')
s_date_index = pd.Series([1,2,3,4])
s_date_index.index = date_index
print(s_date_index)

### Поиск элементов

Поиск по метки индекса

In [None]:

s_auto_indexs = pd.Series([1,2,3,4])
print(s_auto_indexs[1])      # Перый элемент
print(s_auto_indexs[:])      # Все
print(s_auto_indexs[2:])     # Начиная со 2-ого
print(s_auto_indexs[1:3])    # С 1-ого по 3-й (3-й не включается)
print(s_auto_indexs[:2])     # С начало до 2-ого (2-й не включается)
print(s_auto_indexs[::2])    # Только четные
print(s_auto_indexs[[1,3]])  # Явно перечисленные

s_char_index = pd.Series([1,2,3,4], index=['a', 'b', 'c', 'd'])
print(s_char_index['a'])
print(s_char_index[['a','d']])
print(s_char_index[[1,3]])

s_date_index = pd.Series([1,2,3,4], index=pd.date_range('2024-01-01','2024-01-4'))
print(s_date_index[1])
print(s_date_index[['2024-01-01','2024-01-03']])

#  Проблема
#s_int_indexs = pd.Series([1,2,3,4], index=[10,11,12,13])
#s_int_indexs[1]

Явный поиск по позиции iloc

In [None]:
s_int_indexs = pd.Series([1,2,3,4], index=[10,11,12,13])
s_int_indexs.iloc[1]
s_int_indexs.iloc[1:3]

Явный поиск по метке loc

In [None]:
s_int_indexs = pd.Series([1,2,3,4], index=[10,11,12,13])
s_int_indexs.loc[10]

Методы Series

In [None]:
s = pd.Series(np.arange(1,10), index=list('abcdefghi'))
s.head(2) # Первые 2 элемента
s.tail(2) # Последние 2 элемента
s.take([1,2,3]) #  Элементы по целочисленной позиции

### Арифметические операция над сериями. Выравнивание по меткам индекса

Арифметические операция на сериями

In [None]:


s1 = pd.Series([1,2,3,4,5], index=pd.date_range('2024-01-01', '2024-01-05'))
s2 = pd.Series([10,20,30,40,50], index=pd.date_range('2024-01-01', '2024-01-05'))

s2-s1
s1+s2
s1*s2
s2/s1
s2//s1
s2**s1

Выравнивания по меткам индекса

### Статистические функции

In [None]:
s1.max()
s1.min()
s1.mean()
s2.median()
s2.describe()

## DataFrame

Представляет собой один или нескольок объктов Series, упорядоченных по меткам индекса

В некоторм роде DataFrame похож на таблицу реляционной базы данных. 

In [220]:
belgorod = pd.Series([7, 12,9,13,15,16,15,15,14,14], index=pd.date_range('2023-04-01', '2023-04-10'))
kursk = pd.Series([10,12,12,13,14,15,14,13,15,15], index=pd.date_range('2023-04-01', '2023-04-10'))
temp_df= pd.DataFrame({
    "Belgorod": belgorod,
    "Kursk": kursk,
})
print(type(temp_df))
temp_df



<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Belgorod,Kursk
2023-04-01,7,10
2023-04-02,12,12
2023-04-03,9,12
2023-04-04,13,13
2023-04-05,15,14
2023-04-06,16,15
2023-04-07,15,14
2023-04-08,15,13
2023-04-09,14,15
2023-04-10,14,15


### Получение столбца фрейма

Столбец таблицы представляет собой Series и может быть получен из DataFrame с помощью операции извлечения по индексу.

In [221]:
print(type(temp_df), type(temp_df["Kursk"]))
s = temp_df["Kursk"]
# s = temp_df.Kursk
s

# s['2023-04-01']
# temp_df["Kursk"]['2023-04-01']
#temp_df[["Kursk","Belogorod"]]

<class 'pandas.core.frame.DataFrame'> <class 'pandas.core.series.Series'>


2023-04-01    10
2023-04-02    12
2023-04-03    12
2023-04-04    13
2023-04-05    14
2023-04-06    15
2023-04-07    14
2023-04-08    13
2023-04-09    15
2023-04-10    15
Freq: D, Name: Kursk, dtype: int64

### Арифметические операция над фреймами

In [222]:
temp_df["Kursk"] - temp_df["Belgorod"]

2023-04-01    3
2023-04-02    0
2023-04-03    3
2023-04-04    0
2023-04-05   -1
2023-04-06   -1
2023-04-07   -1
2023-04-08   -2
2023-04-09    1
2023-04-10    1
Freq: D, dtype: int64

### Добавление серии

In [223]:
orel = pd.Series([10,12,12,13,14,14,11,12,14,17], index=pd.date_range('2023-04-01', '2023-04-10'))
temp_df["Orel"] = orel
temp_df

Unnamed: 0,Belgorod,Kursk,Orel
2023-04-01,7,10,10
2023-04-02,12,12,12
2023-04-03,9,12,12
2023-04-04,13,13,13
2023-04-05,15,14,14
2023-04-06,16,15,14
2023-04-07,15,14,11
2023-04-08,15,13,12
2023-04-09,14,15,14
2023-04-10,14,15,17


### Получение строки фрейма

метод iloc

In [224]:

print(temp_df.iloc[1])
print("--")
print(type(temp_df.iloc[1]))
print("--")
print(temp_df.iloc[1].index)

Belgorod    12
Kursk       12
Orel        12
Name: 2023-04-02 00:00:00, dtype: int64
--
<class 'pandas.core.series.Series'>
--
Index(['Belgorod', 'Kursk', 'Orel'], dtype='object')


метод loc

In [225]:
print(temp_df.loc['2023-04-1'])
print("--")
print(type(temp_df.loc['2023-04-1']))
print("--")
print(temp_df.loc['2023-04-1'].index)

Belgorod     7
Kursk       10
Orel        10
Name: 2023-04-01 00:00:00, dtype: int64
--
<class 'pandas.core.series.Series'>
--
Index(['Belgorod', 'Kursk', 'Orel'], dtype='object')


Логический отбор или отбор на основе булевых значений (Boolean Selection)
Отбор строк на основе значений конкретных столбцов (аналогичен where в SQL)

In [226]:
belgorod_gt_12_log = temp_df["Belgorod"] > 12
belgorod_gt_12_log

2023-04-01    False
2023-04-02    False
2023-04-03    False
2023-04-04     True
2023-04-05     True
2023-04-06     True
2023-04-07     True
2023-04-08     True
2023-04-09     True
2023-04-10     True
Freq: D, Name: Belgorod, dtype: bool

In [227]:
temp_df[belgorod_gt_12_log]

Unnamed: 0,Belgorod,Kursk,Orel
2023-04-04,13,13,13
2023-04-05,15,14,14
2023-04-06,16,15,14
2023-04-07,15,14,11
2023-04-08,15,13,12
2023-04-09,14,15,14
2023-04-10,14,15,17


 ## Загрузка данных

### Загрузка CSV файлов

In [None]:
beauty_df = pd.read_csv("/code/data/beauty.csv", delimiter=';')
beauty_df

In [None]:
goog_df = pd.read_csv("/code/data/goog.csv", parse_dates=["Date"], index_col='Date')
goog_df

### Загрузка данных в формате Excel

In [None]:
titanic_df = pd.read_excel("/code/data/titanic.xls") # Требуется библиотека xlrd
titanic_df

### Загрузка данных в формате json

In [None]:

titanic_json_df = pd.read_json("/code/data/titanic.json" ) 
titanic_json_df

### Сохранение данных

In [None]:
temp_df.to_csv('/code/data/temp.csv')