# Курс "Программирование на языке Python. Уровень 4. Анализ и визуализация данных на языке Python. Библиотеки numpy, pandas, matplotlib"

##  Библиотека pandas

Библиотека pandas - средство для анализа табличных ("панельных") данных. Pandas - это аббревиатура, в основе которой лежат слова Panel Data Analysis. 

Pandas может быть использован в сочетании с Numpy и поддерживает работу с данными в том же стиле. Также объекты pandas могут быть использованы в библиотеках машинного обучения типа sklearn или keras. 

Основные структуры библиотеки - объекты Series и DataFrame. DataFrame - табличная структура данных, а Series - колонка в этой таблице. DataFrame можно рассматривать как словарь объектов Series, объединенных одним индексом.

Импорт библиотеки pandas:

In [1]:
import pandas as pd

In [2]:
pd.__version__

'1.3.4'

In [3]:
import numpy as np

### Объект Series

Series - это объект, похожий на одномерный массив: он содержит последовательность данных, которая сопровождается индексными метками для доступа к ним.

Создадим простейший объект Series и выведем его на экран:

In [4]:
series = pd.Series([2, 12, 85, 0, 6])
series

0     2
1    12
2    85
3     0
4     6
dtype: int64

Индекс - колонка слева, данные - колонка справа. Выгрузить только данные можно через свойство ```.values```, выгрузить только индекс - ```.index```.

In [5]:
series.values

array([ 2, 12, 85,  0,  6], dtype=int64)

In [6]:
type(series.values) # знакомый нам массив numpy! <class 'numpy.ndarray'>

numpy.ndarray

In [7]:
series.index

RangeIndex(start=0, stop=5, step=1)

Можно создать Series с заданным индексом:

In [9]:
series2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
series2

d    4
b    7
a   -5
c    3
dtype: int64

In [10]:
series2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

Для доступа к данным можно использовать как метки индекса, так и порядковую позицию элемента:

In [11]:
# эти выражения эквиваленты
print(series2[2])
print(series2['a'])

-5
-5


Поддерживаются срезы по порядковому номеру и поиск по набору значений индекса:

In [21]:
series2

d    4
b    7
a   -5
c    3
dtype: int64

In [12]:
# эти выражения эквивалентны?
print(series2[1:-1])

# Когда мы обращаемся по имени индекса, то последний элемент включается!!!
print(series2['d':'a']) 

# Порядок следования индексов имеет значение
print(series2[['a', 'd', 'c']])
print(series2[['b', 'a']])

b    7
a   -5
dtype: int64
d    4
b    7
a   -5
dtype: int64
a   -5
d    4
c    3
dtype: int64
b    7
a   -5
dtype: int64


Также поддерживается булев индекс - как на чтение, так и на запись:

In [13]:
series2 > 0

d     True
b     True
a    False
c     True
dtype: bool

In [14]:
series2[series2 > 0]

d    4
b    7
c    3
dtype: int64

In [15]:
series2[series2 <= 3] = 100500
series2

d         4
b         7
a    100500
c    100500
dtype: int64

Broadcasting поддерживается тоже:

In [16]:
series2

d         4
b         7
a    100500
c    100500
dtype: int64

In [17]:
arr = np.array([10, 20 ,30, 40])
series4 = arr + series2
print(series4)

d        14
b        27
a    100530
c    100540
dtype: int64


In [18]:
series2 * 2

d         8
b        14
a    201000
c    201000
dtype: int64

In [20]:
np.sqrt(series2)

d      2.000000
b      2.645751
a    317.017350
c    317.017350
dtype: float64

Также можно выполнять агрегатные запросы к объекту Series - вычислять среднее, сумму и т.д.

In [21]:
print(series2.mean())

50252.75


In [22]:
series2.size, series2.count(), series2.sum(), series2.prod(), series2.min(), series2.max()

(4, 4, 201011, 282807000000, 4, 100500)

In [24]:
np.mean(series2)

50252.75

In [32]:
series2.mean(), series2.median()

(50252.75, 50253.5)

In [25]:
series2.describe() ## Позволяет получить описательные статистики сразу одной функцией

count         4.00000
mean      50252.75000
std       58020.52664
min           4.00000
25%           6.25000
50%       50253.50000
75%      100500.00000
max      100500.00000
dtype: float64

Объект Series можно рассматривать как словарь с однотипными данными. Более того, для создания объекта Series можно использовать готовый словарь:

In [29]:
print(ord('$'))
print(chr(36))

36
$


In [32]:
ex = {chr(int('20AC', base=16)): 10000, chr(int('20BD', base=16)): 1000, chr(36):100}
ex_series = pd.Series(ex)
print(ex_series)

€    10000
₽     1000
$      100
dtype: int64


In [31]:
ex['€']

10000

In [33]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
series3 = pd.Series(sdata)
print(series3)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64


In [34]:
## Проверка идет по индексу
'Texas' in series3

True

In [35]:
'Alaska' in series3

False

In [44]:
bad_data = {'a':1, 'b':2.0, 'c':'Hello World'}
obj_series = pd.Series(bad_data)
print(obj_series)

a              1
b            2.0
c    Hello World
dtype: object


In [45]:
obj_series.mean() ## Error

TypeError: unsupported operand type(s) for +: 'float' and 'str'

In [40]:
# obj_series['c'] = len(obj_series['c']) # Вариант изменения значения obj_series с индексом 'c'
# obj_series.sum()

14.0

In [46]:
print(obj_series[obj_series > 1]) # с таким series этот фокус уже не пройдет

TypeError: '>' not supported between instances of 'str' and 'int'

In [47]:
print(obj_series.values)

[1 2.0 'Hello World']


### Выравнивание данных

In [48]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
states = ['California', 'Ohio', 'Oregon', 'Texas']
series4 = pd.Series(sdata, index=states)  # выравнивание по индексу
print(series4)

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64


```NaN``` - отсутствующие данные, "Not a Number" - "не число". По этому признаку можно фильтровать данные:

In [49]:
print(pd.notnull(series4)) ## Булев массив с результатами сравнения

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool


In [52]:
print(pd.isnull(series4)) ## Обратная операция

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool


In [53]:
series4[series4.notnull()]

Ohio      35000.0
Oregon    16000.0
Texas     71000.0
dtype: float64

Над объектами Series можно выполнять арифметические операции, но при этом важно помнить про выравнивание данных по индексам:  
если индексы встречаются в обоих объектах, арифметическая операция выполняется как обычно,  
но если индекс не найден - вместо результата операции устанавливается ```NaN```.

In [54]:
series3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [55]:
series3['Oregon'] = '2344.1'
series3 = series3.astype(np.float64)
series3

Ohio      35000.0
Texas     71000.0
Oregon     2344.1
Utah       5000.0
dtype: float64

In [56]:
series4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [53]:
type(series3['Oregon'])

numpy.float64

In [57]:
series3 + series4

California         NaN
Ohio           70000.0
Oregon         18344.1
Texas         142000.0
Utah               NaN
dtype: float64

In [58]:
5000 + np.nan

nan

Индекс объекта можно изменять "налету" через свойство ```.index```.

In [59]:
print(series)

0     2
1    12
2    85
3     0
4     6
dtype: int64


In [60]:
# Меняем индекс целиком
series.index = ['раз', 'два', 'три', 'четыре', 'пять']
print(series)

раз        2
два       12
три       85
четыре     0
пять       6
dtype: int64


In [61]:
series.index[2]

'три'

In [62]:
series.index[2] = 'шесть'  ## Ошибка.

TypeError: Index does not support mutable operations

__ВАЖНО__: У объекта Series есть свойство ```.name```, и это свойство играет важную роль в работе с DataFrame.

In [61]:
series3.name = 'Population'
print(series3)

Ohio      35000.0
Texas     71000.0
Oregon     2344.1
Utah       5000.0
Name: Population, dtype: float64


__Домашнее задание__ 

- Создайте объект Series для хранения оценок по какому-либо предмету, например, по "Линейной Алгебре". Пусть он содержит 5 студентов со случайными оценками от 2 до 5. Фамилии студентов должны быть индексами.

- Выведите средний балл для всех, у кого оценка больше или равна 3.

- Создайте другой объект Series, для хранения оценок по другому предмету, например по "Математическому Анализу". Посчитайте средний балл для каждого студента по этим двум предметам. 

*можно использовать библиотеку faker для создания нужных данных

In [82]:
# Библиотека для формирования данных - faker
# https://faker.readthedocs.io/en/master/
# !conda install faker  
from faker import Faker
fake = Faker('ru_RU')
index_name = [(fake.name(), fake.address(), fake.date_of_birth()) for _ in range(5)]
index_name

[('Марина Петровна Брагина',
  'ст. Двинской, наб. Шишкина, д. 4/2 стр. 600, 418835',
  datetime.date(1988, 3, 19)),
 ('Ситников Ульян Бориславович',
  'с. Юрюзань, бул. Энергетический, д. 7, 987750',
  datetime.date(1970, 2, 14)),
 ('Силин Егор Ефимович',
  'ст. Аша, ул. Степная, д. 7/1 стр. 7/5, 315620',
  datetime.date(1964, 3, 7)),
 ('Вера Петровна Медведева',
  'с. Кежма, алл. Медицинская, д. 48, 386140',
  datetime.date(2003, 8, 7)),
 ('Нестерова Евдокия Эльдаровна',
  'г. Гдов, ш. Надежды, д. 706, 105905',
  datetime.date(1937, 3, 6))]

#### Решение

In [83]:
res = fake.date_of_birth()

In [86]:
# из datetime.datetime в строку
res.strftime('%d-%B-%Y')

'10-January-2003'

In [85]:
from datetime import datetime

# из строки в datetime.datetime
datetime.strptime('31-03-2022', '%d-%m-%Y')

datetime.datetime(2022, 3, 31, 0, 0)