# Программирование на языке Python. 
# Уровень 4. Анализ и визуализация данных на языке Python. 
## Библиотеки numpy, pandas, matplotlib

##  Библиотека pandas

Основные структуры библиотеки - объекты **Series** и **DataFrame**.   
**DataFrame** - табличная структура данных, а **Series** - колонка в этой таблице.    
**DataFrame** можно рассматривать как словарь объектов Series, объединенных одним индексом.

In [1]:
import numpy as np
import pandas as pd
from datetime import datetime

In [2]:
pd.__version__

'2.1.1'

### Объект Series

Series - это объект, похожий на одномерный массив: он содержит последовательность данных, которая сопровождается индексными метками для доступа к ним.

Создадим простейший объект Series и выведем его на экран:

In [3]:
series = pd.Series([2, 12, 85, 0, 6])
series

0     2
1    12
2    85
3     0
4     6
dtype: int64

Индекс - колонка слева, данные - колонка справа.  
Выгрузить только данные можно через свойство ```.values```, выгрузить только индекс - ```.index```.

In [4]:
series.values

array([ 2, 12, 85,  0,  6], dtype=int64)

In [5]:
type(series.values) # знакомый нам массив numpy!

numpy.ndarray

In [6]:
series.index

RangeIndex(start=0, stop=5, step=1)

Можно создать Series с заданным индексом:

In [7]:
series2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
series2

d    4
b    7
a   -5
c    3
dtype: int64

In [8]:
series2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

Для доступа к данным можно использовать как метки индекса, так и порядковую позицию элемента:

In [10]:
# эти выражения эквиваленты
print(series2.iloc[2])  # Желательно указать явно, что это индекс для строки
print(series2['a'])

-5
-5


Поддерживаются срезы по порядковому номеру и поиск по набору значений индекса:

Эти выражения эквивалентны?

In [11]:
series2

d    4
b    7
a   -5
c    3
dtype: int64

In [12]:
print(series2[1:-1])
# Когда мы обращаемся по имени индекса, то последний элемент включается!!!
print(series2['d':'a']) 
# Порядок следования индексов имеет значение
print(series2[['a', 'd', 'c']])
print(series2[['b', 'a']])

b    7
a   -5
dtype: int64
d    4
b    7
a   -5
dtype: int64
a   -5
d    4
c    3
dtype: int64
b    7
a   -5
dtype: int64


Также поддерживается булев индекс - как на чтение, так и на запись:

In [13]:
series2 > 0

d     True
b     True
a    False
c     True
dtype: bool

In [14]:
series2[series2 > 0]

d    4
b    7
c    3
dtype: int64

In [15]:
series2[series2 <= 3] = 100500
series2

d         4
b         7
a    100500
c    100500
dtype: int64

Broadcasting также поддерживается:

In [16]:
series2

d         4
b         7
a    100500
c    100500
dtype: int64

In [17]:
arr = np.array([10, 20 ,30, 40])
series4 = arr + series2
print(series4)

d        14
b        27
a    100530
c    100540
dtype: int64


Математические операции

In [18]:
series2 * 2

d         8
b        14
a    201000
c    201000
dtype: int64

In [19]:
np.sqrt(series2)

d      2.000000
b      2.645751
a    317.017350
c    317.017350
dtype: float64

Также можно выполнять агрегатные запросы к объекту Series - вычислять среднее, сумму и т.д.

In [20]:
series2.mean()

50252.75

In [21]:
series2.size, series2.count(), series2.sum(), series2.prod()

(4, 4, 201011, 282807000000)

In [23]:
series2.min(), series2.max()

(4, 100500)

In [24]:
np.mean(series2)

50252.75

In [25]:
series2.mean(), series2.median()

(50252.75, 50253.5)

Функция describe() позволяет сразу получить описательные статистики

In [26]:
series2.describe() 

count         4.00000
mean      50252.75000
std       58020.52664
min           4.00000
25%           6.25000
50%       50253.50000
75%      100500.00000
max      100500.00000
dtype: float64

Объект Series можно рассматривать как словарь с однотипными данными.  
Более того, для создания объекта Series можно использовать готовый словарь:

In [27]:
print(ord('$'))
print(chr(36))

36
$


In [28]:
ex = {chr(int('20AC', base=16)): 10000, 
      chr(int('20BD', base=16)): 1000, 
      chr(36): 100}
ex_series = pd.Series(ex)
print(ex_series) 

€    10000
₽     1000
$      100
dtype: int64


In [29]:
ex['€']

10000

In [30]:
sdata = {'First': 35000, 'Second': 71000, 'Third': 16000, 'Fourth': 5000}
series3 = pd.Series(sdata)
series3

First     35000
Second    71000
Third     16000
Fourth     5000
dtype: int64

In [31]:
# Проверка идет по индексу 
'First' in series3

True

In [32]:
# Проверка идет по индексу
'Zeroth' in series3

False

In [33]:
bad_data = {'a':1, 'b':2.0, 'c':'Hello World'}
obj_series = pd.Series(bad_data)
print(obj_series)

a              1
b            2.0
c    Hello World
dtype: object


In [34]:
obj_series.mean() ## Error

TypeError: unsupported operand type(s) for +: 'float' and 'str'

In [None]:
# obj_series['c'] = len(obj_series['c']) # Вариант изменения значения obj_series с индексом 'c'
# obj_series.sum()

In [35]:
print(obj_series[obj_series > 1]) # с таким series этот фокус уже не пройдет

TypeError: '>' not supported between instances of 'str' and 'int'

In [36]:
obj_series.values

array([1, 2.0, 'Hello World'], dtype=object)

### Выравнивание данных

In [38]:
sdata = {'First': 35000, 'Second': 71000, 'Third': 16000, 'Fourth': 5000}
numbers = ['Zeroth', 'First', 'Second', 'Third']
series4 = pd.Series(sdata, index=numbers)  # выравнивание по индексу
mas = series4.values
print(mas)
print(series4)
print(series4.sum(), np.nansum(mas))

[   nan 35000. 71000. 16000.]
Zeroth        NaN
First     35000.0
Second    71000.0
Third     16000.0
dtype: float64
122000.0 nan


`NaN` - отсутствующие данные, "Not a Number" - "не число". По этому признаку можно фильтровать данные:

In [43]:
pd.notna(series4) # Булев массив с результатами сравнения

Zeroth    False
First      True
Second     True
Third      True
dtype: bool

In [44]:
pd.isna(series4) # Обратная операция

Zeroth     True
First     False
Second    False
Third     False
dtype: bool

In [45]:
series4[series4.notnull()]  # notna() тоже самое, что и notnull()

First     35000.0
Second    71000.0
Third     16000.0
dtype: float64

Над объектами Series можно выполнять арифметические операции, но при этом важно помнить про выравнивание данных по индексам:  
если индексы встречаются в обоих объектах, арифметическая операция выполняется как обычно,  
но если индекс не найден - вместо результата операции устанавливается ```NaN```.

In [46]:
series3['Fourth'] = '2344.1'
series3 = series3.astype(np.float64)
series3

  series3['Fourth'] = '2344.1'


First     35000.0
Second    71000.0
Third     16000.0
Fourth     2344.1
dtype: float64

In [47]:
type(series3['Fourth'])

numpy.float64

In [48]:
series3

First     35000.0
Second    71000.0
Third     16000.0
Fourth     2344.1
dtype: float64

In [49]:
series4

Zeroth        NaN
First     35000.0
Second    71000.0
Third     16000.0
dtype: float64

In [50]:
series3 + series4

First      70000.0
Fourth         NaN
Second    142000.0
Third      32000.0
Zeroth         NaN
dtype: float64

In [51]:
5000 + np.nan

nan

Индекс объекта можно изменять "налету" через свойство ```.index```.

In [52]:
series

0     2
1    12
2    85
3     0
4     6
dtype: int64

In [55]:
# Меняем индекс целиком
series.index = ['раз', 'два', 'три', 'четыре', 'пять']; series

раз        2
два       12
три       85
четыре     0
пять       6
dtype: int64

In [56]:
series.index[2]

'три'

In [57]:
series.index[2] = 'шесть'  ## Ошибка.

TypeError: Index does not support mutable operations

__ВАЖНО__: У объекта Series есть свойство ```.name```, и это свойство играет важную роль в работе с DataFrame.

In [58]:
series3.name = 'Numbers'
print(series3)

First     35000.0
Second    71000.0
Third     16000.0
Fourth     2344.1
Name: Numbers, dtype: float64


## Задание:

__Задача №1.__ Создайте объект Series для хранения оценок по какому-либо предмету, например, по "Линейной Алгебре".  
   Пусть он содержит 10 студентов со случайными оценками от 2 до 5. Фамилии студентов должны быть индексами.

__Задача №2.__ Выведите средний балл для всех, у кого оценка больше или равна 3.

__Задача №3.__ Создайте другой объект Series, для хранения оценок по другому предмету, например по "Математическому Анализу".  
   Посчитайте средний балл для каждого студента по этим двум предметам. 

## Дополнение
можно использовать библиотеку **faker** для создания данных:  

https://faker.readthedocs.io/en/master/

_Установка:_
```
conda install faker
```

In [59]:
from faker import Faker

In [108]:
fake = Faker('ru_RU')  # Задаем русский регион
# бывает и такое:  'тов. Блохина Александра Вадимовна'
# и такое 'г-н Киселев Зосима Трифонович'
index_name = [fake.name() for _ in range(5)]  
index_name

['Богданов Ефим Ермолаевич',
 'Ефремов Галактион Игнатьевич',
 'Киселева Мария Геннадьевна',
 'Рожков Никита Ануфриевич',
 'Аксенов Ананий Адамович']

In [109]:
fake.first_name(), fake.last_name()

('Болеслав', 'Пономарев')

In [110]:
# Полный(full) профиль
fake.profile()

{'job': 'Инженер КИПиА',
 'company': 'НПО «Суханов-Дьячкова»',
 'ssn': '076267914642',
 'residence': 'ст. Буденновск, ш. Павлика Морозова, д. 1/9 к. 256, 676758',
 'current_location': (Decimal('5.6077345'), Decimal('-43.018516')),
 'blood_group': 'AB+',
 'website': ['http://www.ooo.edu/'],
 'username': 'gandreeva',
 'name': 'Гущина Маргарита Робертовна',
 'sex': 'F',
 'address': 'г. Архыз, алл. Высокая, д. 2/1 стр. 6, 531884',
 'mail': 'vandreeva@rambler.ru',
 'birthdate': datetime.date(2002, 2, 27)}

In [111]:
# Простой профиль
fake.simple_profile()

{'username': 'lukjan_06',
 'name': 'Комарова Надежда Вадимовна',
 'sex': 'F',
 'address': 'клх Малоярославец, пер. Фурманова, д. 57 к. 61, 080115',
 'mail': 'filaret_00@hotmail.com',
 'birthdate': datetime.date(1920, 6, 26)}

In [112]:
# Создание серии из простого профиля
pd.Series(fake.simple_profile())

username                                         svjatoslav_10
name                              Дьячкова Вероника Викторовна
sex                                                          F
address      клх Быково (метеост.), пр. Серова, д. 5/8, 596629
mail                                       apollon49@gmail.com
birthdate                                           1980-03-17
dtype: object

Дата может быть преобразована в строковое значение и наоборот.

In [113]:
res = fake.date_of_birth(); res

datetime.date(1978, 4, 22)

In [117]:
# из datetime.datetime в строку
res.strftime('%d-%B-%Y')

'22-April-1978'

In [118]:
# из строки в datetime.datetime
datetime.strptime('31-03-2022', '%d-%m-%Y')

datetime.datetime(2022, 3, 31, 0, 0)