# Введение в [Pandas](https://pandas.pydata.org/) 




In [None]:
import numpy as np
import pandas as pd  # негласный стандарт импорта библиотеки
from pandas import Series, DataFrame # импорт в локальное пространство имен

## Объекты Series

In [None]:
list_obj = [6, -3, 9, 1]
numpy_array_obj = np.array([6, -3, 9, 1])
series_obj = Series([6, -3, 9, 1]) # создаем объект Series без указания индекса

In [None]:
print("list_obj: ", list_obj)
print("numpy_array_obj: ", numpy_array_obj)
print("_________________________")
print(series_obj)

In [None]:
print(series_obj.values)

In [None]:
print(series_obj.index)

In [None]:
print(series_obj[2])

In [None]:
# создаем объект с индексом, идентифицирующим каждый элемент данных
series_obj2 = Series([6, -3, 9, 1], index=['а', 'b', 'c', 'd']) 
series_obj2

In [None]:
print(series_obj2.index)

In [None]:
print(series_obj2['а'])

In [None]:
series_obj2.index = [1,2,3,4] # изменяем индексы

In [None]:
print(series_obj2.index)
print(series_obj2[1])

In [None]:
"""
Операции с массивом NumPy, например, фильтрация с помощью булева массива, 
скалярное умножение или применение математических функций, сохраняют
связь между индексом и значением 
"""
print(series_obj2>0)

In [None]:
print(series_obj2*2)

In [None]:
print(np.exp(series_obj2))

In [None]:
print('b' in series_obj2) # доступны действия аналогичные действиям со словарем  

In [None]:
"""
Преобразование словаря Python в объект Series
"""

sdict = { 'Moscow': 250000, 'St. Petersburg': 160000, 'New york': 300000, 'Ural': 70000}
obj3 = Series(sdict)
print(obj3)

In [None]:
"""
Сравните ...
"""
city = ['Krasnodar', 'Moscow', 'St. Petersburg', 'New york']
obj4 = Series(sdict, index = city)
print(obj4)

---
### Задание
Запишите ответ на вопрос.

В чем отличие между объектами obj3 и obj4?  



---
Для распознавания отсутствующих данных в pandas следует использовать 
функции **isnull** и **notnull**

---

In [None]:
pd.isnull(obj4)


In [None]:
pd.notnull(obj4)

In [None]:
obj4.isnull() # метод экземпляра

---
Series позволяет автоматически выравнивать данные, проиндексированные в разном порядке

---

In [None]:
obj3 + obj4

In [None]:
obj4.name = 'salary'
obj4.index.name = 'city'
obj4

---
## Объекты DataFrame -

представляет табличную структуру данных, состоящую из упорядоченной коллекции столбцов, причем типы значений (числовой, строковый, булев и т. д.) в разных столбцах могут различаться. 

В объекте DataFгame хранятся два индекса: **по строкам** и **по столбцам**. Можно считать, что это словарь, объектов Series. 

Операции со строками и столбцами в DataFrame в первом приближении симметричны. Внутри объекта данные хранятся в виде одного или нескольких двумерных блоков, а не в виде списка, словаря или еще какой-нибудь коллекции одномерных массивов. 

---


In [None]:
"""
Создание объекта DataFrame с помощью словаря списков одинаковой длины 
или массивов NumPy

"""
data = { 'state' : [ 'Ohio' , 'Ohio', 'Ohio', 'Nevada', 'Nevada'] ,
        'year': [2000, 2001, 2002, 2001, 2002],
        'рор' : [ 1.5 , 1.7 , 3.6 , 2.4 , 2.9 ] }
frame = DataFrame(data) # индекс будет построен автоматически
frame

In [None]:
DataFrame(data, columns=['year', 'state', 'рор']) # изменение порядка следования столбцов

---
Добавим столбец без данных ...

---

In [None]:
frame2 = DataFrame(data, columns=['year', 'state', 'рор', 'debt'],
                   index = ['one', 'two', 'three', 'four', 'five'])
frame2

In [None]:
frame2.columns

---
Столбец DataFrame можно извлечь как объект Series, воспользовавшись  нотацией словарей, или с помощью атрибута


!!! *Столбец, возвращенный в ответ на запрос к DataFrame по индексу, является представлением, а не копией данных. Следовательно, **любые модификации этого объекта Series**, найдут отражение в DataFrame. Чтобы скопировать столбец, нужно вызвать метод **сору** объекта Series.*

---

In [None]:
print(frame2 ['state'])

In [None]:
print(frame2.year)

---
Строку DataFrame также можно извлечь по позиции или по имени, используя методы **.loc** и **.iloc**  

---

In [None]:
frame2.loc['three']

---
Изменение столбцов ...

---

In [None]:
# Способ 1
frame2['debt'] = 16.5
frame2

In [None]:
# Способ 2
frame2['debt'] = np.arange(5.)
frame2

In [None]:
# Способ 3
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

---
Присваивание несуществующему столбцу приводит к созданию нового столбца. 

---

In [None]:
frame2 ['eastern'] = frame2.state == 'Ohio'
frame2

---
Для удаления столбцов служит ключевое слово **del**, как и в обычном словаре 

---

In [None]:
del frame2 ['eastern']
frame2.columns

In [None]:
frame2

In [None]:
"""
Создание объекта DataFrame с помощью словаря словарей

"""
pop = {'Nevada': {2001: 2.4, 2002: 2.9}, 
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = DataFrame(pop)
frame3

In [None]:
frame3.T # транспонирование

---
Ключи внутренних словарей объединяются и сортируются для образования индекса результата. Однако этого не происходит, если индекс задан явно

---

In [None]:
DataFrame(pop, index= [2001, 2002, 2003])

In [None]:
"""
Создание объекта DataFrame с помощью словаря объектов Series

"""
pdata = { 'Ohio': frame3 [ 'Ohio'] [ :-1],
         'Nevada': frame3 [ 'Nevada'] [ :2]}
print(DataFrame(pdata))

In [None]:
frame3.index.name = 'year'
frame3.columns.name = 'state'
frame3

---
### Атрибуты values и index для DataFrame

---

In [None]:
frame3.values

---
### Задание

Запишите ответ на вопрос.

Чем отличается результат вывода атрибута ** values**  объекта Series от результат вывода атрибута ** values** объекта DataFrame?

---


In [None]:
frame2

In [None]:
frame2.values
# Если у столбцов DataFrame разные типы данных, 
# то dtype массива values будет выбран так, чтобы охватить все столбцы

##### Аргументы конструктора DataFrame
|Тип|Примечание|
|:------|:------|
|Двумерный ndarray | Матрица данных, дополнительно можно передать метки строк и столбцов|
| Словарь массивов, списков или кортежей|Каждая последовательность становится столбцом объекта DataFrame. Все последовательности должны быть одинаковой длины |
| Структурный массив NumPy|Интерпретируется так же, как «словарь массивов» |
| Словарь объектов Series| Каждое значение становится столбцом. Если индекс явно не задан, то индексы объектов Series объединяются и образуют индекс строк результата|
| Словарь словарей|Каждый внутренний словарь становится столбцом. Ключи объединяются и образуют индекс строк, как в случае «словаря объектов Series» |
|Список словарей или объектов Series | Каждый элемент списка становится строкой объекта DataFrame. Объединение ключей словаря или индексов объектов Series становится множеством меток столбцов DataFrame|
| Список списков или кортежей|Интерпретируется так же, как «двумерный ndarray» |
|Другой объект DataFrame |Используются индексы DataFrame, если явно не заданы другие индексы |
| Объект NumPy MaskedArray| Как «двумерный ndarray» с тем отличием, что замаскированные значения становятся отсутствующими в результирующем объекте DataFrame|

In [None]:
frame3.index

## Индексные объекты

В индексных объектах pandas хранятся метки вдоль осей и прочие метаданные (например, имена осей). Любой массив или иная последовательность меток, указанная при конструировании Series или DataFraшe, преобразуется в объект Index

In [None]:
obj = Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index

In [None]:
index[1:]

---
Индексные объекты неизменяемы, т. е. пользователь не может их модифицировать

---

In [None]:
index[1] = 'd'

---
Неизменяемость важна для того, чтобы несколько структур данных могли совместно использовать один и тот же индексный объект, не опасаясь его повредить

---

In [None]:
index = pd.Index(np.arange(3))
obj2 = Series([1.5, -2.5, 0], index=index)
obj2.index is index

#### Основные индексные объекты в pandas

|Тип|Примечание|
|:------|:------|
| Index | Наиболее общий индексный объект, представляющий оси в массиве NumPy, состоящем из объектов Python |
|  Int64Index| Специализированный индекс для целых значений |
| Multiindex | «Иерархический» индекс, представляющий несколько уровней индексирования по одной оси. Можно считать аналогом массива кортежей |
| Datetimeindex | Хранит временные метки с наносекундной точностью (представлены типом данных NumPy datetime64) |
| Periodindex|Специализированный индекс для данных о периодах (временных промежутках) |

In [None]:
frame3

In [None]:
'Ohio' in frame3.columns

In [None]:
2003 in frame3.index

#### Методы и свойства объекта Index

|Метод|Описание|
|:------|:------|
|append |Конкатенирует с дополнительными индексными объектами, порождая новый объект lndex |
| diff| Вычисляет теоретико-множественную разность, представляя ее в виде индексного объекта|
|intersection |Вычисляет теоретико-множественное пересечение |
| union| Вычисляет теоретико-множественное объединение|
| isin| Вычисляет булев массив, показывающий, содержится ли каждое значение индекса в переданной коллекции|
|delete |Вычисляет новый индексный объект, получающийся после удаления элемента с индексом i |
|drop | Вычисляет новый индексный объект, получающийся после удаления переданных значений|
|insert |Вычисляет новый индексный объект, получающийся после вставки элемента в позицию с индексом i |
| is_rnonotonic|Возвращает True, если каждый элемент больше или равен предыдущему |
|is_unique |Возвращает True, если в индексе нет повторяющихся значений |
|unique | Вычисляет массив уникальных значений в индексе|

### Задание

Попробуйте написать конструкции с использованием методов и свойств объекта **Index**.

Например:

index1 = pd.Index(np.arange(3))

index2 = pd.Index(np.arange(3,6,1))

print(index1)

print(index2)

index1.append(index2)


### Упражнение

1.	Создайте DataFrame «Аттестация студентов по дисциплине» для хранения информации о студентах Вашей группы. В первом столбце хранятся ФИО студентов, в остальных столбцах (>4) хранятся баллы за выполненные практические задания (максимальный балл за каждое задание 10). 
2.	Заполните DataFrame данными о студентах (>5 записей).
3.	Добавьте столбец «mark».
4.	Заполните столбец значениями, используя формулу: (сумм(баллы полученные студентом за выполнение практических работ)/количество заданий)*10.
5.	Задайте названия строк и столбцов DataFram.
6.	Выведите полную информацию о себе.
7.	Выведите итоговую информацию о студентах группы.
