# Введение в [Pandas](https://pandas.pydata.org/) 




In [0]:
import numpy as np
import pandas as pd  # негласный стандарт импорта библиотеки
from pandas import Series, DataFrame # импорт в локальное пространство имен

## Объекты Series

In [0]:
list_obj = [6, -3, 9, 1]
numpy_array_obj = np.array([6, -3, 9, 1])
series_obj = Series([6, -3, 9, 1]) # создаем объект Series без указания индекса

In [3]:
print("list_obj: ", list_obj)
print("numpy_array_obj: ", numpy_array_obj)
print("_________________________")
print(series_obj)

list_obj:  [6, -3, 9, 1]
numpy_array_obj:  [ 6 -3  9  1]
_________________________
0    6
1   -3
2    9
3    1
dtype: int64


In [4]:
print(series_obj.values)

[ 6 -3  9  1]


In [5]:
print(series_obj.index)

RangeIndex(start=0, stop=4, step=1)


In [6]:
print(series_obj[2])

9


In [7]:
# создаем объект с индексом, идентифицирующим каждый элемент данных
series_obj2 = Series([6, -3, 9, 1], index=['а', 'b', 'c', 'd']) 
series_obj2

а    6
b   -3
c    9
d    1
dtype: int64

In [8]:
print(series_obj2.index)

Index(['а', 'b', 'c', 'd'], dtype='object')


In [9]:
print(series_obj2['а'])

6


In [0]:
series_obj2.index = [1,2,3,4] # изменяием индексы

In [11]:
print(series_obj2.index)
print(series_obj2[1])

Int64Index([1, 2, 3, 4], dtype='int64')
6


In [12]:
"""
Операции с массивом NuшPy, например фильтрация с помощью булева массива, 
скалярное умножение или применение математических функций, сохраняют
связь между индексом и значением 
"""
print(series_obj2>0)

1     True
2    False
3     True
4     True
dtype: bool


In [13]:
print(series_obj2*2)

1    12
2    -6
3    18
4     2
dtype: int64


In [14]:
print(np.exp(series_obj2))

1     403.428793
2       0.049787
3    8103.083928
4       2.718282
dtype: float64


In [15]:
print('b' in series_obj2) # доступны действия аналогичные действиям со словарем  

False


In [16]:
"""
Преобразование словаря Python в объект Siries
"""

sdict = { 'Moscow': 250000, 'St. Petersburg': 160000, 'New york': 300000, 'Ural': 70000}
obj3 = Series(sdict)
print(obj3)

Moscow            250000
St. Petersburg    160000
New york          300000
Ural               70000
dtype: int64


In [17]:
"""
Сравните ...
"""
city = ['Krasnodar', 'Moscow', 'St. Petersburg', 'New york']
obj4 = Series(sdict, index = city)
print(obj4)

Krasnodar              NaN
Moscow            250000.0
St. Petersburg    160000.0
New york          300000.0
dtype: float64


In [19]:
type(obj3)

pandas.core.series.Series

---
### Задание
Запишите ответ на вопрос.

В чем отличие между объектами obj3 и obj4?  


obj3 и obj4 представляют собой один и тот же тип данных (pandas.core.series.Series), однако индексы в obj3 подобрались автоматически, исходя из списка ключей словаря sdict. В случае obj4 мы явно указали индексы для элементов, в связи с чем элементы словаря, индекс которых не был указан, игнорируются при создании obj4. Если при создании объекта мы указываем индекс, которого нет в словаре, в объекте Series соответствующий элемент будет иметь значение NaN.

Подводя итог, разница между obj3 и obj4 в подходе к инициализации индексов элементов.


---
Для распознавания отсутствующих данных в pandas следует использовать 
функции **isnull** и **notnull**

---

In [20]:
pd.isnull(obj4)


Krasnodar          True
Moscow            False
St. Petersburg    False
New york          False
dtype: bool

In [21]:
pd.notnull(obj4)

Krasnodar         False
Moscow             True
St. Petersburg     True
New york           True
dtype: bool

In [22]:
obj4.isnull() # метод экземпляра

Krasnodar          True
Moscow            False
St. Petersburg    False
New york          False
dtype: bool

---
Series позволяет автоматически выравнивать данные, проиндексированные в разном порядке

---

In [23]:
obj3 + obj4

Krasnodar              NaN
Moscow            500000.0
New york          600000.0
St. Petersburg    320000.0
Ural                   NaN
dtype: float64

In [24]:
obj4.name = 'salary'
obj4.index.name = 'city'
obj4

city
Krasnodar              NaN
Moscow            250000.0
St. Petersburg    160000.0
New york          300000.0
Name: salary, dtype: float64

---
## Объекты DataFrame -

представляет табличную структуру данных, состоящую из упорядоченной коллекции столбцов, причем типы значений (числовой, строковый, булев и т. д.) в разных столбцах могут различаться. 

В объекте DataFгame хранятся два индекса: **по строкам** и **по столбцам**. Можно считать, что это словарь, объектов Series. 

Операции со строками и столбцами в DataFrame в первом приближении симметричны. Внутри объекта данные хранятся в виде одного или нескольких двумерных блоков, а не в виде списка, словаря или еще какой-нибудь коллекции одномерных массивов. 

---


In [25]:
"""
Создание объекта DataFrame с помощью словаря списков одинаковой длины 
или массивов NumPy

"""
data = { 'state' : [ 'Ohio' , 'Ohio', 'Ohio', 'Nevada', 'Nevada'] ,
        'year': [2000, 2001, 2002, 2001, 2002],
        'рор' : [ 1.5 , 1.7 , 3.6 , 2.4 , 2.9 ] }
frame = DataFrame(data) # индекс будет построен автоматически
frame

Unnamed: 0,state,year,рор
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [26]:
DataFrame(data, columns=['year', 'state', 'рор']) # изменение порядка следования столбцов

Unnamed: 0,year,state,рор
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


---
Добавим столбец, без данных ...

---

In [27]:
frame2 = DataFrame(data, columns=['year', 'state', 'рор', 'debt'],
                   index = ['one', 'two', 'three', 'four', 'five'])
frame2

Unnamed: 0,year,state,рор,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [28]:
frame2.columns

Index(['year', 'state', 'рор', 'debt'], dtype='object')

---
Столбец DataFrame можно извлечь как объект Series, воспользовавшись  нотацией словарей, или с помощью атрибута


!!! *Столбец, возвращенный в ответ на запрос к DataFrame по индексу, является представлением, а не копией данных. Следовательно, **любые модификации этого объекта Series**, найдут отражение в DataFrame. Чтобы скопировать столбец, нужно вызвать метод **сору** объекта Series.*

---

In [29]:
print(frame2 ['state'])

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object


In [30]:
print(frame2.year)

one      2000
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64


---
Строку DataFrame также можно извлечь по позиции или по имени, используя методы **.loc** и **.iloc**  

---

In [31]:
frame2.loc['three']

year     2002
state    Ohio
рор       3.6
debt      NaN
Name: three, dtype: object

---
Изменение столбцов ...

---

In [32]:
# Способ 1
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,рор,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [33]:
# Способ 2
frame2['debt'] = np.arange(5.)
frame2

Unnamed: 0,year,state,рор,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0


In [34]:
# Способ 3
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,рор,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


---
Присваивание несуществующему столбцу приводит к созданию нового столбца. 

---

In [35]:
frame2 ['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,рор,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


---
Для удаления столбцов служит ключевое слово **del**, как и в обычном словаре 

---

In [36]:
del frame2 ['eastern']
frame2.columns

Index(['year', 'state', 'рор', 'debt'], dtype='object')

In [37]:
frame2

Unnamed: 0,year,state,рор,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [38]:
"""
Создание объекта DataFrame с помощью словаря словарей

"""
pop = {'Nevada': {2001: 2.4, 2002: 2.9}, 
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [39]:
frame3.T # транспонирование

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


---
Ключи внутренних словарей объединяются и сортируются для образования индекса результата. Однако этого не происходит, если индекс задан явно

---

In [40]:
DataFrame(pop, index= [2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [41]:
"""
Создание объекта DataFrame с помощью словаря объектов Series

"""
pdata = { 'Ohio': frame3 [ 'Ohio'] [ :-1],
         'Nevada': frame3 [ 'Nevada'] [ :2]}
print(DataFrame(pdata))

      Ohio  Nevada
2001   1.7     2.4
2002   3.6     2.9


In [42]:
frame3.index.name = 'year'
frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


---
### Атрибуты values и index для DataFrame

---

In [43]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [48]:
obj3.values

array([250000, 160000, 300000,  70000])

---
### Задание

Запишите ответ на вопрос.

Чем отличается результат вывода атрибута ** values**  объекта Series от результат вывода атрибута ** values** объекта DataFrame?

---


В случае вывода values для Series мы получим одномерный numpy-массив, в случае вывода для DataFrame - двумерный.

In [44]:
frame2

Unnamed: 0,year,state,рор,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [45]:
frame2.values
# Если у столбцов DataFrame разные типы данных, 
# то dtype массива values будет выбран так, чтобы охватить все столбцы

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7]], dtype=object)

##### Аргументы конструктора DataFrame
|Тип|Примечание|
|:------|:------|
|Двумерный ndarray | Матрица данных, дополнительно можно передать метки строк и столбцов|
| Словарь массивов, списков или кортежей|Каждая последовательность становится столбцом объекта DataFrame. Все последовательности должны быть одинаковой длины |
| Структурный массив NumPy|Интерпретируется так же, как «словарь массивов» |
| Словарь объектов Series| Каждое значение становится столбцом. Если индекс явно не задан, то индексы объектов Series объединяются и образуют индекс строк результата|
| Словарь словарей|Каждый внутренний словарь становится столбцом. Ключи объединяются и образуют индекс строк, как в случае «словаря объектов Series» |
|Список словарей или объектов Series | Каждый элемент списка становится строкой объекта DataFrame. Объединение ключей словаря или индексов объектов Series становится множеством меток столбцов DataFrame|
| Список списков или кортежей|Интерпретируется так же, как «двумерный ndarray» |
|Другой объект DataFrame |Используются индексы DataFrame, если явно не заданы другие индексы |
| Объект NumPy MaskedArray| Как «двумерный ndarray» с тем отличием, что замаскированные значения становятся отсутствующими в результирующем объекте DataFrame|

In [50]:
frame3.index

Int64Index([2001, 2002, 2000], dtype='int64', name='year')

## Индексные объекты

В индексных объектах pandas хранятся метки вдоль осей и прочие метаданные (например, имена осей). Любой массив или иная последовательность меток, указанная при конструировании Series или DataFraшe, преобразуется в объект Index

In [51]:
obj = Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [52]:
index[1:]

Index(['b', 'c'], dtype='object')

---
Индексные объекты неизменяемы, т. е. пользователь не может их модифицировать

---

In [0]:
index[1] = 'd'

---
Неизменяемость важна для того, чтобы несколько структур данных могли совместно использовать один и тот же индексный объект, не опасаясь его повредить

---

In [54]:
index = pd.Index(np.arange(3))
obj2 = Series([1.5, -2.5, 0], index=index)
obj2.index is index

True

#### Основные индексныв объекты в pandas

|Тип|Примечание|
|:------|:------|
| Index | Наиболее общий индексный объект, представляющий оси в массиве NumPy, состоящем из объектов Python |
|  Int64Index| Специализированный индекс для целых значений |
| Multiindex | «Иерархический» индекс, представляющий несколько уровней индексирования по одной оси. Можно считать аналогом массива кортежей |
| Datetimeindex | Хранит временные метки с наносекундной точностью (представлены типом данных NumPy datetime64) |
| Periodindex|Специализированный индекс для данных о периодах (временных промежутках) |

In [55]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [56]:
'Ohio' in frame3.columns

True

In [57]:
2003 in frame3.index

False

#### Методы и свойства объекта Index

|Метод|Описание|
|:------|:------|
|append |Конкатенирует с дополнительными индексными объектами, порождая новый объект lndex |
| diff| Вычисляет теоретико-множественную разность, представляя ее в виде индексного объекта|
|intersection |Вычисляет теоретико-множественное пересечение |
| union| Вычисляет теоретико-множественное объединение|
| isin| Вычисляет булев массив, показывающий, содержится ли каждое значение индекса в переданной коллекции|
|delete |Вычисляет новый индексный объект, получающийся после удаления элемента с индексом i |
|drop | Вычисляет новый индексный объект, получающийся после удаления переданных значений|
|insert |Вычисляет новый индексный объект, получающийся после вставки элемента в позицию с индексом i |
| is_rnonotonic|Возвращает True, если каждый элемент больше или равен предыдущему |
|is_unique |Возвращает True, если в индексе нет повторяющихся значений |
|unique | Вычисляет массив уникальных значений в индексе|

### Задание

Попробуйте написать конструкции с использованием методов и свойств объекта **Index**.

Например:

index1 = pd.Index(np.arange(3))

index2 = pd.Index(np.arange(3,6,1))

print(index1)

print(index2)

index1.append(index2)


In [60]:
index1 = pd.Index(np.arange(5))
index2 = pd.Index(np.arange(3,10,2))
print(index1)
print(index2)

Int64Index([0, 1, 2, 3, 4], dtype='int64')
Int64Index([3, 5, 7, 9], dtype='int64')


In [64]:
print(index1.union(index2))
print(index1.intersection(index2))

Int64Index([0, 1, 2, 3, 4, 5, 7, 9], dtype='int64')
Int64Index([3], dtype='int64')


### Упражнение

1.	Создайте DataFrame «Аттестация студентов по дисциплине» для хранения информации о студентах Вашей группы. В первом столбце хранятся ФИО студентов, в остальных столбцах (>4) хранятся баллы за выполненные практические задания (максимальный балл за каждое задание 10). 
2.	Заполните DataFrame данными о студентах (>5 записей).
3.	Добавьте столбец «mark».
4.	Заполните столбец значениями, используя формулу: (сумм(баллы полученные студентом за выполнение практических работ)/количество заданий)*10.
5.	Задайте названия строк и столбцов DataFram.
6.	Выведите полную информацию о себе.
7.	Выведите итоговую информацию о студентах группы.


In [0]:
data = {'Names':['Bessonov','Buraya','Burmistrova','Grigoriev','Demidov','Kuzin'],
        'Task 1':[8,8,9,7,6,9],
        'Task 2':[5,4,6,5,3,6]}

In [104]:
marks = pd.DataFrame(data, index=np.arange(1,7))
marks

Unnamed: 0,Names,Task 1,Task 2
1,Bessonov,8,5
2,Buraya,8,4
3,Burmistrova,9,6
4,Grigoriev,7,5
5,Demidov,6,3
6,Kuzin,9,6


In [0]:
marks['Numpy'] = [9,9,10,10,8,10]
marks['SciPy'] = [8,7,8,6,7,8]
marks['Pandas'] = [9,7,8,9,8,8]

In [106]:
marks

Unnamed: 0,Names,Task 1,Task 2,Numpy,SciPy,Pandas
1,Bessonov,8,5,9,8,9
2,Buraya,8,4,9,7,7
3,Burmistrova,9,6,10,8,8
4,Grigoriev,7,5,10,6,9
5,Demidov,6,3,8,7,8
6,Kuzin,9,6,10,8,8


In [107]:
marks['Mark'] = 0
marks

Unnamed: 0,Names,Task 1,Task 2,Numpy,SciPy,Pandas,Mark
1,Bessonov,8,5,9,8,9,0
2,Buraya,8,4,9,7,7,0
3,Burmistrova,9,6,10,8,8,0
4,Grigoriev,7,5,10,6,9,0
5,Demidov,6,3,8,7,8,0
6,Kuzin,9,6,10,8,8,0


In [108]:
marks['Mark'] = (sum(marks[row] for row in marks if row!='Names' and row!='Mark') / (len(marks.columns) - 2)) * 10
marks

Unnamed: 0,Names,Task 1,Task 2,Numpy,SciPy,Pandas,Mark
1,Bessonov,8,5,9,8,9,78.0
2,Buraya,8,4,9,7,7,70.0
3,Burmistrova,9,6,10,8,8,82.0
4,Grigoriev,7,5,10,6,9,74.0
5,Demidov,6,3,8,7,8,64.0
6,Kuzin,9,6,10,8,8,82.0


In [118]:
marks[marks['Names'] == 'Kuzin']

Unnamed: 0,Names,Task 1,Task 2,Numpy,SciPy,Pandas,Mark
6,Kuzin,9,6,10,8,8,82.0


In [120]:
print("Текущая успеваемость группы")
print(marks)

Текущая успеваемость группы
         Names  Task 1  Task 2  Numpy  SciPy  Pandas  Mark
1     Bessonov       8       5      9      8       9  78.0
2       Buraya       8       4      9      7       7  70.0
3  Burmistrova       9       6     10      8       8  82.0
4    Grigoriev       7       5     10      6       9  74.0
5      Demidov       6       3      8      7       8  64.0
6        Kuzin       9       6     10      8       8  82.0
