**Pandas** — это библиотека _Python_, предоставляющая широкие возможности для анализа данных. Данные, с которыми работают датасаентисты, часто хранятся в форме табличек — например, в форматах .csv, .tsv или .xlsx. С помощью библиотеки _Pandas_ такие табличные данные очень удобно загружать, обрабатывать и анализировать. 

In [3]:
import numpy as np
import pandas as pd

# Загружаем данные из csv файла
Рассмотрим набор данных по кредиту. Этот датасет содержит в себе информацию о клиентах банка (возраст, профессия, семейное положение, образование, наличие жилья и тд), а также таргетную переменную **y** в самом последнем столбце, принимающую всего $2$ значения ($0$ и $1$). Она показывает, был ли данному клиенту выдан кредит ($0$ - нет, $1$ - да). Забегая вперед, стоит сказать, что это задача классификации машинного обучения, мы будем говорить об этом во $2$ главе более подробно, а пока что этой переменной мы не будем касаться.

In [7]:
data = pd.read_csv('/Users/maxim/Desktop/mlcourse.ai-master/data/bank.csv')
# смотрим на первые пять строк, чтобы убедиться, что все хорошо прочиталось
data.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,30,unemployed,married,primary,no,1787,no,no,cellular,19,oct,79,1,-1,0,unknown,0
1,33,services,married,secondary,no,4789,yes,yes,cellular,11,may,220,1,339,4,failure,0
2,35,management,single,tertiary,no,1350,yes,no,cellular,16,apr,185,1,330,1,failure,0
3,30,management,married,tertiary,no,1476,yes,yes,unknown,3,jun,199,4,-1,0,unknown,0
4,59,blue-collar,married,secondary,no,0,yes,no,unknown,5,may,226,1,-1,0,unknown,0


Итак, мы видим, что наши данные из csv файла прочитались в виде красивой таблички. Рассмотрим ее элементы более подробно. 

# Основные объекты библиотеки Pandas

# 1. Объект Series

**Series** представляет из себя одномерный индексированный массив данных. Индексированный означает, что каждому значению в этом массиве задается индекс. Объектом _Series_ является каждый столбец в нашей выгруженной табличке. Давайте в этом убедимся:

In [16]:
print(data['age'].head())
print("Тип: ", type(data['age']))

0    30
1    33
2    35
3    30
4    59
Name: age, dtype: int64
Тип:  <class 'pandas.core.series.Series'>


Каждый тип объектов в _Python_ имеет свои функции, к которым можно обращаться через точку. Так, например, в _Series_ мы можем посмотреть на значения, индексы и пары индекс-значение. Другие встроенные функции можно посмотреть, задавая **_объект_.** и нажимая клавишу `Tab`, а затем выбрать подходящее. 

In [17]:
data_h = data['age'].head()
print("Значения:",data_h.values)
print("Индекс:",data_h.index)
print("Тоже индекс:",data_h.keys())
print("Элементы:",list(data_h.items()))

Значения: [30 33 35 30 59]
Индекс: RangeIndex(start=0, stop=5, step=1)
Тоже индекс: RangeIndex(start=0, stop=5, step=1)
Элементы: [(0, 30), (1, 33), (2, 35), (3, 30), (4, 59)]


## 1.1 Создание объектов Series и немного про индексы

Объекты **Series**, как и **индексы** в них, можно задавать самому. Это можно делать с помощью известных нам списков (встроенных в _Python_, либо нумпаевских) и с помощью словарей либо кортежей. Что такое словарь и кортеж мы обсуждали на самой первой лекции. Если пропустили, бегом смотреть [сюда]()

Заметьте, что в качестве индексов могут выступать и строковые типы данных, и численные. Причем индекс не обязательно задавать по порядку.

In [22]:
pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [23]:
pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [24]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

In [25]:
# выводим не все элементы с помощью индексов
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

In [26]:
dat = pd.Series({2:'a', 1:'b', 3:'c'})

In [27]:
dat[2] = 'A'
dat

2    A
1    b
3    c
dtype: object

Создание **Series** через словарь:

In [21]:
stud_dict = {'George': 10,
             'Ujin': 12,
             'Tom': 7,
             'Ann': 4,
             'Polina': 10}
students = pd.Series(stud_dict)
students

George    10
Ujin      12
Tom        7
Ann        4
Polina    10
dtype: int64

## 1.2 Index как отдельный объект

Объект **Index** в библиотеке _Pandas_ намного сложнее, чем может показаться изначально. Рассмотрим его более подробно. Создать его можно с помощью функции `pd.Index` также из списка

In [29]:
ind = pd.Index([1,2,5,11,4])
ind

Int64Index([1, 2, 5, 11, 4], dtype='int64')

Объекты класса **Index** поддаются индексированию и срезам.

In [30]:
ind[1]

2

In [31]:
ind[::2]

Int64Index([1, 5, 4], dtype='int64')

Они имеют свою размерность, форму и тип.

In [32]:
print("Размер:",ind.size)
print("Форма:",ind.shape)
print("Размерность:",ind.ndim)
print("Тип:",ind.dtype)

Размер: 5
Форма: (5,)
Размерность: 1
Тип: int64


Можно объединять индексы, используя операторы над множествами, известные вам с курса по дискретной математике

In [33]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [34]:
print(indA & indB)  # пересечение
print(indA | indB)  # объединение
print(indA ^ indB)  # симметричная разность

Int64Index([3, 5, 7], dtype='int64')
Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')
Int64Index([1, 2, 9, 11], dtype='int64')


Стоит хорошо запомнить, что **Index** - это **неизменяемый** объект:

In [35]:
ind[1] = 0

TypeError: Index does not support mutable operations

## 1.3 Индексирование и вывод данных
Когда вы имеете большой датасет, часто бывает полезно обращаться не ко всем элементам в нем, а лишь к части из них. Это позволяет делать индексирование, которое очень удобно реализовано с объектом _Series_

In [23]:
data_h

0    30
1    33
2    35
3    30
4    59
Name: age, dtype: int64

In [24]:
students

George    10
Ujin      12
Tom        7
Ann        4
Polina    10
dtype: int64

### Явное индексирование:
Явное индексирование -  это индексирование **по названию** индекса. Неважно, какого он типа: строковый, например, 'b', либо целочисленный ($1$,$2$,$100$ и тд).

In [19]:
data_h[2]

35

In [22]:
students['Ann']

4

In [27]:
data_int = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[100, 2, 35, 4])
data_int

100    0.25
2      0.50
35     0.75
4      1.00
dtype: float64

In [28]:
data_int[100]

0.25

Заметим, что при индексировании не численных индексов, последний элемент **включается**: 

In [34]:
data_h[0:3]

0    30
1    33
2    35
Name: age, dtype: int64

In [35]:
students['George':'Tom']

George    10
Ujin      12
Tom        7
dtype: int64

### Неявное индексирование:
Неявное индексирование - это индексирование не по названию индекса, а по тому, на каком месте он стоит. Помним, что нумерация в _Python_ начинается с $0$!

In [37]:
data_h

0    30
1    33
2    35
3    30
4    59
Name: age, dtype: int64

In [38]:
data_h[1]

33

In [39]:
# маскирование
data_h[(data_h>30) & (data_h<40)]

1    33
2    35
Name: age, dtype: int64

### loc и iloc

Индикаторы `loc` и `iloc` были придуманы, чтобы не путаться в явном и неявном индексировании, когда индексы заданы целыми числами. Так, указание перед индексированием параметра `loc` задает явное индексирование, а `iloc` - неявное. 

In [45]:
data_h

0    30
1    33
2    35
3    30
4    59
Name: age, dtype: int64

Опять же здесь, так как индексируем по **названию** индекса, то последний элемент включается!

In [49]:
data_h.loc[0:3]

0    30
1    33
2    35
3    30
Name: age, dtype: int64

Здесь нет

In [51]:
data_h.iloc[0:3]

0    30
1    33
2    35
Name: age, dtype: int64

In [52]:
ser = pd.Series([1,2,3], index = ['a','b','c'])
ser

a    1
b    2
c    3
dtype: int64

In [53]:
ser.loc['a']

1

In [54]:
ser.iloc[0]

1

# 2. Объект DataFrame

Объект **DataFrame** еще один важный объект библиотеки _Pandas_. Он представляет собой табличку с данными, каждый столбец которой содержит данные одного типа. Иногда удобно думать о _DataFrame_ как о нескольких объектах _Series_, соединенных вместе. Наша таблица с данными по кредиту как раз является объектом _DataFrame_ 

Давайте пока что отойдем от нашего датасета с кредитами и создадим свой _DataFrame_. Сделать это можно с помощью словаря из объектов _Series_, которые в свою очередь тоже создадим с помощью словаря.

In [55]:
cock_dict = {'George': 10,
             'Ujin': 12,
             'Tom': 7,
             'Ann': 4,
             'Polina': 10}
cock = pd.Series(cock_dict)

time_dict = {'George': 2,
             'Ujin': 3,
             'Tom': 2.5,
             'Ann': 1,
             'Polina': 3}
time = pd.Series(time_dict)

Создаем **DataFrame**, где индексами выступают имена студентов, а по столбцам отложено кол-во коктейлей, которые выпили студенты в баре и время в часах, которое они там провели.

**P.S.** Для времени есть специальный объект в _Python_, и мы рассмотрим его чуть позже, а пока что зададим часы в виде целочисленных значений.

In [56]:
stud = pd.DataFrame({'Cocktails': cock,
                       'Hours': time})
stud

Unnamed: 0,Cocktails,Hours
George,10,2.0
Ujin,12,3.0
Tom,7,2.5
Ann,4,1.0
Polina,10,3.0


Посмотрим на индексы

In [57]:
stud.index

Index(['George', 'Ujin', 'Tom', 'Ann', 'Polina'], dtype='object')

На названия столбцов

In [58]:
stud.columns

Index(['Cocktails', 'Hours'], dtype='object')

На значения в табличке

In [59]:
stud.values

array([[10. ,  2. ],
       [12. ,  3. ],
       [ 7. ,  2.5],
       [ 4. ,  1. ],
       [10. ,  3. ]])

Посмотрим на конкретный столбец (можно делать двумя способами, представленными ниже)

In [60]:
stud.Cocktails

George    10
Ujin      12
Tom        7
Ann        4
Polina    10
Name: Cocktails, dtype: int64

In [61]:
stud['Cocktails']

George    10
Ujin      12
Tom        7
Ann        4
Polina    10
Name: Cocktails, dtype: int64

А теперь оценим "силу" студента.

In [62]:
stud['Power'] = stud['Cocktails'] / stud['Hours']
stud

Unnamed: 0,Cocktails,Hours,Power
George,10,2.0,5.0
Ujin,12,3.0,4.0
Tom,7,2.5,2.8
Ann,4,1.0,4.0
Polina,10,3.0,3.333333


Видим, что самым слабым оказался Tom, а самым сильным George.

Ниже показано, что как и над матрицами, над объектами типа **DataFrame** можно проводить некоторые операции из линейной алгебры, например, транспонирование. Заметьте, что поменялись индексы в таблице.

**P.S.** Всегда отображайте данные так, чтобы по строкам откладывались наблюдения (в нашем случае это имена), а по столбцам - признаки (кол-во коктейлей, сила, время и тд). Это поможет вам более удобно обращаться с данными. Транспонированная матрица никуда не годится для работы с данными, но иногда, когда признаком очень много, иногда просто удобно смотреть на матрицу в виде транспонированной, но **не работать**. 

In [63]:
stud.T

Unnamed: 0,George,Ujin,Tom,Ann,Polina
Cocktails,10.0,12.0,7.0,4.0,10.0
Hours,2.0,3.0,2.5,1.0,3.0
Power,5.0,4.0,2.8,4.0,3.333333


## 2.1 Создание DataFrame объектов 
Мы уже рассмотрели создание _DataFrame_ объекта с помощью словаря из объектов _Series_. На этом способы не заканчиваются:

**Из одного объекта Series**

In [64]:
pd.DataFrame(cock, columns=['Cocktails'])

Unnamed: 0,Cocktails
George,10
Ujin,12
Tom,7
Ann,4
Polina,10


**Из словаря**

In [65]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


**Из двумерного массива NumPy**

In [66]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.388235,0.529977
b,0.320103,0.167002
c,0.174687,0.403462


## 2.2 Индексирование и вывод данных

Над объектами типа _DataFrame_ также можно проводить индексирование. Осуществляется оно наподобие индексирования матриц, рассмотренных нами при изучении библиотеки _NumPy_

In [67]:
stud

Unnamed: 0,Cocktails,Hours,Power
George,10,2.0,5.0
Ujin,12,3.0,4.0
Tom,7,2.5,2.8
Ann,4,1.0,4.0
Polina,10,3.0,3.333333


<font size=3> Вспоминаем уже привычные нам `loc` и `iloc` <font>

In [68]:
stud.iloc[:3,:2]

Unnamed: 0,Cocktails,Hours
George,10,2.0
Ujin,12,3.0
Tom,7,2.5


In [69]:
stud.loc[: 'Tom', : 'Cocktails']

Unnamed: 0,Cocktails
George,10
Ujin,12
Tom,7


<font size=3> А теперь рассмотрим `ix`, который позволяет комбинировать явные и неявные индексы <font>

In [70]:
stud.ix[:3, :'Cocktails']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,Cocktails
George,10
Ujin,12
Tom,7


## 2.3 Вычисления

Над объектами типа _DataFrame_ так же, как и над нумпаевскими списками разной размерности, легко проводить вычисления любого типа

In [71]:
df = pd.DataFrame(np.random.randint(0, 10, (3, 4)),
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,0,1,1,9
1,1,9,4,3
2,8,0,4,1


In [72]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,0.0,0.707107,0.7071068,0.707107
1,0.7071068,0.707107,1.224647e-16,0.707107
2,-2.449294e-16,0.0,1.224647e-16,0.707107


Таким образом, мы рассмотрели основные объекты библиотеки _Pandas_. В следующей мы углубимся в объект типа **Index**, узнаем, что такое **MultiIndex** и как он помогает обрабатывать панельные данные, рассмотрим, что делать с пропущенными значениями в таблицах и продолжим изучать наш _DataFrame_ с пьющими студентами.