# Библиотеки Pandas

### Data Frame

Pandas - очень мощный инструмент для анализа данных в Python, он позволяет работать с данными в виде таблиц. Таблицы - это естественное представление данных в задачах анализа.

Если мы решаем задачу классификации данных, то работаем с матрицей "объект-признак", где по строчкам идут объекты, а по столбцам их признаки. Если решаем задачу построения рекомендательных систем, то работаем с таблицей User right (матрица предпочтения).

In [1]:
import pandas as pd

Основной структурой данных, которая позволяет работать с таблицами, является Data Frame.

Data Frame можно представлять как двумерную матрику или как dict-like container для работы с Series (Series - это обычный одномерный массив, но отличается от простого массива только тем, что в простом массиве все элементы проиндексированы от 0 до размера массива - 1, в Series же элементы имеют lable, то есть это могут быть произвольные имена.

In [9]:
frame = pd.DataFrame({'number' : range(10), 'chars' : ['a'] * 10})

In [10]:
frame

Unnamed: 0,chars,number
0,a,0
1,a,1
2,a,2
3,a,3
4,a,4
5,a,5
6,a,6
7,a,7
8,a,8
9,a,9


Создали табличку через словарь. В ней будет два столбца 'number' и 'chars'.

Этот способ создания DataFrame довольно удобен, но пользоваться им будем редко, так как обычно анализируются какие-то внешние данные, а они хранятся в виде файлов или в виде набора файлов.

In [16]:
frame = pd.read_csv('dataset.tsv', header=0, sep='\t')

In [17]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер


Для того чтобы считать какой-то файл есть функция read_csv. Первый аргумент это имя этого файла, во втором указываем есть ли у нас заголовки (здесь они есть и находятся в первой строчке), в третьем указываем разделитель.

In [14]:
frame.columns

Index([u'Иванов А.А.', u'22.03.1980', u'Москва', u'Unnamed: 3'], dtype='object')

Для того чтобы обратиться к именам столбцов или чтобы их поменять, существует атрибут columns. 

In [18]:
frame.shape

(6, 4)

С помощью этого атрибута можно узнать размер таблицы.

In [21]:
new_line = {'Name' : 'Diana', 'Birth' : '01.08.2001', 'City' : 'Partizansk'}

In [24]:
frame.append(new_line, ignore_index = True)

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер
6,Diana,01.08.2001,Partizansk,


Для того чтобы добавить новую строчку в таблицу нужно для начала создать словарь с информацией, потом с помощью метода append добавить его в frame. В качестве первого аргумента передается словарь, вторым аргументом указываем ignore_index = True, так как не важно под каким индексом добавится новая строка.

In [25]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер


DataFrame не изменился так как append не изменяет исходную таблицу, она вносит нужные изменения и возвращает копию.

In [26]:
frame = frame.append(new_line, ignore_index = True)

In [27]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер
6,Diana,01.08.2001,Partizansk,


Чтобы изменения произошли в исходной таблице нужно модифицировать команду.

In [28]:
frame['IsStudent'] = [False] * 5 + [True] * 2

In [29]:
frame

Unnamed: 0,Name,Birth,City,Position,IsStudent
0,Иванов А.А.,22.03.1980,Москва,,False
1,Сорокин И.В.,07.08.1965,Волгоград,инженер,False
2,Белов М.М.,13.02.1980,Ростов,менеджер,False
3,Мельникова Д.С.,15.04.1985,Ростов,,False
4,Рыбина Е.П.,19.11.1985,Москва,инженер,False
5,Костров С.О.,31.05.1985,Москва,стажер,True
6,Diana,01.08.2001,Partizansk,,True


Таким образом можно добавляет новые столбцы.

In [30]:
frame.drop([5, 6], axis = 0)

Unnamed: 0,Name,Birth,City,Position,IsStudent
0,Иванов А.А.,22.03.1980,Москва,,False
1,Сорокин И.В.,07.08.1965,Волгоград,инженер,False
2,Белов М.М.,13.02.1980,Ростов,менеджер,False
3,Мельникова Д.С.,15.04.1985,Ростов,,False
4,Рыбина Е.П.,19.11.1985,Москва,инженер,False


Для того чтобы удалить существует команда drop. Сначала указываем какие именно объекты мы удаляем. Если мы удаляем строки, то указываем название индекса (оси).

In [31]:
frame

Unnamed: 0,Name,Birth,City,Position,IsStudent
0,Иванов А.А.,22.03.1980,Москва,,False
1,Сорокин И.В.,07.08.1965,Волгоград,инженер,False
2,Белов М.М.,13.02.1980,Ростов,менеджер,False
3,Мельникова Д.С.,15.04.1985,Ростов,,False
4,Рыбина Е.П.,19.11.1985,Москва,инженер,False
5,Костров С.О.,31.05.1985,Москва,стажер,True
6,Diana,01.08.2001,Partizansk,,True


Однако drop работает как append, поэтому в этой команде еще нужно добавиться аргумент inplace = True.

In [32]:
frame.drop([5, 6], axis = 0, inplace = True)

In [33]:
frame

Unnamed: 0,Name,Birth,City,Position,IsStudent
0,Иванов А.А.,22.03.1980,Москва,,False
1,Сорокин И.В.,07.08.1965,Волгоград,инженер,False
2,Белов М.М.,13.02.1980,Ростов,менеджер,False
3,Мельникова Д.С.,15.04.1985,Ростов,,False
4,Рыбина Е.П.,19.11.1985,Москва,инженер,False


In [34]:
frame.drop('IsStudent', axis = 1, inplace = True)

In [35]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер


Таким образом можно удалить столбец.

In [51]:
frame.to_csv('updated_dataset.csv', sep = ',', header = True, index = None)

In [53]:
!type updated_dataset.csv

Name,Birth,City,Position
Иванов А.А.,22.03.1980,Москва,
Сорокин И.В.,07.08.1965,Волгоград,инженер
Белов М.М.,13.02.1980,Ростов,менеджер
Мельникова Д.С.,15.04.1985,Ростов,
Рыбина Е.П.,19.11.1985,Москва,инженер
Костров С.О.,31.05.1985,Москва,стажер


Для того чтобы сохранить файл используется функция to_csv. Первый аргументом пишем название для нашего файла, потом разделитель, дальше указываешь хотим ли мы оставить заголовки, последним аргументом указываем будем ли записывать индексы.

### Индексация и селекция

In [47]:
frame = pd.read_csv('dataset.tsv', sep = '\t', header = 0)

In [48]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер


In [50]:
frame.dtypes

Name        object
Birth       object
City        object
Position    object
dtype: object

С помощью dtypes можно узнать какого типа столбцы. В этой таблице все столбцы имеет тип object. Столбец Birth соответствуем датам рождения, а так как в Python есть специальный тип datetime для работы с датами, то мы можем сделать наш столбец этого типа. Так нам будет удобнее работать с ним, так как мы сможем вызывать спицифичные для этого типа функции.

In [54]:
frame.Birth = frame.Birth.apply(pd.to_datetime)

In [55]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер
3,Мельникова Д.С.,1985-04-15,Ростов,
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


In [56]:
frame.dtypes

Name                object
Birth       datetime64[ns]
City                object
Position            object
dtype: object

С помощью метода apply мы можем применить к столбцу функцию. При помощи apply(pd.to_datetime) мы можем поменять тип столбца, но apply работает не как inplace, поэтому нужно будет использовать присваивание.

In [57]:
frame.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
Name        6 non-null object
Birth       6 non-null datetime64[ns]
City        6 non-null object
Position    4 non-null object
dtypes: datetime64[ns](1), object(3)
memory usage: 264.0+ bytes


С помощью функции info мы можем получить информацию о DataFrame.

In [76]:
frame.fillna('разноробочий', inplace = True)

In [77]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,разноробочий
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер
3,Мельникова Д.С.,1985-04-15,Ростов,разноробочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


Для того чтобы заполнить пропуски в таблице можно использовать метод fillna. В качестве первого аргумента передаем то значение, которым хотим заполнить наши пропуски.

In [60]:
frame.Position

0    разноробочий
1         инженер
2        менеджер
3    разноробочий
4         инженер
5          стажер
Name: Position, dtype: object

Если мы хотим вывести один столбец, то обратимся к нему через точку. Причем он вывелся как Series, то есть как обычный массив.

In [61]:
frame[['Position']]

Unnamed: 0,Position
0,разноробочий
1,инженер
2,менеджер
3,разноробочий
4,инженер
5,стажер


Таким образом его можно вывести в виде DataFrame.

In [63]:
frame[['Name', 'Position']]

Unnamed: 0,Name,Position
0,Иванов А.А.,разноробочий
1,Сорокин И.В.,инженер
2,Белов М.М.,менеджер
3,Мельникова Д.С.,разноробочий
4,Рыбина Е.П.,инженер
5,Костров С.О.,стажер


In [64]:
frame.head(3)

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,разноробочий
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер


Если мы хотим вывести первые строки, то можем использовать head, где указываем количество первых выводимых строк.

In [65]:
frame[:3]

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,разноробочий
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер


In [66]:
frame[-3:]

Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,разноробочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


Можно вывести строки и таким образом, в данном случае мы работаем с таблицей как с простым списком.

In [67]:
frame.loc[[1, 3, 5], ['Name', 'City']]

Unnamed: 0,Name,City
1,Сорокин И.В.,Волгоград
3,Мельникова Д.С.,Ростов
5,Костров С.О.,Москва


Если мы хотим выбрать какой-то список строк и какой-то список столбцов, то для этого можем использовать команду loc. Сначала передаем ему список строк (индексы), а дальше столбцы, с которыми хотим работать.

In [68]:
frame.iloc[[1,3,5], [0, 2]]

Unnamed: 0,Name,City
1,Сорокин И.В.,Волгоград
3,Мельникова Д.С.,Ростов
5,Костров С.О.,Москва


Аналогично мы можем обращаться к осям не по имени, а по позиции (по номеру строк, по номеру столбца), для этого используется команда iloc.

In [70]:
frame.ix[[1, 3, 5], ['Name', 'City']]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,Name,City
1,Сорокин И.В.,Волгоград
3,Мельникова Д.С.,Ростов
5,Костров С.О.,Москва


In [71]:
frame.ix[[1,3,5], [0, 2]]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,Name,City
1,Сорокин И.В.,Волгоград
3,Мельникова Д.С.,Ростов
5,Костров С.О.,Москва


С помощью ix можно обращаться к столбцам и строкам и так, и так, но исходя из предупреждения лучше пользоваться командами loc и iloc.

In [72]:
frame[frame.Birth >= pd.datetime(1985, 1, 1)]

Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,разноробочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


Можно делать сложные срезы, удовлетворяющие каким-то логическим операциям.

In [73]:
frame[(frame.Birth >= pd.datetime(1985, 1, 1)) & (frame.City != 'Москва')]

Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,разноробочий


In [79]:
frame[(frame.Birth >= pd.datetime(1985, 1, 1)) | (frame.City == 'Волгоград')]

Unnamed: 0,Name,Birth,City,Position
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
3,Мельникова Д.С.,1985-04-15,Ростов,разноробочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер
