# Pandas. Индексация и селекция

Для начала импортируем библиотеку, загрузим файл и выведем DataFrame на экран:

In [5]:
import pandas as pd

df = pd.read_csv('files/dataset.tsv', sep='\t', header=0)

df

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1965,Москва,стажер


Выведем на просмотр типы данных полей (столбцов) в DataFrame:

In [7]:
df.dtypes

Name        object
Birth       object
City        object
Position    object
dtype: object

Мы видим, что все столбцы имеют тип - `object`. Если присмотреться к DataFrame, то можно обнаружить, что столбец `Birth` соответствует дате рождения, а в Python есть специальный тип `datetime` для работы с датами. Если мы сделаем столбец `Birth` типа `datetime`, то нам будет удобнее с ним работать, потому что мы сможем вызывать специфичные методы для типа `datetime`.

In [8]:
df.Birth = df.Birth.apply(pd.to_datetime)

Выведем на печать и обнаружим, что данные в столбце `Birth` выводятся немного по другому:

In [9]:
df

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер
3,Мельникова Д.С.,1985-04-15,Ростов,
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1965-05-31,Москва,стажер


Убедимся, что тип также изменился:

In [10]:
df.dtypes

Name                object
Birth       datetime64[ns]
City                object
Position            object
dtype: object

## Метод info()

Метод позволяет получить мини сводку по нашему DataFrame.

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
Name        6 non-null object
Birth       6 non-null datetime64[ns]
City        6 non-null object
Position    4 non-null object
dtypes: datetime64[ns](1), object(3)
memory usage: 272.0+ bytes


## Метод fillna()

Метод позволяет заполнить пропуски значений в столбцах какими-то данными.

In [12]:
df.fillna('разнорабочий', inplace=True)

In [13]:
df

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,разнорабочий
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1965-05-31,Москва,стажер


В данном случае мы видим, что изменения коснулись только одного столбца `Position`.

## Выборка данных из DataFrame

Часто, бывает удобнее вывести столбец отдельно:

In [14]:
df.Position

0    разнорабочий
1         инженер
2        менеджер
3    разнорабочий
4         инженер
5          стажер
Name: Position, dtype: object

Если мы хотим вывести этот столбец в виде DataFrame, чтобы было видно саму таблицу, то нужно к нему обратится несколько иначе:

In [15]:
df[['Position']]

Unnamed: 0,Position
0,разнорабочий
1,инженер
2,менеджер
3,разнорабочий
4,инженер
5,стажер


Аналогичным способом можно вывести любой набор столбцов:

In [16]:
df[['Name', 'Position']]

Unnamed: 0,Name,Position
0,Иванов А.А.,разнорабочий
1,Сорокин И.В.,инженер
2,Белов М.М.,менеджер
3,Мельникова Д.С.,разнорабочий
4,Рыбина Е.П.,инженер
5,Костров С.О.,стажер


Также, возможно поступать со строками. С помощью метода `head()` можно вывести первые N строк:

In [17]:
df.head(3)

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,разнорабочий
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер


Альтернативно, можно использовать срез:

In [18]:
df[:3]

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,разнорабочий
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер


In [19]:
df[-3:]

Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1965-05-31,Москва,стажер


### Методы loc и iloc

Если мы хотим сделать что-то более сложное, например выбрать какой-то список строк и какой-то список столбцов, мы можем воспользоваться методом `loc`. Он позволяет обращаться к нашему Data Frame с помощью обращения к названиям наших осей.

In [20]:
df.loc[[1,3,5], ['Name', 'City']]

Unnamed: 0,Name,City
1,Сорокин И.В.,Волгоград
3,Мельникова Д.С.,Ростов
5,Костров С.О.,Москва


Альтернативно можно обращаться к нашим осям не по имени, а по позиции, то есть по номеру нашего столбца и по номеру нашей строки. Это делается с помощью метода `iloc`:

In [21]:
df.iloc[[1,3,5], [0, 2]]

Unnamed: 0,Name,City
1,Сорокин И.В.,Волгоград
3,Мельникова Д.С.,Ростов
5,Костров С.О.,Москва


### Метод ix

Есть еще один способ обратиться к нашему массиву и сделать выборку. Это метод `ix`. Он умеет работать одновременно и с именами, и с позициями. Но его использовать не рекомендуется, так как он устаревший и вместо него лучше использовать методы `loc` и `iloc`:

In [22]:
df.ix[[1,3,5], ['Name', 'City']]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,Name,City
1,Сорокин И.В.,Волгоград
3,Мельникова Д.С.,Ростов
5,Костров С.О.,Москва


In [23]:
df.ix[[1,3,5], [0,2]]

Unnamed: 0,Name,City
1,Сорокин И.В.,Волгоград
3,Мельникова Д.С.,Ростов
5,Костров С.О.,Москва


### Фильтрация данных

Мы можем делать более сложные срезы, удовлетворяющие некоторым логическим операциям, например, мы можем как-нибудь отфильтровать наш Data Set:

In [24]:
df[df.Birth >= pd.datetime(1985,1,1)]

Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер


In [25]:
df[(df.Birth >= pd.datetime(1985,1,1)) & (df.City != 'Москва')]

Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий


In [26]:
df[(df.Birth >= pd.datetime(1985,1,1)) | (df.City == 'Волгоград')]

Unnamed: 0,Name,Birth,City,Position
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
