# Библеотека Pandas

## Data Frame

In [2]:
import pandas as pd

In [4]:
frame = pd.read_csv('dataset.tsv', sep = '\t', header = 0)

In [5]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер


In [6]:
frame.dtypes

Name        object
Birth       object
City        object
Position    object
dtype: object

Все столбцы имеют тип object

Если присмотреться повнимательнее к нашему Data Frame, то можно заметить, что столбец Birth соответствует дата рождения. А в Python есть специальный тип datetime для работы с датами. Если мы сделаем наш столбец типа datetime, то нам будет удобнее с ним работать, потому что мы сможем вызывать специфичные для datetime функции. Это можно сделать с помощью метода Apply. 

In [8]:
frame.Birth = frame.Birth.apply(pd.to_datetime)

In [9]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер
3,Мельникова Д.С.,1985-04-15,Ростов,
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


In [10]:
frame.dtypes

Name                object
Birth       datetime64[ns]
City                object
Position            object
dtype: object

Колонка Birth теперь datetime. Теперь мы можем с ней рабоать как с датой.

### Info

А следующая полезная функция, которую мы изучим, это функция info. Она позволяет нам получить мини сводку по нашему Data Frame. Мы видим список всех колонок, которые у нас есть, видим, сколько там ненулевых объектов. Вот мы видим, что в колонке Position есть два нулевых значения. Также мы видим, какие типы данных у нас используются, и сколько места тратится на хранения нашего Data Frame. 

In [11]:
frame.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   Name      6 non-null      object        
 1   Birth     6 non-null      datetime64[ns]
 2   City      6 non-null      object        
 3   Position  4 non-null      object        
dtypes: datetime64[ns](1), object(3)
memory usage: 320.0+ bytes


 Нам не всегда удобно работать с пропущенными значениями в том виде, в котором они есть, и часто мы хотим их на что-то заменить и чем-то их заполнить.

### Fillna

In [12]:
frame.fillna('разнорабочий', inplace = True)

In [13]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,разнорабочий
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


Теперь все наши пропуски заполнены значением «разнорабочий». Но на самом деле в данном случае мы видим, что наши изменения коснулись только одного столбца. Часто нам удобней вывести его отдельно. Это можно сделать, обратившись к нему по имени через точку. Например frame.Position.

In [14]:
frame.Position

0    разнорабочий
1         инженер
2        менеджер
3    разнорабочий
4         инженер
5          стажер
Name: Position, dtype: object

Причем он вывелся, как serias, то есть как обычный массив. Если мы хотим вывести его в виде Data Frame, то есть чтобы было видно саму таблицу, то нужно обратиться к нему несколько иначе. 

In [16]:
frame[['Position']]

Unnamed: 0,Position
0,разнорабочий
1,инженер
2,менеджер
3,разнорабочий
4,инженер
5,стажер


In [17]:
frame[['Name', 'Position']]

Unnamed: 0,Name,Position
0,Иванов А.А.,разнорабочий
1,Сорокин И.В.,инженер
2,Белов М.М.,менеджер
3,Мельникова Д.С.,разнорабочий
4,Рыбина Е.П.,инженер
5,Костров С.О.,стажер


И аналогично можно поступать со строчками. Допустим, мы хотим вывести первые несколько строк. Если мы выводим первые строки, то можно воспользоваться командой head.

In [18]:
frame.head(3)

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,разнорабочий
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер


In [20]:
frame[-3:]

Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


### Loc

 Если же мы хотим сделать что-то более сложное, например выбрать какой-то список строк и какой-то список столбцов, мы можем воспользоваться командой loc. 

In [22]:
frame.loc[[1, 3, 5], ['Name', 'City']]

Unnamed: 0,Name,City
1,Сорокин И.В.,Волгоград
3,Мельникова Д.С.,Ростов
5,Костров С.О.,Москва


### Iloc

Альтернативно можно обращаться к нашим осям не по имени, а по позиции, то есть по номеру нашего столбца и по номеру нашей строки.

In [23]:
frame.iloc[[1, 3, 5], [0, 2]]

Unnamed: 0,Name,City
1,Сорокин И.В.,Волгоград
3,Мельникова Д.С.,Ростов
5,Костров С.О.,Москва


### Ix

Есть еще один способ обратиться к нашему массиву и сделать выборку.
 Он умеет работать одновременно и с именами, и с позициями. 

In [24]:
frame.ix[[1, 3, 5], ['Name', 'City']]

AttributeError: 'DataFrame' object has no attribute 'ix'

Помнянем, из 3 убрали на совсем.(удобная штука была совмещала loc + iloc)

 Мы можем делать более сложные срезы, удовлетворяющие некоторым логическим операциям. Ну, например, мы можем как-нибудь отфильтровать наш Data Set. Давайте возьмем Data Frame и отфильтруем его по дате рождения. 

In [26]:
frame[frame.Birth >= pd.datetime(1985, 1, 1)]

  """Entry point for launching an IPython kernel.


Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


( этот класс тоже устарел.

In [28]:
frame[(frame.Birth >= pd.datetime(1985, 1, 1)) & (frame.City != "Москва")]

  """Entry point for launching an IPython kernel.


Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий


In [31]:
frame[(frame.Birth >= pd.datetime(1985, 1, 1)) | (frame.City == "Волгоград")]

  """Entry point for launching an IPython kernel.


Unnamed: 0,Name,Birth,City,Position
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер
