# Библиотека Pandas

## Data Frame

In [1]:
import pandas as pd

In [2]:
#создание DataFrame с помощью чтения данных из файла
frame = pd.read_csv('data_sample_example.tsv', header=0, sep='\t')
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер


In [3]:
frame.dtypes

Name        object
Birth       object
City        object
Position    object
dtype: object

In [4]:
#изменение типа столбца с помощью функции apply
frame.Birth = frame.Birth.apply(pd.to_datetime)
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер
3,Мельникова Д.С.,1985-04-15,Ростов,
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


In [5]:
frame.dtypes

Name                object
Birth       datetime64[ns]
City                object
Position            object
dtype: object

In [6]:
frame.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
Name        6 non-null object
Birth       6 non-null datetime64[ns]
City        6 non-null object
Position    4 non-null object
dtypes: datetime64[ns](1), object(3)
memory usage: 272.0+ bytes


## Замена пропущенных значений

In [7]:
#заполнение пропущенных значений с помощью метода fillna
frame.fillna('разнорабочий')
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер
3,Мельникова Д.С.,1985-04-15,Ростов,
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


In [8]:
#заполнение пропущенных значений с помощью метода fillna (inplace)
frame.fillna('разнорабочий', inplace=True)
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,разнорабочий
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


## Как получить один или несколько столбцов

In [9]:
frame.City

0       Москва
1    Волгоград
2       Ростов
3       Ростов
4       Москва
5       Москва
Name: City, dtype: object

In [10]:
print (type(frame['Position']))
frame['Position']

<class 'pandas.core.series.Series'>


0    разнорабочий
1         инженер
2        менеджер
3    разнорабочий
4         инженер
5          стажер
Name: Position, dtype: object

In [11]:
print (type(frame[['Position']]))
frame[['Position']]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Position
0,разнорабочий
1,инженер
2,менеджер
3,разнорабочий
4,инженер
5,стажер


In [12]:
frame[['Name', 'Position']]

Unnamed: 0,Name,Position
0,Иванов А.А.,разнорабочий
1,Сорокин И.В.,инженер
2,Белов М.М.,менеджер
3,Мельникова Д.С.,разнорабочий
4,Рыбина Е.П.,инженер
5,Костров С.О.,стажер


## Как получить строчки из датафрейма

In [13]:
frame[:3] #выбираем первые три записи

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,разнорабочий
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер


In [14]:
frame[-3:] #выбираем три последние записи

Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


In [15]:
frame.loc[0]

Name                Иванов А.А.
Birth       1980-03-22 00:00:00
City                     Москва
Position           разнорабочий
Name: 0, dtype: object

In [16]:
frame.loc[[0,1,2], ["Name", "City"]] #работает на основе имен

Unnamed: 0,Name,City
0,Иванов А.А.,Москва
1,Сорокин И.В.,Волгоград
2,Белов М.М.,Ростов


In [17]:
?frame.loc

In [18]:
frame.iloc[[1,3,5], [0,2]] #работает на основе позиций

Unnamed: 0,Name,City
1,Сорокин И.В.,Волгоград
3,Мельникова Д.С.,Ростов
5,Костров С.О.,Москва


In [19]:
frame.ix[[0,1,2], [0,1]] #поддерживает и имена и позиции (пример с позициями)

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,Name,Birth
0,Иванов А.А.,1980-03-22
1,Сорокин И.В.,1965-07-08
2,Белов М.М.,1980-02-13


In [20]:
#выбираем строки, которые удовлетворяют условию frame.Birth >= pd.datetime(1985,1,1)
frame[frame.Birth >= pd.datetime(1985,1,1)]

Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


In [21]:
#выбираем строки, удовлетворяющие пересечению условий
frame[(frame.Birth >= pd.datetime(1985,1,1)) &
      (frame.City != 'Москва')]

Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий


In [22]:
#выбираем строки, удовлетворяющие объединению условий
frame[(frame.Birth >= pd.datetime(1985,1,1)) |
      (frame.City == 'Волгоград')]

Unnamed: 0,Name,Birth,City,Position
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


In [23]:
frame[(frame.City == 'Ростов') & (frame.Birth == pd.datetime(1985,4,15))]

Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий
