# Pandas

Разнообразная работа с таблицами в формате DataFrame

In [1]:
import pandas as pd

## Создание таблицы

Из словаря

In [2]:
frame = pd.DataFrame({'id': range(5), 'char': ['a']*5})
frame

Unnamed: 0,id,char
0,0,a
1,1,a
2,2,a
3,3,a
4,4,a


Из файла

In [3]:
frame = pd.read_csv('data/pd_data.tsv', header=0, sep='\t')
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер


## Информация о таблице

Список заголовков

In [4]:
frame.columns

Index(['Name', 'Birth', 'City', 'Position'], dtype='object')

Тип столбцов

In [5]:
frame.dtypes

Name        object
Birth       object
City        object
Position    object
dtype: object

Размер таблицы

In [6]:
frame.shape

(6, 4)

Общая информация по таблице

In [7]:
frame.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
Name        6 non-null object
Birth       6 non-null object
City        6 non-null object
Position    4 non-null object
dtypes: object(4)
memory usage: 272.0+ bytes


## Добавление в таблицу

Добавление строки

In [8]:
new_line = {'Name': 'Роберт', 'Birth': '11.09.1997'}
frame = frame.append(new_line, ignore_index=True)
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер
6,Роберт,11.09.1997,,


Добавление столбца

In [9]:
frame['IsStudent'] = [False]*4 + [True]*3
frame

Unnamed: 0,Name,Birth,City,Position,IsStudent
0,Иванов А.А.,22.03.1980,Москва,,False
1,Сорокин И.В.,07.08.1965,Волгоград,инженер,False
2,Белов М.М.,13.02.1980,Ростов,менеджер,False
3,Мельникова Д.С.,15.04.1985,Ростов,,False
4,Рыбина Е.П.,19.11.1985,Москва,инженер,True
5,Костров С.О.,31.05.1985,Москва,стажер,True
6,Роберт,11.09.1997,,,True


## Удаление из таблицы

Удаление строк

In [10]:
frame.drop([4,6], axis=0, inplace=True)
frame

Unnamed: 0,Name,Birth,City,Position,IsStudent
0,Иванов А.А.,22.03.1980,Москва,,False
1,Сорокин И.В.,07.08.1965,Волгоград,инженер,False
2,Белов М.М.,13.02.1980,Ростов,менеджер,False
3,Мельникова Д.С.,15.04.1985,Ростов,,False
5,Костров С.О.,31.05.1985,Москва,стажер,True


Удаление столбцов

In [11]:
frame.drop(['IsStudent', 'City'], axis=1, inplace=True)
frame

Unnamed: 0,Name,Birth,Position
0,Иванов А.А.,22.03.1980,
1,Сорокин И.В.,07.08.1965,инженер
2,Белов М.М.,13.02.1980,менеджер
3,Мельникова Д.С.,15.04.1985,
5,Костров С.О.,31.05.1985,стажер


## Сохранение в файл

In [12]:
frame.to_csv('data/pd_upd_data.csv', sep="\t", header=True, index=None)
!cat updated_data.csv

cat: updated_data.csv: Нет такого файла или каталога


## Смена типа стоблца

In [13]:
frame.Birth = frame.Birth.apply(pd.to_datetime)
frame

Unnamed: 0,Name,Birth,Position
0,Иванов А.А.,1980-03-22,
1,Сорокин И.В.,1965-07-08,инженер
2,Белов М.М.,1980-02-13,менеджер
3,Мельникова Д.С.,1985-04-15,
5,Костров С.О.,1985-05-31,стажер


## Заполнение пропусков

In [14]:
frame.fillna('разнорабочий', inplace=True)
frame

Unnamed: 0,Name,Birth,Position
0,Иванов А.А.,1980-03-22,разнорабочий
1,Сорокин И.В.,1965-07-08,инженер
2,Белов М.М.,1980-02-13,менеджер
3,Мельникова Д.С.,1985-04-15,разнорабочий
5,Костров С.О.,1985-05-31,стажер


## Вывод данных

Вывод столбца в виде списка

In [15]:
frame.Name

0        Иванов А.А.
1       Сорокин И.В.
2         Белов М.М.
3    Мельникова Д.С.
5       Костров С.О.
Name: Name, dtype: object

Вывод матрицы объект-признак

In [19]:
frame.values

array([['Иванов А.А.', Timestamp('1980-03-22 00:00:00'), 'разнорабочий'],
       ['Сорокин И.В.', Timestamp('1965-07-08 00:00:00'), 'инженер'],
       ['Белов М.М.', Timestamp('1980-02-13 00:00:00'), 'менеджер'],
       ['Мельникова Д.С.', Timestamp('1985-04-15 00:00:00'),
        'разнорабочий'],
       ['Костров С.О.', Timestamp('1985-05-31 00:00:00'), 'стажер']],
      dtype=object)

Вывод столбцов в виде таблицы

In [17]:
frame[['Name', 'Position']]

Unnamed: 0,Name,Position
0,Иванов А.А.,разнорабочий
1,Сорокин И.В.,инженер
2,Белов М.М.,менеджер
3,Мельникова Д.С.,разнорабочий
5,Костров С.О.,стажер


Вывод строк

In [18]:
frame[:3]

Unnamed: 0,Name,Birth,Position
0,Иванов А.А.,1980-03-22,разнорабочий
1,Сорокин И.В.,1965-07-08,инженер
2,Белов М.М.,1980-02-13,менеджер


## Вывод подтаблицы

С заголовками - строками и индексами

In [18]:
frame.loc[[1, 3], ['Name', 'Position']]
frame.iloc[[1, 3], [0, 2]]

Unnamed: 0,Name,Position
1,Сорокин И.В.,инженер
3,Мельникова Д.С.,разнорабочий


ix принимает заголовки любых видов, но в Python 3 она признана устаревшей

In [19]:
frame.ix[[1, 3], ['Name', 'Position']]
frame.ix[[1, 3], [0, 2]]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  


Unnamed: 0,Name,Position
1,Сорокин И.В.,инженер
3,Мельникова Д.С.,разнорабочий


## Фильтрация данных

In [20]:
frame[(frame.Birth >= pd.datetime(1985, 1, 1)) &
      (frame.Position == 'стажер')]

Unnamed: 0,Name,Birth,Position
5,Костров С.О.,1985-05-31,стажер
