# 1. Pandas
---

__Series__ – проиндексированный одномерный массив значений (`аналог словаря`), где индексы могут задаваться произвольно.

__DataFrame__ — это проиндексированный многомерный массив значений, где каждый столбец DataFrame, является структурой Series

In [1]:
import pandas as pd

## 1.1 Создание DataFrame

In [2]:
frame = pd.DataFrame({'numbers':range(10), 'chars':['a']*10})
print(frame)

   numbers chars
0        0     a
1        1     a
2        2     a
3        3     a
4        4     a
5        5     a
6        6     a
7        7     a
8        8     a
9        9     a


При вызове функции __`read_csv()`__ необходимо указать имя файла, наличие заголовков (номер строки), используемый разделитель (например, `'\t'` - табуляция)

In [3]:
frame = pd.read_csv('dataset.tsv', header=0, sep='\t')
print(frame)

              Name       Birth       City  Position
0      Иванов А.А.  22.03.1980     Москва       NaN
1     Сорокин И.В.  07.08.1965  Волгоград   инженер
2       Белов М.М.  13.02.1980     Ростов  менеджер
3  Мельникова Д.С.  15.04.1985     Ростов       NaN
4      Рыбина Е.П.  19.11.1985     Москва   инженер
5     Костров С.О.  31.05.1985     Москва    стажер


Имена столбцов можно вывести при помощи метода __`.columns`__

In [4]:
print(frame.columns)

Index(['Name', 'Birth', 'City', 'Position'], dtype='object')


Метод __`.shape`__ выводит размер таблицы

In [5]:
frame.shape

(6, 4)

## 1.2 Добавление данных в DataFrame

Добавление __новой строки__

In [10]:
new_line = {'Name':'Perov', 'Birth':'22.03.1990', 'City':'Penza'}

# Данная команда не изменит исходный DataFrame, а вернет измененную копию
frame.append(new_line, ignore_index=True)

# Данная команда изменит исходный DataFrame
frame = frame.append(new_line, ignore_index=True)

In [7]:
print(frame)

              Name       Birth       City  Position
0      Иванов А.А.  22.03.1980     Москва       NaN
1     Сорокин И.В.  07.08.1965  Волгоград   инженер
2       Белов М.М.  13.02.1980     Ростов  менеджер
3  Мельникова Д.С.  15.04.1985     Ростов       NaN
4      Рыбина Е.П.  19.11.1985     Москва   инженер
5     Костров С.О.  31.05.1985     Москва    стажер
6            Perov  22.03.1990      Penza       NaN


Добавление __нового столбца__

In [7]:
frame['IsStudent'] = [False]*5 + [True]*2
print(frame)

              Name       Birth       City  Position  IsStudent
0      Иванов А.А.  22.03.1980     Москва       NaN      False
1     Сорокин И.В.  07.08.1965  Волгоград   инженер      False
2       Белов М.М.  13.02.1980     Ростов  менеджер      False
3  Мельникова Д.С.  15.04.1985     Ростов       NaN      False
4      Рыбина Е.П.  19.11.1985     Москва   инженер      False
5     Костров С.О.  31.05.1985     Москва    стажер       True
6            Perov  22.03.1990      Penza       NaN       True


__Удаление строки__ методом __`.drop()`__.

Если не указывать параметр `inplace=True`, команда не изменит исходный DataFrame, а вернет измененную копию.

__axis=0 - удаление строк__

In [8]:
# Удалить строки 5 и 6
frame.drop([5,6], axis=0, inplace=True)

__Удаление столбца__ методом __`.drop()`__.

Если не указывать параметр `inplace=True`, команда не изменит исходный DataFrame, а вернет измененную копию.

__axis=1 - удаление столбцов__

In [9]:
# Удалить столбец IsStudent
frame.drop('IsStudent', axis=1, inplace=True)

## 1.3 Запись DataFrame в файл

Метод __`.to_csv()`__ позволяет производить __запись DataFrame в файл__.

Разделитель (`sep`) может быть изменен.

`header=True` - сохранять заголовки в файл

`index=False` - не сохранять индексы в файл

In [10]:
frame.to_csv('updated_dataset.csv', sep=',', header=True, index=False)

## 1.4 Индексация и селекция

In [12]:
frame = pd.read_csv('data_sample_example.tsv', header=0, sep='\t')

Метод __`.dtypes`__ выводит __тип объектов__ DataFrame

In [13]:
frame.dtypes

Name        object
Birth       object
City        object
Position    object
dtype: object

Метод __`.apply()`__ __присваивает тип данных__ столбцу

Функция __`.to_datetime`__ - встроенная функция модуля pandas, присваивает __тип даты__

In [14]:
# изменение типа столбца Birth с помощью метода .apply()
frame.Birth = frame.Birth.apply(pd.to_datetime)

Функция __`.info()`__ позволяет получить __сводную информацию__ по DataFrame

In [15]:
frame.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
Name        6 non-null object
Birth       6 non-null datetime64[ns]
City        6 non-null object
Position    4 non-null object
dtypes: datetime64[ns](1), object(3)
memory usage: 320.0+ bytes


Метод __`.fillna()`__ позволяет заменить __пустые значения__ DataFrame

In [16]:
# Заполнение пропущенных значений DataFrame с помощью метода .fillna()
frame.fillna('разнорабочий', inplace=True)

In [17]:
# Заполнение пропущенных значений столбца Position с помощью метода .fillna()
frame.Position.fillna('разнорабочий', inplace=True)

## 1.5 Вывод данных DataFrame

Обращение к столбцу DataFrame (вывод как Series)

In [18]:
frame.Position

0    разнорабочий
1         инженер
2        менеджер
3    разнорабочий
4         инженер
5          стажер
Name: Position, dtype: object

Обращение к столбцу/столбцам DataFrame (вывод как DataFrame)

In [19]:
frame[['Position']]

Unnamed: 0,Position
0,разнорабочий
1,инженер
2,менеджер
3,разнорабочий
4,инженер
5,стажер


In [20]:
frame[['Name', 'Position']]

Unnamed: 0,Name,Position
0,Иванов А.А.,разнорабочий
1,Сорокин И.В.,инженер
2,Белов М.М.,менеджер
3,Мельникова Д.С.,разнорабочий
4,Рыбина Е.П.,инженер
5,Костров С.О.,стажер


Обращение к строке

In [21]:
# Вывод первых трех строк DataFrame
frame.head(3)

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,разнорабочий
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер


In [22]:
# Вывод первых трех строк DataFrame
frame[0:3]

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,1980-03-22,Москва,разнорабочий
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
2,Белов М.М.,1980-02-13,Ростов,менеджер


Метод __`.iloc`__ позволяет делать __сложный вывод__ данных.

Сначала указывается список строк (индекс), затем список столбцов (индекс).

In [23]:
# Вывод данных 1, 3 и 5 строк 0 и 1 столбцов
frame.iloc[[1,3,5], [0,1]]

Unnamed: 0,Name,Birth
1,Сорокин И.В.,1965-07-08
3,Мельникова Д.С.,1985-04-15
5,Костров С.О.,1985-05-31


Метод __`.loc`__ позволяет делать __сложный вывод__ данных.

Сначала указывается список строк (индекс), затем список столбцов (название).

In [24]:
# Вывод данных 0, 1 и 2 строк столбцов Name и City
frame.loc[[0,1,2], ["Name", "City"]]

Unnamed: 0,Name,City
0,Иванов А.А.,Москва
1,Сорокин И.В.,Волгоград
2,Белов М.М.,Ростов


## 1.6 Фильтрация

К данным DataFrame можно применять фильтрацию

In [25]:
# выбираем строки, которые удовлетворяют условию frame.Birth >= pd.datetime(1985,1,1)
frame[frame.Birth >= pd.datetime(1985,1,1)]

Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер


In [26]:
# выбираем строки, удовлетворяющие пересечению условий
frame[(frame.Birth >= pd.datetime(1985,1,1)) &
      (frame.City != 'Москва')]

Unnamed: 0,Name,Birth,City,Position
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий


In [27]:
# выбираем строки, удовлетворяющие объединению условий
frame[(frame.Birth >= pd.datetime(1985,1,1)) |
      (frame.City == 'Волгоград')]

Unnamed: 0,Name,Birth,City,Position
1,Сорокин И.В.,1965-07-08,Волгоград,инженер
3,Мельникова Д.С.,1985-04-15,Ростов,разнорабочий
4,Рыбина Е.П.,1985-11-19,Москва,инженер
5,Костров С.О.,1985-05-31,Москва,стажер
