# Pandas. Data Frame

[Pandas](https://ru.wikipedia.org/wiki/Pandas) - мощный инструмент для обоработки и анализа данных.


## Создание таблиц

Для начала работы с библиотекой, её необходимо импортировать:

In [1]:
import pandas as pd

Создадим нашу первую таблицу, или наш первый DataFrame. Сделаем это с помощью словаря:

In [2]:
df = pd.DataFrame({'number': range(10), 'chars': ['a'] * 10})

Мы создали табличку, теперь выведем её на экран и посмотрим, как она выглядит:

In [4]:
df

Unnamed: 0,chars,number
0,a,0
1,a,1
2,a,2
3,a,3
4,a,4
5,a,5
6,a,6
7,a,7
8,a,8
9,a,9


## Чтение данных из CSV-файла

Чтение CSV и подобных форматов файлов в DataFrame. Указываем имя файла, разделитель который используется в файле и указываем, что нулевая (первая) строка является заголовком:

In [6]:
df = pd.read_csv('files/dataset.tsv', sep='\t', header=0)

Мы считали файл в DataFrame, давайте на него посмотрим:

In [7]:
df

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1965,Москва,стажер


## Атрибуты объекта DataFrame

С помощью атрибута `columns` можно увидеть список колонок DataFrame:

In [8]:
df.columns

Index(['Name', 'Birth', 'City', 'Position'], dtype='object')

С помощью атрибута `shape` мы можем посмотреть размер таблицы:

In [10]:
df.shape

(6, 4)

## Модифицирование данных в DataFrame

### Добавление строк

Мы можем добавлять/удалять строчки, добавлять/удалять столбцы.

In [11]:
new_line = {'Name': 'Petrov', 'Birth': '22.03.1990', 'City': 'Penza'}

df.append(new_line, ignore_index=True)

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1965,Москва,стажер
6,Petrov,22.03.1990,Penza,


Видим, что в конце таблицы DataFrame добавилась новая седьмая строка под индексом 6. Двайте выведем еще раз наш DataFrame:

In [12]:
df

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1965,Москва,стажер


Видим, что этих изменений здесь нет. Почему это произошло? Поотому, что метод `append()` на самом деле работает не inplace, то есть она никак не изменяет наш исходный DataFrame. Метод `append()` вносит нужные изменения и возвращает копию DataFrame. Если мы хотим, чтобы DataFrame изменился, как вариант можно использовать новое присвоение переменной `df`:

In [13]:
df = df.append(new_line, ignore_index=True)

Если мы снова выведем на печать наш DataFrame, то увидим изменения:

In [14]:
df

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1965,Москва,стажер
6,Petrov,22.03.1990,Penza,


### Добавление столбцов

Добавим новый столбец и сгенерируем данные для 7 строк в этом столбце:

In [15]:
df['IsStudent'] = [False] * 5 + [True] * 2

Выводим DataFrame на экран и видим, что добавился новый столбец:

In [16]:
df

Unnamed: 0,Name,Birth,City,Position,IsStudent
0,Иванов А.А.,22.03.1980,Москва,,False
1,Сорокин И.В.,07.08.1965,Волгоград,инженер,False
2,Белов М.М.,13.02.1980,Ростов,менеджер,False
3,Мельникова Д.С.,15.04.1985,Ростов,,False
4,Рыбина Е.П.,19.11.1985,Москва,инженер,False
5,Костров С.О.,31.05.1965,Москва,стажер,True
6,Petrov,22.03.1990,Penza,,True


### Удаление строк

Удалим последние 2 строки:

In [17]:
df.drop([5,6], axis=0)

Unnamed: 0,Name,Birth,City,Position,IsStudent
0,Иванов А.А.,22.03.1980,Москва,,False
1,Сорокин И.В.,07.08.1965,Волгоград,инженер,False
2,Белов М.М.,13.02.1980,Ростов,менеджер,False
3,Мельникова Д.С.,15.04.1985,Ростов,,False
4,Рыбина Е.П.,19.11.1985,Москва,инженер,False


Видим, что наш DataFrame стал на 2 строки короче. Но у метода `drop()` есть такая же особенность как у метода `append()`, она тоже работает не inplace, поэтому если мы еще раз выведем DataFrame на экран, то обнаружим, что все строчки на месте:

In [18]:
df

Unnamed: 0,Name,Birth,City,Position,IsStudent
0,Иванов А.А.,22.03.1980,Москва,,False
1,Сорокин И.В.,07.08.1965,Волгоград,инженер,False
2,Белов М.М.,13.02.1980,Ростов,менеджер,False
3,Мельникова Д.С.,15.04.1985,Ростов,,False
4,Рыбина Е.П.,19.11.1985,Москва,инженер,False
5,Костров С.О.,31.05.1965,Москва,стажер,True
6,Petrov,22.03.1990,Penza,,True


Чтобы выполнить команду inplace, необходимо добавить аргумент `inplace=True`:

In [19]:
df.drop([5,6], axis=0, inplace=True)

In [20]:
df

Unnamed: 0,Name,Birth,City,Position,IsStudent
0,Иванов А.А.,22.03.1980,Москва,,False
1,Сорокин И.В.,07.08.1965,Волгоград,инженер,False
2,Белов М.М.,13.02.1980,Ростов,менеджер,False
3,Мельникова Д.С.,15.04.1985,Ростов,,False
4,Рыбина Е.П.,19.11.1985,Москва,инженер,False


### Удаление столбцов

In [21]:
df.drop(['IsStudent'], axis=1, inplace=True)

In [22]:
df

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер


## Запись данных в файл

In [23]:
df.to_csv('files/updated_dataset.csv', sep=';', header=True, index=False)

Убедимся, что файл выглядит так, как мы ожидаем:

In [24]:
!cat files/updated_dataset.csv

Name;Birth;City;Position
Иванов А.А.;22.03.1980;Москва;
Сорокин И.В.;07.08.1965;Волгоград;инженер
Белов М.М.;13.02.1980;Ростов;менеджер
Мельникова Д.С.;15.04.1985;Ростов;
Рыбина Е.П.;19.11.1985;Москва;инженер
