# Библиотека Pandas

## Data Frame

Pandas — очень мощный инструмент для анализа данных Python. Pandas позволяет нам работать с данными в виде таблиц. Это очень естественное представление данных в задачах анализа.

In [2]:
import pandas as pd

Основное в структуре данных, которое позволяет нам работать с таблицами, является Data Frame. Data Frame можно представлять себе как такую двумерную матрицу или как dict-like container для работы c Series. Series — это обычный одномерный drr массив, он отличается от простого массива только тем, что в простом массиве у нас все элементы проиндексированы от 0 до размера массива −1, а тут у нас элементы могут иметь лейблы, то есть это могут быть, в принципе, произвольные имена. 

In [5]:
frame = pd.DataFrame({'numbers': range(10), 'chars':['a']*10})

In [6]:
frame

Unnamed: 0,numbers,chars
0,0,a
1,1,a
2,2,a
3,3,a
4,4,a
5,5,a
6,6,a
7,7,a
8,8,a
9,9,a


Но на самом деле такой способ создания DataFrame будет использоваться не так часто, потому что обычно мы хотим анализировать какие-то внешние данные, а эти данные часто хранятся в виде файлов или в виде набора файлов. Поэтому нам удобнее будет считывать эти данные в DataFrame и дальше работать с ними, как с таблицами.

In [9]:
frame = pd.read_csv('dataset.tsv', header = 0, sep='\t')

In [10]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер


Кстати, чтобы обратиться к именам столбцов или чтобы их поменять, есть специальный атрибут, называется columns. 

In [11]:
frame.columns

Index(['Name', 'Birth', 'City', 'Position'], dtype='object')

Также довольно полезный атрибут – shape. С помощью него можно посмотреть на размер нашей таблицы.

In [13]:
frame.shape

(6, 4)

Мы можем удалять и добавлять строчки, удалять и добавлять столбцы. Давайте начнем с простого и добавим в конец нашего DataFrame новую строчку. Строчку будем добавлять в виде словаря. Это далеко не единственный способ добавления строки, но он довольно простой.

In [19]:
new_line = {"Name": "Danil", "Birth": "04.07.2001", "City":"Vladivostok", "Position": "student"}

In [42]:
frame.append(new_line, ignore_index = True)

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер
6,Danil,04.07.2001,Vladivostok,student


Указываем аргумент ignore_index = True, потому что нам не так важно, под каким индексом добавится наша новая строчка. 

Видим, что здесь этих изменений нет. Почему это произошло? Ну потому что команда append, на самом деле, работает не inplace, то есть она никак не изменяет наш исходный DataFrame. Она вносит нужные изменения и возвращает нам его копию. Если же мы хотим, чтобы наш DataFrame изменился, то нужно немножечко модифицировать нашу команду.(append создает просто копию с изменениями)

In [88]:
frame = pd.read_csv('dataset.tsv', header = 0, sep='\t')

In [90]:
frame = frame.append(new_line, ignore_index = True)

In [91]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер
5,Костров С.О.,31.05.1985,Москва,стажер
6,Danil,04.07.2001,Vladivostok,student


В гайде писали что можно сделать так -> (frame = frame.append(new_line, ignore_index = True), но в 3 питоне почему-то дублируется строка после таких действий, поискал в интернетет какая есть замена и нашел метод .loc

In [92]:
frame['IS'] = [False]*5 + [True]*2

In [93]:
frame

Unnamed: 0,Name,Birth,City,Position,IS
0,Иванов А.А.,22.03.1980,Москва,,False
1,Сорокин И.В.,07.08.1965,Волгоград,инженер,False
2,Белов М.М.,13.02.1980,Ростов,менеджер,False
3,Мельникова Д.С.,15.04.1985,Ростов,,False
4,Рыбина Е.П.,19.11.1985,Москва,инженер,False
5,Костров С.О.,31.05.1985,Москва,стажер,True
6,Danil,04.07.2001,Vladivostok,student,True


 Теперь давайте добавим новые столбцы.
 Если мы добавляем новый объект к словарю, то как мы делаем? Мы просто указываем значение нового ключа и добавляем объект.

Чтобы удалить строки или столбцы воспользуемся методом .drop.

In [94]:
frame.drop([5, 6], axis = 0)

Unnamed: 0,Name,Birth,City,Position,IS
0,Иванов А.А.,22.03.1980,Москва,,False
1,Сорокин И.В.,07.08.1965,Волгоград,инженер,False
2,Белов М.М.,13.02.1980,Ростов,менеджер,False
3,Мельникова Д.С.,15.04.1985,Ростов,,False
4,Рыбина Е.П.,19.11.1985,Москва,инженер,False


In [95]:
frame

Unnamed: 0,Name,Birth,City,Position,IS
0,Иванов А.А.,22.03.1980,Москва,,False
1,Сорокин И.В.,07.08.1965,Волгоград,инженер,False
2,Белов М.М.,13.02.1980,Ростов,менеджер,False
3,Мельникова Д.С.,15.04.1985,Ростов,,False
4,Рыбина Е.П.,19.11.1985,Москва,инженер,False
5,Костров С.О.,31.05.1985,Москва,стажер,True
6,Danil,04.07.2001,Vladivostok,student,True


Так же как и с append, чтобы удалил нужно просто добавить парметр inplace.

In [96]:
frame.drop([5, 6], axis = 0, inplace = True)

In [97]:
frame

Unnamed: 0,Name,Birth,City,Position,IS
0,Иванов А.А.,22.03.1980,Москва,,False
1,Сорокин И.В.,07.08.1965,Волгоград,инженер,False
2,Белов М.М.,13.02.1980,Ростов,менеджер,False
3,Мельникова Д.С.,15.04.1985,Ростов,,False
4,Рыбина Е.П.,19.11.1985,Москва,инженер,False


Таким образом удаляем столбцы.

In [98]:
frame.drop('IS', axis = 1, inplace = True)

In [99]:
frame

Unnamed: 0,Name,Birth,City,Position
0,Иванов А.А.,22.03.1980,Москва,
1,Сорокин И.В.,07.08.1965,Волгоград,инженер
2,Белов М.М.,13.02.1980,Ростов,менеджер
3,Мельникова Д.С.,15.04.1985,Ростов,
4,Рыбина Е.П.,19.11.1985,Москва,инженер


Часто, после того, как мы проделываем какие-то манипуляции с DataFrame, например чистим данные, добавляем новые столбцы, вычисляем какие-то новые значения, нам хочется сохранить результат в виде файла, чтобы в дальнейшем с ним работать. Pandas позволяет нам сделать это с помощью простого метода. Он называется to_csv. (название файла, можем выбрать другой сепаратор, хотим ли мы оставить header, хотим ли мы оставить индексы)

In [107]:
frame.to_csv('up_file.csv', sep = ',', header = True, index = None)

In [109]:
!type up_file.csv

Name;Birth;City;Position
Иванов А.А.;22.03.1980;Москва;
Сорокин И.В.;07.08.1965;Волгоград;инженер
Белов М.М.;13.02.1980;Ростов;менеджер
Мельникова Д.С.;15.04.1985;Ростов;
Рыбина Е.П.;19.11.1985;Москва;инженер
