# Загрузить и сохранить

#### Чтобы скрипт работал нужно скачать pandas

##### Терминал

```
pip install pandas
```



#### Либо открыть тут режим Code и запустить

##### Через jupyter

```
!pip install pandas
```

!pip install pandas

In [12]:
import pandas as pd

## Читаем файл с данными

- `header = None` -> Читает данные и берет их без заголовков - 1 строки. Вместо них будут индексы и начнуться они с 0

- `skipfooter = 2` -> Пропускает строки с конца таблицы. Тут указано пропустить 2 строки в конце таблицы

- `skiprows=[2,3]` -> Пропускает строки как `skipfooter`, но она делает это по индексам. Тут указано пропустить строки с индексами 2 и 3

- `engine = "python"` -> Указывается движок `Python` для обработки файла. По дефолту стоит `C` для обработки

- `sep = "\t"` -> Разделение полей. Тут задано табуляция

In [13]:
data_f = pd.read_csv("data/feed-views.log", header = None, skipfooter = 2, skiprows = [2,3], engine = "python", sep="\t")
data_f

Unnamed: 0,0,1
0,2020-04-17 12:01:08.463179,artem
1,2020-04-17 12:01:23.743946,artem
2,2020-04-17 12:35:52.735016,artem
3,2020-04-17 12:36:21.401412,oksana
4,2020-04-17 12:36:22.023355,oksana
...,...,...
1067,2020-05-21 16:36:40.915488,ekaterina
1068,2020-05-21 17:49:36.429237,maxim
1069,2020-05-21 18:45:20.441142,valentina
1070,2020-05-21 23:03:06.457819,maxim


## Установить datetime как индекс 

In [14]:
data_f.columns = ["datetime", "user"]

data_f.columns

Index(['datetime', 'user'], dtype='object')

- Устанавливаем столбец `"datetime"` в качестве индекса датафрейма *data_f*. Это означает, что значения из столбца `"datetime"` станут метками строк, а сам столбец `"datetime"` будет удалён из состава обычных столбцов

- `inplace=True` ->  это указатель тому что изменения применяются к датафрейму *data_f*, а не создаётся новый датафрейм

In [15]:
data_f.set_index("datetime", inplace=True)

data_f.set_index

<bound method DataFrame.set_index of                                  user
datetime                             
2020-04-17 12:01:08.463179      artem
2020-04-17 12:01:23.743946      artem
2020-04-17 12:35:52.735016      artem
2020-04-17 12:36:21.401412     oksana
2020-04-17 12:36:22.023355     oksana
...                               ...
2020-05-21 16:36:40.915488  ekaterina
2020-05-21 17:49:36.429237      maxim
2020-05-21 18:45:20.441142  valentina
2020-05-21 23:03:06.457819      maxim
2020-05-21 23:23:49.995349      pavel

[1072 rows x 1 columns]>

## Переименовать datetime на date_time

- Переименование индекса датафрейма

- `data_f.index.name = "date_time"` -> Свойству `name` индекса датафрейма *data_f* присваивается новое значение `"date_time"`

In [16]:
data_f.index.name = "date_time"

data_f.index.name

'date_time'

## Сохранить полученные данные в файл

- Сохраняет полученный датафрейм в новый файл

- `sep = ":"` -> тут она указана как :

In [17]:
data_f.to_csv("data/feed-views-semicolon.log", sep = ":")

## Полученный результат

- Выводит первые 10 строк из датафрейма

In [18]:
data_f.head(10)

Unnamed: 0_level_0,user
date_time,Unnamed: 1_level_1
2020-04-17 12:01:08.463179,artem
2020-04-17 12:01:23.743946,artem
2020-04-17 12:35:52.735016,artem
2020-04-17 12:36:21.401412,oksana
2020-04-17 12:36:22.023355,oksana
2020-04-17 13:55:19.129243,artem
2020-04-17 15:00:33.138530,artem
2020-04-17 15:14:09.581054,artem
2020-04-17 22:46:26.785035,vladislav
2020-04-18 00:30:45.051569,artem


- Выводит последние 10 строк из датафрейма

In [19]:
data_f.tail(10)

Unnamed: 0_level_0,user
date_time,Unnamed: 1_level_1
2020-05-21 01:46:08.730098,valentina
2020-05-21 01:57:58.652380,pavel
2020-05-21 12:33:32.521770,maxim
2020-05-21 12:33:32.812265,maxim
2020-05-21 16:28:28.217529,ekaterina
2020-05-21 16:36:40.915488,ekaterina
2020-05-21 17:49:36.429237,maxim
2020-05-21 18:45:20.441142,valentina
2020-05-21 23:03:06.457819,maxim
2020-05-21 23:23:49.995349,pavel
