# Очистка и фильтрация данных

**Цель** —  очистить данные, записанные в CSV файл. В качестве решения предоставить код, который получает на вход csv файл и выдает excel
файлы.

**Задачи:**

1.   Преобразовать в Dataframe, очистить от слов seconds, убрать строки где clientid равен 1,
преобразовать столбец timestamp к виду 29-06-2023 09:36:45.
2.  Сформировать два Excel
файла - в одном сохранить только те строки, где столбик log больше 15 секунд; во втором
сохранить только те строки, в которых timestamp меньше, чем 29 июня 2023 года 9 часов
36 минут.

**Ход решения:**
1. Ознакомиться с данными.
2. Решить поставленные задачи.
3. Сохранить результат.


## Обзор данных

In [None]:
# импортируем библиотеки
import pandas as pd
from datetime import datetime

In [None]:
# считываем данные в Dataframe
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/CSV_Task1.csv')

In [None]:
# выводим общую информацио о Dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   clientId   8 non-null      int64 
 1   timestamp  8 non-null      object
 2   log        8 non-null      object
dtypes: int64(1), object(2)
memory usage: 320.0+ bytes


## Преобразуем столбец timestamp



In [None]:
# изменим тип данных столбца timestamp
df['timestamp'] = pd.to_datetime(df['timestamp'])

In [None]:
# создадим новый столбец и внесем в него дату в нужном виде
df['timestamp_new'] = df['timestamp'].dt.strftime('%d/%m/%Y %H:%M:%S')

In [None]:
# перезапишем столбец timestamp
df['timestamp'] = df['timestamp_new']

In [None]:
# удалим столбец timestamp_new
df = df.drop(columns='timestamp_new')

In [None]:
df

Unnamed: 0,clientId,timestamp,log
0,1,29/06/2023 09:36:44,00:07
1,36441418,29/06/2023 09:36:45,00:12 seconds
2,34836299,29/06/2023 09:36:44,00:83 seconds
3,36412881,29/06/2023 09:35:02,00:00 seconds
4,37464661,29/06/2023 09:36:44,00:18 seconds
5,1,29/06/2023 09:36:45,00:09 seconds
6,37455397,29/06/2023 09:36:46,00:15 seconds
7,38071830,29/06/2023 09:34:29,00:05 seconds


In [None]:
# изменим тип данных столбца timestamp
df['timestamp'] = pd.to_datetime(df['timestamp'])

In [None]:
df.dtypes

clientId              int64
timestamp    datetime64[ns]
log                  object
dtype: object

## Очистим от слов seconds

In [None]:
# разделим столбец log по пробелу
new_df = df['log'].str.split(' ', expand=True)

In [None]:
# дадим название столбцам, полученным после раделения
new_df.columns=['log_1','seconds']

In [None]:
# соединим датафреймы и удалим столбецы log и seconds
df = pd.concat([df, new_df], axis=1).drop(columns=['log','seconds'], axis=1)

In [None]:
df

Unnamed: 0,clientId,timestamp,log_1
0,1,2023-06-29 09:36:44,00:07
1,36441418,2023-06-29 09:36:45,00:12
2,34836299,2023-06-29 09:36:44,00:83
3,36412881,2023-06-29 09:35:02,00:00
4,37464661,2023-06-29 09:36:44,00:18
5,1,2023-06-29 09:36:45,00:09
6,37455397,2023-06-29 09:36:46,00:15
7,38071830,2023-06-29 09:34:29,00:05


## Удалим строки, где clientId равен 1

In [None]:
# удалим строки где clientId равен 1
df = df[df.clientId != 1]

In [None]:
df

Unnamed: 0,clientId,timestamp,log_1
1,36441418,2023-06-29 09:36:45,00:12
2,34836299,2023-06-29 09:36:44,00:83
3,36412881,2023-06-29 09:35:02,00:00
4,37464661,2023-06-29 09:36:44,00:18
6,37455397,2023-06-29 09:36:46,00:15
7,38071830,2023-06-29 09:34:29,00:05


In [None]:
# изменим тип данных столбца timestamp
df['timestamp'] = pd.to_datetime(df['timestamp'])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['timestamp'] = pd.to_datetime(df['timestamp'])


In [None]:
df.dtypes

clientId              int64
timestamp    datetime64[ns]
log_1                object
dtype: object

In [None]:
df

Unnamed: 0,clientId,timestamp,log_1
1,36441418,2023-06-29 09:36:45,00:12
2,34836299,2023-06-29 09:36:44,00:83
3,36412881,2023-06-29 09:35:02,00:00
4,37464661,2023-06-29 09:36:44,00:18
6,37455397,2023-06-29 09:36:46,00:15
7,38071830,2023-06-29 09:34:29,00:05


## Фильтруем по дате

In [None]:
# фильтруем строки, где timestamp меньше чем 29 июня 2023 9 часов 36 минут
date = '2023-06-29 09:36:00'
mask = (df['timestamp'] < date)
filtered_df= df.loc[mask]

In [None]:
filtered_df

Unnamed: 0,clientId,timestamp,log_1
3,36412881,2023-06-29 09:35:02,00:00
7,38071830,2023-06-29 09:34:29,00:05


## Фильтруем по log

In [None]:
# фильтруем строки, где столбец log больше 15 секунд
second = '00:15'
mask= (df['log_1'] > second)
filtered_df1 = df.loc[mask]

In [None]:
filtered_df1

Unnamed: 0,clientId,timestamp,log_1
2,34836299,2023-06-29 09:36:44,00:83
4,37464661,2023-06-29 09:36:44,00:18


## Сохраняем результат

In [None]:
# сохраняем результат фильтрации в excel
filtered_df1.to_excel('/content/drive/MyDrive/Test_task_Data_Analyst_Khlybova_O/filter_1.xlsx')

In [None]:
filtered_df.to_excel('/content/drive/MyDrive/Test_task_Data_Analyst_Khlybova_O/filter_2.xlsx')