## Подготовка данных

### Загрузка и импорт библиотек

Загрузим необходимые нам библиотеки.

In [1]:
pip install pyexcelerate

Note: you may need to restart the kernel to use updated packages.


In [2]:
pip install pymongo

Note: you may need to restart the kernel to use updated packages.


In [3]:
# импортируем необходимые нам библиотеки

import pandas as pd
from pyexcelerate import Workbook
from pymongo import MongoClient

### Сохранение данных

In [4]:
# зададим названия столбцов будущего датафрейма

columns = ['Id', 'Name', 'Surname', 'Age', 'Job', 'Datetime']

# и данные для него

data = [
    [1, 'Alex', 'Smur', 21, 'Python Developer', '2022-01-01T09:45:12'],
    [2, 'Justin', 'Forman', 25, 'Java Developer','2022-01-01T11:50:25'],
    [3, 'Set', 'Carey', 35, 'Project Manager', '2022-01-01T10:00:45'],
    [4, 'Carlos', 'Carey', 40, 'Enterprise architect', '2022-01-01T09:07:36'],
    [5, 'Gareth', 'Chapman', 19, 'Python Developer', '2022-01-01T11:54:10'],
    [6, 'John', 'James', 27, 'IOS Developer', '2022-01-01T09:56:40'],
    [7, 'Bob', 'James', 25, 'Python Developer', '2022-01-01T09:52:45']
]

In [5]:
# создадим датафрейм и выведем его

df = pd.DataFrame(data=data, columns=columns)

df

Unnamed: 0,Id,Name,Surname,Age,Job,Datetime
0,1,Alex,Smur,21,Python Developer,2022-01-01T09:45:12
1,2,Justin,Forman,25,Java Developer,2022-01-01T11:50:25
2,3,Set,Carey,35,Project Manager,2022-01-01T10:00:45
3,4,Carlos,Carey,40,Enterprise architect,2022-01-01T09:07:36
4,5,Gareth,Chapman,19,Python Developer,2022-01-01T11:54:10
5,6,John,James,27,IOS Developer,2022-01-01T09:56:40
6,7,Bob,James,25,Python Developer,2022-01-01T09:52:45


## Предобработка данных

### Изменение формата данных

In [6]:
# переведем формат данных в столбце Datetime
# из object в datetime

df['Datetime'] = pd.to_datetime(
                            df['Datetime'], 
                            format='%Y-%m-%dT%H:%M:%S'
                            )

In [7]:
# выведем общую информацию о датафрейме

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   Id        7 non-null      int64         
 1   Name      7 non-null      object        
 2   Surname   7 non-null      object        
 3   Age       7 non-null      int64         
 4   Job       7 non-null      object        
 5   Datetime  7 non-null      datetime64[ns]
dtypes: datetime64[ns](1), int64(2), object(3)
memory usage: 464.0+ bytes


## Первое задание

Согласно условию, **сотрудники, чей возраст от 19 до 21 года включительно, работающие в отделе Разработки (Developers), должны приходить на работу ровно в 09.00**.

Создадим столбец TimeToEnter и заполним пропуски в нем соответствующим значением для сотрудников данных параметров.

In [8]:
# создадим новый датафрейм - дубликат существующего

df_work_1 = df

In [9]:
# создадим в новом датафрейме столбец TimeToEnter

df_work_1['TimeToEnter'] = None

In [10]:
df_work_1.loc[
        df_work_1['Job'].str.contains('Developer') &
        (df_work_1['Age'] > 18) &
        (df_work_1['Age'] <= 21),
        'TimeToEnter'] = '09.00'

В то же время **все прочие сотрудники отдела Разработки (Developers) могут приходить на службу** с опозданием, но не более чем на 15 минут, т.е. **не позднее 09.15**.

Заполним пропуски в столбце TimeToEnter соответствующим значением для сотрудников данных параметров.

In [11]:
df_work_1.loc[
    df_work_1['Job'].str.contains('Developer') &
    df_work_1['TimeToEnter'].isna(),
    'TimeToEnter'] = '09.15'

In [12]:
## выведем датафрейм

df_work_1

Unnamed: 0,Id,Name,Surname,Age,Job,Datetime,TimeToEnter
0,1,Alex,Smur,21,Python Developer,2022-01-01 09:45:12,9.0
1,2,Justin,Forman,25,Java Developer,2022-01-01 11:50:25,9.15
2,3,Set,Carey,35,Project Manager,2022-01-01 10:00:45,
3,4,Carlos,Carey,40,Enterprise architect,2022-01-01 09:07:36,
4,5,Gareth,Chapman,19,Python Developer,2022-01-01 11:54:10,9.0
5,6,John,James,27,IOS Developer,2022-01-01 09:56:40,9.15
6,7,Bob,James,25,Python Developer,2022-01-01 09:52:45,9.15


**Для сотрудников, не относящихся к данным двум наборам параметров, заполним пропуски в данных значение 09.00**.

In [13]:
df_work_1['TimeToEnter'] = df_work_1['TimeToEnter'].fillna('09.00')

In [14]:
# вновь выведем датафрейм

df_work_1

Unnamed: 0,Id,Name,Surname,Age,Job,Datetime,TimeToEnter
0,1,Alex,Smur,21,Python Developer,2022-01-01 09:45:12,9.0
1,2,Justin,Forman,25,Java Developer,2022-01-01 11:50:25,9.15
2,3,Set,Carey,35,Project Manager,2022-01-01 10:00:45,9.0
3,4,Carlos,Carey,40,Enterprise architect,2022-01-01 09:07:36,9.0
4,5,Gareth,Chapman,19,Python Developer,2022-01-01 11:54:10,9.0
5,6,John,James,27,IOS Developer,2022-01-01 09:56:40,9.15
6,7,Bob,James,25,Python Developer,2022-01-01 09:52:45,9.15


In [15]:
# переведем формат данных в столбце Datetime
# из object в datetime

df_work_1['TimeToEnter'] = pd.to_datetime(
                            df_work_1['TimeToEnter'], 
                            format='%H.%M'
                            )

In [16]:
# выведем общую информацию о датафрейме

df_work_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   Id           7 non-null      int64         
 1   Name         7 non-null      object        
 2   Surname      7 non-null      object        
 3   Age          7 non-null      int64         
 4   Job          7 non-null      object        
 5   Datetime     7 non-null      datetime64[ns]
 6   TimeToEnter  7 non-null      datetime64[ns]
dtypes: datetime64[ns](2), int64(2), object(3)
memory usage: 520.0+ bytes


### Перевод данных в формат xlsx

In [17]:
# создадим объект класса Workbook

test_for_jde = Workbook()

In [18]:
# создадим в объекте новый лист, куда запишем данные датафрейма

test_for_jde.new_sheet('first_task', data=df_work_1.values.tolist());

### Создание коллекции в Mongodb Compass

In [19]:
# создадим клиент в Mongodb

client = MongoClient('localhost', 27017)

In [20]:
# создадим шаблон базы данных

db = client['mydb']

In [21]:
# создадим коллекцию

collection_1 = db['18MoreAnd21andLess']

## Второе задание

Согласно условию, **сотрудники старше 35 лет, НЕ работающие в отделах Разработки (Developers) и Менеджмента (Managers), должны приходить на работу ровно в 11.00**. В то же время **все прочие сотрудники могут приходить на службу** с опозданием, но не более чем на 30 минут, т.е. **не позднее 11.30**.

Создадим столбец TimeToEnter и заполним пропуски в нем соответствующим значением для сотрудников данных параметров.

In [22]:
# создадим еще один датафрейм - дубликат существующего

df_work_2 = df

# и столбец TimeToEnter в нем

df_work_2['TimeToEnter'] = '11.30'

In [23]:
df_work_2.loc[
        ~(df_work_2['Job'].str.contains('Developer')) &
        ~(df_work_2['Job'].str.contains('Manager')) &
        (df_work_2['Age'] >= 35),
        'TimeToEnter'] = '11.00'

In [24]:
# выведем датафрейм

df_work_2

Unnamed: 0,Id,Name,Surname,Age,Job,Datetime,TimeToEnter
0,1,Alex,Smur,21,Python Developer,2022-01-01 09:45:12,11.3
1,2,Justin,Forman,25,Java Developer,2022-01-01 11:50:25,11.3
2,3,Set,Carey,35,Project Manager,2022-01-01 10:00:45,11.3
3,4,Carlos,Carey,40,Enterprise architect,2022-01-01 09:07:36,11.0
4,5,Gareth,Chapman,19,Python Developer,2022-01-01 11:54:10,11.3
5,6,John,James,27,IOS Developer,2022-01-01 09:56:40,11.3
6,7,Bob,James,25,Python Developer,2022-01-01 09:52:45,11.3


In [25]:
# переведем формат данных в столбце Datetime
# из object в datetime

df_work_2['TimeToEnter'] = pd.to_datetime(
                            df_work_2['TimeToEnter'], 
                            format='%H.%M'
                            )

In [26]:
# выведем общую информацию о датафрейме

df_work_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   Id           7 non-null      int64         
 1   Name         7 non-null      object        
 2   Surname      7 non-null      object        
 3   Age          7 non-null      int64         
 4   Job          7 non-null      object        
 5   Datetime     7 non-null      datetime64[ns]
 6   TimeToEnter  7 non-null      datetime64[ns]
dtypes: datetime64[ns](2), int64(2), object(3)
memory usage: 520.0+ bytes


### Перевод данных в формат xlsx

In [27]:
# создадим в экселе новый лист, куда запишем данные датафрейма

test_for_jde.new_sheet('second_task', data=df_work_2.values.tolist());

### Создание коллекции в Mongodb Compass

In [28]:
# создадим коллекцию

collection_2 = db['35AndMore']

## Третье задание

Согласно условию, **сотрудники отдела Архитектуры (Architect) должны приходить на работу ровно в 10.30**. В то же время **все прочие сотрудники могут приходить на службу** с опозданием, но не более чем на 10 минут, т.е. **не позднее 10.40**.

Создадим столбец TimeToEnter и заполним пропуски в нем соответствующим значением для сотрудников данных параметров.

In [29]:
# создадим еще один датафрейм - дубликат существующего

df_work_3 = df

# и столбец TimeToEnter в нем

df_work_3['TimeToEnter'] = '10.40'

In [30]:
df_work_3.loc[
        df_work_3['Job'].str.contains('architect'),
        'TimeToEnter'] = '10.30'

In [31]:
# выведем датафрейм

df_work_3

Unnamed: 0,Id,Name,Surname,Age,Job,Datetime,TimeToEnter
0,1,Alex,Smur,21,Python Developer,2022-01-01 09:45:12,10.4
1,2,Justin,Forman,25,Java Developer,2022-01-01 11:50:25,10.4
2,3,Set,Carey,35,Project Manager,2022-01-01 10:00:45,10.4
3,4,Carlos,Carey,40,Enterprise architect,2022-01-01 09:07:36,10.3
4,5,Gareth,Chapman,19,Python Developer,2022-01-01 11:54:10,10.4
5,6,John,James,27,IOS Developer,2022-01-01 09:56:40,10.4
6,7,Bob,James,25,Python Developer,2022-01-01 09:52:45,10.4


In [32]:
# переведем формат данных в столбце Datetime
# из object в datetime

df_work_3['TimeToEnter'] = pd.to_datetime(
                            df_work_3['TimeToEnter'], 
                            format='%H.%M'
                            )

In [33]:
# выведем общую информацию о датафрейме

df_work_3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   Id           7 non-null      int64         
 1   Name         7 non-null      object        
 2   Surname      7 non-null      object        
 3   Age          7 non-null      int64         
 4   Job          7 non-null      object        
 5   Datetime     7 non-null      datetime64[ns]
 6   TimeToEnter  7 non-null      datetime64[ns]
dtypes: datetime64[ns](2), int64(2), object(3)
memory usage: 520.0+ bytes


### Перевод данных в формат xlsx

In [34]:
# создадим в экселе новый лист, куда запишем данные датафрейма

test_for_jde.new_sheet('third_task', data=df_work_3.values.tolist());

In [35]:
# сохраним эксель

test_for_jde.save("test_for_jde.xlsx")

### Создание коллекции в Mongodb Compass

In [36]:
# создадим коллекцию

collection_3 = db['ArchitectEnterTime”']