In [1]:
import pandas as pd

In [2]:
df1 = pd.read_excel(
    "dataset/5. Перечень событий за период 01.10.2023-30.04.2023 (ЦУ КГХ)/События за период_01.01.2024-30.04.2024.xlsx",
    sheet_name="Выгрузка",
)
df2 = pd.read_excel(
    "dataset/5. Перечень событий за период 01.10.2023-30.04.2023 (ЦУ КГХ)/События за период_01.10.2023-31.12.2023.xlsx",
    sheet_name="Выгрузка",
)

In [3]:
df1.columns == df2.columns

array([ True,  True,  True,  True,  True,  True,  True, False])

# sql representation
```sql
create table if not exists events(
    id bigserial primary key,
    title text,
    src text,
    external_created_at timestamp,
    -- Дата создания во внешней системе
    external_closed_at timestamp,
    -- Дата закрытия
    county text,
    -- округ нужен индекс, много запросов на ==
    unom bigint references address_registry(unom) on delete cascade,
    -- УНОМ - для мапинга с адресами и т.п.
    actual_start_at timestamp,
    -- Фактическая дата включения
    address text,
    -- Адрес
    ended_at timestamp -- Дата и время завершения события
);
```

In [4]:
# Объединение двух датафреймов
df = pd.concat([df1, df2], ignore_index=True)

In [None]:
df

In [5]:
list(df.columns)

['Наименование',
 'Источник',
 'Дата создания во внешней системе',
 'Дата закрытия',
 'Округ',
 'УНОМ',
 'Адрес',
 'Дата и время завершения события во внешней системе',
 'Дата и время завершения события']

In [6]:
df_to_sql_mapping = {
    "Наименование": "title",
    "Источник": "src",
    "Дата создания во внешней системе": "external_created_at",
    "Дата закрытия": "external_closed_at",
    "Округ": "county",
    "УНОМ": "unom",
    "Адрес": "address",
    "Дата и время завершения события во внешней системе": "external_ended_at",  # No direct mapping in SQL table
    "Дата и время завершения события": "ended_at",
}

In [7]:
df.rename(df_to_sql_mapping, inplace=True, axis=1)

In [8]:
df.isna().sum()

title                       0
src                         0
external_created_at         0
external_closed_at      30284
county                      0
unom                     2839
address                  2839
external_ended_at      483270
ended_at               547331
dtype: int64

In [9]:
# select df  where unom is null 
foo = df[df["unom"].isna()]

In [10]:
foo.head()

Unnamed: 0,title,src,external_created_at,external_closed_at,county,unom,address,external_ended_at,ended_at
51828,Повреждение ограждения,NG,2024-01-12 13:06:50.000000,2024-01-12 14:35:39.827000,ВАО,,,2024-01-15 13:36:32.806000,
51830,Переполнение урны,NG,2024-01-21 12:44:10.000000,2024-01-21 12:47:40.009000,ВАО,,,2024-01-26 08:38:24.791000,
51831,Переполнение урны,NG,2024-01-22 08:50:01.000000,2024-01-22 10:18:26.159000,ВАО,,,2024-01-23 10:48:10.720000,
51833,"Наличие снега, наледи",NG,2024-01-28 18:41:14.000000,2024-01-28 20:50:57.943000,ВАО,,,,
51835,Переполнение урны,NG,2024-01-30 19:49:52.000000,2024-01-30 19:50:51.588000,ВАО,,,2024-02-01 21:09:36.816000,


In [15]:
df.to_json("dataset/5.Перечень_событий_вао.json", orient="records",indent=False)

# Upload command
```bash
mongoimport --uri mongodb://user:password@host:27027/production --collection events --file dataset/5.Перечень_событий_вао.json --jsonArray --numInsertionWorkers 24 --writeConcern "{w: 0}"
```