# Материалы
[Дашборд и презентация](https://public.tableau.com/views/Mos_goverment/sheet8?:language=en-US&publish=yes&:sid=&:display_count=n&:origin=viz_share_link)  

# Проект по анализу государственных проверок объектов недвижимости г. Москвы

Выполнил Ерошенков Александр Андреевич

## Описание проекта

Компания, являющаяся государственным учреждением, занимается мониторингом земельных участков на территории города Москвы. Основные направления деятельности включают организацию выездных проверок и выявление незаконных строительных объектов.

## Цель проекта

Проанализировать имеющиеся данные, предоставить заказчику информацию по проверкам на объектах, разбитую по округам, в формате дашборда.

## Задачи

1. Необходимо обеспечить высокую степень детализации географических координат для города Москвы (добавить координаты г.Москва с высокой детализацией).
2. Заказчика интересует информация, разбитая по округам, включая:
   * Общее количество объектов.
   * Способы их классификации.
   * Общие характеристики объектов.
   * Локализацию объектов.
   * Количество и распределение проверок по объектам.
   * Распределение нагрузки между проверками.
   * Частота проведения проверок и количество выявленных нарушений.
3. Особое внимание следует уделить районам, которые подвергаются проверкам чаще других, и выявить, существуют ли районы с повышенным количеством нарушений.
4. Предложить рекомендации заказчику на основании имеющихся данных.
5. Сделать дашборд с визуализациями информации по объектам:
   * количеству проведенных мероприятий по объектам в разрезе «Округов»;
   * количеству проведенных мероприятий по объектам в разрезе «Источников задач»;
   * количеству проведенных мероприятий по объектам в разрезе «Видов мероприятий»;
   * отображение «Результатов» мероприятий по объекту.


## Описание данных

В нашем распоряжении:

* data.xlsx - модель данных на трех листах: задачи, мероприятия, объекты.  
Задача может быть связана с несколькими мероприятиями (значение поля «№ распоряжения/поручения» задачи содержится в значении поля «№ проверки» мероприятия).  
Мероприятие может быть связано с одним объектом (по полю ID объекта самостроя).

## План работы.

* Шаг 1. Предобработка данных.
   * Загрузим необходимые библиотеки.
   * Загрузим данные.
   * Ознакомимся с общей информацией о датасетах.
   * Проверим данные на пропуски.
   * Проверим данные на явные дубликаты.
   * Проверим на аномальные значения.
* Шаг 2. Подготовка данных к созданию дашборда.
   * Соединим таблицы. 
   * Сохраним новый датасет в csv для создания дашборда.
* Шаг 3. Общий вывод.
* Шаг 4. Создание дашборда в Tableau.

## Шаг 1. Предобработка данных.

### Загрузим необходимые библиотеки.

In [1]:
import pandas as pd
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)


### Загрузим данные.

In [2]:

df1, df2, df3 = (
    pd.read_excel(r"C:\Users\Саша\Desktop\datasets\datasets_centr_vozm\df.xlsx", sheet_name=0),
    pd.read_excel(r"C:\Users\Саша\Desktop\datasets\datasets_centr_vozm\df.xlsx", sheet_name=1),
    pd.read_excel(r"C:\Users\Саша\Desktop\datasets\datasets_centr_vozm\df.xlsx", sheet_name=2)
)

### Ознакомимся с общей информацией о датасетах.

In [3]:
df1.info(), df2.info(), df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2758 entries, 0 to 2757
Data columns (total 8 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   № п/п                     2758 non-null   int64 
 1   Id задачи                 2758 non-null   int64 
 2   Источник задачи           2758 non-null   object
 3   Округ                     2672 non-null   object
 4   Район                     2661 non-null   object
 5   Тематика                  2758 non-null   object
 6   Тип объекта               2758 non-null   object
 7   № распоряжения/поручения  2758 non-null   int64 
dtypes: int64(3), object(5)
memory usage: 172.5+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3219 entries, 0 to 3218
Data columns (total 41 columns):
 #   Column                           Non-Null Count  Dtype         
---  ------                           --------------  -----         
 0   № п/п                            3219 non-null   int

(None, None, None)

In [4]:
display(df1.head(), df2.head(), df3.head())

Unnamed: 0,№ п/п,Id задачи,Источник задачи,Округ,Район,Тематика,Тип объекта,№ распоряжения/поручения
0,15,1065090,Поручение,ЮАО,Чертаново Центральное,819/829-ПП (мероприятия по выявлению и пресече...,ЗУ,9052574
1,17,1065037,Поручение,,,819/829-ПП (мероприятия по выявлению и пресече...,ЗУ,9048265
2,32,1064674,ЭДО обращение ОИВ,ЦАО,Басманный,819/829-ПП (мероприятия по выявлению и пресече...,ЗУ,9072563
3,39,1064612,Поручение,ВАО,Богородское,819/829-ПП (мероприятия по выявлению и пресече...,ЗУ,9038375
4,44,1064538,Инструментальный мониторинг,ЮВАО,Печатники,819/829-ПП (мероприятия по выявлению и пресече...,ЗУ,9048253


Unnamed: 0,№ п/п,Идентификатор мероприятия,№ проверки,Дата создания карточки,Вид мероприятия,Дата обновления карточки,Дата проверки/обсл,Дата акта,Продолжительность (час),Время начала осмотра,Время завершения осмотра,Верифицировано,Состояние верификации,Дата верификации,Тип проверки/обследования,Результат,Наличие нарушения,Статьи нарушений,Наличие предостережения,Машино-место,Проверка/обсл. в отношении,Фактическое использование,Обращение на портал «Наш город»,Комплексное использование,"Площадь факт. исп., кв.м.",Отказ от ознакомления с актом,Округ,Район,Тип объекта,Площадь объекта,Право пользования,Площадь пресечения,Ведется строительство,Пресечено строительство,Строительство возобновлено,Незавершенное строительство,Наличие признаков угроз,Признаки угроз,ID НТО,ID объекта самостроя,Нарушение ОАТИ
0,3,1147581,9048253,2024-03-12 16:35:38,Выездное обследование,2024-03-12 19:13:25,2024-03-12,2024-03-12,0.07,13:18,13:22,Да,Верифицировано,2024-03-12,Мониторинг,Нецелевое использование ЗУ (прил. №3),Да,ч.1.2 ст.6.7,Нет,Нет,ЮЛ/ИП,прочее,Нет,Нет,,,ЮВАО,Печатники,Земельный участок,1391.0,,,Нет,Нет,Нет,Нет,Нет,,,58817,Нет
1,4,1147557,9052574,2024-03-12 13:59:36,Выездное обследование,2024-03-13 12:30:44,2024-03-12,2024-03-12,0.07,10:09,10:13,Да,Верифицировано,2024-03-13,Мониторинг,Нецелевое использование ЗУ (прил. №3),Да,ч.1.2 ст.6.7,Нет,Нет,ФЛ,придомовая территория,Нет,Нет,,,ЮАО,Чертаново Центральное,Земельный участок,25.0,Земельно-правовые отношения не оформлены,,Нет,Нет,Нет,Нет,Нет,,,58730,Нет
2,6,1147542,9048265,2024-03-12 12:30:29,Выездное обследование,2024-03-13 12:30:56,2024-03-11,2024-03-11,0.2,16:12,16:24,Да,Верифицировано,2024-03-13,Мониторинг,Нецелевое использование ЗУ (прил. №3),Да,ч.1.2 ст.6.7,Нет,Нет,ФЛ,прочее,Нет,Нет,,,ЮВАО,Люблино,Земельный участок,5500.0,,,Нет,Нет,Нет,Нет,Нет,,,58805,Нет
3,7,1147482,9106315,2024-03-11 21:11:41,Функциональное мероприятие,2024-03-11 21:41:32,2024-03-06,2024-03-06,0.03,14:04,14:06,Да,Верифицировано,2024-03-11,Мониторинг,Отсутствие самостроя,Нет,,Нет,Нет,ЮЛ/ИП,деятельность не ведется,Нет,Нет,,,ЗЕЛАО,Силино,Земельный участок,4542.0,Земельно-правовые отношения не оформлены,,Нет,Нет,Нет,Нет,Нет,,,51892,Нет
4,8,1147479,9106356,2024-03-11 20:58:04,Функциональное мероприятие,2024-03-11 21:46:38,2024-03-06,2024-03-06,0.03,14:01,14:03,Да,Верифицировано,2024-03-11,Мониторинг,Отсутствие самостроя,Нет,,Нет,Нет,ЮЛ/ИП,деятельность не ведется,Нет,Нет,,,ЗЕЛАО,Силино,Земельный участок,4700.0,Земельно-правовые отношения не оформлены,,Нет,Нет,Нет,Нет,Нет,,,51893,Нет


Unnamed: 0,№ п/п,Идентификатор объекта,Название объекта,Дата создания карточки объекта,Основание выявления/первого обследования,Вид мероприятия,Округ,Район,Тип объекта,Площадь/длина самостроя,Единицы измерения площади/длины,Площадь объекта,Приложение 819-ПП,Состояние,Количество объектов,Рассматривается в рамках,Дата выявления,Стадия строительства (из последнего КИМ),Демонтирован,Дата демонтажа,Плановая дата демонтажа,Измененная дата демонтажа,Отложенный демонтаж,Фактическое использование,"Лицо, осуществившее демонтаж",ЗПО,Разр. на стр.,ЕГРП,ID первого КИМ,№ первого КИМ,Дата первого КИМ,Дата акта первого КИМ,Результат первого КИМ,Состояние верификации первого КИМ,ID последнего КИМ,№ последнего КИМ,Дата последнего КИМ,Дата акта последнего КИМ,Результат последнего КИМ,Состояние верификации последнего КИМ
0,1,58817,Объект 1,2024-03-12 17:19:37,Обследование не проводилось. Выявлен ГИН,,Юго-Восточный,Печатники,прочее,1391.0,кв. м,1391.0,приложение 3,Учтен,3,819-ПП,NaT,,Нет,NaT,2024-04-12,2024-04-12,Нет,прочее,,Имеются,Не имеются,Не имеются,1147581,9048253,2024-03-12,2024-03-12,Нецелевое использование ЗУ (прил. №3),Верифицировано,1147581,9048253,2024-03-12,2024-03-12,Нецелевое использование ЗУ (прил. №3),Верифицировано
1,2,58805,Объект 2,2024-03-12 11:59:21,Поручения руководителя,Выездное обследование,Юго-Восточный,Люблино,пристройка,78.5,кв. м,78.5,приложение 3,Учтен,5,819-ПП,2024-03-11,Нет,Нет,NaT,2024-04-11,2024-04-11,Нет,прочее,,Имеются,Не имеются,Не имеются,1147542,9048265,2024-03-11,2024-03-11,Нецелевое использование ЗУ (прил. №3),Верифицировано,1147542,9048265,2024-03-11,2024-03-11,Нецелевое использование ЗУ (прил. №3),Верифицировано
2,9,58775,Объект 3,2024-03-07 09:18:15,Поручения руководителя,Выездное обследование,Восточный,Богородское,пристройка,35.6,кв. м,35.6,приложение 3,Учтен,1,819-ПП,2024-03-05,Нет,Нет,NaT,2024-04-05,2024-04-05,Нет,прочее,,Имеются,Не имеются,Не имеются,1147185,9038344,2024-03-05,2024-03-05,Нецелевое использование ЗУ (прил. №3),Верифицировано,1147185,9038344,2024-03-05,2024-03-05,Нецелевое использование ЗУ (прил. №3),Верифицировано
3,11,58772,Объект 4,2024-03-06 19:36:21,Поручения руководителя,Функциональное мероприятие,Восточный,Метрогородок,прочее,190.0,кв. м,190.0,приложение 3,Учтен,3,819-ПП,2024-03-06,Нет,Да,2024-03-07,NaT,NaT,Нет,прочее,,Имеются,Не имеются,Не имеются,1147681,9038383,2024-03-07,2024-03-07,Демонтаж подтвержден,Верифицировано,1147681,9038383,2024-03-07,2024-03-07,Демонтаж подтвержден,Верифицировано
4,14,58764,Объект 5,2024-03-06 12:33:07,Поручения руководителя,Функциональное мероприятие,Юго-Восточный,Печатники,пристройка,64.0,кв. м,64.0,приложение 3,Учтен,1,819-ПП,2024-03-06,Нет,Нет,NaT,2024-04-08,2025-06-30,Да,"спортивный комплекс (дворец спорта, стадион, в...",,Имеются,Не имеются,Не имеются,1146997,9048249,2024-03-06,2024-03-06,Нецелевое использование ЗУ (прил. №3),Верифицировано,1146997,9048249,2024-03-06,2024-03-06,Нецелевое использование ЗУ (прил. №3),Верифицировано


#### Из датасета df1 удалим ненужные столбцы.
* '№ п/п' - не понадобится для дальнейшего анализа;
* "Id задачи" - не понадобится для дальнейшего анализа;
* "Округ" - есть более информативные столбцы с той же информацией, без пропусков, в df2.
* "Район" - есть более информативные столбцы с той же информацией, без пропусков, в df2.
* "Тематика" - содержит одно повторяющееся значение в каждой строке;
* "Тип объекта" - содержит два повторяющихся значения, есть более информативные столбцы по типу объекта в df3.


In [5]:
df1 = df1.drop(columns=['№ п/п',"Id задачи", "Округ", "Район", "Тематика", "Тип объекта"])
df1.info()
df1.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2758 entries, 0 to 2757
Data columns (total 2 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   Источник задачи           2758 non-null   object
 1   № распоряжения/поручения  2758 non-null   int64 
dtypes: int64(1), object(1)
memory usage: 43.2+ KB


Unnamed: 0,Источник задачи,№ распоряжения/поручения
0,Поручение,9052574
1,Поручение,9048265
2,ЭДО обращение ОИВ,9072563
3,Поручение,9038375
4,Инструментальный мониторинг,9048253


#### Из датасета df2 удалим ненужные столбцы.

* '№ п/п',"Идентификатор мероприятия", "Дата создания карточки", "Дата обновления карточки", "Дата акта", "Время начала осмотра", "Время завершения осмотра", "Верифицировано",	"Состояние верификации", "Дата верификации", "Тип проверки/обследования", "Наличие предостережения", "Машино-место", "Обращение на портал «Наш город»", "Площадь факт. исп., кв.м.", "Отказ от ознакомления с актом", "Площадь пресечения",	"Ведется строительство", "Пресечено строительство",	"Строительство возобновлено", "Незавершенное строительство", "Наличие признаков угроз",	"Признаки угроз", "ID НТО", "Нарушение ОАТИ","Округ","Район" - не информативные столбцы, не понадобится для дальнейшего анализа;
* "Вид мероприятия", "Тип объекта",	"Площадь объекта" - есть более информативные столбцы с той же информацией в df3.	

In [6]:
df2 = df2.drop(columns=['№ п/п',"Идентификатор мероприятия", "Дата создания карточки", 
                        "Дата обновления карточки", "Дата акта", "Время начала осмотра",
                        "Время завершения осмотра", "Верифицировано", "Состояние верификации", 
                        "Дата верификации", "Тип проверки/обследования", "Наличие предостережения", 
                        "Машино-место", "Обращение на портал «Наш город»", "Площадь факт. исп., кв.м.", 
                        "Отказ от ознакомления с актом", "Площадь пресечения", "Ведется строительство", 
                        "Пресечено строительство", "Строительство возобновлено", "Незавершенное строительство", 
                        "Наличие признаков угроз", "Признаки угроз", "ID НТО", "Нарушение ОАТИ","Вид мероприятия", 
                        "Тип объекта", "Площадь объекта","Округ","Район"])
df2.info()
df2.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3219 entries, 0 to 3218
Data columns (total 11 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   № проверки                  3219 non-null   object        
 1   Дата проверки/обсл          3219 non-null   datetime64[ns]
 2   Продолжительность (час)     3219 non-null   float64       
 3   Результат                   3219 non-null   object        
 4   Наличие нарушения           3219 non-null   object        
 5   Статьи нарушений            2483 non-null   object        
 6   Проверка/обсл. в отношении  3219 non-null   object        
 7   Фактическое использование   3219 non-null   object        
 8   Комплексное использование   3219 non-null   object        
 9   Право пользования           2506 non-null   object        
 10  ID объекта самостроя        3219 non-null   int64         
dtypes: datetime64[ns](1), float64(1), int64(1), object(8)
me

Unnamed: 0,№ проверки,Дата проверки/обсл,Продолжительность (час),Результат,Наличие нарушения,Статьи нарушений,Проверка/обсл. в отношении,Фактическое использование,Комплексное использование,Право пользования,ID объекта самостроя
0,9048253,2024-03-12,0.07,Нецелевое использование ЗУ (прил. №3),Да,ч.1.2 ст.6.7,ЮЛ/ИП,прочее,Нет,,58817
1,9052574,2024-03-12,0.07,Нецелевое использование ЗУ (прил. №3),Да,ч.1.2 ст.6.7,ФЛ,придомовая территория,Нет,Земельно-правовые отношения не оформлены,58730
2,9048265,2024-03-11,0.2,Нецелевое использование ЗУ (прил. №3),Да,ч.1.2 ст.6.7,ФЛ,прочее,Нет,,58805
3,9106315,2024-03-06,0.03,Отсутствие самостроя,Нет,,ЮЛ/ИП,деятельность не ведется,Нет,Земельно-правовые отношения не оформлены,51892
4,9106356,2024-03-06,0.03,Отсутствие самостроя,Нет,,ЮЛ/ИП,деятельность не ведется,Нет,Земельно-правовые отношения не оформлены,51893


####  Из датасета df3 удалим ненужные столбцы.

"№ п/п", 'Название объекта', 'Площадь/длина самостроя', 'Приложение 819-ПП', 'Рассматривается в рамках', 'Плановая дата демонтажа','Измененная дата демонтажа', 'Отложенный демонтаж','Фактическое использование', 'Лицо, осуществившее демонтаж', 'ЗПО','Разр. на стр.', 'ЕГРП', 'ID первого КИМ', '№ первого КИМ','Дата первого КИМ', 'Дата акта первого КИМ', 'Результат первого КИМ','Состояние верификации первого КИМ', 'ID последнего КИМ''№ последнего КИМ', 'Дата последнего КИМ', 'Дата акта последнего КИМ','Результат последнего КИМ', 'Состояние верификации последнего КИМ','Дата выявления',"Дата демонтажа" - не понадобится для дальнейшего анализа.


In [7]:
df3 = df3.drop(columns=["№ п/п", 'Название объекта', 'Площадь/длина самостроя', 'Приложение 819-ПП', 
                        'Рассматривается в рамках', 'Плановая дата демонтажа','Измененная дата демонтажа', 
                        'Отложенный демонтаж','Фактическое использование', 'Лицо, осуществившее демонтаж', 
                        'ЗПО','Разр. на стр.', 'ЕГРП', 'ID первого КИМ', '№ первого КИМ','Дата первого КИМ',
                        'Дата акта первого КИМ', 'Результат первого КИМ','Состояние верификации первого КИМ',
                        'ID последнего КИМ','№ последнего КИМ', 'Дата последнего КИМ', 'Дата акта последнего КИМ',
                        'Результат последнего КИМ', 'Состояние верификации последнего КИМ','Дата выявления',"Дата демонтажа"])
df3.info()
df3.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2937 entries, 0 to 2936
Data columns (total 13 columns):
 #   Column                                    Non-Null Count  Dtype         
---  ------                                    --------------  -----         
 0   Идентификатор объекта                     2937 non-null   int64         
 1   Дата создания карточки объекта            2937 non-null   datetime64[ns]
 2   Основание выявления/первого обследования  2937 non-null   object        
 3   Вид мероприятия                           2737 non-null   object        
 4   Округ                                     2937 non-null   object        
 5   Район                                     2937 non-null   object        
 6   Тип объекта                               2937 non-null   object        
 7   Единицы измерения площади/длины           2937 non-null   object        
 8   Площадь объекта                           2937 non-null   float64       
 9   Состояние                     

Unnamed: 0,Идентификатор объекта,Дата создания карточки объекта,Основание выявления/первого обследования,Вид мероприятия,Округ,Район,Тип объекта,Единицы измерения площади/длины,Площадь объекта,Состояние,Количество объектов,Стадия строительства (из последнего КИМ),Демонтирован
0,58817,2024-03-12 17:19:37,Обследование не проводилось. Выявлен ГИН,,Юго-Восточный,Печатники,прочее,кв. м,1391.0,Учтен,3,,Нет
1,58805,2024-03-12 11:59:21,Поручения руководителя,Выездное обследование,Юго-Восточный,Люблино,пристройка,кв. м,78.5,Учтен,5,Нет,Нет
2,58775,2024-03-07 09:18:15,Поручения руководителя,Выездное обследование,Восточный,Богородское,пристройка,кв. м,35.6,Учтен,1,Нет,Нет
3,58772,2024-03-06 19:36:21,Поручения руководителя,Функциональное мероприятие,Восточный,Метрогородок,прочее,кв. м,190.0,Учтен,3,Нет,Да
4,58764,2024-03-06 12:33:07,Поручения руководителя,Функциональное мероприятие,Юго-Восточный,Печатники,пристройка,кв. м,64.0,Учтен,1,Нет,Нет


### Проверим данные на пропуски.

In [8]:
display(pd.DataFrame(round(df1.isna().mean()*100,10)))
display(pd.DataFrame(round(df2.isna().mean()*100,10)))
display(pd.DataFrame(round(df3.isna().mean()*100,10)))

Unnamed: 0,0
Источник задачи,0.0
№ распоряжения/поручения,0.0


Unnamed: 0,0
№ проверки,0.0
Дата проверки/обсл,0.0
Продолжительность (час),0.0
Результат,0.0
Наличие нарушения,0.0
Статьи нарушений,22.864244
Проверка/обсл. в отношении,0.0
Фактическое использование,0.0
Комплексное использование,0.0
Право пользования,22.149736


Unnamed: 0,0
Идентификатор объекта,0.0
Дата создания карточки объекта,0.0
Основание выявления/первого обследования,0.0
Вид мероприятия,6.80967
Округ,0.0
Район,0.0
Тип объекта,0.0
Единицы измерения площади/длины,0.0
Площадь объекта,0.0
Состояние,0.0


Пропуски в df1 отсутствуют. Далее обработаем пропуски в df2 и df3.

#### Обработаем пропуски в df2.

Пропуски в "Статьи нарушений" образованы там, где нет нарушений, заполним значением "отсутствует".  
Пропуски в "Право пользования" не представляется возможным заполнить по значениям других полей, заполним значением "не установлено".

In [9]:
df2['Статьи нарушений'] = df2['Статьи нарушений'].fillna("отсутствует")
df2["Право пользования"] = df2["Право пользования"].fillna("не установлено")
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3219 entries, 0 to 3218
Data columns (total 11 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   № проверки                  3219 non-null   object        
 1   Дата проверки/обсл          3219 non-null   datetime64[ns]
 2   Продолжительность (час)     3219 non-null   float64       
 3   Результат                   3219 non-null   object        
 4   Наличие нарушения           3219 non-null   object        
 5   Статьи нарушений            3219 non-null   object        
 6   Проверка/обсл. в отношении  3219 non-null   object        
 7   Фактическое использование   3219 non-null   object        
 8   Комплексное использование   3219 non-null   object        
 9   Право пользования           3219 non-null   object        
 10  ID объекта самостроя        3219 non-null   int64         
dtypes: datetime64[ns](1), float64(1), int64(1), object(8)
me

#### Обработаем пропуски в df3.

По столбцам:
* Вид мероприятия - пропуски там, где обследование не проводилось, заполним "не проводилось".
* Стадия строительства (из последнего КИМ) - пропуски там, где обследование не проводилось, заполним "не установлено".


In [10]:
df3['Вид мероприятия'] = df3['Вид мероприятия'].fillna("не установлено")
df3["Стадия строительства (из последнего КИМ)"] = df3["Стадия строительства (из последнего КИМ)"].fillna("не установлено")

df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2937 entries, 0 to 2936
Data columns (total 13 columns):
 #   Column                                    Non-Null Count  Dtype         
---  ------                                    --------------  -----         
 0   Идентификатор объекта                     2937 non-null   int64         
 1   Дата создания карточки объекта            2937 non-null   datetime64[ns]
 2   Основание выявления/первого обследования  2937 non-null   object        
 3   Вид мероприятия                           2937 non-null   object        
 4   Округ                                     2937 non-null   object        
 5   Район                                     2937 non-null   object        
 6   Тип объекта                               2937 non-null   object        
 7   Единицы измерения площади/длины           2937 non-null   object        
 8   Площадь объекта                           2937 non-null   float64       
 9   Состояние                     

#### Проверим данные на явные дубликаты.

In [11]:
display(df1.duplicated().sum())
display(df2.duplicated().sum())
df3.duplicated().sum()

0

27

0

In [12]:
df2 = df2.drop_duplicates()
df2.duplicated().sum()

0

Дубликаты отсутсвуют во всех фреймах кроме df2 - удалили дубликаты в df2.

#### Проверим на аномальные значения.

В df1 нет количественных переменнных.  
В df2 проверим поля 'Дата проверки/обсл','Продолжительность (час)'.
В df3 

In [13]:
df2[['Дата проверки/обсл','Продолжительность (час)']].describe()

Unnamed: 0,Дата проверки/обсл,Продолжительность (час)
count,3192,3192.0
mean,2023-08-09 17:41:57.293233152,0.251898
min,2023-01-09 00:00:00,0.02
25%,2023-04-19 00:00:00,0.07
50%,2023-08-09 00:00:00,0.13
75%,2023-11-27 00:00:00,0.33
max,2024-03-28 00:00:00,4.0
std,,0.295419


In [14]:
df3[['Дата создания карточки объекта','Площадь объекта','Количество объектов']].describe()

Unnamed: 0,Дата создания карточки объекта,Площадь объекта,Количество объектов
count,2937,2937.0,2937.0
mean,2023-05-25 08:20:38.178072832,1338.225478,7.607423
min,2014-04-23 00:00:00,0.0,1.0
25%,2023-04-06 12:52:51,54.0,1.0
50%,2023-07-21 17:16:02,200.0,1.0
75%,2023-11-13 18:57:37,907.2,3.0
max,2024-03-12 17:19:37,115010.3,12001.0
std,,4487.226688,221.569997


In [15]:
df3.loc[df3['Площадь объекта'] > 907.2].sort_values(by='Площадь объекта').tail()


Unnamed: 0,Идентификатор объекта,Дата создания карточки объекта,Основание выявления/первого обследования,Вид мероприятия,Округ,Район,Тип объекта,Единицы измерения площади/длины,Площадь объекта,Состояние,Количество объектов,Стадия строительства (из последнего КИМ),Демонтирован
147,58341,2024-02-08 18:27:12,Поручения руководителя,Выездное обследование,Центральный,Арбат,пристройка,кв. м,50670.0,Согласован для включения,1,Нет,Нет
2833,43529,2022-03-15 20:50:43,Обращения ОИВ (Правительство г.Москвы),Функциональное мероприятие,Южный,Даниловский,здание,кв. м,54279.7,Признаки СС не подтверждены,1,Нет,Нет
148,58340,2024-02-08 18:25:15,Поручения руководителя,Выездное обследование,Центральный,Арбат,пристройка,кв. м,66354.2,Согласован для включения,1,Нет,Нет
2532,51322,2023-02-28 13:08:23,Поручения руководителя,Выездное обследование,Южный,Чертаново Южное,здание,кв. м,77419.0,Включен,1,Нет,Нет
2788,48507,2022-10-06 15:41:13,Поручения руководителя,Функциональное мероприятие,Восточный,Измайлово,пристройка,кв. м,115010.3,Включен,1,Нет,Нет


Значения площади похожи на аномально большие, их всего 5 - удалим.

In [16]:
df3 = df3.loc[df3['Площадь объекта'] < 907.3]
df3.loc[df3['Площадь объекта'] > 907.2].sort_values(by='Площадь объекта').tail()

Unnamed: 0,Идентификатор объекта,Дата создания карточки объекта,Основание выявления/первого обследования,Вид мероприятия,Округ,Район,Тип объекта,Единицы измерения площади/длины,Площадь объекта,Состояние,Количество объектов,Стадия строительства (из последнего КИМ),Демонтирован


In [17]:
df3.loc[df3['Количество объектов'] > 3.0].sort_values(by='Количество объектов').tail()

Unnamed: 0,Идентификатор объекта,Дата создания карточки объекта,Основание выявления/первого обследования,Вид мероприятия,Округ,Район,Тип объекта,Единицы измерения площади/длины,Площадь объекта,Состояние,Количество объектов,Стадия строительства (из последнего КИМ),Демонтирован
2482,51499,2023-03-07 16:05:33,Поручения руководителя,Функциональное мероприятие,Северо-Восточный,Отрадное,прочее,кв. м,648.75,Учтен,43,Нет,Да
2618,50917,2023-02-06 12:09:51,Поручения руководителя,Функциональное мероприятие,Северо-Восточный,Северное Медведково,прочее,кв. м,656.12,Учтен,47,Нет,Да
1410,54620,2023-07-28 18:12:53,Поручения руководителя,Функциональное мероприятие,Юго-Восточный,Печатники,строение,кв. м,813.0,Учтен,48,Нет,Да
1352,54823,2023-08-10 17:35:10,Обращения ОИВ (Правительство г.Москвы),Выездное обследование,Новомосковский,Десеновское,строение,кв. м,634.0,Учтен,69,Нет,Нет
2671,50653,2023-01-24 13:23:29,Поручения руководителя,Выездное обследование,Южный,Нагорный,пристройка,кв. м,108.5,Включен,12001,Нет,Нет


Значения количества похожи на аномально большие, их всего 5 - удалим.

In [18]:
df3 = df3.loc[df3['Количество объектов'] < 3.0]
df3.loc[df3['Количество объектов'] > 3.0].sort_values(by='Количество объектов').tail()

Unnamed: 0,Идентификатор объекта,Дата создания карточки объекта,Основание выявления/первого обследования,Вид мероприятия,Округ,Район,Тип объекта,Единицы измерения площади/длины,Площадь объекта,Состояние,Количество объектов,Стадия строительства (из последнего КИМ),Демонтирован


In [19]:
df3['Единицы измерения площади/длины'].value_counts()

Единицы измерения площади/длины
кв. м    1547
м           6
п.м         2
Name: count, dtype: int64

Всего 7 строк с нестандартными значениями - удалим их.

In [20]:
df3 = df3.loc[df3['Единицы измерения площади/длины'] == 'кв. м']
df3['Единицы измерения площади/длины'].value_counts()

Единицы измерения площади/длины
кв. м    1547
Name: count, dtype: int64

#### Вывод по блоку предобработки:
1. Удалили столбцы:
    * Из датасета df1 удалили'№ п/п',"Id задачи", "Округ", "Район", "Тематика", "Тип объекта";
    * Из датасета df2 удалили'№ п/п',"Идентификатор мероприятия", "Дата создания карточки", "Дата обновления карточки", "Дата акта", "Время начала осмотра", "Время завершения осмотра", "Верифицировано", "Состояние верификации", "Дата верификации", "Тип проверки/обследования", "Наличие предостережения", "Машино-место", "Обращение на портал «Наш город»", "Площадь факт. исп., кв.м.", "Отказ от ознакомления с актом", "Площадь пресечения", "Ведется строительство", "Пресечено строительство", "Строительство возобновлено", "Незавершенное строительство", "Наличие признаков угроз", "Признаки угроз", "ID НТО", "Нарушение ОАТИ","Вид мероприятия", "Тип объекта", "Площадь объекта".
    * Из датасета df3 удалили "№ п/п", 'Название объекта', 'Площадь/длина самостроя', 'Приложение 819-ПП', 'Рассматривается в рамках', 'Плановая дата демонтажа','Измененная дата демонтажа', 'Отложенный демонтаж','Фактическое использование', 'Лицо, осуществившее демонтаж', 'ЗПО','Разр. на стр.', 'ЕГРП', 'ID первого КИМ', '№ первого КИМ','Дата первого КИМ', 'Дата акта первого КИМ', 'Результат первого КИМ','Состояние верификации первого КИМ', 'ID последнего КИМ''№ последнего КИМ', 'Дата последнего КИМ', 'Дата акта последнего КИМ','Результат последнего КИМ', 'Состояние верификации последнего КИМ','Дата выявления',"Дата демонтажа".
    
2. Обработали пропуски в датасетах.
3. Проверили и удалили явные дубликаты.
4. Проверили и удалили аномальные значения.

### Шаг 2. Подготовка данных к созданию дашборда

#### Соединим таблицы. 

Сначала оставим в номерах проверок только номера, без "/" и подномера.

In [21]:
df2['№ проверки'] = df2['№ проверки'].map(lambda x: str(x)[:7])
df2['№ проверки'].duplicated().sum()

435

In [22]:
df1 = df1.rename(columns={'№ распоряжения/поручения': '№ проверки'})
df2 = df2.rename(columns={'ID объекта самостроя': 'Идентификатор объекта'})
df2 = df2.astype({'№ проверки': 'int64'})

In [23]:
df1.info(), df2.info(), df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2758 entries, 0 to 2757
Data columns (total 2 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Источник задачи  2758 non-null   object
 1   № проверки       2758 non-null   int64 
dtypes: int64(1), object(1)
memory usage: 43.2+ KB
<class 'pandas.core.frame.DataFrame'>
Index: 3192 entries, 0 to 3218
Data columns (total 11 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   № проверки                  3192 non-null   int64         
 1   Дата проверки/обсл          3192 non-null   datetime64[ns]
 2   Продолжительность (час)     3192 non-null   float64       
 3   Результат                   3192 non-null   object        
 4   Наличие нарушения           3192 non-null   object        
 5   Статьи нарушений            3192 non-null   object        
 6   Проверка/обсл. в отношении  3192 non-null   

(None, None, None)

In [24]:
display(df2['Идентификатор объекта'].unique().sum())
df3['Идентификатор объекта'].unique().sum()

157169912

82454076

In [25]:
df = df2.merge(df1, on='№ проверки',how='outer').merge(df3, on='Идентификатор объекта', how='right')
df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1635 entries, 0 to 1634
Data columns (total 24 columns):
 #   Column                                    Non-Null Count  Dtype         
---  ------                                    --------------  -----         
 0   № проверки                                1635 non-null   int64         
 1   Дата проверки/обсл                        1635 non-null   datetime64[ns]
 2   Продолжительность (час)                   1635 non-null   float64       
 3   Результат                                 1635 non-null   object        
 4   Наличие нарушения                         1635 non-null   object        
 5   Статьи нарушений                          1635 non-null   object        
 6   Проверка/обсл. в отношении                1635 non-null   object        
 7   Фактическое использование                 1635 non-null   object        
 8   Комплексное использование                 1635 non-null   object        
 9   Право пользования             

Unnamed: 0,№ проверки,Дата проверки/обсл,Продолжительность (час),Результат,Наличие нарушения,Статьи нарушений,Проверка/обсл. в отношении,Фактическое использование,Комплексное использование,Право пользования,Идентификатор объекта,Источник задачи,Дата создания карточки объекта,Основание выявления/первого обследования,Вид мероприятия,Округ,Район,Тип объекта,Единицы измерения площади/длины,Площадь объекта,Состояние,Количество объектов,Стадия строительства (из последнего КИМ),Демонтирован
0,9038344,2024-03-05,0.17,Нецелевое использование ЗУ (прил. №3),Да,ч.1.2 ст.6.7,ЮЛ/ИП,прочее,Нет,Аренда,58775,Поручение,2024-03-07 09:18:15,Поручения руководителя,Выездное обследование,Восточный,Богородское,пристройка,кв. м,35.6,Учтен,1,Нет,Нет
1,9048249,2024-03-06,0.05,Нецелевое использование ЗУ (прил. №3),Нет,отсутствует,ЮЛ/ИП,прочее,Нет,Аренда,58764,ЭДО обращение ОИВ,2024-03-06 12:33:07,Поручения руководителя,Функциональное мероприятие,Юго-Восточный,Печатники,пристройка,кв. м,64.0,Учтен,1,Нет,Нет
2,9048237,2024-03-05,0.07,Нецелевое использование ЗУ (прил. №3),Нет,отсутствует,ЮЛ/ИП,прочее,Нет,Аренда,58753,ЭДО обращение ОИВ,2024-03-05 16:35:07,Поручения руководителя,Функциональное мероприятие,Юго-Восточный,Нижегородский,пристройка,кв. м,70.0,Учтен,1,Нет,Нет
3,9098971,2024-03-05,0.17,Нецелевое использование ЗУ (прил. №3),Да,ч.1 ст.6.7,ЮЛ/ИП,"стационарный магазин, торговый комплекс; автос...",Да,не установлено,58752,Поручение,2024-03-05 15:58:04,Обследование не проводилось. Выявлен ГИН,не установлено,Северный,Савеловский,пристройка,кв. м,5.0,Учтен,1,не установлено,Нет
4,9072541,2024-03-05,0.05,Отсутствие самостроя,Нет,отсутствует,ЮЛ/ИП,"аэродром, аэровокзал; прочее",Да,Аренда,58751,ЭДО обращение ОИВ,2024-03-05 14:54:16,Обращения ОИВ (Правительство г.Москвы),Функциональное мероприятие,Западный,Внуково,прочее,кв. м,600.0,Не предмет,1,Нет,Нет


#### Сохраним новый датасет в csv для создания дашборда.

In [26]:
df.to_csv('df.csv')

### Общий вывод.
* По блоку предобработки:
1. Удалили столбцы:
    * Из датасета df1 удалили'№ п/п',"Id задачи", "Округ", "Район", "Тематика", "Тип объекта";
    * Из датасета df2 удалили'№ п/п',"Идентификатор мероприятия", "Дата создания карточки", "Дата обновления карточки", "Дата акта", "Время начала осмотра", "Время завершения осмотра", "Верифицировано", "Состояние верификации", "Дата верификации", "Тип проверки/обследования", "Наличие предостережения", "Машино-место", "Обращение на портал «Наш город»", "Площадь факт. исп., кв.м.", "Отказ от ознакомления с актом", "Площадь пресечения", "Ведется строительство", "Пресечено строительство", "Строительство возобновлено", "Незавершенное строительство", "Наличие признаков угроз", "Признаки угроз", "ID НТО", "Нарушение ОАТИ","Вид мероприятия", "Тип объекта", "Площадь объекта".
    * Из датасета df3 удалили "№ п/п", 'Название объекта', 'Площадь/длина самостроя', 'Приложение 819-ПП', 'Рассматривается в рамках', 'Плановая дата демонтажа','Измененная дата демонтажа', 'Отложенный демонтаж','Фактическое использование', 'Лицо, осуществившее демонтаж', 'ЗПО','Разр. на стр.', 'ЕГРП', 'ID первого КИМ', '№ первого КИМ','Дата первого КИМ', 'Дата акта первого КИМ', 'Результат первого КИМ','Состояние верификации первого КИМ', 'ID последнего КИМ''№ последнего КИМ', 'Дата последнего КИМ', 'Дата акта последнего КИМ','Результат последнего КИМ', 'Состояние верификации последнего КИМ','Дата выявления',"Дата демонтажа".
    
2. Обработали пропуски в датасетах.
3. Проверили и удалили явные дубликаты.
4. Проверили и удалили аномальные значения.

* По подготовке данных:  
Количество совпадающих идентификаторов объектов в df2 и df3 - всего 1635. Поэтому для полноты картины по объектам пришлось пожертвовать почти половиной данных по мероприятиям.

* Рекомендации заказчику на основании имеющихся данных:
    1. Оценить целесообразность использования столбцов(в них либо нет информации, либо слишком мало):
       - Отказ от ознакомления с актом
       - Площадь пресечения   
       - Признаки угроз 
       - ID НТО  
       - Площадь факт. исп., кв.м. 
    2. Данные по ID объекта не совпадают в Мероприятие «ID объекта самостроя» и Объект «Идентификатор объекта».
    3. Поле 'Единицы измерения площади/длины' заполняется пользователем - рекомендуется вести сбор информации таким образом, чтобы единицы измерения были только в м и кв. м.
    4. В целом рекомендуется рассмотреть актуальность сбора информации по удаленным в ходе анализа столбцам.