# Локальный проект “ТОС”

## Описание проекта

Проект направлен на обработку и визуализацию данных о территориально-обособленных сообществах (ТОС) Белгородского района с использованием отечественных инструментов, таких как DataLens. Целью является создание интерактивного датастори, который позволит анализировать характеристики ТОС, выявлять тренды и предоставлять информацию для заинтересованных сторон.

## Цель проекта

Основная цель проекта — разработка аналитического инструмента для визуализации и анализа данных о ТОС Белгородского района, что позволит повысить эффективность работы общественных активистов и местных сообществ.

## План работы

1. Сбор данных: Подготовка и сбор необходимых данных из файла Excel и других источников.

2. Обработка данных: Очистка и структурирование данных для дальнейшего анализа.

3. Анализ данных: Проведение анализа характеристик ТОС с использованием статистических методов.

4. Визуализация данных: Создание визуальных отчетов с использованием DataLens для представления результатов анализа.

5. Публикация результатов: Публикация интерактивного датастори для доступа к информации о состоянии ТОСов.

6. Аналитический отчет: Подготовка аналитического отчета на основе полученных данных и выводов.



In [1]:
# импортируем необходимые библиотеки
import pandas as pd

In [2]:
# отображаем все столбцы
pd.set_option('display.max_columns', None)  
# устанавливаю формат для цифр
pd.options.display.float_format = '{:.2f}'.format

## Открыть файлы с данными

In [3]:
try:
    tos = pd.read_excel('/Users/sergey/Desktop/Мастерская/tos.xlsx', sheet_name = 'ТОС апр 2023')
    tos_district = pd.read_excel('/Users/sergey/Desktop/Мастерская/tos.xlsx', sheet_name = 'район')
    tos_area = pd.read_excel('/Users/sergey/Desktop/Мастерская/tos.xlsx', sheet_name = 'в области')
except:
    data = None  
    
if tos is None or tos_district is None or tos_area is None:
    print('Что-то не так')
else:
    print('Данные успешно загружены')

Данные успешно загружены


## Предобработка данных

**При помощи универсальной функции рассмотрим основные данные по таблицам**

In [4]:
# универсальная функция для выполнения предобработки данных
def data_preprocessing(df):
    
    
    # Посмотрим основные данные о DataFrame
    print('Информация о данных (info()):')
    print(df.info())
    print('*' * 100)
    print()
    
    # найдем количество пропусков в процентном соотношении для каждого столбца
    print('Количество пропусков в датафрейме:')
    data_pass = pd.DataFrame(df.isna().mean()*100)
    data_pass = data_pass.rename(columns={0 : '% пропусков'})
    data_pass = data_pass.style.background_gradient('coolwarm').format('{:.1f}%')
    display(data_pass)
    print('*' * 100)
    print()
    
    # Оценим статистические данные
    print('Статистическая информация о данных (describe()):')
    display(df.describe())
    print('*' * 100)
    print()
    
    # Посмотрим на типы данных в DataFrame
    print('Типы данных (dtypes):')
    print(df.dtypes)
    print('*' * 100)
    print()
    
    # Посчитаем количество явных дубликатов, удалим их при наличии
    print('Кол-во дубликатов = ', df.duplicated().sum())
    print('*' * 100)

    print()

### Поработаем с таблицей tos

In [5]:
# взгляем на таблицу
tos.head()

Unnamed: 0,№,1 Поселение,Населенный пункт,2 Название ТОС,3 Форма регистрации,Адрес регистрации,4 Количество зарегистрированных жителей на данной территории,5 Количество членов ТОС,"6 Количество активистов ТОС (тех, кто регулярно принимает участие в деятельности ТОС)",7 Пол председателя,8 Дата избрания председателем ТОС,"Место работы, должность председателя ТОС",9 Занятость,10 Дата рождения председателя ТОС,11 Активность ТОС,12 Партийная принадлежность председателя ТОС,13 Уровень лояльности,"14 Проект поданный на конкурс ""Решаем вместе"" в 2022 году (наименование)","15 Сумма финнасирования проекта-победителя ""Решаем вместе"" в 2022 году",16 Проект поданный на областной конкурс проектов ТОС в 2022 года (наименование),17 Сумма финансирования проекта-победителя областного конкурса проетов ТОС в 2022 году (региональная+муниципальная),18 Проект поданный на муниципальный конкурс проектов ТОС в 2022 года (наименование) при наличии,19 Сумма финансирования проекта-победителя муниципального конкурса проетов ТОС в 2022 году,"Финансирование председателя ТОС (сумма, руб. за месяц/квартал)","Основные направления деятельности ТОС не более 3-х (благоустройство, культура, физкультура, благотворительность, социальная поддержка, работа с молодежью)",20 Наличие социальной сети (ссылка)
0,1,Октябрьский,"Городское поселение ""Поселок Октябрьский""",«Питомник»,без ЮЛ,Территория в районе пруда «Питомник» Шаламов Яр,1433,25,4,муж,2017-02-08 00:00:00,Безработный,Безработный,1962-07-20,Активный,б/п,5,нет,0,нет,0,Приобретение садовой техники и саженцев для ТО...,99300,0,Благоустройство,https://vk.com/club182681595
1,2,Октябрьский,"Городское поселение ""Поселок Октябрьский""",«Олимп»,без ЮЛ,В пределах территории спортплощадки по ул. Кор...,563,19,7,жен,2021-04-13 00:00:00,Безработная,Безработный,1986-09-15,Активный,б/п,5,нет,0,нет,0,"Приобретение садовой техники для ТОС «Олимп», ...",99750,0,Благоустройство,https://vk.com/club182681595
2,3,Октябрьский,"Городское поселение ""Поселок Октябрьский""",«Заречный»,без ЮЛ,В пределах территории детской площадки по ул. ...,271,16,2,жен,2019-04-05 00:00:00,Домохозяйка,Домохозяйка,1984-12-11,Активный,б/п,5,нет,0,нет,0,Приобретение садовой техники и озеленение ТОС ...,99750,0,Благоустройство,https://vk.com/club182681595
3,4,Октябрьский,"Городское поселение ""Поселок Октябрьский""",«Центральный»,без ЮЛ,В пределах территории ул. Шевченко – пер. Бели...,231,35,2,жен,2021-05-11 00:00:00,"АО ""Тандер"", директор магазина",Руководитель бизнес,1979-09-23,неактивный,б/п,4,"Поставка и установка детской игровой,\nспортив...",731500 руб. + 38500 руб.,нет,0,Приобретение садовой техники и озеленение ТОС ...,99750,0,Благоустройство,https://vk.com/club182681595
4,5,Октябрьский,"Городское поселение ""Поселок Октябрьский""",«Юность»,без ЮЛ,В пределах территории ул. Первомайская – ул. С...,148,15,2,муж,2021-07-19 00:00:00,Мобилизованный,Мобилизованный,1983-10-08,неактивный,б/п,3,нет,0,нет,0,нет,0,0,Благоустройство,https://vk.com/club182681595


In [6]:
# применим новые названия столбцам для удобства работы с ними
tos.columns = [
    '№', 
    'Поселение', 
    'Населенный пункт', 
    'Название ТОС', 
    'Форма регистрации', 
    'Адрес регистрации',
    'Количество зарегистрированных жителей', 
    'Количество членов ТОС', 
    'Количество активистов ТОС',
    'Пол председателя', 
    'Дата избрания', 
    'Место работы председателя', 
    'Занятость',
    'Дата рождения председателя', 
    'Активность ТОС', 
    'Партийная принадлежность', 
    'Уровень лояльности',
    'Проект "Решаем вместе" 2022', 
    'Сумма финансирования проекта "Решаем вместе"', 
    'Проект областного конкурса 2022', 
    'Сумма финансирования областного конкурса',
    'Проект муниципального конкурса 2022', 
    'Сумма финансирования муниципального конкурса',
    'Финансирование председателя', 
    'Основные направления деятельности ТОС', 
    'Наличие соцсети'
]

In [7]:
# исследуем таблицу tos
data_preprocessing(tos)

Информация о данных (info()):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 199 entries, 0 to 198
Data columns (total 26 columns):
 #   Column                                        Non-Null Count  Dtype         
---  ------                                        --------------  -----         
 0   №                                             199 non-null    int64         
 1   Поселение                                     199 non-null    object        
 2   Населенный пункт                              199 non-null    object        
 3   Название ТОС                                  199 non-null    object        
 4   Форма регистрации                             199 non-null    object        
 5   Адрес регистрации                             199 non-null    object        
 6   Количество зарегистрированных жителей         199 non-null    int64         
 7   Количество членов ТОС                         199 non-null    int64         
 8   Количество активистов ТОС               

Unnamed: 0,% пропусков
№,0.0%
Поселение,0.0%
Населенный пункт,0.0%
Название ТОС,0.0%
Форма регистрации,0.0%
Адрес регистрации,0.0%
Количество зарегистрированных жителей,0.0%
Количество членов ТОС,0.0%
Количество активистов ТОС,0.0%
Пол председателя,0.0%


****************************************************************************************************

Статистическая информация о данных (describe()):


Unnamed: 0,№,Количество зарегистрированных жителей,Количество членов ТОС,Количество активистов ТОС,Дата рождения председателя,Уровень лояльности
count,199.0,199.0,199.0,199.0,199,199.0
mean,101.39,329.23,127.61,9.81,1975-09-03 08:55:28.643216096,3.85
min,1.0,20.0,4.0,0.0,1946-01-01 00:00:00,1.0
25%,50.5,106.0,25.0,3.0,1964-04-07 12:00:00,3.0
50%,102.0,167.0,56.0,5.0,1979-12-26 00:00:00,4.0
75%,151.5,314.5,150.0,13.0,1986-01-01 00:00:00,5.0
max,201.0,13587.0,1120.0,63.0,2005-06-07 00:00:00,5.0
std,58.33,979.43,177.41,10.61,,1.11


****************************************************************************************************

Типы данных (dtypes):
№                                                        int64
Поселение                                               object
Населенный пункт                                        object
Название ТОС                                            object
Форма регистрации                                       object
Адрес регистрации                                       object
Количество зарегистрированных жителей                    int64
Количество членов ТОС                                    int64
Количество активистов ТОС                                int64
Пол председателя                                        object
Дата избрания                                           object
Место работы председателя                               object
Занятость                                               object
Дата рождения председателя                      datetime6

In [8]:
# по заданию нам не нужны эти столбцы. Удалю их
tos = tos.drop(['№','Уровень лояльности'], axis=1)

In [9]:
tos.head()

Unnamed: 0,Поселение,Населенный пункт,Название ТОС,Форма регистрации,Адрес регистрации,Количество зарегистрированных жителей,Количество членов ТОС,Количество активистов ТОС,Пол председателя,Дата избрания,Место работы председателя,Занятость,Дата рождения председателя,Активность ТОС,Партийная принадлежность,"Проект ""Решаем вместе"" 2022","Сумма финансирования проекта ""Решаем вместе""",Проект областного конкурса 2022,Сумма финансирования областного конкурса,Проект муниципального конкурса 2022,Сумма финансирования муниципального конкурса,Финансирование председателя,Основные направления деятельности ТОС,Наличие соцсети
0,Октябрьский,"Городское поселение ""Поселок Октябрьский""",«Питомник»,без ЮЛ,Территория в районе пруда «Питомник» Шаламов Яр,1433,25,4,муж,2017-02-08 00:00:00,Безработный,Безработный,1962-07-20,Активный,б/п,нет,0,нет,0,Приобретение садовой техники и саженцев для ТО...,99300,0,Благоустройство,https://vk.com/club182681595
1,Октябрьский,"Городское поселение ""Поселок Октябрьский""",«Олимп»,без ЮЛ,В пределах территории спортплощадки по ул. Кор...,563,19,7,жен,2021-04-13 00:00:00,Безработная,Безработный,1986-09-15,Активный,б/п,нет,0,нет,0,"Приобретение садовой техники для ТОС «Олимп», ...",99750,0,Благоустройство,https://vk.com/club182681595
2,Октябрьский,"Городское поселение ""Поселок Октябрьский""",«Заречный»,без ЮЛ,В пределах территории детской площадки по ул. ...,271,16,2,жен,2019-04-05 00:00:00,Домохозяйка,Домохозяйка,1984-12-11,Активный,б/п,нет,0,нет,0,Приобретение садовой техники и озеленение ТОС ...,99750,0,Благоустройство,https://vk.com/club182681595
3,Октябрьский,"Городское поселение ""Поселок Октябрьский""",«Центральный»,без ЮЛ,В пределах территории ул. Шевченко – пер. Бели...,231,35,2,жен,2021-05-11 00:00:00,"АО ""Тандер"", директор магазина",Руководитель бизнес,1979-09-23,неактивный,б/п,"Поставка и установка детской игровой,\nспортив...",731500 руб. + 38500 руб.,нет,0,Приобретение садовой техники и озеленение ТОС ...,99750,0,Благоустройство,https://vk.com/club182681595
4,Октябрьский,"Городское поселение ""Поселок Октябрьский""",«Юность»,без ЮЛ,В пределах территории ул. Первомайская – ул. С...,148,15,2,муж,2021-07-19 00:00:00,Мобилизованный,Мобилизованный,1983-10-08,неактивный,б/п,нет,0,нет,0,нет,0,0,Благоустройство,https://vk.com/club182681595


**Вывод:** В таблице содержится 199 строк и 26 столбцов. Названия столбцов приведены в корректный вид, а лишние столбцы удалены. Пропуски наблюдаются только в столбце "Место работы, должность председателя ТОС" и составляют 1%. Явные дубликаты отсутствуют. Необходимо заменить тип данных у некоторых столбцов и проверить корректность данных. 

### Поработаем с таблицей tos_district

In [10]:
tos_district.head()

Unnamed: 0,№,Поселение,Сокр,"Площадь, тыс. кв.км","Население, чел.",Плотность
0,11,Беловское с/п,Бело,60.72,6058,99.77
1,10,Беломестненское с/п,Белм,38.8,6092,157.01
2,13,Бессоновское с/п,Бес,164.23,4777,29.09
3,15,Веселолопанское с/п,ВЛоп,40.89,3593,87.87
4,18,Головинское с/п,Гол,93.21,2362,25.34


In [11]:
# исследуем таблицу tos_district
data_preprocessing(tos_district)

Информация о данных (info()):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   №                    24 non-null     int64  
 1   Поселение            24 non-null     object 
 2   Сокр                 24 non-null     object 
 3   Площадь, тыс. кв.км  24 non-null     float64
 4   Население, чел.      24 non-null     int64  
 5   Плотность            24 non-null     float64
dtypes: float64(2), int64(2), object(2)
memory usage: 1.3+ KB
None
****************************************************************************************************

Количество пропусков в датафрейме:


Unnamed: 0,% пропусков
№,0.0%
Поселение,0.0%
Сокр,0.0%
"Площадь, тыс. кв.км",0.0%
"Население, чел.",0.0%
Плотность,0.0%


****************************************************************************************************

Статистическая информация о данных (describe()):


Unnamed: 0,№,"Площадь, тыс. кв.км","Население, чел.",Плотность
count,24.0,24.0,24.0,24.0
mean,12.5,60.58,7945.33,221.5
std,7.07,35.99,7788.17,289.19
min,1.0,11.61,1034.0,15.52
25%,6.75,40.55,2249.25,26.24
50%,12.5,58.7,5136.0,89.56
75%,18.25,66.44,12437.25,278.46
max,24.0,164.23,30517.0,1161.83


****************************************************************************************************

Типы данных (dtypes):
№                        int64
Поселение               object
Сокр                    object
Площадь, тыс. кв.км    float64
Население, чел.          int64
Плотность              float64
dtype: object
****************************************************************************************************

Кол-во дубликатов =  0
****************************************************************************************************



In [12]:
# по заданию нам не нужны эти столбцы. Удалю их
tos_district = tos_district.drop('№', axis = 1)

**Вывод:** Таблица содержит 24 строки и 6 столбцов. Удалил лишний столбец. Названия столбцов оставил без изменений. Пропуски и дубликаты отсутствуют. Тип данных совпадает 

### Поработаем с таблицей tos_area

In [13]:
tos_area.head()

Unnamed: 0,№,Район,"Площадь, кв.км","Площадь, %",Население,"Население, %",Городское население,"Городское население, %",Сельское население,"Сельское население, %",Плотность,Плотность городского населения,Плотность сельского населения,Unnamed: 13,Unnamed: 14,Unnamed: 15,Unnamed: 16
0,1.0,г. Белгород,153.1,0.01,392426,0.24,392426.0,0.37,,0.0,2563.2,2563.2,0.0,,,,
1,2.0,Старооскольский городской округ,1693.5,0.06,259811,0.16,223809.0,0.21,36002.0,0.07,153.42,132.16,21.26,,,,1.0
2,3.0,Белгородский район,1453.86,0.05,190688,0.12,60805.0,0.06,129883.0,0.24,131.16,41.82,89.34,,,,
3,4.0,Ракитянский район,900.9,0.03,117017,0.07,86422.0,0.08,30595.0,0.06,129.89,95.93,33.96,,,,
4,5.0,Валуйский городской округ,1709.6,0.06,87944,0.05,47390.0,0.04,40554.0,0.07,51.44,27.72,23.72,,,,


In [15]:
tos_area = tos_area.drop(['№','Unnamed: 13', 'Unnamed: 14', 'Unnamed: 15', 'Unnamed: 16'], axis=1)

In [16]:
# исследуем таблицу tos_area
data_preprocessing(tos_area)

Информация о данных (info()):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23 entries, 0 to 22
Data columns (total 12 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Район                           23 non-null     object 
 1   Площадь, кв.км                  23 non-null     float64
 2   Площадь, %                      22 non-null     float64
 3   Население                       23 non-null     int64  
 4   Население, %                    22 non-null     float64
 5   Городское население             22 non-null     float64
 6   Городское население, %          22 non-null     float64
 7   Сельское население              22 non-null     float64
 8   Сельское население, %           22 non-null     float64
 9   Плотность                       22 non-null     float64
 10  Плотность городского населения  22 non-null     float64
 11  Плотность сельского населения   22 non-null     float64
dtypes: float

Unnamed: 0,% пропусков
Район,0.0%
"Площадь, кв.км",0.0%
"Площадь, %",4.3%
Население,0.0%
"Население, %",4.3%
Городское население,4.3%
"Городское население, %",4.3%
Сельское население,4.3%
"Сельское население, %",4.3%
Плотность,4.3%


****************************************************************************************************

Статистическая информация о данных (describe()):


Unnamed: 0,"Площадь, кв.км","Площадь, %",Население,"Население, %",Городское население,"Городское население, %",Сельское население,"Сельское население, %",Плотность,Плотность городского населения,Плотность сельского населения
count,23.0,22.0,23.0,22.0,22.0,22.0,22.0,22.0,22.0,22.0,22.0
mean,2350.27,0.05,140327.57,0.05,96925.0,0.05,49781.09,0.05,162.71,142.34,20.37
std,5397.64,0.02,333936.12,0.06,234387.69,0.08,113924.79,0.05,537.89,541.72,18.07
min,153.1,0.01,11563.0,0.01,5843.0,0.0,6409.0,0.0,6.56,0.0,0.0
25%,886.0,0.03,26061.0,0.02,8248.25,0.01,14409.25,0.02,18.1,6.39,9.4
50%,1369.0,0.05,36539.0,0.02,16704.0,0.01,21829.5,0.04,26.27,10.75,16.19
75%,1610.05,0.06,76799.0,0.04,45790.0,0.04,30262.0,0.05,75.61,41.44,23.3
max,27028.06,0.07,1613767.0,0.24,1066175.0,0.37,547592.0,0.24,2563.2,2563.2,89.34


****************************************************************************************************

Типы данных (dtypes):
Район                              object
Площадь, кв.км                    float64
Площадь, %                        float64
Население                           int64
Население, %                      float64
Городское население               float64
Городское население, %            float64
Сельское население                float64
Сельское население, %             float64
Плотность                         float64
Плотность городского населения    float64
Плотность сельского населения     float64
dtype: object
****************************************************************************************************

Кол-во дубликатов =  0
****************************************************************************************************



**Вывод:** В таблице содержится 23 строки и 12 столбцов. Ненужные столбцы были удалены, что сделало данные более удобными для анализа. В некоторых ячейках имеются пропуски значений, однако дубликаты отсутствуют. Все названия столбцов корректны и отражают суть представленных данных.