## Исследование регистрируемой безработицы в России.

<b>Задача:</b>
Для составления аналитического обзора по проблеме безработицы в России необходимо провести исследование основных социально-демографических характеристик безработных и ситуацию в 2020 году.<br>

<b>Источник данных:</b><br>
Регистрируемая безработица в России: общие социально-демографические характеристики с детализацией до органа занятости населения // Роструд; обработка: Колесников И.В., Копыток В.К., Кузьмина Ю.В., Инфраструктура научно-исследовательских данных, АНО «ЦПУР», 2021. Доступ: открытая лицензия в исследовательских целях. Размещено: 21.10.2021. (Ссылка на набор данных: http://data-in.ru/data-catalog/datasets/180/)

<b>Описание данных:</b><br>

## <b>Задание:</b>

### <a class="anchor" id="1"></a> Загрузка данных. Предобработка

1. Загрузите файл <code>unemployed.csv</code> с разделителем <code>;</code>
2. Определите размер датасета.
3. Познакомьтесь с данными.
4. Проверьте пропуски, дубликаты и типы данных.
5. Добавьте столбцы с месяцем и годом (year, month).
6. Сформулируйте выводы.

###  <a class="anchor" id="1"></a> Исследовательский анализ данных

Все отчеты в этом разделе должны быть визуализированы. Графики должны содержать названия и подписи осей. Каждый пункт сопровидите выводами.

1. Определите динамику числа обращений в службу занятости за представленный в датасете период. Постройте линейный график. Укрупните по годам. Постройте столбчатую диаграмму. Добавьте признак повторных обращений в центры занятости населения, Постройте линейный график.
2. Определите число обращений в службу занятости по возрастным группам. Постройте столбчатую диаграмму.<br> *2.1 Детализируйте по каждому году, визуализируйте результат.
3. Определите общее число устроившихся на работу граждан, определите процент трудоустройства по всему датасету. Постройте столбчатую диаграмму.
4. Определите соотношение трудоустройства по каждому году (в абсолютных значениях). Постройте столбчатую диаграмму.<br>
*4.1 Выполните в относительных значениях, оцените динамику процента трудоустройства по годам.

5. Осуществите категоризацию по столбцам <code>gender</code> и <code>education</code> в соответствии с исходными данными. Определите с каким образованием в службу занятости обращаются гражданине, ранее официально не работавшие. Определите соотношение трудоустройства по каждому уровню образования.
6. Исследуйте безработицу в России отдельно за 2000 год (за исключением декабря 2020!). Создайте срез данных.<br>
6.1 Определите динамику числа безработных и нашедших работу за 2020 год по месяцам.<br>
6.2 Определите процент трудоустройства по гендерной принадлежности<br>
6.3 Определите число обращений в службу занятости по федеральным округам.<br>
6.4 Определите разброс числа объявлений по регионам с помощью boxplot.<br>
6.5 Определите число обращений в службу занятости в Северо-Западном федеральном округе по регионам.<br>
***6.6 Определите процент трудоустройства по федеральным округам.<br>
***6.7 Определите процент трудоустройства по регионам для каждого федерального округа. Реализуйте в цикле<br>

Задания, отмеченные символом * - для получения максимального балла по работе, рекомендуется для профиля "Математическое моделирование и анализ данных в экономике".



In [3]:
import pandas as pd
import seaborn as sns
import numpy as np

In [4]:
data = pd.read_csv('unemployed.csv',sep=';')

  data = pd.read_csv('unemployed.csv',sep=';')


In [5]:
data.tail(5)

Unnamed: 0,id,district,region,month_application,changed_value,age,gender,education,hc_repeat,hc_didnotwork,find_new_job,count
4347411,4346979,Южный федеральный округ,Ростовская область,2020-12,False,28-33,0,,False,False,False,3
4347412,4346817,Южный федеральный округ,Ростовская область,2020-12,False,16-21,0,,False,False,False,2
4347413,4347212,Южный федеральный округ,Ростовская область,2020-12,False,40-45,1,,False,False,False,5
4347414,4347025,Южный федеральный округ,Ростовская область,2020-12,False,28-33,1,,False,False,False,4
4347415,4347338,Южный федеральный округ,Ростовская область,2020-12,False,52-57,0,,False,False,False,1


In [6]:
data.describe()

Unnamed: 0,id,count
count,4347416.0,4347416.0
mean,2173708.0,2.34397
std,1254991.0,14.75666
min,1.0,1.0
25%,1086855.0,1.0
50%,2173708.0,1.0
75%,3260562.0,2.0
max,4347416.0,8014.0


In [7]:
data.shape

(4347416, 12)

In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4347416 entries, 0 to 4347415
Data columns (total 12 columns):
 #   Column             Dtype 
---  ------             ----- 
 0   id                 int64 
 1   district           object
 2   region             object
 3   month_application  object
 4   changed_value      bool  
 5   age                object
 6   gender             object
 7   education          object
 8   hc_repeat          bool  
 9   hc_didnotwork      bool  
 10  find_new_job       bool  
 11  count              int64 
dtypes: bool(4), int64(2), object(6)
memory usage: 281.9+ MB


In [9]:
data['education'].unique()

array(['4', '2', '1', '3', '6', '9', 'None', 4, 6, 3, 2, 9], dtype=object)

In [10]:
for i in data.columns:
    print(i,' ***** ',data[i].unique())

id  *****  [   1170     256     711 ... 4347212 4347025 4347338]
district  *****  ['Дальневосточный федеральный округ' 'Приволжский федеральный округ'
 'Северо-Западный федеральный округ' 'Северо-Кавказский федеральный округ'
 'Сибирский федеральный округ' 'Уральский федеральный округ'
 'Центральный федеральный округ' 'Южный федеральный округ']
region  *****  ['Амурская область' 'Еврейская автономная область' 'Забайкальский край'
 'Камчатский край' 'Магаданская область' 'Приморский край'
 'Республика Бурятия' 'Республика Саха (Якутия)' 'Сахалинская область'
 'Хабаровский край' 'Чукотский автономный округ' 'Кировская область'
 'Нижегородская область' 'Оренбургская область' 'Пензенская область'
 'Пермский край' 'Республика Башкортостан' 'Республика Марий Эл'
 'Республика Мордовия' 'Республика Татарстан (Татарстан)'
 'Самарская область' 'Саратовская область' 'Удмуртская Республика'
 'Ульяновская область' 'Чувашская Республика - Чувашия'
 'Архангельская область' 'Вологодская область' 'г. С

In [11]:
# Видим, что есть строковые данные, которые следует перевести в числовой вид. Так же стоит отдельно проработать вопрос относительно того, можно ли предобработать интервальные величины, чтобы уметь с ними работать.

In [12]:
changind_in_gender = {'1':1,'0':0}
changind_in_education = {'1':1,'0':0,"2":2,"3":3,"4":4,"5":5,"6":6,"9":9, 'None': 0}
changind_in_repead_and_others = {" False": False, " True": True, "True":True,"False":False,"False ":False, "True ":True}

In [13]:
data["gender"] = data["gender"].replace(changind_in_gender)
data["education"] = data["education"].replace(changind_in_education)
data["hc_repeat"] = data["hc_repeat"].replace(changind_in_repead_and_others)

In [14]:
for i in data.columns:
    print(i,' ***** ',data[i].unique())

id  *****  [   1170     256     711 ... 4347212 4347025 4347338]
district  *****  ['Дальневосточный федеральный округ' 'Приволжский федеральный округ'
 'Северо-Западный федеральный округ' 'Северо-Кавказский федеральный округ'
 'Сибирский федеральный округ' 'Уральский федеральный округ'
 'Центральный федеральный округ' 'Южный федеральный округ']
region  *****  ['Амурская область' 'Еврейская автономная область' 'Забайкальский край'
 'Камчатский край' 'Магаданская область' 'Приморский край'
 'Республика Бурятия' 'Республика Саха (Якутия)' 'Сахалинская область'
 'Хабаровский край' 'Чукотский автономный округ' 'Кировская область'
 'Нижегородская область' 'Оренбургская область' 'Пензенская область'
 'Пермский край' 'Республика Башкортостан' 'Республика Марий Эл'
 'Республика Мордовия' 'Республика Татарстан (Татарстан)'
 'Самарская область' 'Саратовская область' 'Удмуртская Республика'
 'Ульяновская область' 'Чувашская Республика - Чувашия'
 'Архангельская область' 'Вологодская область' 'г. С

In [15]:
#fПосле быстрой проверки выяснилось, что пробел перед True - это ошибка вывода, в остальном всё нормально

In [16]:
data["month_application"] = pd.to_datetime(data["month_application"], format='%Y-%m')

In [17]:
data["year"] = data["month_application"].dt.year
data["month"] = data["month_application"].dt.month_name(locale = "rus_rus")


In [24]:
data.head()

Unnamed: 0,id,district,region,month_application,changed_value,age,gender,education,hc_repeat,hc_didnotwork,find_new_job,count,year,month
0,1170,Дальневосточный федеральный округ,Амурская область,2017-01-01,False,52-57,0,4,True,False,False,1,2017,Январь
1,256,Дальневосточный федеральный округ,Амурская область,2017-01-01,False,22-27,1,4,True,False,False,1,2017,Январь
2,711,Дальневосточный федеральный округ,Амурская область,2017-01-01,False,34-39,1,4,True,False,True,1,2017,Январь
3,799,Дальневосточный федеральный округ,Амурская область,2017-01-01,False,40-45,0,4,False,False,False,1,2017,Январь
4,861,Дальневосточный федеральный округ,Амурская область,2017-01-01,False,40-45,1,2,True,False,False,2,2017,Январь


In [18]:
data.duplicated().sum()

0

In [19]:
#Дубликатов нет, но это не гарантирует того, что их абсолютно нет. Тем не менее, буду придерживаться этого вывода

In [20]:
data.to_csv("dataFine.csv")

In [21]:
1

1

In [23]:
data['gender'].unique()

array([0, 1, 'None'], dtype=object)