# Предсказание дохода на основе анализа опросных данных

<center>
<img src='https://media1.tenor.com/m/kzB7z3stDB8AAAAC/cdhf.gif' align='center' width="500x">
</center>


**Структура проекта**:


1.   Постановка задачи
2.   Сбор данных
3.   Предварительная обработка
4.   Визуализация
5.   Новые признаки
6.   Гипотезы
7.   Машинное обучение
8.   Выводы



## 1. Постановка задачи

- Собрать нужные данные из данных исследования и провести предварительный анализ
- Оценить корреляционные связи между признаками
- Построить модель


## 2. Cбор данных

Для проекта были использованы данные с сайта Банка России о [Всероссийском обследовании домохозяйств по потребительским финансам](https://www.cbr.ru/ec_research/vserossiyskoe-obsledovanie-domokhozyaystv-po-potrebitel-skim-finansam/). Этот опрос проводится с 2013 года раз в пару лет, и затрагивает много различных вопросов.

Изначальный план проекта должен был использовать данные нескольких лет(с 2013 по 2022 гг.) и быть посвященным исключительно сбережениям, но в процессе было обнаружено, что опросники разных лет используют разные вопросы, и в некоторых опросниках необходимых данных просто нет.

Поэтому, сфера интереса была сменена на исследования связанные с общим доходом(з/п, пенсия и т.д) и ограничится данными лишь за 2022 год.


Данные на сайте публикуются в виде файла со всеми обезличенными ответами.

Но поскольку большинство вопросов не затрагивают тему проекта, а сам файл занимает много места, был самостоятельно выбран список переменных и создан свой [датасет](https://raw.githubusercontent.com/Fondorian/AnDanProject/main/data/dataSet-1.csv).

Импортируем нужные библиотеки:

In [9]:
import numpy as np
import pandas as pd

import scipy.stats as sts
import matplotlib.pyplot as plt
import seaborn as sns

Считываем данные:

In [14]:
df = pd.read_csv('',on_bad_lines='warn',sep=';')

df

Unnamed: 0,psu,gr_vozr,gr_educ,sett_typ,size,i_h4,i_h5,y3,y12,y14,...,m2_1,t14,t15,y17,k68,k69_n_s_r,k39_n_s_r,k44a_n_s_r,k46a_n_s_r,k66a_n_s_r
0,Ленинградская область,46-55 лет,Среднее специальное,Город,от 10 тыс.чел. до 100 тыс.чел.,ЖЕНСКИЙ,1968,2000,Останется без изменения,ПЛОХОЕ,...,СОСТОЮ В ЗАРЕГИСТРИРОВАННОМ БРАКЕ,Да,Да,Нет,ТРАНСПОРТ СВЯЗЬ,50060,,,,50000
1,Ленинградская область,46-55 лет,Среднее общее и ниже,Город,от 10 тыс.чел. до 100 тыс.чел.,МУЖСКОЙ,1975,1975,ЗАТРУДНЯЮСЬ ОТВЕТИТЬ,ПЛОХОЕ,...,СОСТОЮ В ЗАРЕГИСТРИРОВАННОМ БРАКЕ,Да,Да,Да,ТРАНСПОРТ СВЯЗЬ,50000,,,,50000
2,Ленинградская область,26-35 лет,Среднее общее и ниже,Город,от 10 тыс.чел. до 100 тыс.чел.,МУЖСКОЙ,1990,1990,Скорее улучшится,НИ ТО НИ ДРУГОЕ,...,РАЗВЕДЕН(А),Да,Да,Да,СТРОИТЕЛЬСТВО,90000,,,,90000
3,Ленинградская область,18-25 лет,Среднее специальное,Город,от 10 тыс.чел. до 100 тыс.чел.,МУЖСКОЙ,1997,2002,Скорее улучшится,НИ ТО НИ ДРУГОЕ,...,НИКОГДА В ЗАРЕГИСТРИРОВАННОМ БРАКЕ НЕ СОСТОЯЛ(А),Да,Да,Нет,ТОРГОВЛЯ БЫТОВОЕ ОБСЛУЖИВАНИЕ,18000,,,,18000
4,Ленинградская область,56 лет и старше,Высшее и неполное высшее,Город,от 10 тыс.чел. до 100 тыс.чел.,ЖЕНСКИЙ,1957,1998,Останется без изменения,ПЛОХОЕ,...,СОСТОЮ В ЗАРЕГИСТРИРОВАННОМ БРАКЕ,Да,Да,Нет,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12157,Смоленская область,36-45 лет,Среднее общее и ниже,Город,от 100 тыс.чел. до 500 тыс.чел.,МУЖСКОЙ,1980,2000,Скорее улучшится,НИ ТО НИ ДРУГОЕ,...,РАЗВЕДЕН(А),Нет,,Да,,,30000,,,30000
12158,г. Москва,36-45 лет,Среднее общее и ниже,Город,г.Москва,ЖЕНСКИЙ,1978,1978,Скорее улучшится,ПЛОХОЕ,...,РАЗВЕДЕН(А),Да,Да,Да,,,,,,20000
12159,г. Москва,18-25 лет,Среднее общее и ниже,Город,г.Москва,ЖЕНСКИЙ,2004,2004,Останется без изменения,НИ ТО НИ ДРУГОЕ,...,НИКОГДА В ЗАРЕГИСТРИРОВАННОМ БРАКЕ НЕ СОСТОЯЛ(А),Да,Да,Нет,ТОРГОВЛЯ БЫТОВОЕ ОБСЛУЖИВАНИЕ,32000,,,,32000
12160,г. Москва,56 лет и старше,Среднее общее и ниже,Город,г.Москва,ЖЕНСКИЙ,1955,1955,Останется без изменения,ПЛОХОЕ,...,ВДОВЕЦ/ВДОВА,Нет,,Да,,,,23800.0,,23800


## 3. Предварительная обработка


Cодержимое столбцов датасета:

*   psu - Регион проживания
*   gr_vozr - возрастная группа
*   gr_educ	 - Полученное образование
*   sett_typ - Тип населенного пункта проживания
*   size - Размер н/п проживания
*   i_h4 - Пол
*   i_h5 - Год рождения
*   y3 - Год начала проживания в н/п
*   y12 - Ожидания на следующий год
*   y14 - Отношение к сбережениям
*   y16	- Отношение к кредитам
*   m2_1 - Семейное положение
*   t14 - Пользуется ли респондент интернетом
*   t15 - Пользуется ли респондент соцсетями
*   y17 - Курит ли респондент
*   k68 - Отрасль работы
*   k69_n_s_r - Заработная плата (для работающих)
*   k39_n_s_r - Доход (для неработающих)
*   k44_n_s_r - Гос. пенсия
*   k46a_n_s_r - Негос. пенсия
*   k66a_n_s_r - Весь доход

Сперва изучим как представлены данные в таблице:

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12162 entries, 0 to 12161
Data columns (total 21 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   psu         12162 non-null  object 
 1   gr_vozr     12162 non-null  object 
 2   gr_educ     12162 non-null  object 
 3   sett_typ    12162 non-null  object 
 4   size        12162 non-null  object 
 5   i_h4        12162 non-null  object 
 6   i_h5        12162 non-null  int64  
 7   y3          12162 non-null  object 
 8   y12         12162 non-null  object 
 9   y14         12162 non-null  object 
 10  y16         12162 non-null  object 
 11  m2_1        12162 non-null  object 
 12  t14         12162 non-null  object 
 13  t15         9508 non-null   object 
 14  y17         12162 non-null  object 
 15  k68         5588 non-null   object 
 16  k69_n_s_r   5413 non-null   object 
 17  k39_n_s_r   613 non-null    object 
 18  k44a_n_s_r  4535 non-null   float64
 19  k46a_n_s_r  14 non-null  

Можно заметить:

- что численные переменные(y3) и действительные переменные(k68, k69_n_s_r, k39_n_s_r, k66a_n_s_r) представлены в формате object.

- и что переменные (t15, k68, k69_n_s_r, k39_n_s_r, k44a_n_s_r, k46a_n_s_r,k66a_n_s_r) имеют пропуски.