### Определение влияния какого-либо фактора на надежность заемщика.
_____


###### Данное исследование разделим на несколько частей.


#### Часть 1. Изучение общей информации:
* [1. Изученеие файлов с данными, получение общей информации, загрузка библиотек.](#1-bullet)
* [2. Нахождение и ликвидация пропусков.](#2-bullet)

#### Часть 2. Подготовка данных:
* [1. Приведение данных к нужным типам.](#3-bullet)
* [2. Удаление дубликатов.](#4-bullet)
* [3. Лемматизация.](#5-bullet)
* [4. Категоризация данных.](#6-bullet)

#### Часть 3. Ответы на вопросы:
* [1. Ответ на 1-й вопрос.](#7-bullet)
* [2. Ответ на 2-й вопрос.](#8-bullet)
* [3. Ответ на 3-й вопрос.](#9-bullet)
* [4. Ответ на 4-й вопрос.](#10-bullet)

#### Часть 4. Общий вывод 
* [Общий вывод.](#11-bullet)

______________
Описание данных:

- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

#### Часть 1. Изучение общей информации:

##### 1-bullet

1. Изученеие файлов с данными, получение общей информации, загрузка библиотек.

In [1]:
import pandas as pd #вызываем бибилотеку пандас
data = pd.read_csv('/datasets/data.csv') # открываем файл формата csv и сохраняем его
display(data.info()) # выводим на экран общую информацю о таблице
print(data.head(5)) # выводим на экран саму таблицу(5 строк), чтобы ознакомиться с ней зрительно 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


None

   children  days_employed  dob_years education  education_id  \
0         1   -8437.673028         42    высшее             0   
1         1   -4024.803754         36   среднее             1   
2         0   -5623.422610         33   Среднее             1   
3         3   -4124.747207         32   среднее             1   
4         0  340266.072047         53   среднее             1   

      family_status  family_status_id gender income_type  debt   total_income  \
0   женат / замужем                 0      F   сотрудник     0  253875.639453   
1   женат / замужем                 0      F   сотрудник     0  112080.014102   
2   женат / замужем                 0      M   сотрудник     0  145885.952297   
3   женат / замужем                 0      M   сотрудник     0  267628.550329   
4  гражданский брак                 1      F   пенсионер     0  158616.077870   

                      purpose  
0               покупка жилья  
1     приобретение автомобиля  
2               покупка жи

### Вывод
Изучаю общую информацию о data и общий вид первых 10 строк. Столбцы 'days_employed' и 'total_income' содержат меньшее количество значений, значит в них, скорее всего, имеются пропуски. Зрительно сразу видно, что в столбце 'days_employed' имеются отрицательные значения. Столбцы 'family_status', 'family_status_id' и 'education', 'education_id' фактически дублируют друг друга.

#### Часть 1. Изучение общей информации:

##### 2-bullet

2. Нахождение и ликвидация пропусков.

In [2]:
mean_days_employed = data['days_employed'].median() #находим переменную среднего значения трудового стажа
display('Среднее значение трудового стажа', mean_days_employed) #выводим на экран переменную среднего значения трудового стажа
data['days_employed'] = data['days_employed'].fillna(value=mean_days_employed) #заполняем пропуски в столбце 'days_employed' полученной переменной среднего значения трудового стажа

data['education'] = data['education'].str.lower() #приводим значения столбца 'education' к нижнему регистру, чтобы можно было группировать по указанному столбцу
data['total_income'] = data['total_income'].fillna(0) #заполним пустые значения в столбце 'total_income' на нули с тем, чтобы потом написать функцию, которая бы находила эти нули и заменяла их на медианы
display(data.isnull().sum()) #проверим не остались ли пропуски в таблице

def set_mean_total(education): #создадим функцию, относительно education, которая бы рассчитывала медиану дохода в зависимости от значений education
    median = data.loc[data['education'] == education]['total_income'].median(); # создадим переменную, которая будет рассчитывать медиану дохода в зависимости от значений 'education'
    data.loc[(data['education'] == education) & (data['total_income'] == 0.000000) , 'total_income'] = median #найдем строки, в которых будет заданное значение education и при значение 'total_income' равным нулю присвоим значение 'total_income' равное медиане 
set_mean_total('высшее') #применим получившуюся функцию к таблице при значении 'education' высшее 
set_mean_total('начальное') #применим получившуюся функцию к таблице при значении 'education' начальное
set_mean_total('неоконченное высшее') #применим получившуюся функцию к таблице при значении 'education' неоконченное высшее
set_mean_total('среднее') #применим получившуюся функцию к таблице при значении 'education' среднее
set_mean_total('ученая степень') #применим получившуюся функцию к таблице при значении 'education' ученая степень

display(data.head(5)) #выведем на экран первые 5 строк таблицы

'Среднее значение трудового стажа'

-1203.369528770489

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


### Вывод

Проверим методом isnull() наличие в data пустых значений. Предположение о том, что столбцы 'days_employed' и 'total_income' имеют пустые значения оказалось верным. Более того, их одинаковое количество, поэтому, скорее всего, они пропущены по одним и тем же получателям кредита (строкам). 
Теперь нужно с ними что-то сделать (заполнить), чтобы правильно вести дальнейшие расчеты. Без трудового стажа и дохода, а тем более семейные и с детьми(без стажа и дохода почти не встречаются в жизни), они не смогли бы получить кредит в банке. Значит пустые значения заменить на нулевые значения нельзя. 
2174 получателя кредитов из 21525 очень сильно не могут повлиять на окончательный результат, значит можно пустующие значения заменить усредненными значениями(воспользовавшись методом median() для столбца 'days_employed'. Заменим пустующие значения в указанном столбце соответствующими усредненными значениями, воспользовавшись методом fillna(). 
Группировка данных по столбцу education с получением медианных значений из столбца total_income показала, что средний доход зависит от уровня образования. С тем, чтобы заполнить пропуски наиболее приближенно к реальным поступим следующим образом.
Далее тем же методом заполним пустующие значения в столбце 'total_income' на нули, с тем чтобы в последующим создать функцию.  Создаем функцию, которая будет рассчитывать медиану дохода в зависимотси от уровня образования. Для этого создадим переменную, которая будет рассчитывать средний доход в зависимости от уровная образования и в каждой строке где встречается выбранный нами уровень образования заменим нули, на получившееся значение среднего дохода в столбце total_income. Затем приеним функцию ко всем значениям образованя.
Значения оказались путыми, возможно, по той причине, что не было потверждающих документов, чтобы ввести точные данные, поэтому их пропустили/не заполнили. Далее методом fillna() заполним пустующие значения и еще раз проверим data на пропуски.
Теперь пропусков нет.

#### Часть 2. Подготовка данных

##### 3-bullet
1. Приведение данных к нужным типам.

In [3]:
data['days_employed'] = data['days_employed'].astype('int') #заменим тип данных в столбце 'days_employed' на целочисленный методом astype()
data['total_income'] = data['total_income'].astype('int') #заменим тип данных в столбце 'total_income' на целочисленный методом astype()
display(data.head(5)) #выведем на экран первые 5 строк таблицы

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


Значения столбцов 'days_employed' и 'total_income' должны содержать целые числа, поскольку трудовой стаж расчитывается в днях, а сумма ежемесячного дохода без учета копеек выглядет проще и нагляднее, при этом данные не потеряют в качестве. Для изменения типа данных используем метод astype() и проверяем результат.  

#### Часть 2. Подготовка данных

##### 4-bullet
2. Удаление дубликатов.

In [4]:
display(data.duplicated().sum()) #выведем на экран сумму дубликатов в таблице
data = data.drop_duplicates().reset_index(drop=True) #удалим дубликаты так, чтобы счет индексов не менялся

71

Теперь выясним, имеются ли в data дубликаты и в каком количестве. Воспользуемся методом duplicated() в сочетании с методом sum().
Убедились, что дубликаты имеются. Удалим их методом drop_duplicates() в сочетании с методом reset.index(), чтобы отсчет индексов был по порядку.
Вероятно, дубликаты возникли по причине исопользования разных регистров при вводе значений в столбце 'education'.

#### Часть 2. Подготовка данных

##### 5-bullet
3. Лемматизация.

In [5]:
from pymystem3 import Mystem #вызываем из библиотеки словарь
m = Mystem() #сохраняем словарь в переменной
def lemmatize(data): #объявляем функцию лемматизации
    return ''.join(m.lemmatize(data)) #возвращаем строку после лемматизации
data['purpose'] = data['purpose'].apply(lemmatize) #применяем функцию лемматизации к столбцу'purpose'
print(data['purpose'].value_counts()) #вычисляем количество уникальных значений в столбце 'purpose' в порядке убывания

автомобиль\n                                972
свадьба\n                                   791
на проведение свадьба\n                     768
сыграть свадьба\n                           765
операция с недвижимость\n                   675
покупка коммерческий недвижимость\n         661
операция с жилье\n                          652
покупка жилье для сдача\n                   651
операция с коммерческий недвижимость\n      650
покупка жилье\n                             646
жилье\n                                     646
покупка жилье для семья\n                   638
строительство собственный недвижимость\n    635
недвижимость\n                              633
операция со свой недвижимость\n             627
строительство жилой недвижимость\n          624
покупка недвижимость\n                      621
покупка свой жилье\n                        620
строительство недвижимость\n                619
ремонт жилье\n                              607
покупка жилой недвижимость\n            

Для того чтобы лемматизировать объявим функцию lemmatize(data), затем функцией join() передадим строке метод lemmatize() и выделим леммы: к столбцу 'purpose' методом apply() применим функцию lemmatize().
Затем распечатаем количество всех уникальных значений, с тем, чтобы впоследующем произвести группировку целей.

#### Часть 2. Подготовка данных

##### 6-bullet
4. Категоризация данных.

In [6]:
def new_children(children): #объявим функцию, которая в качестве значений будет принимать значения столбца 'children'
    if children > 0: #зададим условие: если значение детей больше 0
        return 'с детьми' #возвращаем значение 'с детьми'
    if children == 0: #зададим условие: значение детей равно 0
        return 'без детей' #вовзращаем значение 'без детей'
    return 'с детьми' # возвращаем значение 'с детьми', когда в столбце ошибочно указаны отрицательные значения количества детей   
data['new_children'] = data['children'].apply(new_children) #применим объявленную функцию new_children к столбцу 'children' чтобы получить новый столбец

display('Наивысший доход', data['total_income'].sort_values(ascending=False).head()) #выведем на экран 5 значений с наивысшим доходом
display('Наименьший доход', data['total_income'].sort_values(ascending=True).head()) #выведем на экран 5 значений с наименьшим доходом
display('Средний доход', data['total_income'].median()) #выведем на экран среднее значение дохода
    
def total_income_level(total_income): #объявим функцию, которая в качестве значений будет принимать значения столбца 'total_income'
    if total_income < 50000: #зададим условие: если значение больше
        return 'низкий доход' #возвращаем значение
    if total_income > 100000: #зададим условие: если значение
        return 'высокий доход' #возвращаем значение
    return 'средний доход' #возвращаем значение   
data['total_income_level'] = data['total_income'].apply(total_income_level) #применим объявленную функцию total_income_level, чтобы получить новый столбец

def purpose_new(purpose): #объявим функцию, которая в качестве значений будет принимать значения столбца 'purpose'
    if 'недвижимость' in purpose: #зададим условие: если значение 'недвижимость'
        return 'недвижимость' #возвращаем значение 'недвижимость'
    if 'жилье' in purpose: #зададим условие: если значение 'жилье'
        return 'недвижимость' #возвращаем значение 'недвижимость'
    if 'образование' in purpose: #зададим условие: если значение 'образование'
        return 'образование' #возвращаем значение 'образование'
    if 'автомобиль' in purpose: #зададим условие: если значение 'автомобиль'
        return 'автомобиль' #возвращаем значение 'автомобиль'
    if 'свадьба' in purpose: #зададим условие: если значение 'свадьба'
        return 'свадьба' #возвращаем значение 'свадьба'
    return 'другие цели' #возвращаем значение 'другие цели'    
data['purpose_new'] = data['purpose'].apply(purpose_new) #применим объявленную функцию purpose_new к столбцу 'purpose', чтобы создать новый столбец
#print(data.head(10))


new_data = data[['debt', 'new_children', 'total_income_level', 'family_status', 'purpose_new']] #создадим новую таблицу, которая будет содержать только интересующие нас столбцы

display(new_data.head(5)) #выведем на экран 5 первых строк получившейся таблицы



'Наивысший доход'

12390    2265604
19548    2200852
9159     1726276
20742    1715018
17137    1711309
Name: total_income, dtype: int64

'Наименьший доход'

14555    20667
12983    21205
16138    21367
1598     21695
14247    21895
Name: total_income, dtype: int64

'Средний доход'

141147.0

Unnamed: 0,debt,new_children,total_income_level,family_status,purpose_new
0,0,с детьми,высокий доход,женат / замужем,недвижимость
1,0,с детьми,высокий доход,женат / замужем,автомобиль
2,0,без детей,высокий доход,женат / замужем,недвижимость
3,0,с детьми,высокий доход,женат / замужем,образование
4,0,без детей,высокий доход,гражданский брак,свадьба


Для ответа на 1-ый вопрос, количество детей не имеет значение. Главное - наличие детей. Для этого создадим новый столбец, в котором будут только данные: с детьми и без детей. Объявим функцию new_children(children) и зададим условия, чтобы распеределить данные по наличию и отсутствию детей. Т.к. в данных имеются отрицательные данные по детям(вероятно это ошибка, а на самом деле - это положительное число детей), так же такое отрицательное значение детей зададим в условие. После чего методом apply() добавим новый 'столбец new_children', который теперь фактически является логической переменной (можно было присвоить значкния: 0 и 1).
Для ответа на 3-ий вопрос, для упрощения работы, разделим сведения о доходах на 3 группы: высокий доход, средний доход и низкий доход. Чтобы найти высокий доход и низкий доходы, отсортируем столбец 'total_income' методом sort_values() по убыванию, а затем по возрастанию и выведим 5 максимальных и 5 минимальных значений, чтобы отследить возможные резкие разрывы. кроме того, методом median() вычислим средний размер, чтобы точнее поделить на группы. После этого добавим новый столбец 'total_income_level', воспользовавшись методом apply().
Для ответа на 4-й вопрос, сгруппируем цели кредитов столбца 'purpose'. Ранее проведенная лемматизация, а также метод value_counts() показал уникальные значения и их количество. Из этих данных зрительно видно, что среди целей получения кредита имеются разным способом записанные цели: 1) недвижимость, 2) образование, 3) свадьба и 4) автомобиль. Создадим новый столбец, в котором будут только обозначенные цели кредита. Для этого объявим функцию purpose_new(purpose) и зададим условия, чтобы распеделить данные по обозначенным целям. После чего методом apply() добавим новый столбец 'purpose_new'.
Далее оставим только те столбцы, данные из которых необходимы для решения поставленных задач (для ответа на вопросы) и назовем таблицу new_data. Получившуюся таблицу для наглядности выведем на экран(5 строк).



#### Часть 3. Ответьте на вопросы:

##### 7-bullet
Ответ на 1-й вопрос:

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [7]:
debt_data = new_data['debt'].value_counts() #получим значения общего количества просрочек и выплат в срок
debt_percent = (debt_data[1] / (debt_data[0] + debt_data[1])) * 100 #рассчитаем значения доли просрочек из числа всех выданных кредитов и сохраним в переменной
data_by_children = new_data.pivot_table(index = 'new_children', columns = 'debt', values = 'total_income_level', aggfunc = 'count') #создадим сводную таблицу методом pivot_table(), где в качестве индекса будет стоблец new_children, столбцами будут значения столбца debt, значения возьмем из столбца total_income_level(можно и другой, нам только кол-во значений нужно, поэтому неважно), и применим функцию count() 
data_by_children['percent'] = data_by_children.apply(lambda row: (row[1] /(row[0] + row[1]))*100, axis=1) # добавим столбец, где рассчитаем долю просрочивших лиц
data_by_children['all_percent'] = debt_percent #рассчитаем общий процент просрочек и довавим в таблицу
display(data_by_children) #выедем на экран получившуюся таблицу

debt,0,1,percent,all_percent
new_children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
без детей,13028,1063,7.543822,8.115037
с детьми,6685,678,9.208203,8.115037


Если разделить число просрочек на общее количество кредитов, получается доля просрочивших среди людей с детьми составялет 9% против 8%(среднестатистическая) просрочек у среди людей без детей. Вывод: небольшая зависимость имеется. У людей с детьми просрочка чуть больше (выше среднестатистической).

##### 8-bullet
Ответ на 2-й вопрос:

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [8]:
data_by_family_status = new_data.pivot_table(index = 'family_status', columns = 'debt', values = 'purpose_new', aggfunc = 'count') #методом pivoy_table создадим сводную таблицу, в которой в качестве индекса возьмем значения столбца family_status, значений столбцов - столбец deby, в качестве значений применим столбец total_income_level и функцию count
data_by_family_status['percent'] = data_by_family_status.apply(lambda row: (row[1] /(row[0] + row[1]))*100, axis=1) # добавим столбец, где рассчитаем долю просрочивших лиц
data_by_family_status['all_percent'] = debt_percent #добавим к таблице столбец со значением общей доли просрочки
display(data_by_family_status) #выведем полученную таблицу на экран

debt,0,1,percent,all_percent
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Не женат / не замужем,2536,274,9.75089,8.115037
в разводе,1110,85,7.112971,8.115037
вдовец / вдова,896,63,6.569343,8.115037
гражданский брак,3763,388,9.347145,8.115037
женат / замужем,11408,931,7.545182,8.115037


Если разделить число просрочек на общее количество кредитов по каждой категории, то получается наименьшая просрочка среди тех, кто являются вдовой/вдовцом (6%), и примерно равная среди тех, кто состоит в браке и в разводе (7%). У не бывавших в браке и состоящих в гражданском браке доля просрочек - 9%. Вывод зависимость имеется. Не состоявшие в браке и состоящие в гражданском браке имеют просрочки выше среднестатистических 8%, а самыми благонадежными являются вдовы/вдовцы.

##### 9-bullet
Ответ на 3-й вопрос:

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [9]:
data_by_total_income_level = new_data.pivot_table(index = 'total_income_level', columns = 'debt', values = 'purpose_new', aggfunc = 'count') #создадим сводную таблицу, в которой в качестве индекса возьмем значения столбца total_income_level, в качестве значений столбцов -столбец debt, значения используем из столбца purpose_new и применим функцию count  
data_by_total_income_level['percent'] = data_by_total_income_level.apply(lambda row: (row[1] /(row[0] + row[1]))*100, axis=1) # добавим столбец, где рассчитаем долю просрочивших лиц
data_by_total_income_level['all_percent'] = debt_percent #добавим к таблице столбец со значением общей доли просрочки
display(data_by_total_income_level) #выведем полученную таблицу на экран

debt,0,1,percent,all_percent
total_income_level,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
высокий доход,15604,1387,8.163145,8.115037
низкий доход,349,23,6.182796,8.115037
средний доход,3760,331,8.090931,8.115037


### Вывод

Если разделить число просрочек на общее количество кредитов по каждой категории, то получется доля просрочивших людей среди людей с высоким доходом и средним доходами  составляет 8% (среднестатистический показатель), у людей с низких доходом - 6%. Вывод: люди с низким доходом более дисциплинорванные заемщики.

##### 10-bullet
Ответ на 4-й вопрос:

- Как разные цели кредита влияют на его возврат в срок?

In [10]:
data_by_purpose = new_data.pivot_table(index = 'purpose_new', columns = 'debt', values = 'total_income_level', aggfunc = 'count') #создадим сводную таблицу, где в качестве индексов будет стоблец purpose_new, значения столбцов будут взяты из столбца debt, значения таблицы из столбца total_income_level и применим функцию count 
data_by_purpose['percent'] = data_by_purpose.apply(lambda row: (row[1] /(row[0] + row[1]))*100, axis=1) #добавим столбец, где рассчитаем долю просрочивших лиц
data_by_purpose['all_percent'] = debt_percent #добавим к таблице столбец со значением общей доли просрочки
display(data_by_purpose) #выведем получившуюся таблицу на экран

debt,0,1,percent,all_percent
purpose_new,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
автомобиль,3903,403,9.359034,8.115037
недвижимость,10029,782,7.233373,8.115037
образование,3643,370,9.220035,8.115037
свадьба,2138,186,8.003442,8.115037


Если разделить число просрочек на общее количество кредитов по каждой категории, то у людей взявших кредиты с целью трат на на автомобиль, составляет 9%, у людей, взявших кредит на недвижимость, доля просрочивших людей - 7%, у людей, у людей, взявших кредиты на образование, - 9% и у людей, взявших кредит на свадьбу, - 8%. Таким образом, заметно влияют на возврат в срок кредиты, взявтые на покупку автомобиля,на образование (при этом доля просрочки выше среднестатистической). Кредиты, связанные с недвижимостью, напротив, имеют меньшее число просрочек. Вероятно, к недвижимости люди подходят более взвешенно, с чем и связанно большое количество кредитов, выданных на недвижимость.

#### Часть 4. Общий вывод

##### 11-bullet
Общий вывод.

Общее число просрочек по выданным кредитам составяет 8%. Исходя из этой цифры можно отслеживать влияет или не вляет тот или иной параметр (наличие детей, цель кредита, пол и т.д.) на возврат кредита.
Исследование показало, что самые добросовестные заещики - это люди, берущие кредит на недвижимость, без детей, вдовы/вдовцы, с низким доходом. Самые недобросовестные заемщики - это люди, берущие кредит на автомобиль, с детьми, не бывавшие в браке или  состоящие в гражданском браке, со средним или высоким доходом.