## Описание проекта
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.


## Инструкция по выполнению

### Шаг 1. Откройте таблицу и изучите общую информацию о данных

### Шаг 2. Предобработка данных
* определите и заполните пропущенные значения:
* опишите, какие пропущенные значения вы обнаружили;
* приведите возможные причины появления пропусков в данных;
* объясните, по какому принципу заполнены пропуски;
* замените вещественный тип данных на целочисленный:
* поясните, как выбирали метод для изменения типа данных;
* удалите дубликаты:
* поясните, как выбирали метод для поиска и удаления дубликатов в данных;
* приведите возможные причины появления дубликатов;
* выделите леммы в значениях столбца с целями получения кредита:
* опишите, как вы проводили лемматизацию целей кредита;
* категоризируйте данные: перечислите, какие «словари» вы выделили для этого набора данных, и объясните, почему.

В данных могут встречаться артефакты — значения, которые не отражают действительность. Например, отрицательное количество дней трудового стажа. Для реальных данных — это нормально. Нужно описать возможные причины появления таких данных и обработать их.

### Шаг 3. Ответьте на вопросы
* Есть ли зависимость между наличием детей и возвратом кредита в срок?
* Есть ли зависимость между семейным положением и возвратом кредита в срок?
* Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
* Как разные цели кредита влияют на его возврат в срок?

Ответы сопроводите интерпретацией — поясните, о чём именно говорит полученный вами результат.

### Шаг 4. Напишите общий вывод


#### Описание данных
1. `children` — количество детей в семье
2. `days_employed` — общий трудовой стаж в днях
3. `dob_years` — возраст клиента в годах
4.  `education` — уровень образования клиента
5.  `education_id` — идентификатор уровня образования
6. `family_status` — семейное положение
7. `family_status_id` — идентификатор семейного положения
8. `gender` — пол клиента
9. `income_type` — тип занятости
10. `debt` — имел ли задолженность по возврату кредитов
11. `total_income` — ежемесячный доход
12. `purpose` — цель получения кредита

### Шаг 1. Откройте таблицу и изучите общую информацию о данных

In [309]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [310]:
df = pd.read_csv('data_b.csv')

In [311]:
df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


In [312]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Вывод: 

В результате знакомства с данными удалось обнаружить, что в двух столбцах имеются пропущенные значения, которые необходимо проработать.

### Шаг 2. Предобработка данных

Пропущенные значения у нас есть в колонках `days_employed` и `total_income`. Посчитаем сколько их всех и установим процент пропусков. 

In [313]:
df['days_employed'].isna().agg([sum, 'mean'])

sum     2174.000000
mean       0.100999
Name: days_employed, dtype: float64

In [314]:
df['total_income'].isna().agg([sum, 'mean'])

sum     2174.000000
mean       0.100999
Name: total_income, dtype: float64

Как мы видим, количество пропусков вместе с их долей в во всем датафрейме совпадает. Теперь взглянем на датасет только с пропусками и попытаемся найти общую закономерность

In [315]:
nan = df[df['days_employed'].isna() == True]

In [316]:
nan.sample(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
8952,1,,38,среднее,1,женат / замужем,0,M,сотрудник,1,,получение высшего образования
6098,2,,27,среднее,1,женат / замужем,0,M,сотрудник,0,,на покупку своего автомобиля
10697,0,,40,среднее,1,гражданский брак,1,F,компаньон,0,,сыграть свадьбу
6324,0,,67,Среднее,1,вдовец / вдова,2,F,пенсионер,0,,строительство собственной недвижимости
5062,0,,65,Среднее,1,в разводе,3,F,пенсионер,0,,на покупку своего автомобиля
1889,0,,48,высшее,0,женат / замужем,0,F,сотрудник,0,,свой автомобиль
4245,1,,27,высшее,0,женат / замужем,0,M,сотрудник,0,,заняться образованием
12403,3,,0,среднее,1,женат / замужем,0,M,сотрудник,0,,операции с коммерческой недвижимостью
444,0,,53,среднее,1,вдовец / вдова,2,F,сотрудник,1,,свой автомобиль
19564,0,,61,высшее,0,женат / замужем,0,M,сотрудник,0,,покупка жилой недвижимости


In [317]:
pd.cut(df['dob_years'], 5).value_counts()

(30.0, 45.0]      8504
(45.0, 60.0]      7057
(15.0, 30.0]      3723
(60.0, 75.0]      2140
(-0.075, 15.0]     101
Name: dob_years, dtype: int64

Как мы видим, у нас есть клиенты, у которых в графе возраст есть отрицательные значения и совсем маленькие. Логично, что тут произошла какая-то ошибка при выкачке данных. Поскольку этих данных совсем мало, то их удаление не повлияет на результаты анализа. 

In [318]:
df = df[df['dob_years'] > 15].reset_index()

In [319]:
df

Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21419,21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21420,21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21421,21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21422,21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


В целом, какой-то общей закономерности пропусков не удалось обнаружить

In [320]:
def category(age):
    if age <= 30:
        return 'молодые'
    if age > 30 and age <= 45:
        return 'взрослые'
    if age > 45 and age <= 60:
        return 'пожилые'
    return 'пенсионеры'

In [321]:
df['category'] = df['dob_years'].apply(category)

In [322]:
df

Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category
0,0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,взрослые
1,1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,взрослые
2,2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,взрослые
3,3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,взрослые
4,4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу,пожилые
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21419,21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем,взрослые
21420,21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем,пенсионеры
21421,21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость,взрослые
21422,21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля,взрослые


Посмотрим для каждой возрастной категории среднее значение по гендерным признакам.

In [323]:
gender_category = df.pivot_table(index = 'category', columns = 'gender', values = 'total_income', aggfunc = 'median')

In [324]:
gender_category

gender,F,M,XNA
category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
взрослые,140315.766455,176410.847993,
молодые,130187.630873,162513.291433,203905.157261
пенсионеры,121084.030049,131382.818886,
пожилые,133412.900442,166523.462873,


У нас появилось какое-то лишнее значение в графе `gender`, попробуем глянуть сколькор их.

In [325]:
df['gender'].value_counts()

F      14164
M       7259
XNA        1
Name: gender, dtype: int64

Можно сразу избавиться от XNA, чтобы это значение не мешало в дальнейшем. 

In [326]:
df = df.query('gender != "XNA"').reset_index()

In [327]:
df.sample(5)

Unnamed: 0,level_0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category
11120,11121,11174,0,-601.642498,37,высшее,0,в разводе,3,F,сотрудник,0,150214.302153,покупка своего жилья,взрослые
7968,7968,8005,0,353934.178401,59,среднее,1,вдовец / вдова,2,F,пенсионер,0,126208.678469,строительство жилой недвижимости,пожилые
5225,5225,5249,1,-3842.179239,43,высшее,0,женат / замужем,0,F,сотрудник,0,154817.976134,свой автомобиль,взрослые
9138,9138,9182,0,-1522.348812,32,высшее,0,женат / замужем,0,F,сотрудник,0,120486.160593,операции с недвижимостью,взрослые
7965,7965,8002,0,-343.083783,39,Среднее,1,женат / замужем,0,M,компаньон,0,120326.877395,покупка коммерческой недвижимости,взрослые


У нас появились лишние столбцы с индексами, которые не несут никакого смысла. Все это можно удлать.

In [328]:
df = df.drop(['level_0', 'index'], axis = 1)

In [329]:
woman_adult = gender_category['F'][0]
woman_young = gender_category['F'][1]
woman_pensioner = gender_category['F'][2]
woman_old = gender_category['F'][3]
man_adult = gender_category['M'][0]
man_young = gender_category['M'][1]
man_pensioner = gender_category['M'][2]
man_old = gender_category['M'][3]

In [330]:
t = df['gender']
k = df['category']
g = []
for i in range(len(k)):
    if t[i] == 'F'and k[i] == 'взрослые':
        g.append(woman_adult)
    if t[i] == 'F'and k[i] == 'молодые':
        g.append(woman_young)
    if t[i] == 'F'and k[i] == 'пенсионеры':
        g.append(woman_pensioner)
    if t[i] == 'F'and k[i] == 'пожилые':
        g.append(woman_old)
    if t[i] == 'M' and k[i] == 'взрослые':
        g.append(man_adult)
    if t[i] == 'M'and k[i] == 'молодые':
        g.append(man_young)
    if t[i] == 'M'and k[i] == 'пенсионеры':
        g.append(man_pensioner)
    if t[i] == 'M'and k[i] == 'пожилые':
        g.append(man_old)

In [331]:
df['inc_cat'] = pd.Series(g)

In [332]:
df.sample(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category,inc_cat
13489,0,-5355.719625,51,среднее,1,женат / замужем,0,F,госслужащий,0,312381.501969,строительство жилой недвижимости,пожилые,133412.900442
19398,2,-911.083709,33,высшее,0,женат / замужем,0,F,госслужащий,0,136829.581481,на покупку автомобиля,взрослые,140315.766455
17961,2,-2290.415947,51,среднее,1,женат / замужем,0,F,компаньон,0,114233.769214,автомобиль,пожилые,133412.900442
3476,0,-10186.771682,44,среднее,1,женат / замужем,0,F,сотрудник,0,175451.98316,строительство жилой недвижимости,взрослые,140315.766455
9505,0,-3212.083024,47,Среднее,1,женат / замужем,0,M,сотрудник,0,153244.896349,получение образования,пожилые,166523.462873
14962,1,-6677.497839,37,среднее,1,женат / замужем,0,M,сотрудник,1,283998.261734,получение образования,взрослые,176410.847993
8285,0,374703.66689,64,высшее,0,женат / замужем,0,M,пенсионер,0,57902.751688,получение образования,пенсионеры,131382.818886
17028,0,341619.203304,67,среднее,1,женат / замужем,0,F,пенсионер,0,58460.424636,сделка с автомобилем,пенсионеры,121084.030049
4477,0,343666.634536,56,среднее,1,женат / замужем,0,F,пенсионер,0,261695.340957,на покупку подержанного автомобиля,пожилые,133412.900442
14172,0,-7121.017335,50,высшее,0,в разводе,3,F,сотрудник,1,170919.5618,на покупку подержанного автомобиля,пожилые,133412.900442


In [333]:
df['total_income'] = df['total_income'].fillna(df['inc_cat'])

Переведем отрицательные знацения стажа в абсолютные

In [334]:
df['days_employed'] = abs(df['days_employed'])

Считаю, что здесь можно воспользоваться такой же логикой замены пропусков какая была при замене `total_income`

In [335]:
for_days_emp = df.pivot_table(index = 'category', columns = 'gender', values = 'days_employed', aggfunc = 'median')

In [336]:
for_days_emp

gender,F,M
category,Unnamed: 1_level_1,Unnamed: 2_level_1
взрослые,1831.729975,1606.607248
молодые,1097.531171,981.593723
пенсионеры,358166.492161,347977.72719
пожилые,4851.38411,2412.732199


In [337]:
woman_adult_days = for_days_emp['F'][0]
woman_young_days = for_days_emp['F'][1]
woman_pensioner_days = for_days_emp['F'][2]
woman_old_days = for_days_emp['F'][3]
man_adult_days = for_days_emp['M'][0]
man_young_days = for_days_emp['M'][1]
man_pensioner_days = for_days_emp['M'][2]
man_old_days = for_days_emp['M'][3]

In [338]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21423 entries, 0 to 21422
Data columns (total 14 columns):
children            21423 non-null int64
days_employed       19259 non-null float64
dob_years           21423 non-null int64
education           21423 non-null object
education_id        21423 non-null int64
family_status       21423 non-null object
family_status_id    21423 non-null int64
gender              21423 non-null object
income_type         21423 non-null object
debt                21423 non-null int64
total_income        21423 non-null float64
purpose             21423 non-null object
category            21423 non-null object
inc_cat             21423 non-null float64
dtypes: float64(3), int64(5), object(6)
memory usage: 2.3+ MB


In [339]:
c = df['gender']
v = df['category']
h = []
for i in range(len(v)):
    if c[i] == 'F'and v[i] == 'взрослые':
        h.append(woman_adult_days)
    if c[i] == 'F'and v[i] == 'молодые':
        h.append(woman_young_days)
    if c[i] == 'F'and v[i] == 'пенсионеры':
        h.append(woman_pensioner_days)
    if c[i] == 'F'and v[i] == 'пожилые':
        h.append(woman_old_days)
    if c[i] == 'M' and v[i] == 'взрослые':
        h.append(man_adult_days)
    if c[i] == 'M'and v[i] == 'молодые':
        h.append(man_young_days)
    if c[i] == 'M'and v[i] == 'пенсионеры':
        h.append(man_pensioner_days)
    if c[i] == 'M'and v[i] == 'пожилые':
        h.append(man_old_days)

In [340]:
len(h)

21423

In [341]:
df['days'] = pd.Series(h)
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category,inc_cat,days
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,взрослые,140315.766455,1831.729975
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,взрослые,140315.766455,1831.729975
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,взрослые,176410.847993,1606.607248
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,взрослые,176410.847993,1606.607248
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,пожилые,133412.900442,4851.38411
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья,молодые,162513.291433,981.593723
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем,взрослые,140315.766455,1831.729975
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование,пожилые,166523.462873,2412.732199
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы,взрослые,140315.766455,1831.729975
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи,взрослые,176410.847993,1606.607248


In [342]:
df['days_employed'] = df['days_employed'].fillna(df['days'])

In [343]:
df.sample(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category,inc_cat,days
19896,0,2874.37509,44,высшее,0,Не женат / не замужем,4,F,компаньон,0,212423.383634,операции с жильем,взрослые,140315.766455,1831.729975
13305,0,5162.210556,49,среднее,1,вдовец / вдова,2,F,сотрудник,0,179149.236672,ремонт жилью,пожилые,133412.900442,4851.38411
4915,0,4851.38411,60,высшее,0,Не женат / не замужем,4,F,пенсионер,0,133412.900442,операции со своей недвижимостью,пожилые,133412.900442,4851.38411
1429,0,4836.65603,56,среднее,1,гражданский брак,1,F,сотрудник,0,85635.888456,автомобиль,пожилые,133412.900442,4851.38411
15707,0,394800.901581,57,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,38647.666368,покупка жилья для сдачи,пожилые,133412.900442,4851.38411
4880,0,480.275352,27,СРЕДНЕЕ,1,женат / замужем,0,M,компаньон,0,201342.692866,покупка недвижимости,молодые,162513.291433,981.593723
6222,0,361895.587406,56,среднее,1,вдовец / вдова,2,F,пенсионер,0,220961.292874,покупка жилья для семьи,пожилые,133412.900442,4851.38411
4239,0,890.669371,40,среднее,1,женат / замужем,0,M,сотрудник,1,343158.723266,образование,взрослые,176410.847993,1606.607248
19017,0,3212.156113,50,среднее,1,женат / замужем,0,M,госслужащий,0,129636.948505,автомобиль,пожилые,166523.462873,2412.732199
2027,0,9838.118929,47,высшее,0,женат / замужем,0,F,сотрудник,0,145149.370831,операции с недвижимостью,пожилые,133412.900442,4851.38411


In [344]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21423 entries, 0 to 21422
Data columns (total 15 columns):
children            21423 non-null int64
days_employed       21423 non-null float64
dob_years           21423 non-null int64
education           21423 non-null object
education_id        21423 non-null int64
family_status       21423 non-null object
family_status_id    21423 non-null int64
gender              21423 non-null object
income_type         21423 non-null object
debt                21423 non-null int64
total_income        21423 non-null float64
purpose             21423 non-null object
category            21423 non-null object
inc_cat             21423 non-null float64
days                21423 non-null float64
dtypes: float64(4), int64(5), object(6)
memory usage: 2.5+ MB


In [347]:
df1 = df[df.duplicated(keep=False)].head(20)

In [306]:
df.duplicated().sum()

54

In [308]:
df1 = df.drop_duplicates(keep='first')

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,category,inc_cat,days
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,взрослые,140315.766455,1831.729975
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,взрослые,140315.766455,1831.729975
2,0,5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,взрослые,176410.847993,1606.607248
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,взрослые,176410.847993,1606.607248
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу,пожилые,133412.900442,4851.384110
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21418,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем,взрослые,140315.766455,1831.729975
21419,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем,пенсионеры,121084.030049,358166.492161
21420,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость,взрослые,176410.847993,1606.607248
21421,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля,взрослые,176410.847993,1606.607248


In [348]:
df1 = df[df.duplicated(keep=False)]


df1 = df1.groupby(df1.columns.tolist()).apply(lambda x: x.index.tolist()).values.tolist()
print (df1)
[['n1', 'n2'], ['n3', 'n4']]

[[3434, 18237], [15808, 19225], [517, 13700], [9330, 19290], [5100, 10645], [1423, 2835], [13640, 20067], [9694, 13869], [2243, 17290], [4508, 20018], [11891, 15013], [7978, 12310], [551, 15109], [119, 16293], [8967, 19088], [11779, 16091, 21032], [9855, 11732], [4487, 19734], [12154, 14754], [17697, 21313], [3094, 18470], [17203, 18946], [11388, 18429], [3326, 9582], [1673, 7771], [7958, 15194], [538, 19848], [1503, 8543], [2042, 5533], [12330, 18661], [10743, 12671], [2582, 4830], [2531, 20932], [1184, 19591], [3360, 10412], [1001, 10811, 10941], [8140, 13567], [12326, 20602], [3591, 18336], [5841, 9484], [676, 18258], [8589, 21180], [5370, 17665], [8451, 13805], [12786, 16818], [3672, 4161], [8844, 12312], [4061, 17684], [11643, 12960], [8995, 9194], [8971, 14358], [10980, 16816]]


[['n1', 'n2'], ['n3', 'n4']]

In [359]:
df['income_type'][3434]

'сотрудник'

In [358]:
df['income_type'][3434]

'сотрудник'

In [360]:
df['gender'].values.tolist()

['F',
 'F',
 'M',
 'M',
 'F',
 'M',
 'F',
 'M',
 'F',
 'M',
 'M',
 'F',
 'M',
 'F',
 'F',
 'F',
 'F',
 'M',
 'F',
 'F',
 'M',
 'F',
 'F',
 'M',
 'F',
 'M',
 'M',
 'M',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'M',
 'M',
 'F',
 'M',
 'F',
 'M',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'M',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'M',
 'F',
 'M',
 'F',
 'M',
 'F',
 'M',
 'M',
 'M',
 'F',
 'M',
 'F',
 'M',
 'F',
 'M',
 'M',
 'F',
 'M',
 'M',
 'F',
 'M',
 'M',
 'F',
 'F',
 'F',
 'M',
 'F',
 'M',
 'M',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'M',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'M',
 'F',
 'M',
 'F',
 'F',
 'F',
 'M',
 'F',
 'M',
 'F',
 'F',
 'F',
 'F',
 'M',
 'F',
 'F',
 'M',
 'F',
 'F',
 'M',
 'F',
 'M',
 'M',
 'F',
 'F',
 'M',
 'M',
 'M',
 'F',
 'M',
 'F',
 'M',
 'F',
 'F',
 'F',
 'M',
 'F',
 'F',
 'F',
 'F',
 'F',
 'F',
 'M',
 'F',
 'F',
 'M',
 'F',
 'F',
 'F',
 'M',
 'F',
 'M',
 'M',
 'F',
 'M',
 'M',
 'F',
 'F'