# План работы

1. Обзор данных.
2. Предобработка данных.
3. Ответы на поставленные вопросы.
4. Общий вывод


## Откройте файл с данными и изучите общую информацию

<div style="border:solid blue 2px; padding: 20px">

Импортируем библиотеку `pandas`.
</div>

In [1]:
# импорт библиотеки pandas
import pandas as pd

<div style="border:solid blue 2px; padding: 20px">
    
Методом `read_csv()` прочитаем файл `data.csv` и сохраним в переменную `df`:
    
</div>

In [2]:
# чтение файла с данными и сохранение в df
# метод try-except поможет загрузить данные локально или глобально
try:
    df = pd.read_csv('C:/Users/datasets/data.csv')  # Локальный путь
except:
    df = pd.read_csv('/datasets/data.csv')  # Серверный путь

<div style="border:solid blue 2px; padding: 20px">
    
`head()` выводим на экран первые десять строк таблицы:
    </div>

In [3]:
# получение первых 10 строк таблицы df
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


<div style="border:solid blue 2px; padding: 20px">
    
`info()` получим общую информацию о таблице:
    </div>

In [4]:
# получение общей информации о данных в таблице df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


<div style="border:solid blue 2px; padding: 20px">
    
    
**Категориальные** - `education`,`education_id`,`family_status`,`family_status_id`,`gender`,`income_type`,`debt`,`purpose`.
    
**Количественные** - `children`,`days_employed`,`dob_years`,`total_income`.
    

* `children` — количество детей в семье;
* `days_employed` — общий трудовой стаж;
* `dob_years` — возраст клиента;
* `education` — уровень образования клиента;
* `education_id` — идентификатор уровня образования;
* `family_status` — семейное положение;
* `family_status_id` — идентификатор семейного положения;
* `gender` — пол клиента;
* `income_type` — тип занятости;
* `debt` — имел ли задолженность по возврату кредитов;
* `total_income` — ежемесячный доход;
* `purpose` — цель получения кредита.

    
 </div>   


In [5]:
# просмотр уникальных названий children
df['children'].sort_values().unique()

array([-1,  0,  1,  2,  3,  4,  5, 20])

<div style="border:solid blue 2px; padding: 20px">
    
Артефакты `children` обнаружены `-1` и `20`
    </div>

In [6]:
# просмотр уникальных названий days_employed
df['days_employed'].sort_values().unique()

array([-18388.94990057, -17615.56326563, -16593.47281726, ...,
       401715.81174889, 401755.40047533,             nan])

<div style="border:solid blue 2px; padding: 20px">
    
Пропуски `days_employed` обнаружены `NaN`
    
</div>

In [7]:
# просмотр уникальных названий dob_years
df['dob_years'].sort_values().unique()

array([ 0, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75])

<div style="border:solid blue 2px; padding: 20px">
    
Пропуски `dob_years` обнаружены `0`
 </div>

In [8]:
# просмотр уникальных названий education
df['education'].sort_values().unique()

array(['ВЫСШЕЕ', 'Высшее', 'НАЧАЛЬНОЕ', 'НЕОКОНЧЕННОЕ ВЫСШЕЕ',
       'Начальное', 'Неоконченное высшее', 'СРЕДНЕЕ', 'Среднее',
       'УЧЕНАЯ СТЕПЕНЬ', 'Ученая степень', 'высшее', 'начальное',
       'неоконченное высшее', 'среднее', 'ученая степень'], dtype=object)

<div style="border:solid blue 2px; padding: 20px">
    
BodyShaming `education` обнаружены отклонения от стандартов
    </div>

In [9]:
# просмотр уникальных названий family_status
df['family_status'].sort_values().unique()

array(['Не женат / не замужем', 'в разводе', 'вдовец / вдова',
       'гражданский брак', 'женат / замужем'], dtype=object)

<div style="border:solid blue 2px; padding: 20px">
    
Исправим `family_status` на нижний регистр у `Не женат / не замужем`
   

</div>

In [10]:
# просмотр уникальных названий gender
df['gender'].sort_values().unique()

array(['F', 'M', 'XNA'], dtype=object)

<div style="border:solid blue 2px; padding: 20px">
    
Артефакты `gender` обнаружены `XNA`
    </div>

In [11]:
# просмотр уникальных названий income_type
df['income_type'].sort_values().unique()

array(['безработный', 'в декрете', 'госслужащий', 'компаньон',
       'пенсионер', 'предприниматель', 'сотрудник', 'студент'],
      dtype=object)

In [12]:
# просмотр уникальных названий debt
df['debt'].sort_values().unique()

array([0, 1])

In [13]:
# просмотр уникальных названий total_income
df['total_income'].sort_values().unique()

array([  20667.26379327,   21205.28056622,   21367.64835649, ...,
       2200852.2102589 , 2265604.02872274,              nan])

<div style="border:solid blue 2px; padding: 20px">
    
Пропуски `total_income` обнаружены `NaN`
    </div>

In [14]:
# просмотр уникальных названий purpose
df['purpose'].sort_values().unique()

array(['автомобили', 'автомобиль', 'высшее образование',
       'дополнительное образование', 'жилье',
       'заняться высшим образованием', 'заняться образованием',
       'на покупку автомобиля', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля', 'на проведение свадьбы',
       'недвижимость', 'образование', 'операции с жильем',
       'операции с коммерческой недвижимостью',
       'операции с недвижимостью', 'операции со своей недвижимостью',
       'покупка жилой недвижимости', 'покупка жилья',
       'покупка жилья для сдачи', 'покупка жилья для семьи',
       'покупка коммерческой недвижимости', 'покупка недвижимости',
       'покупка своего жилья', 'получение высшего образования',
       'получение дополнительного образования', 'получение образования',
       'приобретение автомобиля', 'профильное образование',
       'ремонт жилью', 'свадьба', 'свой автомобиль',
       'сделка с автомобилем', 'сделка с подержанным автомобилем',
       'строительство 

<div style="border:solid blue 2px; padding: 20px">
    
Информация по `purpose` состоит из значений - неявных дубликатов. Применим лемматизацию.
</div>

<div style="border:solid blue 2px; padding: 20px">
    


**Оценка полученных данных**

Наблюдения, представленные в таблице описываются категориальными и количественными значениями.
    
Полученные данные можно исследовать для проверки **гипотезы**:
    
Данные содержат проблемы (ошибки), которые могут привести написанный алгоритм работы к искаженным результатам.
    

**Проблемы и их возможные причины появления:**
    

- Уникальные значения в количестве детей в семье `children` содержат `-1` и `20`.   Причина появления: человеческий фактор. Возможно опечатка. Решим проблему заменой на корректные `1` и `2`.

    
    
- Пропущенные значения по общему трудовому стажу `days_employed`:

    отрицательные отражают значения до пенсионного возраста `gender` для женщин - 55 лет, мужчин – 60 лет;    
    
    положительные отражают значения после пенсионного возраста `gender` для женщин - 55 лет, мужчин – 60 лет.
        
    Причина появления: технологическая. Видимо происходит смена формата. Решим заполнением по группам для до и после пенсионного возраста.    

    
- Пропущенные значения по ежемесячному доходу `total_income`.
    
    
    Причина появления: технологическая. Возможно во время записи данных. Проблему решим заполнением.    
    
- Уникальные значения в возрасте клиента `dob_years` содержат `0`. 
    
    
    Причина появления: технологическая. Можно предположить, что это какой-нибудь спец символ. Решим проблему заменой.
    
- Значения уровня образования клиента `education` и `family_status`записаны в разных регистрах.
    
     
    Причина появления: человеческий фактор. Вероятно заполнялись оператором. Приведем к нижнему регистру.     
    
- Уникальные значения пола клиента `gender` содержат `'XNA'`.                                     Причина появления: технологическая. Какой-нибудь спец символ аналог `'n/a'` или `'NN'`. Решим проблему заменой.
    
    
  
 </div>  

## Предобработка данных

### Обработка пропусков

<div style="border:solid blue 2px; padding: 20px">
    
Пропуски в количественных значениях `income_type` и `days_employed` заполним характерными значениями `median()`.


    
    
</div>  

<div style="border:solid blue 2px; padding: 20px">
    

Методом `pivot_table()` сделаем сводную таблицу по типу занятости с медианными значениями ежемесячного дохода

    
    
</div> 

<a id="general_conclusion"></a>

In [15]:
# сделаем сводную таблицу
income_type_pivot_table = df.pivot_table(index=['income_type'], values='total_income', aggfunc='median')
income_type_pivot_table

Unnamed: 0_level_0,total_income
income_type,Unnamed: 1_level_1
безработный,131339.751676
в декрете,53829.130729
госслужащий,150447.935283
компаньон,172357.950966
пенсионер,118514.486412
предприниматель,499163.144947
сотрудник,142594.396847
студент,98201.625314


<div style="border:solid blue 2px; padding: 20px">
    

Методом `unique()` составим список типов занятости

    
    
</div> 

In [16]:
# составим список типов занятости
income_type_unique = df['income_type'].sort_values().unique()
print('Список типов занятости -', list(income_type_unique))

Список типов занятости - ['безработный', 'в декрете', 'госслужащий', 'компаньон', 'пенсионер', 'предприниматель', 'сотрудник', 'студент']


<div style="border:solid blue 2px; padding: 20px">
    
Циклом переберем все элементы списка `income_type_unique`.
В теле цикла логической индексацией проверяем условия:
Если в таблице находим пропуски `NaN` методом `isna()`,
то заменяем на меданное значение соответствующее типу занятости 

    
    
</div> 

In [17]:
# замена пропусков в ежемесячном доходе
for i in income_type_unique:
    df.loc[(df['total_income'].isna()) & (df['income_type'] == i), 'total_income'] = income_type_pivot_table['total_income'][i]

<div style="border:solid blue 2px; padding: 20px">
    

Сделаем сводную таблицу для разделения положительных и отрицательных значений  в трудовом стаже `days_employed`
    
Выделим для корректной замены 4 варианта значений:
    
* положительные у женщин после 55 лет
* положительные у мужчин после 60 лет
* отрицательные у женщин до 55 лет
* отрицательные у мужчин до 60 лет

По этим вариантам произведем замену пропусков.    
    
</div> 

In [18]:
# сделаем сводную таблицу
df.pivot_table(index=['dob_years'], columns='gender', values='days_employed', aggfunc='median')

gender,F,M,XNA
dob_years,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,-1327.579211,-1015.395451,
19,-710.230781,-885.268574,
20,-595.559207,-880.528819,
21,-608.00361,-627.18577,
22,-691.825293,-740.85156,
23,-634.611807,-727.699529,
24,-964.894524,-901.549138,-2358.600502
25,-951.181756,-869.061319,
26,-1173.584347,-957.617546,
27,-1195.389362,-1118.968259,


<div style="border:solid blue 2px; padding: 20px">
    

Логической индексацией проверяем условия для подсчета медианы по 4-м вариантам:

положительное значение `days_employed` отражает после пенсионный возраст gender для женщин - 55 лет;
    
положительное значение `days_employed` отражает после пенсионный возраст gender для мужчин - 60 лет;
    
отрицательное значение `days_employed` отражает до пенсионный возраст gender для женщин - 55 лет;
    
отрицательное значение `days_employed` отражает до пенсионный возраст gender для мужчин - 60 лет;
        
    
</div> 

<div style="border:solid blue 2px; padding: 20px">
    
Логической индексацией расчитываем значения медианы трудового стажа по 4-м вариантам:   
    
</div> 

In [19]:
# расчет медианы трудового стажа и вывод на экран полученных значений
f_median_after_pension = df.loc[(df['dob_years'] == 0) & (df['days_employed'] > 0) & (df['gender'] == 'F'), 'days_employed'].median()
m_median_after_pension = df.loc[(df['dob_years'] == 0) & (df['days_employed'] > 0) & (df['gender'] == 'M'), 'days_employed'].median()
f_median_before_pension = df.loc[(df['dob_years'] == 0) & (df['days_employed'] < 0) & (df['gender'] == 'F'), 'days_employed'].median()
m_median_before_pension = df.loc[(df['dob_years'] == 0) & (df['days_employed'] < 0) & (df['gender'] == 'M'), 'days_employed'].median()
print('Медианное значение трудового стажа для женщин после 55 лет:', f_median_after_pension)
print('Медианное значение трудового стажа для мужчин после 60 лет:', m_median_after_pension)
print('Медианное значение трудового стажа для женщин до 55 лет:', f_median_before_pension)
print('Медианное значение трудового стажа для мужчин до 60 лет:', m_median_before_pension)

Медианное значение трудового стажа для женщин после 55 лет: 360955.5328254813
Медианное значение трудового стажа для мужчин после 60 лет: 371665.2786224553
Медианное значение трудового стажа для женщин до 55 лет: -1687.4198574217746
Медианное значение трудового стажа для мужчин до 60 лет: -1026.019725542658


<div style="border:solid blue 2px; padding: 20px">
    
Логической индексацией проверяем условия для замены в трудовом стаже пропусков на значения медианы по 4-м вариантам:   
    
</div> 

In [20]:
# замена пропусков в трудовом стаже
df.loc[(df['days_employed'].isna()) & (df['gender'] == 'F') & (df['income_type'] == 'пенсионер'), 'days_employed'] = f_median_after_pension
df.loc[(df['days_employed'].isna()) & (df['gender'] == 'M') & (df['income_type'] == 'пенсионер'), 'days_employed'] = m_median_after_pension
df.loc[(df['days_employed'].isna()) & (df['gender'] == 'F') & (df['income_type'] != 'пенсионер'), 'days_employed'] = f_median_before_pension
df.loc[(df['days_employed'].isna()) & (df['gender'] == 'M') & (df['income_type'] != 'пенсионер'), 'days_employed'] = m_median_before_pension

<div style="border:solid blue 2px; padding: 20px">
    
Проверим таблицу на исправления от пропусков 
    
</div> 

In [21]:
# получение общей информации о данных в таблице df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


<div style="border:solid blue 2px; padding: 20px">
    
Заменим значения в `dob_years`равные `0` на `median` по типу занятости.
    
Сделаем сводную таблицу по типу занятости с медианными значениями возраста.
    
</div> 


In [22]:
# сделаем сводную таблицу
income_type_pivot_table_year = df.pivot_table(index=['income_type'], values='dob_years', aggfunc='median')
income_type_pivot_table_year

Unnamed: 0_level_0,dob_years
income_type,Unnamed: 1_level_1
безработный,38.0
в декрете,39.0
госслужащий,40.0
компаньон,39.0
пенсионер,60.0
предприниматель,42.5
сотрудник,39.0
студент,22.0


<div style="border:solid blue 2px; padding: 20px">
    
Циклом переберем все элементы списка `income_type_unique`.
В теле цикла логической индексацией проверяем условия:
Если в `dob_years` находим значения `0` ,
то заменяем на меданное значение соответствующее типу занятости 

    
    
</div> 

In [23]:
# замена в возрасте клиента значений равных 0
for i in income_type_unique:
    df.loc[(df['dob_years'] == 0) & (df['income_type'] == i), 'dob_years'] = income_type_pivot_table_year['dob_years'][i]

<div style="border:solid blue 2px; padding: 20px">
    
Методом `value_counts()` посмотрим на значения `XNA` для  `gender`
    
</div> 

In [24]:
# подсчет количества значений пола клиента с ошибочным значением
df.loc[df['gender'] == 'XNA', 'gender'].value_counts()

XNA    1
Name: gender, dtype: int64

<div style="border:solid blue 2px; padding: 20px">
    
Один клиент описан не корректно, поэтому заменим его на `F` или `M`.
    
</div> 

In [25]:
df.loc[df['gender'] == 'XNA', 'gender'] = 'F'

<div style="border:solid blue 2px; padding: 20px">
    
Заменим в `children` значения  `-1` и `20` на корректные `1` и `2`
    
</div> 

In [26]:
# замена значений в количестве детей в семье на корректные
df.loc[df['children'] == 20, 'children'] = 2
df.loc[df['children'] == -1, 'children'] = 1

**Вывод**

<div style="border:solid blue 2px; padding: 20px">
    
**Итоги по пропущенным значениям** 
    
- Пропущенные значения ежемесячного дохода `total_income` заполены на медианы по каждому типу занаятости `income_type`;
    
    
- Пропущенные значения трудового стажа `days_employed` заполены на медианы до и после для женщин - 55 лет, мужчин – 60 лет;
    
    
- Значения `0` для возраста клиента `dob_years` заполены на медианы по каждому типу занаятости `income_type`;
    
    
- Значение `XNA` в единственом наблюдении для пола клиента `gender` заполено на `F`.
    
</div> 

### Замена типа данных

<div style="border:solid blue 2px; padding: 20px">
    
Тип данных был изменен только для возраста клиента при замене значения `0` на медиану.  
    
</div>          

In [27]:
# получение информации по типам данных в df
df.dtypes

children              int64
days_employed       float64
dob_years           float64
education            object
education_id          int64
family_status        object
family_status_id      int64
gender               object
income_type          object
debt                  int64
total_income        float64
purpose              object
dtype: object

<div style="border:solid blue 2px; padding: 20px">
    
Методом `astype()` заменим вещественные `float` числа в `dob_years` на целые `int`. 
    
</div> 

In [28]:
# замена вещественных типов на целые
df['dob_years'] = df['dob_years'].astype('int')

**Вывод**

<div style="border:solid blue 2px; padding: 20px">

**Итоги по замене типов данных**    
    
Для замены типа данных используем метод `astype`.
    
    
</div>

### Обработка дубликатов

<div style="border:solid blue 2px; padding: 20px">
    
Методом `str.lower()` категории по уровню образования клиента `education` приведем к нижнему регистру.
    
    
</div>

In [29]:
# перевод значений к нижнему регистру
df['education'] = df['education'].str.lower()

<div style="border:solid blue 2px; padding: 20px">
    
Методом `str.lower()` категории по семейному положению `family_status` приведем к нижнему регистру.
    
    
</div>

In [30]:
# перевод значений к нижнему регистру
df['family_status'] = df['family_status'].str.lower()

<div style="border:solid blue 2px; padding: 20px">
    
Посчитаем сколько строк являются дубликатами.
    
    
</div>

In [31]:
# подсчет явных дубликатов
print('Всего строк дубликатов: ', df.duplicated().sum())

Всего строк дубликатов:  71


<div style="border:solid blue 2px; padding: 20px">
    
Методом `drop_duplicates()` удалим строки дубликаты и `reset_index(drop=True)` обновим индексацию.
    
    
</div>

In [32]:
# удаление строк дубликатов и обновление индексации
df = df.drop_duplicates().reset_index(drop=True)

<div style="border:solid blue 2px; padding: 20px">
    
Проверим отсутствие дубликатов
    
    
</div>

In [33]:
# проверка на отсутствие дубликатов
print('Всего строк дубликатов: ', df.duplicated().sum())

Всего строк дубликатов:  0


<div style="border:solid blue 2px; padding: 20px">

Обработаем данные от неявных дубликатов в описании цели получения кредита `purpose`. 
    
Название одной и той же цели получения кредита может быть записано немного по-разному.
    
Такие ошибки тоже повлияют на результат исследования.
    
    
Посмотрим на список уникальных названий целей получения кредита, отсортированный в алфавитном порядке    
    
</div>  

In [34]:
# составим список целей кредита
display('Список целей кредита -', list(df['purpose'].sort_values().unique()))

'Список целей кредита -'

['автомобили',
 'автомобиль',
 'высшее образование',
 'дополнительное образование',
 'жилье',
 'заняться высшим образованием',
 'заняться образованием',
 'на покупку автомобиля',
 'на покупку подержанного автомобиля',
 'на покупку своего автомобиля',
 'на проведение свадьбы',
 'недвижимость',
 'образование',
 'операции с жильем',
 'операции с коммерческой недвижимостью',
 'операции с недвижимостью',
 'операции со своей недвижимостью',
 'покупка жилой недвижимости',
 'покупка жилья',
 'покупка жилья для сдачи',
 'покупка жилья для семьи',
 'покупка коммерческой недвижимости',
 'покупка недвижимости',
 'покупка своего жилья',
 'получение высшего образования',
 'получение дополнительного образования',
 'получение образования',
 'приобретение автомобиля',
 'профильное образование',
 'ремонт жилью',
 'свадьба',
 'свой автомобиль',
 'сделка с автомобилем',
 'сделка с подержанным автомобилем',
 'строительство жилой недвижимости',
 'строительство недвижимости',
 'строительство собственной недв

**Вывод**

<div style="border:solid blue 2px; padding: 20px">
 
**Итоги по обработке дубликатов**
    
Для обработки явных дубликатов используем метод `drop_duplicates()` для поиска и удаления строк.
    
Применим лемматизацию для выявление неявных дубликатов в описании цели получения кредита `purpose`.
    
    
</div>



### Лемматизация

<div style="border:solid blue 2px; padding: 20px">
 
    
Для дальнейших ислледований необходимо обработать значения в описании цели получения кредита `purpose`.
    
Для проведения процесса лемматизации импортируем библиотеку для русского языка `pymystem3`.
    
    
</div>

In [35]:
# вызов библиотеки
from pymystem3 import Mystem
m = Mystem()

<div style="border:solid blue 2px; padding: 20px">
 
    
Методом `value_counts()` посмотрим на наиболее часто встречающийся запрос на кредит.
    
    
</div>

In [36]:
# подсчет наиболее часто встречающийся запросов
df['purpose'].value_counts()

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           765
операции с недвижимостью                  675
покупка коммерческой недвижимости         661
операции с жильем                         652
покупка жилья для сдачи                   651
операции с коммерческой недвижимостью     650
покупка жилья                             646
жилье                                     646
покупка жилья для семьи                   638
строительство собственной недвижимости    635
недвижимость                              633
операции со своей недвижимостью           627
строительство жилой недвижимости          624
покупка недвижимости                      621
покупка своего жилья                      620
строительство недвижимости                619
ремонт жилью                              607
покупка жилой недвижимости                606
на покупку своего автомобиля              505
заняться высшим образованием      

<div style="border:solid blue 2px; padding: 20px">
 
    
Основные цели кредита:
    
- свадьба
    
- жилье 
    
- недвижимость
    
- автомобиль
    
- образование
    
    
    
    
</div>

In [37]:
# создание списока основных целей кредита. Рассмотрим жилье и недвижимость по отдельности для исследования всех целей.
main_purpose = ['автомобиль','свадьба','недвижимость','жилье','образование']

<div style="border:solid blue 2px; padding: 20px">
 
    
Создадим функцию с именем `find_purpose(words)` c параметром `words`,
    
в теле функции проведем лемматизацию, и 
    
цикл, который сравнивает содержание получившихся леммы с основными целями из списка `main_purpose` и
    
меняет лемму на основную цель, если она содержится в лемме, и
    
возвращаем измененную лемму.
    
Методом `apply` применим функцию к значениям `purpose` и сохраним результат работы функции в новом столбце `purpose_name`.
    
    
    
    
    
    
</div>

In [38]:
# лемматицация и замена лемм на главные цели кредита при совпадении
def find_purpose(words):
    lemma = m.lemmatize(words)
    for purpose in main_purpose:
        if purpose in lemma:
             lemma = purpose
    return lemma
df['purpose_name'] = df['purpose'].apply(find_purpose)

<div style="border:solid blue 2px; padding: 20px">
 
Заменим значения в `purpose_name` `жилье` на `недвижимость`, потому что они выражают общую цель.
    
    
    
    
</div>

In [39]:
# замена после лемматизации категории жилье на недвижимость, потому что они выражают общую цель.
df.loc[df['purpose_name'] == 'жилье', 'purpose_name'] = 'недвижимость'

<div style="border:solid blue 2px; padding: 20px">
 
Методом `value_counts()` посмотрим на наиболее часто встречающийся основной запрос на кредит
    
    
    
    
</div>

In [40]:
# подсчет наиболее часто встречающихся основных запросов
df['purpose_name'].value_counts()

недвижимость    10811
автомобиль       4306
образование      4013
свадьба          2324
Name: purpose_name, dtype: int64

<div style="border:solid blue 2px; padding: 20px">
 
    
Из целей получения кредита `purpose` получили после лемматизации основные категории:
    
- недвижимость    10811
- автомобиль       4306
- образование      4013
- свадьба          2324
    
Лемматизация целей получения кредита `purpose` облегчит категоризацию данных в дальнейшем.    
    
    
</div>

### Категоризация данных

<div style="border:solid blue 2px; padding: 20px">
    
Выделим категории по возрасту клиента `dob_years`.
    
Создадим функцию с именем `age_group(age)` c параметром `age`,
    
в теле функции условная конструкция, которая сравнивает возраст клиента по категориям,
    
и возвращает категорию.    
    
Методом `apply` применим функцию к значениям `dob_years` и сохраним результат работы функции в новом столбце `age_group`.
    
</div>    

In [41]:
# обработка возрастов клиентов по категориям
def age_group(age):
    if age <= 34:
        return '19-34'
    if 34 < age <= 54:
        return '35-54'
    return '55-75'
df['age_group'] = df['dob_years'].apply(age_group)

<div style="border:solid blue 2px; padding: 20px">
 
Методом `value_counts()` посмотрим на наиболее часто встречающиеся категорий возрастов `age_group`
    
    
    
    
</div>

In [42]:
# подсчет наиболее часто встречающихся категорий возрастов
df['age_group'].value_counts()

35-54    10688
19-34     5967
55-75     4799
Name: age_group, dtype: int64

<div style="border:solid blue 2px; padding: 20px">
    
Выделим категории по ежемесячному доходу клиента `total_income`.
    
    
Создадим функцию с именем `total_income_group(total_income)` c параметром `total_income`,
    
в теле функции условная конструкция, которая сравнивает ежемесячный доход клиента по категориям,
    
и возвращает категорию.    
    
Методом `apply` применим функцию к значениям `total_income` и 
    
сохраним результат работы функции в новом столбце `total_income_group`.
    
</div> 

In [43]:
# обработка ежемесячного дохода клиентов по категориям
def total_income_group(total_income):
    if total_income <= 50000:
        return 0
    if 50000 < total_income <= 100000:
        return 1
    if 100000 < total_income <= 200000:
        return 2
    return 3
df['total_income_group'] = df['total_income'].apply(total_income_group)

<div style="border:solid blue 2px; padding: 20px">
 
Методом `value_counts()` посмотрим на наиболее часто встречающиеся категорий ежемесячного дохода `total_income_group`
    
    
    
    
</div>

In [44]:
# подсчет наиболее часто встречающихся категорий ежемесячного дохода
df['total_income_group'].value_counts()

2    11924
3     5067
1     4091
0      372
Name: total_income_group, dtype: int64

<div style="border:solid blue 2px; padding: 20px">
    
**В данных есть словари.** 
    
`groupby()` метод заменит стандартные числовые индексы на значения столбца, по которому выполним группировку.
    
Выделим словарь по образованию `education`	`education_id`	
</div>    

In [45]:
# группировка по уровню образования
df.groupby('education').agg({'education_id':['unique','count']})

Unnamed: 0_level_0,education_id,education_id
Unnamed: 0_level_1,unique,count
education,Unnamed: 1_level_2,Unnamed: 2_level_2
высшее,[0],5250
начальное,[3],282
неоконченное высшее,[2],744
среднее,[1],15172
ученая степень,[4],6


<div style="border:solid blue 2px; padding: 20px">
    

Выделим словарь по семейному положению `family_status`	`family_status_id`	
    
</div>    

In [46]:
# группировка по семейному положению
df.groupby('family_status').agg({'family_status_id':['unique','count']})

Unnamed: 0_level_0,family_status_id,family_status_id
Unnamed: 0_level_1,unique,count
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2
в разводе,[3],1195
вдовец / вдова,[2],959
гражданский брак,[1],4151
женат / замужем,[0],12339
не женат / не замужем,[4],2810


<div style="border:solid blue 2px; padding: 20px">
    
**Итоги по категоризации данных**    
    
Категоризацию по основным целям кредита `purpose_name` провели при лемматизации: `недвижимость` - на первом месте.

Категоризируем данные по принципу наличия леммы в каждом запросе на кредит.    
    
- `недвижимость` 10811
- `автомобиль` 4306
- `образование` 4013
- `свадьба` 2324    

    
Категоризация по по возрасту клиента `dob_years`: возраст в диапазоне `от 35` `до 54` - на первом месте.  

Категоризируем данные по принципу трудовой занятости, люди среднего возраста по логике в основном трудоустроены.    
    
- `35-54`    10688
- `19-34`     5967
- `55-75`     4799    
      
    
Категоризация по ежемесячному доходу клиента `total_income`: доход в диапазоне `от 100000` `до 200000` - на первом месте.  

Категоризируем данные по принципу наиболее распространенной *зарплатной вилки*.    
    
- `2`    11924
- `3`     5067
- `1`     4091
- `0`     372
    
**В данных присутствует словари**

Категоризируем данные по принципу `ключ:значение` поэтому выделили `словари` с идентификаторами. 
    
Словари выделяют 2 группы:
    
По образованию `education`	`education_id`: `среднее` - на первом месте.
    
- `высшее`                  5250
- `начальное`                282
- `неоконченное высшее`      744
- `среднее`                15172
- `ученая степень`             6   

    
По семейному положению `family_status`	`family_status_id`: `женат / замужем` - на первом месте.
    
    
- `в разводе`	            	1195
- `вдовец / вдова`	        	959
- `гражданский брак`    		4151
- `женат / замужем`	        	12339
- `не женат / не замужем`		2810
   
    
    
</div>    

## Ответы на вопросы

### Есть ли зависимость между наличием детей и возвратом кредита в срок?

<div style="border:solid blue 2px; padding: 20px">
    

Подготовим сводную таблицу со статистикой наличия и отсутствия задолженности по возврату кредита методом `pivot_table()`
    
</div>  

In [47]:
# составление сводной таблицы и получение доли по просрочке кредита
children_pivot_table_debt = df.pivot_table(index=['children'], columns= 'debt', values='dob_years', aggfunc='count')
children_pivot_table_debt['share_of _total'] = children_pivot_table_debt[1]/(children_pivot_table_debt[0]+children_pivot_table_debt[1])
children_pivot_table_debt

debt,0,1,share_of _total
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13028.0,1063.0,0.075438
1,4410.0,445.0,0.091658
2,1926.0,202.0,0.094925
3,303.0,27.0,0.081818
4,37.0,4.0,0.097561
5,9.0,,


<div style="border:solid blue 2px; padding: 20px">
    

По сводной таблице `children_pivot_table_debt` можно точно сказать, что 
    
связь между рождением детей и своевременным погашением кредита слабая.
    
Большинство клиентов, у которых нет детей, имеют меньше проблем со своевременным погашением кредита.
    
Да, есть разница между заемщиками с разным количеством детей в семье, 
    
но их доля от общего числа по каждой группе имеет равное распределение.
    
С рождением детей в семье меняется сознание родителей. Большая ответственности помогает переосмыслить жизненные ценности.
    
И результаты исследования подтверждают факт своевременного возврата кредита в срок.
    
Конечно нельзя не учитывать финансовую нагрузку на семью с рождением детей, поэтому в данных появляются просрочки по возврату.
    
Далее рассмортим взаимосвязь между семейным положением.
    
</div>  

### Есть ли зависимость между семейным положением и возвратом кредита в срок?

<div style="border:solid blue 2px; padding: 20px">
    

Подготовим сводную таблицу со статистикой наличия и отсутствия задолженности по возврату кредита методом `pivot_table()`
    
</div>  

In [48]:
# составление сводной таблицы и получение доли по просрочке кредита
family_status_pivot_table_debt = df.pivot_table(index=['family_status'], columns='debt', values='dob_years', aggfunc='count')
family_status_pivot_table_debt['share_of _total'] = family_status_pivot_table_debt[1]/(family_status_pivot_table_debt[0]+family_status_pivot_table_debt[1])
family_status_pivot_table_debt.sort_values('share_of _total', ascending=False)

debt,0,1,share_of _total
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
не женат / не замужем,2536,274,0.097509
гражданский брак,3763,388,0.093471
женат / замужем,11408,931,0.075452
в разводе,1110,85,0.07113
вдовец / вдова,896,63,0.065693


**Вывод**

<div style="border:solid blue 2px; padding: 20px">
    
По сводной таблице `family_status_pivot_table_debt` можно точно сказать, что у нас та же картина, что и раньше.
    
Существует слабая связь между семейным положением и возвратом кредита в срок, 
    
похоже, что группы `вдовец / вдова` и `в разводе` имеют хорошие показатели относительно `не женат / не замужем`.
    
Наблюдаем похожие результаты группе `женат / замужем` с предыдущей таблицей в группе `children` `0`.
    
Вероятно в семье, у которых нет детей, финансовая нагрузка меньше, поэтому они чаще возвращают кредит в срок.
    
Существует ли связь между уровнем дохода и своевременным погашением кредита?
    
</div>    

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

<div style="border:solid blue 2px; padding: 20px">
    

Подготовим сводную таблицу со статистикой наличия и отсутствия задолженности по возврату кредита методом `pivot_table()`
    
</div>  

In [49]:
# составление сводной таблицы и получение доли по просрочке кредита
total_income_group_pivot_table_debt = df.pivot_table(index=['total_income_group'], columns='debt', values='dob_years', aggfunc='count')
total_income_group_pivot_table_debt['share_of _total'] = total_income_group_pivot_table_debt[1]/(total_income_group_pivot_table_debt[0]+total_income_group_pivot_table_debt[1])
total_income_group_pivot_table_debt

debt,0,1,share_of _total
total_income_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,349,23,0.061828
1,3760,331,0.080909
2,10895,1029,0.086297
3,4709,358,0.070653


**Вывод**

<div style="border:solid blue 2px; padding: 20px">
    
По сводной таблице `total_income_group_pivot_table_debt` можно увидеть показатели по группам доходов клиентов.
    
Группа `0`, где доход до `50000`самая малочисленная, но с лучшими показателями по доле невозврата кредита в срок.
    
Группа `1`, где доход в диапазоне от `50000` до `100000`, пользуются кредитом чаще, но и возвращают с задержками.
    
Группа `2`, где доход в диапазоне от `100000` до `200000`, **основная группа** клиентов, но и доля просрочек больше.    
    
Группа `3`, где доход выше `200000`, вовремя возвращают кредит, он иногда задерживают, вероятно готовы оплачивать просрочку.    
    
И наконец самое интересное **как разные цели кредита влияют на его возврат в срок?**
    
</div>   

### Как разные цели кредита влияют на его возврат в срок?

<div style="border:solid blue 2px; padding: 20px">
    

Подготовим сводную таблицу со статистикой наличия и отсутствия задолженности по возврату кредита методом `pivot_table()`
    
</div>  

In [50]:
# составление сводной таблицы и получение доли по просрочке кредита
purpose_name_pivot_table_debt = df.pivot_table(index=['purpose_name'], columns='debt', values='dob_years', aggfunc='count')
purpose_name_pivot_table_debt['share_of _total'] = purpose_name_pivot_table_debt[1]/(purpose_name_pivot_table_debt[0]+purpose_name_pivot_table_debt[1])
purpose_name_pivot_table_debt.sort_values('share_of _total', ascending=False)

debt,0,1,share_of _total
purpose_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,3903,403,0.09359
образование,3643,370,0.0922
свадьба,2138,186,0.080034
недвижимость,10029,782,0.072334


<div style="border:solid blue 2px; padding: 20px">
    

По сводной таблице `purpose_name_pivot_table_debt` можно точно сказать, что 
    
Большинство клиентов, у которых операции с `недвижимостью`, имеют лучшие показатели по возврату кредита в срок.

`Свадьба` - это создание новой ячейки общества. ГОРКО!!!ГОРЬКО!!!ГОРЬКО!!!ГОРКО!!! Много поцелуев - хороший результат.

Почему больше должников по `автокредитам`: видимо клиенты предпочитают оплатить просрочку, чем погасить тело кредита.
    
Рассмотрим проблему `образования в кредит`: почему не возвращают в срок? Потому что условия по кредиту спецефические:
    
4-х летнее образование при стоимости `200000` в год переплата за весь срок составит около `80000`. Итого `920000`.
    
Заемщик - сам студент. Просрочка `20% годовых`. Решение проблемы - пересмотреть условия кредитования!!!
    
Информация на сегодняшний день: образовательный кредит с господдержкой всего `3%` - проблему решили на уровне государства!!!
     
</div>  

## Общий вывод

<div style="border:solid blue 2px; padding: 20px">

Мы выявили сильные и слабые места для всех категорий клиентов. 
    
Можем порекомендовать специалистам уделить особое внимание на уровень дохода клиентов при выдаче кредитов,
    
потому что клиенты относящиеся к группе с самым высоким уровнем дохода скорее всего это юр.лица.

[Сводная таблица](#general_conclusion)
    
**total_income**
* `income_type	
* `безработный`	    131339.751676
* `в декрете`	     53829.130729
* `госслужащий`	    150447.935283
* `компаньон`	    172357.950966 - `юр.лицо` 
* `пенсионер`	    118514.486412
* `предприниматель`	499163.144947 - `юр.лицо`   
* `сотрудник`	    142594.396847
* `студент`	         98201.625314
    
    
Так например физ.лицо с действующим ИП - это предприниматель, или
    
ООО или АО с большим коллективом в штате - это уже компаньон (в лице учредителя или акционера)
    
Они не должны учитвыаться при построении модели, 
    
поскольку на их доход, получаемый от деятельности организации, влияют совершенно другие факторы,
    
чем на оклад (гарантированные ежемесячные выплаты) у сортудника или госслужащего,
    
где уровень дохода в основном зависит от должности, которую они занимают.
     

    
</div>  

## Чек-лист готовности проекта

- [x]  открыт файл;
- [x]  файл изучен;
- [x]  определены пропущенные значения;
- [x]  заполнены пропущенные значения;
- [x]  есть пояснение, какие пропущенные значения обнаружены;
- [x]  описаны возможные причины появления пропусков в данных;
- [x]  объяснено, по какому принципу заполнены пропуски;
- [x]  заменен вещественный тип данных на целочисленный;
- [x]  есть пояснение, какой метод используется для изменения типа данных и почему;
- [x]  удалены дубликаты;
- [x]  есть пояснение, какой метод используется для поиска и удаления дубликатов;
- [x]  описаны возможные причины появления дубликатов в данных;
- [x]  выделены леммы в значениях столбца с целями получения кредита;
- [x]  описан процесс лемматизации;
- [x]  данные категоризированы;
- [x]  есть объяснение принципа категоризации данных;
- [x]  есть ответ на вопрос: "Есть ли зависимость между наличием детей и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между семейным положением и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Как разные цели кредита влияют на его возврат в срок?";
- [x]  в каждом этапе есть выводы;
- [x]  есть общий вывод.