# Исследование надежности заемщиков


## Откройте таблицу и изучите общую информацию о данных

**Задание 1. Импортируйте библиотеку pandas. Считайте данные из csv-файла в датафрейм и сохраните в переменную `data`. Путь к файлу:**

`/datasets/data.csv`

In [1]:
import pandas as pd

try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

**Задание 2. Выведите первые 20 строчек датафрейма `data` на экран.**

In [2]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 3. Выведите основную информацию о датафрейме с помощью метода `info()`.**

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Предобработка данных

### Удаление пропусков

**Задание 4. Выведите количество пропущенных значений для каждого столбца. Используйте комбинацию двух методов.**

In [4]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5. В двух столбцах есть пропущенные значения. Один из них — `days_employed`. Пропуски в этом столбце вы обработаете на следующем этапе. Другой столбец с пропущенными значениями — `total_income` — хранит данные о доходах. На сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. Например, у человека с типом занятости `сотрудник` пропуск в столбце `total_income` должен быть заполнен медианным доходом среди всех записей с тем же типом.**

In [5]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()

### Обработка аномальных значений

**Задание 6. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. таким артефактом будет отрицательное количество дней трудового стажа в столбце `days_employed`. Для реальных данных это нормально. Обработайте значения в этом столбце: замените все отрицательные значения положительными с помощью метода `abs()`.**

In [6]:
data['days_employed'] = data['days_employed'].abs()

**Задание 7. Для каждого типа занятости выведите медианное значение трудового стажа `days_employed` в днях.**

In [7]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения. Исправить такие значения сложно, поэтому оставьте их как есть. Тем более этот столбец не понадобится вам для исследования.

**Задание 8. Выведите перечень уникальных значений столбца `children`.**

In [8]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

**Задание 9. В столбце `children` есть два аномальных значения. Удалите строки, в которых встречаются такие аномальные значения из датафрейма `data`.**

In [9]:
data = data[(data['children'] != -1) & (data['children'] != 20)]

**Задание 10. Ещё раз выведите перечень уникальных значений столбца `children`, чтобы убедиться, что артефакты удалены.**

In [10]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

### Удаление пропусков (продолжение)

**Задание 11. Заполните пропуски в столбце `days_employed` медианными значениями по каждого типа занятости `income_type`.**

In [11]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()

**Задание 12. Убедитесь, что все пропуски заполнены. Проверьте себя и ещё раз выведите количество пропущенных значений для каждого столбца с помощью двух методов.**

In [12]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13. Замените вещественный тип данных в столбце `total_income` на целочисленный с помощью метода `astype()`.**

In [13]:
data['total_income'] = data['total_income'].astype(int)

### Обработка дубликатов

**Задание 14. Обработайте неявные дубликаты в столбце `education`. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведите их к нижнему регистру. Проверьте остальные столбцы.**

In [14]:
data['education'] = data['education'].str.lower()

**Задание 15. Выведите на экран количество строк-дубликатов в данных. Если такие строки присутствуют, удалите их.**

In [15]:
data.duplicated().sum()

71

In [16]:
data = data.drop_duplicates()

### Категоризация данных

**Задание 16. На основании диапазонов, указанных ниже, создайте в датафрейме `data` столбец `total_income_category` с категориями:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.


**Например, кредитополучателю с доходом 25000 нужно назначить категорию `'E'`, а клиенту, получающему 235000, — `'B'`. Используйте собственную функцию с именем `categorize_income()` и метод `apply()`.**

In [17]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E'
        elif 30001 <= income <= 50000:
            return 'D'
        elif 50001 <= income <= 200000:
            return 'C'
        elif 200001 <= income <= 1000000:
            return 'B'
        elif income >= 1000001:
            return 'A'
    except:
        pass

In [18]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**Задание 17. Выведите на экран перечень уникальных целей взятия кредита из столбца `purpose`.**

In [19]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18. Создайте функцию, которая на основании данных из столбца `purpose` сформирует новый столбец `purpose_category`, в который войдут следующие категории:**

- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.

**Например, если в столбце `purpose` находится подстрока `'на покупку автомобиля'`, то в столбце `purpose_category` должна появиться строка `'операции с автомобилем'`.**

**Используйте собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучите данные в столбце `purpose` и определите, какие подстроки помогут вам правильно определить категорию.**

In [20]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'

In [21]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

### Шаг 3. Исследуйте данные и ответьте на вопросы

#### 3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [22]:
data_children = data.pivot_table(index=['children'], values='debt', aggfunc=['sum','count', 'mean'])
display(data_children)
data_children = data_children.reset_index().droplevel(1, axis=1)
display(data_children)
display(data_children.sum())

 

Unnamed: 0_level_0,sum,count,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,1063,14091,0.075438
1,444,4808,0.092346
2,194,2052,0.094542
3,27,330,0.081818
4,4,41,0.097561
5,0,9,0.0


Unnamed: 0,children,sum,count,mean
0,0,1063,14091,0.075438
1,1,444,4808,0.092346
2,2,194,2052,0.094542
3,3,27,330,0.081818
4,4,4,41,0.097561
5,5,0,9,0.0


children       15.000000
sum          1732.000000
count       21331.000000
mean            0.441705
dtype: float64

**Вывод:** 

из полученных данных нельзя с точностью сказать, что прослеживается высокая зависимость между количеством детей и возвратом кредита в срок. например, у семьи с 5 детьми нет задержек по возвратом вовсе, а семьи у которых 4 ребенка самый большой процент невозратов из всего списка. на втором месте по проценту находятся люди у которых вообще нет детей, при этом стоит учитывать их самое большое количество в абсолютных величинах.

<b>Выводы:</b>
<p>На основании полученных данных можно сказать, что основная доля (порядка 66 %) клиентов по кредитам приходится на людей без детей и их показатель невозрата является самым минимальным(7,5%) из представленой выборки.</p> <p>Группы людей, которые имеют одного или двух детей, показывают наихудший результат в размере 9,2 % и 9,4 % соответственно.</p> <p> Остальные данные являются нерелевантнами для анализа в рамках количественной выборки данных категорий.</p>




#### 3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [27]:
data_status = data.pivot_table(index=['family_status'], values='debt', aggfunc=['count','sum', 'mean'])
display(data_status)
data_status = data_status.reset_index().droplevel(1, axis=1)
display(data_status.sum())

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,debt,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Не женат / не замужем,2796,273,0.097639
в разводе,1189,84,0.070648
вдовец / вдова,951,63,0.066246
гражданский брак,4134,385,0.09313
женат / замужем,12261,927,0.075606


family_status    Не женат / не замужемв разводевдовец / вдовагр...
count                                                        21331
sum                                                           1732
mean                                                      0.403269
dtype: object

**Вывод:** 
<p> Проанализиров зависимость семейного положения и возврата кредита, можно смело сказать, что более 57 % кредитов приходится на семейные пары в официальном браке и их показатель невозврата находится на уровне 7,5 %, что значительно ниже(~2%) показателя невозрата людей не женатых/не замужем или находяшихся в гражданском браке </p>
<p> По другим категориям людей, показатель невозрата еще ниже, но с точки зрения оценки и общего количества клиентов их удельный вес небольшой </p>


#### 3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [29]:
data_income = data.pivot_table(index=['total_income_category'],  values='debt', aggfunc={'sum','count'})
data_income['percent']=(data_income['sum']/data_income['count'])
display(data_income.sort_values('percent'))

Unnamed: 0_level_0,count,sum,percent
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,349,21,0.060172
B,5014,354,0.070602
A,25,2,0.08
C,15921,1353,0.084982
E,22,2,0.090909


**Вывод:** 
<p> В рамках данного анализа, можно выделить тот фактор, что порядка 75 % клиентов в ходят в группу С( с доходом от 50 до 200 тыс) при этом данная группа является менее привлекательная, т.к. их процент не возратов составляет 8,5 %, что на 1,5 % хуже группы B( доход от 30 до 50 тыс).</p> 
<p> По остальным группа данные являются слишком маленькими для включения их в общий анализ. </p>

#### 3.4 Как разные цели кредита влияют на его возврат в срок?

In [28]:
data_purpose = data.pivot_table(index=['purpose_category'],  values='debt', aggfunc={'sum','count'})
data_purpose['percent']=(data_purpose['sum']/data_purpose['count'])
display(data_purpose.sort_values('percent'))# Ваш код будет здесь. Вы можете создавать новые ячейки.

Unnamed: 0_level_0,count,sum,percent
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с недвижимостью,10751,780,0.072551
проведение свадьбы,2313,183,0.079118
получение образования,3988,369,0.092528
операции с автомобилем,4279,400,0.09348


**Вывод:**
<p> По итогам данного сравнения можно сказать, что наилучший процент по невозратам кредита связан с целью "операции с недвижимостью" и составляет 7,3%, немногим хуже обстоят дела с кредитами на проведения свадьбы, порядка 7,9 %. Но наихудший результат связан с целью получения образования и операции с автомобилем, он составляет ~9.3% </p>

#### 3.5 Приведите возможные причины появления пропусков в исходных данных.

*Ответ:* пропуски в данной таблице встретились в столбцах: days_employed и total_income. Основной причиной данных пропусков являлся человеческий фактор или ошибка в формулах, так, например,  в кол-во дней работы попали отрицательные значения.

Однако, если пристально взглянуть на на наши данные, то увидим что пропуски в столбцах "трудовой стаж" и "ежемесячный доход" абсолютно идентичны. Количество ячеек с отсутствующими данными в обоих указанных столбцах совпадает и равно 2174. Маловероятно, что специалисты по выдаче кредитов, заполнив все без исключения ячейки других столбцов по каждому кредитополучателю, оставляли незаполненными именно два показателя, и сделали это ровно 2174 раза в каждом столбце. Даже не проводя проверку, во всех ли случаях незаполненные ячейки находятся в одной и то же строке с высокой долей вероятности можно утверждать, что произошла техническая ошибка при формировании таблицы с исходными данными (либо некий сбой во время выгрузки данных на анализ, либо при объединении данных в единый файл, который также должен был передаваться на анализ, либо эти данные не собирались)

#### 3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

*Ответ:* 

    #среднее значение(mean) не учитывает резкие колебания в цифрах и может привести к неправильной интерпритации значений, в отличие от медианного значения, который фомируется по возрастанию и определяет одинаковое кол-во значений слева и права

### Шаг 4: общий вывод.

 
Проанализиров данные по разным критериям и их влиянием на возраты по кредитам, можно сказать,что:

<br>1)люди у которых нет детей имеют наименьшую долю (7,5 %) невозратов кредитов в сравнении с людьми у которых один ребенок - 9,2 % и два ребенка - 9,4 %. </br>

<br>2)Также, просматривается влияние  семейного положения на данный показатель, так, люди находящиеся в официальном браке более четко соблюдают сроки возврата по кредиту и доля просрочки составляет 7,5 %, в то время как, холостые люди или находящиеся в гражданском браке, чаще нарущают сроки и доля просрочки составляет 9,7 % и 9,3 % соответственно</br>

<br>3) Учитывая выборку по доходу, можно сделать выводы только по двум группам граждан , т.к. по другим категориям она в разрезе данных является несуществена. Стоит отметить, что среди групп B ( доход 30-50 тыс) и С ( доход 50-200 тыс), количество заявок из группы С практически в три раза превышает кол-во заявок из группы B. При этом показатель невозратов в группе B на 1,5 % ниже группы С и составляет 7 %</br>

<br>4) Оценивая цели кредита и уровень возратов, можно сказать, что удельный вес цели "операции с недвижомостью' от всего списка целей занимает ~50 % и имеет наименьшую долю невозратов 7,2 %, возможно это связанно с долгосрочным планированием, статусом семейного положения и отсутствием детей. Наихудшая доля в данном разрезе оказалась у цели 'операция с автомобилем' и составила 9,3 %</br>

<br>Для улучшения качественного анализа, я бы предложил еще добавить инфорамацию о месте работы, количество дней на одной работе, а не общее количество дней, т.к. оно не является релевантным для принятия решения, например, пенсионер практически всегда будет иметь данный показатель намного лучше, чем студент,только устроившийся на работу. Также, на мой взгляд, будет верным понимать динамику поступления ДС за последнии  5 лет, а не общий доход на сегодня.</br>
