# Вся работа состоит из трех больших блоков:

- #### Базовые операции с датафреймами
- #### Вычисление новых признаков и группировка данных
- #### Визуализация данных



# Авторские подсказки

В каждом задании вам даны авторские подсказки - результат выполнения авторского кода для решения этой задачи. Они вам даны просто для понимания, в правильном ли направлении вы идете. Формат вывода вашего кода не обязательно должен совпадать с форматом в подсказках. Ячейки с ответом изменять не рекомендуется - проводите эксперименты в новых.


# Описание задачи

Задача кредитного скоринга - одна из наиболее популярных областей в банковской индустрии, где применяется анализ данных

Признаки клиентов банка:

- ```age``` - возраст (вещественный)
- ```MonthlyIncome``` - месячный доход (вещественный)
- ```DebtRatio``` - Debt-to-income Ratio (вещественный)
- ```NumberOfOpenCreditLinesAndLoans``` - число заемов и кредитных линий
- ```NumberRealEstateLoansOrLines``` - число ипотек и заемов, связанных с недвижимостью (натуральное число)
- ```NumberOfDependents``` - число членов семьи, которых содержит клиент, исключая самого клиента (натуральное число)
- ```defaulted``` - выплачен или не выплачен в конечном итоге кредит заемщиком

В этой работе мы будем исследовать данные о заемщиках и научимся отвечать на вопросы о предоставленных нам данных.

# Базовые операции с датафреймами

## Задача 1

Считайте файл ```credit_data.csv``` в переменную ```df```

In [None]:
import pandas as pd

Определите размер таблицы

Посмотрите первые пять строк

Выведите список названий столбцов

## Задача 2

Определите число пропусков в каждом столбце (могут пригодиться методы ```isnull``` и ```sum```)

Определите долю пропусков в каждом столбце (могут пригодиться методы ```isnull``` и ```mean```)

## Задача 3

 Определите долю заемщиков, которые не выплатили кредит (колонка ```defaulted```)

## Задача 4

 Определите количество заемщиков, у которых ежемесячный доход ```MonthlyIncome``` выше среднего.

## Задача 5

 Вычислите медианный возраст заемщиков, которые не вернули кредит (```defaulted=1```). Он больше или меньше медианного возраста всех заемщиков?

## Задача 6

 Сколько заемщиков старше 40 лет имеют ежемесячный доход больше среднего ежемесячного дохода по всей выборке?

# Вычисление новых признаков и группировка данных

## Задача 7 

Вычислите новый признак ```age_group``` на основе признака ```age```, который разбивает заемщиков на 3 возрастные группы:
- до 30 лет включительно (операция ```<=```) - группа 1
- от 30 лет не включительно и до 50 лет включительно - группа 2
- строго старше 50 лет - группа 3

Для этого заведите отдельную функцию ```calculate_age_group``` и передайте ее в метод ```apply```, который позовете от столбца ```age```

## Задача 8

Вычислите количество заемщиков в каждой группе нового вычисленного признака ```age_group``` с помощью метода ```value_counts```

## Задача 9
Посчитайте долю заемщиков, которые не вернули кредит, в каждой из вычисленных возрастных групп (группировка по возрастной группе и применение метода ```mean``` к колонке ```defaulted```)

## Задача 10

Визуализируйте полученные данные в виде гистограммы

Добавьте сетку на график, дайте графику название

In [None]:
# Импортируем модуль для визуализации данных
from matplotlib import pyplot as plt

## Задача 11

 Какие выводы вы можете сделать? С увеличением возраста заемщика риск невозврата кредита становится больше или меньше? Дайте ответ на вопрос в текстовой ячейке ниже

Ответ:

## Задача 12

 Вычислите новый признак ```alone_and_poor```, который равен ```1``` у заемщиков, которые не содержат никого, кроме себя (```NumberOfDependents == 0```) и у которых месячный доход (```MonthlyIncome```) меньше 10% квантили по этому признаку среди всех заемщиков. Инече этот признак сделайте равным 0

Для этого напишите функцию ```calculate_alone_and_poor```, в которой вы будете принимать строку, доставать нужные поля у этой строки, и проверять перечисленные выше условия.

Заранее посчитайте значение 10% квантили по столбцу ```MonthlyIncome```, и передайте это значение в функцию как дефолтный аргумент

Затем полученную функцию примените ко всему датайрейму с помощью метода ```apply```. Не забудьте указать параметр ```axis=1``` в методе ```apply``` (применять переданную функцию ко строкам), иначе код упадет с ошибкой.

In [None]:
# 10%-квантиль


Сколько получилось людей с признаком ```alone_and_poor``` равным 1?

# Визуализация данных

## Задача 13

Постройте гистограмму распределения возрастов всех заемщиков. Для этого вам может понадобиться метод ```plot.hist()```. Обратите внимание, что у метода ```hist()``` есть параметр ```bins```, который отвечает за мелкость разбиения гистограммы. Постройте два отдельных графика с параметрами ```bins=10``` и ```bins=30```.

Подпишите оси, добавьте сетку на графики, дайте графикам название.

Также не забывайте, что чтобы картинка отрисовалась, нужно последней строкой кода написать ```plt.show()```

In [None]:
from matplotlib import pyplot as plt

## Задача 14
Теперь постройте гистограмму распределения числа открытых кредитных линий (```NumberOfOpenCreditLinesAndLoans```) с помощью функции ```distplot()``` из модуля ```seaborn```

Подпишите оси, добавьте сетку на графики, дайте графику название.

## Задача 15
Постройте гистограмму распределения признака ```NumberOfDependents``` для заемщиков, которые успешно вернули кредит (```defaulted = 0```)

Подпишите оси, добавьте сетку на графики, дайте графику название.

## Задача 16
Вычислите среднее значение признака ```NumberOfDependents``` для каждого возраста (```groupby``` по возрасту и ```mean``` от столбца ```NumberOfDependents```) и постройте гистограмму распределения полученных значений (```plot.bar()```)

Сделайте график покрупнее, например 14 на 10 дюймов с помощью параметра ```figsize```

Подпишите оси, добавьте сетку на графики, дайте графику название.

## Задача 17

 Видите ли вы теперь какие-то аномалии в данных? Определите, что это за аномалии, и очистите данные от этих аномалий. Затем снова постройте такой же график, как в предыдущем задании, только уже на датафрейме с очищенными выбросами