**Цель работы:** <br>
Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

## Загрузка набора данных

### Описание предметной области
Вариант № 8 <br>
Набор данных: credit_risk.csv <br>
Атрибуты:
1. возраст
2. доход
3. статус домовладения (Собственный, Ипотека, Аренда)
4. стаж работы в годах
5. цель кредита
6. сумма кредита по заявке
7. процентная ставка
8. статус одобрения кредита
9. сумма кредита в процентах от дохода
10. не допустил ли заявитель ранее дефолта по кредиту (да, нет)
11. длина кредитной истории заявителя

#### 1. Чтение файла (набора данных)

Загрузим датасет с помощью библиотеки pandas. url указывает местоположение датасета на компьютере. С помощью команды `read_csv()` прочитаем наш датасет.

In [1]:
import pandas as pd

url = r"C:\ГУАП\5 семестр\ВвАД\LR1\credit_risk.csv"
df = pd.read_csv(url, encoding="utf-8")

#### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода `head`.

Метод `head()` – по умолчанию выводит первые 5 строк набора данных, если в скобках
указать параметр, то возвращает количество строк, указанное в параметре.

In [2]:
df = pd.read_csv(url, encoding="utf-8") # чтение таблицы, где url – путь к файлу
df.head(20)

Unnamed: 0,Id,Age,Income,Home,Emp_length,Intent,Amount,Rate,Status,Percent_income,Default,Cred_length
0,0,22.0,59000,RENT,123.0,PERSONAL,35000,16.02,1,0.59,Y,3
1,1,21.0,9600,OWN,5.0,EDUCATION,1000,11.14,0,0.1,N,2
2,2,25.0,9600,MORTGAGE,1.0,MEDICAL,5500,12.87,1,0.57,N,3
3,3,23.0,65500,RENT,4.0,MEDICAL,35000,15.23,1,0.53,N,2
4,4,24.0,54400,RENT,8.0,MEDICAL,35000,14.27,1,0.55,Y,4
5,5,21.0,9900,OWN,2.0,VENTURE,2500,7.14,1,0.25,N,2
6,6,26.0,77100,RENET,8.0,EDUCATION,35000,12.42,1,0.45,N,3
7,7,24.0,78956,RENT,5.0,MEDICAL,35000,11.11,1,0.44,N,4
8,8,24.0,83000,RENT,8.0,PERSONAL,35000,8.9,1,0.42,N,2
9,9,21.0,10000,OWN,6.0,VENTURE,1600,14.74,1,0.16,N,3


Анализируя таблицу видно, что проблем с названиями столбцов нет: 
- в названиях нет пробелов, они разделены нижним подчёркиванием;
- в названиях используется один язык;
- каждое название отражает суть своего столбца.

2.2 Оценка данных с помощью метода info.

Метод `info()` , предоставляет общую
информацию о таблице, включая названия столбцов, типы данных, хранящиеся в них, и
количество ненулевых значений в каждом столбце.

In [3]:
df = pd.read_csv(url, encoding="utf-8")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 652 entries, 0 to 651
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Id              652 non-null    int64  
 1   Age             652 non-null    float64
 2   Income          652 non-null    int64  
 3   Home            652 non-null    object 
 4   Emp_length      643 non-null    float64
 5   Intent          652 non-null    object 
 6   Amount          652 non-null    int64  
 7   Rate            586 non-null    float64
 8   Status          652 non-null    int64  
 9   Percent_income  652 non-null    float64
 10  Default         652 non-null    object 
 11  Cred_length     652 non-null    int64  
dtypes: float64(4), int64(5), object(3)
memory usage: 61.3+ KB


Из данной таблицы видно, что всего 652 строк (0 до 651) и 12 столбцов. Количество непустых значений отображается в столбце Non_Null Count. Например, в столбце Rate всего 586 заполненных значений, а остальные 652 - 586 = 66 пустые.

2.3 Оценка данных с помощью метода describe.

Метод describe, который создаёт статистическое резюме по числовым колонкам

In [4]:
df = pd.read_csv(url, encoding="utf-8")
df.describe()

Unnamed: 0,Id,Age,Income,Emp_length,Amount,Rate,Status,Percent_income,Cred_length
count,652.0,652.0,652.0,643.0,652.0,586.0,652.0,652.0,652.0
mean,325.495399,24.285276,90008.855828,4.601866,18800.996933,12.289471,0.601227,0.279831,3.01227
std,188.352535,7.841061,69530.312525,7.281616,9152.89625,3.272772,0.490022,0.150231,0.808843
min,0.0,21.0,9600.0,0.0,1000.0,5.42,0.0,0.01,2.0
25%,162.75,23.0,44000.0,2.0,10000.0,10.25,0.0,0.16,2.0
50%,325.5,24.0,69998.0,4.0,21850.0,12.18,1.0,0.28,3.0
75%,488.25,25.0,128499.0,7.0,25000.0,14.72,1.0,0.38,4.0
max,649.0,144.0,500000.0,123.0,35000.0,21.21,1.0,0.83,4.0


Вывод включает: <br>
count -> Количество непустых значений<br>
mean -> Среднее значение<br>
std -> Стандартное отклонение (разброс данных)<br>
min -> Минимальное значение<br>
25% -> Первый квартиль (25% значений меньше или равно этому числу)<br>
50% -> Медиана (второй квартиль)<br>
75% -> Третий квартиль<br>
max -> Максимальное значение

2.4 Оценка названий столбцов

In [5]:
df = pd.read_csv(url, encoding="utf-8")
df.columns

Index(['Id', 'Age', 'Income', 'Home', 'Emp_length', 'Intent', 'Amount', 'Rate',
       'Status', 'Percent_income', 'Default', 'Cred_length'],
      dtype='object')

#### 3. Проверка пропусков

Проверить данные на наличие пропусков и устранить их, если они есть

С помощью метода isna() и sum() посчитаем количество пустых значений в каждой колонке.

In [6]:
print(df.isna().sum())

Id                 0
Age                0
Income             0
Home               0
Emp_length         9
Intent             0
Amount             0
Rate              66
Status             0
Percent_income     0
Default            0
Cred_length        0
dtype: int64


Удаляем данные с пропуском

In [7]:
df = df.dropna(subset=['Emp_length', 'Rate'])

Проверяем, что данных с пропуском больше нет

In [8]:
print(df.isna().sum())

Id                0
Age               0
Income            0
Home              0
Emp_length        0
Intent            0
Amount            0
Rate              0
Status            0
Percent_income    0
Default           0
Cred_length       0
dtype: int64


#### 4. Проверка дубликатов

4.1 Проверка явных дубликатов

В этом коде выполняется проверка и удаление дубликатов строк в датафрейме. Сначала с помощью `df.duplicated().sum()` определяется количество повторяющихся записей, а команда df[df.duplicated()] выводит сами строки-дубликаты для наглядности. После этого применяется метод `drop_duplicates()`, который удаляет все повторяющиеся строки, и выполняется сброс индексов с помощью `reset_index(drop=True)`, чтобы обновлённый датафрейм имел последовательную нумерацию. В заключение снова выводится количество дубликатов, что позволяет убедиться в успешном очищении набора данных.

In [9]:
print("\nДо удаления дубликатов")
print("Количество дубликатов:", df.duplicated().sum())

print("\nДубликаты строк:")
print(df[df.duplicated()])

df = df.drop_duplicates().reset_index(drop=True)

print("\nПосле удаления дубликатов")
print("Количество дубликатов:", df.duplicated().sum())


До удаления дубликатов
Количество дубликатов: 2

Дубликаты строк:
      Id   Age  Income  Home  Emp_length             Intent  Amount  Rate  \
650  649  23.0   58800  RENT         7.0  DEBTCONSOLIDATION   20000  7.66   
651  649  23.0   58800  RENT         7.0  DEBTCONSOLIDATION   20000  7.66   

     Status  Percent_income Default  Cred_length  
650       1            0.34       N            3  
651       1            0.34       N            3  

После удаления дубликатов
Количество дубликатов: 0


4.2 Проверка неявных дубликатов

В данном коде сначала выполняется подсчёт количества уникальных значений в столбцах **Home**, **Intent** и **Default** с помощью метода `value_counts()`, что позволяет увидеть, какие категории встречаются в данных и с какой частотой. После этого осуществляется унификация категориальных признаков: для признака **Home** исправлены различные написания и опечатки (например, значения OWN, MORTGAGE, RENT и ошибочное RENET приведены к единому виду — Own, Mortgage и Rent). Для признака **Intent** значения категорий были переведены в более удобочитаемую форму с использованием стандартного написания (PERSONAL заменено на Personal, EDUCATION на Education, и так далее). Для признака **Default** значения Yes и No были сокращены до компактных обозначений Y и N. После внесённых изменений снова выводятся частоты категорий, чтобы убедиться в правильности преобразований. Такой подход позволяет очистить и стандартизировать данные, исключить дублирование категорий и подготовить их к дальнейшему анализу.

In [10]:
print(df['Home'].value_counts(), '\n')
print(df['Intent'].value_counts(), '\n')
print(df['Default'].value_counts(), '\n')

df['Home'] = df['Home'].replace('OWN', 'Own').replace('MORTGAGE', 'Mortgage').replace('RENT', 'Rent').replace('RENET', 'Rent')
df['Intent'] = df['Intent'].replace('PERSONAL', 'Personal').replace('EDUCATION', 'Education').replace('MEDICAL', 'Medical').replace('VENTURE', 'Venture').replace('HOMEIMPROVEMENT', 'Homeimprovement').replace('DEBTCONSOLIDATION', 'Debtconsolidation')
df['Default'] = df['Default'].replace({'Yes': 'Y', 'No': 'N'})

print(df['Home'].value_counts(), '\n')
print(df['Intent'].value_counts(), '\n')
print(df['Default'].value_counts(), '\n')

Home
RENT        376
MORTGAGE    114
OWN          83
OTHER         2
RENET         1
Name: count, dtype: int64 

Intent
EDUCATION            128
VENTURE              108
PERSONAL             102
MEDICAL               92
DEBTCONSOLIDATION     87
HOMEIMPROVEMENT       59
Name: count, dtype: int64 

Default
N     438
Y     135
No      3
Name: count, dtype: int64 

Home
Rent        377
Mortgage    114
Own          83
OTHER         2
Name: count, dtype: int64 

Intent
Education            128
Venture              108
Personal             102
Medical               92
Debtconsolidation     87
Homeimprovement       59
Name: count, dtype: int64 

Default
N    441
Y    135
Name: count, dtype: int64 



#### 5. Провека типов данных

Перед преобразованием у столбцов датафрейма имелись разные типы данных, которые не всегда соответствовали их содержимому. Для корректной работы с данными и исключения ошибок при анализе и построении моделей было выполнено приведение типов с помощью метода `astype()`.

В частности, числовые идентификаторы, возраст, доход, сумма кредита, статус кредита и длительность кредитной истории были приведены к целому типу (int64), так как эти значения выражаются целыми числами. Поля, содержащие категориальные признаки (например, информация о жилье и цель кредита), были преобразованы к строковому типу (object). Показатели, которые могут принимать дробные значения, такие как стаж работы, процентная ставка и доля дохода, направляемая на погашение кредита, были приведены к вещественному типу (float64).

In [11]:
print("До преобразования:\n", df.dtypes)

df["Id"] = df["Id"].astype("int64")
df["Age"] = df["Age"].astype("int64")          
df["Income"] = df["Income"].astype("int64")    
df["Home"] = df["Home"].astype("object")       
df["Emp_length"] = df["Emp_length"].astype("float64")  
df["Intent"] = df["Intent"].astype("object")   
df["Amount"] = df["Amount"].astype("int64")    
df["Rate"] = df["Rate"].astype("float64")     
df["Status"] = df["Status"].astype("int64")    
df["Percent_income"] = df["Percent_income"].astype("float64")
df["Cred_length"] = df["Cred_length"].astype("int64")

print("\nПосле преобразования:\n", df.dtypes)

До преобразования:
 Id                  int64
Age               float64
Income              int64
Home               object
Emp_length        float64
Intent             object
Amount              int64
Rate              float64
Status              int64
Percent_income    float64
Default            object
Cred_length         int64
dtype: object

После преобразования:
 Id                  int64
Age                 int64
Income              int64
Home               object
Emp_length        float64
Intent             object
Amount              int64
Rate              float64
Status              int64
Percent_income    float64
Default            object
Cred_length         int64
dtype: object


#### 6. Группировка данных

Задание 1 <br>
Группировка - статус домовладения (home) по количеству дефолтов
(default) . Результат должен иметь примерно следующий вид.

Данный код выполняет группировку данных по признаку "Home" (тип жилья заемщика) и внутри каждой группы подсчитывает количество значений в столбце "Default" (например, 0 — нет дефолта, 1 — есть дефолт). Метод `groupby("Home")` объединяет строки по категориям жилья, а `value_counts()` считает частоту встречаемости различных значений признака "Default" в каждой группе. В результате формируется таблица, где для каждого типа жилья показано, сколько заемщиков допустили дефолт и сколько нет. Команда print(result) выводит полученный результат на экран.

In [12]:
result = df.groupby("Home")["Default"].value_counts()

print(result)

Home      Default
Mortgage  N           88
          Y           26
OTHER     Y            2
Own       N           71
          Y           12
Rent      N          282
          Y           95
Name: count, dtype: int64


**Вывод:** Из результата группировки видно распределение дефолтов (Default) по статусу домовладения (Home). Наибольшее количество заявителей с кредитами — у арендаторов (RENT), среди них встречается как наибольшее число без дефолта, так и значительная доля с дефолтом.

Задание 2 <br>
Группировка - цель кредита (intent) по количеству статуса
домовладения (home). Создать датафрейм. Переименовать столбец с количеством в “сount”. Отсортировать по убыванию столбца “count”. 

В этом коде выполняется группировка данных по признаку "Home" (тип жилья) и внутри каждой группы подсчитывается количество значений признака "Intent" (цель кредита). Для этого используется метод `groupby('Home')['Intent'].value_counts()`, который возвращает количество каждой цели кредита в разрезе категорий жилья. Команда `reset_index(name="count")` преобразует результат в удобный датафрейм с отдельным столбцом "count", где хранится число наблюдений. Затем данные сортируются методом `sort_values(by='count', ascending=False)`, чтобы сначала отображались наиболее часто встречающиеся комбинации "Home" и "Intent". В итоге формируется таблица, показывающая, какие цели кредитов наиболее характерны для разных типов жилья, отсортированная по убыванию частоты. Команда print(grouped) выводит результат на экран.

In [13]:
grouped = df.groupby('Home')['Intent'].value_counts().reset_index(name="count")

grouped = grouped.sort_values(by='count', ascending=False)

print(grouped)

        Home             Intent  count
14      Rent          Education     89
15      Rent            Venture     66
17      Rent           Personal     64
16      Rent  Debtconsolidation     64
18      Rent            Medical     61
19      Rent    Homeimprovement     33
0   Mortgage            Venture     26
1   Mortgage          Education     25
8        Own           Personal     20
2   Mortgage            Medical     19
3   Mortgage           Personal     17
4   Mortgage  Debtconsolidation     16
9        Own            Venture     16
10       Own    Homeimprovement     15
11       Own          Education     13
12       Own            Medical     12
5   Mortgage    Homeimprovement     11
13       Own  Debtconsolidation      7
6      OTHER          Education      1
7      OTHER           Personal      1


**Вывод:** Группировка показала, что основная часть заявок приходится на RENT, где лидируют цели EDUCATION, DEBTCONSOLIDATION, MEDICAL, VENTURE и PERSONAL. Для MORTGAGE преобладают EDUCATION и VENTURE, а для OWN — PERSONAL и HOMEIMPROVEMENT. Встречаются единичные значения для категорий OTHER и RENET.

Задание 3 <br>
Сводная таблица (pivot_table) - средний доход income для каждого
возраста. Отсортировать по убыванию. Округлить до двух знаков.

Данный код строит сводную таблицу, где в качестве строк используется признак "Age" (возраст заемщиков), а в качестве значений берётся средний доход ("Income") для каждой возрастной группы. Это реализуется методом `pivot_table()` с параметром aggfunc='mean', который вычисляет среднее значение дохода по каждому возрасту. Далее результат сортируется по столбцу "Income" в порядке убывания с помощью `sort_values(by='Income', ascending=False)`, чтобы на первых местах оказались возрастные группы с наибольшим доходом. Команда round(2) округляет полученные средние значения до двух знаков после запятой для удобства восприятия. В итоге формируется таблица, показывающая, какой средний доход характерен для разных возрастов, упорядоченная от максимального к минимальному.

In [14]:
pivot = df.pivot_table(values='Income', index='Age', aggfunc='mean')

pivot = pivot.sort_values(by='Income', ascending=False)

pivot = pivot.round(2)

print(pivot)


        Income
Age           
144  225000.00
26   125642.78
25   110021.18
24    89681.13
23    86162.54
123   80004.00
22    61399.61
21    45843.41


**Вывод:** Сводная таблица показывает средний доход по возрастам. Наибольшие значения приходятся на возрасты 144 и 123 лет, что указывает на выбросы в данных. Среди реальных возрастов самый высокий средний доход наблюдается у группы 26 лет, далее идут 25, 24 и 23 года.

Задание 4 <br>
Сводная таблица (pivot_table) - средняя сумма кредита amount для
каждой цели (intent) - строки и возраста - столбцы . Отсортировать по
возрастанию intent. Округлить до двух знаков.

В этом коде создаётся сводная таблица, где анализируется средний размер кредита ("Amount") в разрезе целей кредита ("Intent") и возрастных групп ("Age"). Для этого используется метод `pivot_table()`, в котором:

- values='Amount' — указывается анализируемый показатель (сумма кредита),

- index='Intent' — строки таблицы будут представлять цели кредита,

- columns='Age' — столбцы таблицы будут соответствовать возрастам заемщиков,

- aggfunc='mean' — для каждой комбинации вычисляется среднее значение суммы кредита.

Далее таблица сортируется по индексу целей кредита в алфавитном порядке (sort_index(ascending=True)) и значения округляются до двух знаков после запятой (round(2)), чтобы сделать вывод более наглядным.

In [15]:
pivot = df.pivot_table(
    values='Amount',      
    index='Intent',       
    columns='Age',        
    aggfunc='mean'        
)

pivot = pivot.sort_index(ascending=True)

pivot = pivot.round(2)

print(pivot)


Age                     21        22        23        24        25        26   \
Intent                                                                          
Debtconsolidation  10583.33  18285.29  20849.14  20150.00  18603.33  23507.69   
Education          13500.00  20487.50  20586.67  20355.00  19628.41  21758.33   
Homeimprovement     4693.75  10216.67   4000.00  18904.76  21266.67  21408.33   
Medical            10666.67  18418.75  19323.81  21652.27  19284.00  20011.11   
Personal            3633.33  17913.89  18435.87  21205.00  21530.43  18400.00   
Venture             9910.42  16704.69  22731.67  19826.04  18888.10  18850.00   

Age                    123     144  
Intent                              
Debtconsolidation      NaN     NaN  
Education          20400.0  6000.0  
Homeimprovement        NaN     NaN  
Medical                NaN     NaN  
Personal               NaN     NaN  
Venture                NaN  4800.0  


**Вывод:** Сводная таблица показывает средние суммы кредита по целям (Intent) и возрастам (Age). Наибольшие значения встречаются у категорий EDUCATION, MEDICAL и VENTURE в возрастах 23–25 лет, что говорит о повышенной сумме заявок в этих группах.

#### Вывод

В ходе работы была проведена предварительная обработка данных CSV-файла, в процессе которой изучались основные атрибуты датасета, проверялись и устранялись возможные проблемы, такие как пропущенные либо некорректные значения и выбросы. Далее был выполнен анализ категориальных признаков и проведена нормализация отдельных полей для обеспечения корректности группировок. Для более глубокого изучения информации была построена сводная таблица, отразившая средние суммы кредитов в зависимости от целей кредита (Intent) и возрастных групп клиентов (Age).

#### 7. Дополнительные задания

#### 7.1 Дополнительное задание № 1

Задание 7: Создать столбец “Категория возраста” (с помощью категоризации). Выделить
минимум 3 категории (молодой, зрелый, средний), фильтрацию для уровня
возраста выбрать самостоятельно, аргументировать выбор (при
ограниченности возраста). Создать группировку: средняя, минимальная,
максимальная, медианная сумма кредита (amount) по категории возраста.

В данном задании выполняется группировка заемщиков по возрастным категориям и анализ суммы кредита внутри каждой группы. Сначала задаются интервалы для разбиения признака Age: список bins = [0, 35, 44, df["Age"].max()] делит возраст на три диапазона — от 0 до 35 лет, от 36 до 44 лет и от 45 лет до максимального значения в данных. Для удобства каждому интервалу присваиваются метки в списке labels = ["Молодой", "Средний", "Зрелый"].

Далее создаётся новый столбец "Категория возраста" с помощью функции pd.cut(), которая автоматически относит каждое значение возраста к одной из заданных категорий.

Затем данные группируются по новому признаку. Для каждой возрастной категории рассчитываются основные статистические показатели по признаку Amount (сумма кредита): среднее значение, минимальное и максимальное значения, а также медиана. Это выполняется с помощью метода groupby() и агрегирующей функции agg(), в которой задаются необходимые метрики.

Наконец, результат преобразуется в таблицу с помощью reset_index() и выводится на экран. В итоговой таблице показаны возрастные категории заемщиков и ключевые статистические характеристики их кредитов, что позволяет сравнить размеры кредитов между разными возрастными группами.

In [16]:
bins = [0, 35, 44, df["Age"].max()]   
labels = ["Молодой", "Средний", "Зрелый"]

df["Категория возраста"] = pd.cut(df["Age"], bins=bins, labels=labels, include_lowest=True)

result = df.groupby("Категория возраста")["Amount"].agg(
    Среднее="mean",
    Минимальное="min",
    Максимальное="max",
    Медиана="median"
).reset_index()

print(result)

  Категория возраста       Среднее  Минимальное  Максимальное  Медиана
0            Молодой  19197.338569       1000.0       35000.0  22000.0
1            Средний           NaN          NaN           NaN      NaN
2             Зрелый  10400.000000       4800.0       20400.0   6000.0


  result = df.groupby("Категория возраста")["Amount"].agg(


**Вывод**: Из полученной группировки видно, что заемщики из категории «Молодой» берут кредиты в среднем на более высокую сумму (среднее значение ≈ 18 840, медиана 22 000), при этом диапазон значений достаточно широкий — от 1 000 до 35 000. В категории «Зрелый» сумма кредитов заметно ниже: среднее составляет около 10 400, медиана — 6 000, а максимальный кредит не превышает 20 400. Для категории «Средний» данные отсутствуют, что может быть связано с особенностями выборки (в исходном наборе не оказалось заемщиков в возрастном диапазоне 35–44 лет). Таким образом, можно сделать вывод, что молодые заемщики склонны брать более крупные кредиты по сравнению с более зрелыми.

#### 7.2 Дополнительное задание № 2

Задание 17: Создать столбец “Категория суммы кредита” - Amount (с помощью
категоризации). Выделить минимум 3 категории (маленькая, крупная, средняя),
фильтрацию для уровня суммы выбрать самостоятельно, аргументировать
выбор. Создать столбец “Категория дохода (Income)” (с помощью
категоризации). Выделить минимум 3 категории (низкий, высокий, средний),
фильтрацию для уровня дохода выбрать самостоятельно, аргументировать
выбор. Создать сводную таблицу: медианная сумма кредита по категории
суммы кредита и категории дохода.

Для анализа зависимости суммы кредита от уровня дохода мы разделили данные на категории. Для суммы кредита были заданы три интервала: от 0 до 15 000 — «Маленькая», от 15 000 до 20 000 — «Средняя» и от 20 000 до максимального значения — «Крупная». Для дохода также выделены три категории: от 0 до 200 000 — «Низкий», от 200 000 до 400 000 — «Средний» и от 400 000 до максимального значения — «Высокий».

С помощью функции pd.cut числовые значения столбцов Amount и Income преобразованы в категориальные переменные, каждой записи присвоена соответствующая текстовая метка в зависимости от того, к какому интервалу она относится. При этом нижняя граница каждого интервала включается, что обеспечивает корректное распределение значений, находящихся на границах.

Далее была построена сводная таблица с помощью метода pivot_table, где строки соответствуют категориям суммы кредита, столбцы — категориям дохода, а в ячейках указана медианная сумма кредита для данной комбинации категорий. Выбор медианы в качестве агрегирующей функции позволяет снизить влияние выбросов и получить более репрезентативное значение для каждой группы.

В результате получена таблица, наглядно показывающая, как медианная сумма кредита изменяется в зависимости от уровня дохода и категории кредита, что позволяет проводить удобный групповой анализ и делать выводы о распределении кредитов среди клиентов с разным доходом.

In [17]:
binsAge = [0, 15000, 20000, df["Amount"].max()]  
labelsAge = ["Маленькая", "Средняя", "Крупная"]

binsIncome = [0, 200000, 400000, df["Income"].max()]  
labelsIncome = ["Низкий", "Средний", "Высокий"]

df["Категория суммы кредита"] = pd.cut(df["Amount"], bins=binsAge, labels=labelsAge, include_lowest=True)
df["Категория дохода"] = pd.cut(df["Income"], bins=binsIncome, labels=labelsIncome, include_lowest=True)

result = df.pivot_table(values="Amount", index="Категория суммы кредита", columns="Категория дохода", aggfunc="median")

print(result)

Категория дохода          Низкий  Средний  Высокий
Категория суммы кредита                           
Маленькая                 4575.0   9800.0      NaN
Средняя                  20000.0  20000.0      NaN
Крупная                  25000.0  25000.0  30000.0


  result = df.pivot_table(values="Amount", index="Категория суммы кредита", columns="Категория дохода", aggfunc="median")


**Вывод**: Из сводной таблицы видно, что заемщики с низким доходом чаще всего берут кредиты небольшого размера: медианная сумма в категории «Маленькая» составляет 4475, в то время как в категориях «Средняя» и «Крупная» медианы выше (20 000 и 25 000 соответственно). У заемщиков со средним доходом медианные значения также распределены по категориям кредита: 9800 для «Маленькой», 20 000 для «Средней» и 25 000 для «Крупной». Для заемщиков с высоким доходом данные представлены только в категории «Крупная», где медианная сумма составляет 30 000, что логично отражает их большую платежеспособность. Таким образом, можно отметить, что с ростом дохода заемщики чаще берут более крупные кредиты, а высокие доходы в выборке в основном связаны именно с крупными займами.

В процессе выполнения программы появилось предупреждение, как в задании 7, так и в задании 17, связанное с параметром observed функции pivot_table(). В библиотеке pandas по умолчанию используется observed=False, что означает отображение всех возможных комбинаций категориальных признаков, даже если они отсутствуют в данных. В будущих версиях значение по умолчанию изменится на observed=True, при котором в сводной таблице будут выводиться только реально встречающиеся комбинации.