# Borrower Reliability Study

This is the first part of the project, it will be checked automatically. The second part will be checked by the reviewer.

## Open the table and examine the general information about the data

**Task 1. Import the pandas library. Read the data from the csv file into a dataframe and store it in the `data` variable. The path to the file:**

`/datasets/data.csv`

In [54]:
import pandas as pd

In [55]:
data = pd.read_csv('/datasets/data.csv')

**Task 2. Display the first 20 lines of the `data` dataframe on the screen.**

In [56]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [57]:
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


**Task 3. Display basic dataframe information using the `info()` method.**

In [58]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


## Data preprocessing

### Removing gaps

**Task 4. Print the number of missing values ​​for each column. Use a combination of the two methods.**

In [59]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Task 5. There are missing values ​​in two columns. One of them is `days_employed`. The gaps in this column will be dealt with in the next step. Another column with missing values, `total_income`, stores income data. The amount of income is most affected by the type of employment, so fill in the gaps in this column with the median value for each type from the `income_type` column. For example, for a person with an employment type of `employee`, the gap in the `total_income` column must be filled by the median income among all records with the same type.**

In [60]:
income_median = data.groupby('income_type')['total_income'].median()

income_types_list = {
    'безработный',
    'в декрете',
    'госслужащий',
    'компаньон',
    'пенсионер',
    'предприниматель',
    'сотрудник',
    'студент'
}

for income_types in income_types_list:
    data.loc[(data['income_type']==income_types)&(data['total_income'].isna()),'total_income'] = data.loc[(data['income_type']==income_types)&(data['total_income'].isna())].fillna(income_median[income_types])

data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

### Handling anomalous values

**Task 6. Artifacts (anomalies) may occur in the data - values ​​that do not reflect reality and appeared due to some kind of error. This artifact would be the negative number of days of work experience in the `days_employed` column. For real data, this is normal. Process the values ​​in this column: replace all negative values ​​with positive ones using the `abs()` method.**

In [61]:
data['days_employed'] = data['days_employed'].abs()

**Task 7. For each type of employment, print the median `days_employed` in days.**

In [62]:
data.groupby('income_type')['days_employed'].median()

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

Two types (unemployed and pensioners) will get abnormally large values. Correcting such values ​​is difficult, so leave them as they are. Moreover, you will not need this column for research.

**Task 8. List the unique values ​​of the `children` column.**

In [78]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

**Task 9. There are two abnormal values ​​in the `children` column. Remove lines containing such anomalous values ​​from the `data` dataframe.**

In [64]:
data = data.drop(data[data['children']==-1].index)
data = data.drop(data[data['children']==20].index)

**Task 10. List the unique values ​​of the `children` column again to make sure the artifacts have been removed.**

In [65]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5])

### Removing gaps (continued)

**Task 11. Fill in the gaps in the `days_employed` column with the median values ​​for each `income_type` employment type.**

In [66]:
days_employed_median = data.groupby('income_type')['days_employed'].median()

for income_types in income_types_list:
    data.loc[(data['income_type']==income_types)&(data['days_employed'].isna()),'days_employed'] = data.loc[(data['income_type']==income_types)&(data['days_employed'].isna())].fillna(days_employed_median[income_types])


** Task 12. Make sure all gaps are filled. Test yourself and print the number of missing values ​​for each column again using two methods.**

In [67]:
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Changing Data Types

**Task 13. Replace the real data type in the `total_income` column with an integer using the `astype()` method.**

In [68]:
data['total_income'] = data['total_income'].astype('int')

### Duplicate Handling

**Task 14. Display the number of duplicate rows in the data. If such lines are present, remove them.**

In [69]:
data.duplicated().sum()

54

In [70]:
data = data.drop_duplicates().reset_index(drop=True)

**Task 15. Handle implicit duplicates in the `education` column. This column has the same values, but written differently: using uppercase and lowercase letters. Convert them to lower case. Check other columns.**

In [71]:
data['education'] = data['education'].str.lower()
data = data.drop_duplicates().reset_index(drop=True)
print(data.duplicated().sum())

print(data['family_status'].unique())
print(data['purpose'].unique())

0
['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']
['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижимости' 'покупка жилой недвижимости'
 'строительство собственной недвижимости' 'недвижимость'
 'строительство недвижимости' 'на покупку подержанного автомобиля'
 'на покупку своего автомобиля' 'операции с коммерческой недвижимостью'
 'строительство жилой недвижимости' 'жилье'
 'операции со своей недвижимостью' 'автомобили' 'заняться образованием'
 'сделка с подержанным автомобилем' 'получение образования' 'автомобиль'
 'свадьба' 'получение дополнительного образования' 'покупка своего жилья'
 'операции с недвижимостью' 'получение высшего образования'
 'свой автомобиль' 'сделка с автомобилем' 'профильное образование'
 'высшее образование' 'покупка жилья для сдачи' 'на по

### Data categorization

**Task 16. Based on the ranges below, create a `total_income_category` column with categories in the `data` dataframe:**

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 and above - `'A'`.


**For example, a borrower with an income of 25,000 should be assigned an `'E'' category, and a customer with an income of 235,000 should be assigned a `'B'` category. Use your own function named `categorize_income()` and method `apply()`.**

In [72]:
def categorize_income(row):
    income = row['total_income']
    if income <= 30000:
        return 'E'
    elif 30000 < income <= 50000:
        return 'D'
    elif 50000 < income <= 200000:
        return 'C'
    elif 200000 < income <= 1000000:
        return 'B'
    elif 1000000 < income:
        return 'A'

In [73]:
data['total_income_category'] = data.apply(categorize_income, axis=1)

**Task 17. Display a list of unique loan purposes from the `purpose` column.**

In [74]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Task 18. Create a function that, based on the data from the `purpose` column, will form a new `purpose_category` column, which will include the following categories:**

- ``car operations'`,
- ``real estate transactions'`,
- ``conducting a wedding'`,
- ``getting an education'`.

**For example, if the `purpose` column contains the substring `'car purchase'`, then the `purpose_category` column should contain the string `'car operations'`.**

**Use your own function named `categorize_purpose()` and method `apply()`. Examine the data in the `purpose` column and determine which substrings will help you correctly identify the category.**

In [75]:
def categorize_purpose(row):
    if 'авто' in row['purpose']:
        return 'операции с автомобилем'
    elif 'жиль' in row['purpose'] or 'недвижимост' in row['purpose']:
        return 'операции с недвижимостью'
    elif 'свадьб' in row['purpose']:
        return 'проведение свадьбы'
    elif 'образовани' in row['purpose']:
        return 'получение образования'

In [76]:
data['purpose_category'] = data.apply(categorize_purpose, axis=1)

In [77]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0,152.779569,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,C,получение образования
8,2,6929.865299,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью
