# Введение в машинное обучение

## Предварительный анализ данных

In [1]:
import pandas as pd
import numpy as np

In [2]:
import matplotlib.pyplot as plt
%matplotlib inline

In [3]:
df = pd.read_csv('./data/cs-training.csv', sep=',')

In [4]:
df.head()

Unnamed: 0,SeriousDlqin2yrs,RevolvingUtilizationOfUnsecuredLines,age,NumberOfTime30-59DaysPastDueNotWorse,DebtRatio,MonthlyIncome,NumberOfOpenCreditLinesAndLoans,NumberOfTimes90DaysLate,NumberRealEstateLoansOrLines,NumberOfTime60-89DaysPastDueNotWorse,NumberOfDependents
1,1,0.766127,45,2,0.802982,9120.0,13,0,6,0,2.0
2,0,0.957151,40,0,0.121876,2600.0,4,0,0,0,1.0
3,0,0.65818,38,1,0.085113,3042.0,2,1,0,0,0.0
4,0,0.23381,30,0,0.03605,3300.0,5,0,0,0,0.0
5,0,0.907239,49,1,0.024926,63588.0,7,0,1,0,0.0


## Описание данных

* SeriousDlqin2yrs - Person experienced 90 days past due delinquency or worse 
* RevolvingUtilizationOfUnsecuredLines - Total balance on credit cards and personal lines of credit except real estate and no installment debt like car loans divided by the sum of credit limits
* age - Age of borrower in years
* NumberOfTime30-59DaysPastDueNotWorse - Number of times borrower has been 30-59 days past due but no worse in the last 2 years.
* DebtRatio - Monthly debt payments, alimony,living costs divided by monthy gross income
* MonthlyIncome - Monthly income
* NumberOfOpenCreditLinesAndLoans - Number of Open loans (installment like car loan or mortgage) and Lines of credit (e.g. credit cards)
* NumberOfTimes90DaysLate - Number of times borrower has been 90 days or more past due.
* NumberRealEstateLoansOrLines - Number of mortgage and real estate loans including home equity lines of credit
* NumberOfTime60-89DaysPastDueNotWorse - Number of times borrower has been 60-89 days past due but no worse in the last 2 years.
* NumberOfDependents - Number of dependents in family excluding themselves (spouse, children etc.)

* SeriousDlqin2yrs - Флаг выхода на просрочку через 90 дней
* RevolvingUtilizationOfUnsecuredLines - Общий баланс по кредитным картам и личным кредитным линиям, за исключением недвижимости, и без задолженности по кредитам, таким как автокредиты, деленные на сумму кредитных лимитов
* age - Возраст заёмщика в годах
* NumberOfTime30-59DaysPastDueNotWorse - Сколько раз заемщик просрочил выплату не более, чем на 30-59 дней, за последние 2 года.
* DebtRatio - Ежемесячные платежи по долгам, алименты и прожиточные расходы, делённые на месячный валовый доход
* MonthlyIncome - Ежемесячный доход
* NumberOfOpenCreditLinesAndLoans - Количество открытых кредитов (например, автокредит или закладная, кредитные карты и т.д.)
* NumberOfTimes90DaysLate - Сколько раз заёмщик просрочил выплату на 90 дней и более.
* NumberRealEstateLoansOrLines - Количество ипотечных кредитов и кредитов на недвижимость
* NumberOfTime60-89DaysPastDueNotWorse - Сколько раз заёмщик просрочил выплату не более, чем на 60-89 дней, за последние 2 года.
* NumberOfDependents - Количество иждивенцев в семье, исключая самого заёмщика (супруга, дети и т.д.)

## 1) Смотрим размер набора данных

см. shape

## 2) Выводим названия колонок

см. columns

## 3) Смотрим информацию по каждой колонке

см. info

## 4) Выводим характеристики каждого признака

см. describe

## 5) Выводим соотношение между 1 и 0 для SeriousDlqin2yrs

см. value_counts

## 6) Определим средний возраст

см. mean

## 7) Создадим свобную табличку для SeriousDlqin2yrs по признакам:
* NumberOfTime30-59DaysPastDueNotWorse 
* NumberOfTime60-89DaysPastDueNotWorse
* NumberOfTimes90DaysLate

Соберём по mean

см. pivot_table

## 8) Визуализируем распределение переменной age для SeriousDlqin2yrs

см. hist

## 9) Посмотрим на частоты признака NumberOfDependents

см. value_counts + normalize

## 10) Узнаем максимальное значение по каждому признаку

см. apply + max

## 11) Выведем ту часть таблицы, для которой значение признака age > 65

см. map + lambda

## 12) Сгруппируем таблицу по SeriousDlqin2yrs и посмотрим статистику для признаков 'RevolvingUtilizationOfUnsecuredLines', 'age', 'DebtRatio'

см. groupby + describe(percentiles=[])

## 13) Тоже самое, только для mean, std, min, max

см. groupby + agg + [np.mean, np.std, np.min, np.max]

## 14) Построим crosstab для полей SeriousDlqin2yrs и age

см. crosstab

## 15) Построим crosstab для полей SeriousDlqin2yrs и age + нормализация

см. crosstab + normalize=True