In [1]:
import pandas as pd

In [2]:
# считаем описание данных
df = pd.read_csv('02_otp_desc.csv', sep=';').loc[:,'ПОЛЕ':'ОПИСАНИЕ']

In [3]:
df

Unnamed: 0,ПОЛЕ,ОПИСАНИЕ
0,AGREEMENT_RK,уникальный идентификатор объекта в выборке
1,TARGET,целевая переменная:отклик на маркетинговую кам...
2,AGE,возраст клиента
3,SOCSTATUS_WORK_FL,социальный статус клиента относительно работы ...
4,SOCSTATUS_PENS_FL,социальный статус клиента относительно пенсии ...
5,GENDER,пол клиента
6,CHILD_TOTAL,количество детей клиента
7,DEPENDANTS,количество иждивенцев клиента
8,EDUCATION,образование
9,MARITAL_STATUS,семейное положение


In [4]:
# считаем все-все данные

In [5]:
train = pd.read_csv('02_otp_train.csv', sep=';')

In [6]:
train.shape

(15223, 52)

In [7]:
test = pd.read_csv('02_otp_test.csv', sep=';')

In [8]:
test.shape

(14910, 51)

In [9]:
# отделим таргет от TRAIN-а

In [10]:
y = train['TARGET']

In [11]:
train = train.drop('TARGET', axis=1)

In [12]:
# соеденим train и test

In [13]:
all_data = pd.concat([train, test])

In [14]:
# необходимо удалить индекс, 
# у нас есть 0-строка в train и 0-строка в test (и так далее 1,2,3,4)
# если мы просто объеденим - у нас сохранятся индексы
# мы же просто уберем индекс и автоматически создастся новый индекс, сквозной и уникальный
all_data = all_data.reset_index(drop=True)

In [15]:
# посмотрим типы данных и их заполняемость


In [16]:
all_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30133 entries, 0 to 30132
Data columns (total 51 columns):
AGREEMENT_RK                  30133 non-null int64
AGE                           30133 non-null int64
SOCSTATUS_WORK_FL             30133 non-null int64
SOCSTATUS_PENS_FL             30133 non-null int64
GENDER                        30133 non-null int64
CHILD_TOTAL                   30133 non-null int64
DEPENDANTS                    30133 non-null int64
EDUCATION                     30133 non-null object
MARITAL_STATUS                30133 non-null object
GEN_INDUSTRY                  27420 non-null object
GEN_TITLE                     27420 non-null object
ORG_TP_STATE                  27420 non-null object
ORG_TP_FCAPITAL               27425 non-null object
JOB_DIR                       27420 non-null object
FAMILY_INCOME                 30133 non-null object
PERSONAL_INCOME               30133 non-null object
REG_ADDRESS_PROVINCE          30133 non-null object
FACT_ADDRESS_P

In [17]:
# Видим, что часть данных - object, скорее всего стоки.
# Давайте выведем эти значения для каждого столбца

In [18]:
for i in all_data.columns: # перебираем все столбцы
    if str(all_data[i].dtype) == 'object': # если тип столбца - object
        print(i) # выводим название столбца
        print(set(all_data[i])) # выводим все его значения (но делаем set - чтоб значения не повторялись)
        print() # выводим пустую строку

EDUCATION
{'Два и более высших образования', 'Неполное среднее', 'Среднее', 'Неоконченное высшее', 'Ученая степень', 'Среднее специальное', 'Высшее'}

MARITAL_STATUS
{'Состою в браке', 'Не состоял в браке', 'Гражданский брак', 'Вдовец/Вдова', 'Разведен(а)'}

GEN_INDUSTRY
{nan, 'Развлечения/Искусство', 'Банк/Финансы', 'Страхование', 'Наука', 'Сборочные производства', 'Здравоохранение', 'Другие сферы', 'Ресторанный бизнес/Общественное питание', 'Логистика', 'Государственная служба', 'Сельское хозяйство', 'Химия/Парфюмерия/Фармацевтика', 'Строительство', 'Коммунальное хоз-во/Дорожные службы', 'Энергетика', 'Информационные технологии', 'Маркетинг', 'Подбор персонала', 'Туризм', 'Образование', 'Салоны красоты и здоровья', 'Торговля', 'Юридические услуги/нотариальные услуги', 'Металлургия/Промышленность/Машиностроение', 'СМИ/Реклама/PR-агенства', 'Транспорт', 'Нефтегазовая промышленность', 'Информационные услуги', 'Недвижимость', 'Управляющая компания', 'ЧОП/Детективная д-ть'}

GEN_TITLE
{na

In [19]:
# можно заметить что некоторые переменные, 
# которые обозначены как строки (например PERSONAL_INCOME) на самом деле числа,
# но по какой-то (ниже увидим) причине были распознаны как строки

In [20]:
all_data['PERSONAL_INCOME'] = all_data['PERSONAL_INCOME'].map(lambda x: x.replace(',', '.')).astype('float')

In [21]:
# причина же что использовалась запятая для разделения не целой части числа

In [22]:
all_data['CREDIT'] = all_data['CREDIT'].map(lambda x: x.replace(',', '.')).astype('float')
all_data['FST_PAYMENT'] = all_data['FST_PAYMENT'].map(lambda x: x.replace(',', '.')).astype('float')
all_data['LOAN_AVG_DLQ_AMT'] = all_data['LOAN_AVG_DLQ_AMT'].map(lambda x: x.replace(',', '.')).astype('float')
all_data['LOAN_MAX_DLQ_AMT'] = all_data['LOAN_MAX_DLQ_AMT'].map(lambda x: x.replace(',', '.')).astype('float')

In [23]:
# запускаем повторно код и смотрим, какие столбцы с какими строковыми значениями остались

In [24]:
for i in all_data.columns:
    if str(all_data[i].dtype) == 'object':
        print(i)
        print(set(all_data[i]))
        print()

EDUCATION
{'Два и более высших образования', 'Неполное среднее', 'Среднее', 'Неоконченное высшее', 'Ученая степень', 'Среднее специальное', 'Высшее'}

MARITAL_STATUS
{'Состою в браке', 'Не состоял в браке', 'Гражданский брак', 'Вдовец/Вдова', 'Разведен(а)'}

GEN_INDUSTRY
{nan, 'Развлечения/Искусство', 'Банк/Финансы', 'Страхование', 'Наука', 'Сборочные производства', 'Здравоохранение', 'Другие сферы', 'Ресторанный бизнес/Общественное питание', 'Логистика', 'Государственная служба', 'Сельское хозяйство', 'Химия/Парфюмерия/Фармацевтика', 'Строительство', 'Коммунальное хоз-во/Дорожные службы', 'Энергетика', 'Информационные технологии', 'Маркетинг', 'Подбор персонала', 'Туризм', 'Образование', 'Салоны красоты и здоровья', 'Торговля', 'Юридические услуги/нотариальные услуги', 'Металлургия/Промышленность/Машиностроение', 'СМИ/Реклама/PR-агенства', 'Транспорт', 'Нефтегазовая промышленность', 'Информационные услуги', 'Недвижимость', 'Управляющая компания', 'ЧОП/Детективная д-ть'}

GEN_TITLE
{na

# Данные готовы, теперь вам предлагается начать решать задачу

In [25]:
# Есть ли пропуски в данных? что с ними сделать?

# Ваш код :-)

all_data.GEN_INDUSTRY.fillna('Другое', inplace=True)
all_data.GEN_TITLE.fillna('Другое', inplace=True)
all_data.ORG_TP_STATE.fillna('Другое', inplace=True)
all_data.ORG_TP_FCAPITAL.fillna('Другое', inplace=True)
all_data.JOB_DIR.fillna('Другое', inplace=True)
all_data.TP_PROVINCE.fillna('Другое', inplace=True)
all_data.REGION_NM.fillna('Другое', inplace=True)
all_data.WORK_TIME.fillna(all_data.WORK_TIME.mean(), inplace=True)
all_data.PREVIOUS_CARD_NUM_UTILIZED.fillna(0, inplace=True)

In [26]:
all_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30133 entries, 0 to 30132
Data columns (total 51 columns):
AGREEMENT_RK                  30133 non-null int64
AGE                           30133 non-null int64
SOCSTATUS_WORK_FL             30133 non-null int64
SOCSTATUS_PENS_FL             30133 non-null int64
GENDER                        30133 non-null int64
CHILD_TOTAL                   30133 non-null int64
DEPENDANTS                    30133 non-null int64
EDUCATION                     30133 non-null object
MARITAL_STATUS                30133 non-null object
GEN_INDUSTRY                  30133 non-null object
GEN_TITLE                     30133 non-null object
ORG_TP_STATE                  30133 non-null object
ORG_TP_FCAPITAL               30133 non-null object
JOB_DIR                       30133 non-null object
FAMILY_INCOME                 30133 non-null object
PERSONAL_INCOME               30133 non-null float64
REG_ADDRESS_PROVINCE          30133 non-null object
FACT_ADDRESS_

In [27]:
# Как поступить со строковыми переменными?

# Ваш код :-)

from sklearn.preprocessing import LabelEncoder, OneHotEncoder, LabelBinarizer

new_cat_features = pd.DataFrame()
cat_features=[]
for col in all_data.columns: # перебираем все столбцы
    if str(all_data[col].dtype) == 'object': # если тип столбца - object
        cat_features.append(col)
        all_data[col] = all_data[col].astype('category')
print(cat_features)

['EDUCATION', 'MARITAL_STATUS', 'GEN_INDUSTRY', 'GEN_TITLE', 'ORG_TP_STATE', 'ORG_TP_FCAPITAL', 'JOB_DIR', 'FAMILY_INCOME', 'REG_ADDRESS_PROVINCE', 'FACT_ADDRESS_PROVINCE', 'POSTAL_ADDRESS_PROVINCE', 'TP_PROVINCE', 'REGION_NM']


In [None]:
all_data = pd.get_dummies(all_data, sparse=True)
all_data.drop(cat_features, inplace=True)

In [39]:
all_data.info
#enc = preprocessing.LabelEncoder()
#enc.fit(cat_features)
#new_cat_features = enc.transform(cat_features)
#print(new_cat_features)

<bound method DataFrame.info of        AGREEMENT_RK   AGE  SOCSTATUS_WORK_FL  SOCSTATUS_PENS_FL  GENDER  \
0        59910150.0  49.0                1.0                0.0     1.0   
1        59910230.0  32.0                1.0                0.0     1.0   
2        59910525.0  52.0                1.0                0.0     1.0   
3        59910803.0  39.0                1.0                0.0     1.0   
4        59911781.0  30.0                1.0                0.0     0.0   
5        59911784.0  29.0                1.0                0.0     0.0   
6        59911832.0  35.0                1.0                0.0     0.0   
7        59912034.0  41.0                1.0                0.0     1.0   
8        59912560.0  53.0                1.0                0.0     0.0   
9        59912659.0  43.0                1.0                0.0     1.0   
10       59912692.0  54.0                1.0                0.0     1.0   
11       59913108.0  26.0                1.0                0.0     

In [36]:
data= [["AUS", "Sri"],["USA","Vignesh"],["IND", "Pechi"],["USA","Raj"]]


df = pd.DataFrame(data, columns=['Country', 'Name'])
X = df.values
print(X)

le = LabelEncoder()
X_num = le.fit_transform(X[:,0]).reshape(-1,1)

ohe = OneHotEncoder()
X_num = ohe.fit_transform(X_num)

print (X_num.toarray())

X[:,0] = X_num

print (X)

[]


Unnamed: 0,AGREEMENT_RK,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,PERSONAL_INCOME,REG_FACT_FL,FACT_POST_FL,...,REGION_NM_Другое,REGION_NM_ЗАПАДНО-СИБИРСКИЙ,REGION_NM_ПОВОЛЖСКИЙ,REGION_NM_ПРИВОЛЖСКИЙ,REGION_NM_СЕВЕРО-ЗАПАДНЫЙ,REGION_NM_УРАЛЬСКИЙ,REGION_NM_ЦЕНТРАЛЬНЫЙ 1,REGION_NM_ЦЕНТРАЛЬНЫЙ 2,REGION_NM_ЦЕНТРАЛЬНЫЙ ОФИС,REGION_NM_ЮЖНЫЙ
0,59910150.0,49.0,1.0,0.0,1.0,2.0,1.0,5000.0,1.0,1.0,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,59910230.0,32.0,1.0,0.0,1.0,3.0,3.0,12000.0,1.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
2,59910525.0,52.0,1.0,0.0,1.0,4.0,0.0,9000.0,1.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,59910803.0,39.0,1.0,0.0,1.0,1.0,1.0,25000.0,0.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
4,59911781.0,30.0,1.0,0.0,0.0,0.0,0.0,12000.0,1.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
5,59911784.0,29.0,1.0,0.0,0.0,0.0,0.0,12000.0,1.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
6,59911832.0,35.0,1.0,0.0,0.0,1.0,1.0,15000.0,1.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
7,59912034.0,41.0,1.0,0.0,1.0,0.0,0.0,6000.0,1.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
8,59912560.0,53.0,1.0,0.0,0.0,2.0,0.0,100000.0,1.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
9,59912659.0,43.0,1.0,0.0,1.0,0.0,0.0,7000.0,1.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0


In [None]:
# В итоге должны получиться данные без пропусков и только числовые

In [76]:
# Вновь разделите на train и test (не мешая)

# Ваш код :-)


In [None]:
# Сделать hold-out sampling на train выборке
from sklearn.cross_validation import train_test_split

# test_size=0.3, random_state=42

# Ваш код :-)


In [None]:
# Попробовать следующие "черные ящики": интерфейс одинаковый 
#     fit, 
#     predict, 
#     predict_proba

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

# Ваш код :-)

In [None]:
# Посчитать метрики стандартные
# accuracy, precision, recall

# Ваш код :-)

In [None]:
# Визуалищировать эти метрики всех моделей на одном графике (чтоб визуально посмотреть)

# Ваш код :-)

In [None]:
# Потроить roc-кривые всех можелей на одном графике
# Вывести roc_auc каждой моделе

# Ваш код :-)

In [None]:
from sklearn.cross_validation import cross_val_score
# Сделать k-fold (10 фолдов) кросс-валидацию каждой модели
# И посчитать средний roc_auc

# Ваш код :-)

In [37]:
# Взять лучшую модель и сделать predict (с вероятностями (!!!)) для test выборки

# Ваш код :-)