### Задача
На основе данных об абитуриенте необходимо разработать модель, которая будет предсказывать текущий статус студента, а именно:
- продолжит ли студент обучение
- отчислится
- возьмет академический отпуск

### Описание входных значений:
- ID - персональный идентификатор абитуриента  
- Код_группы - идентификатор группы  
- Год_Поступления - год поступления абитуриента  
- Пол - пол абитуриента, имеет идентификаторы: Муж, Жен  
- Основания - основания поступления абитуриента. Имеются следующие значения: СН - специальный набор, ЦН - целевой набор, БН - бюджетный набор, ОО - общие основания, ДН - дополнительный прием  
- Изучаемый_Язык - иностранный язык, который изучался абитуриентом. Поскольку долгое время данное поле было полем ввода, то происходит **дублирование значений**.   
- Дата_Рождения - дата рождения абитуриента  
- Уч_Заведение - наименование учебного заведения  
- Где_Находится_УЗ - локация учебного заведения. **Структура данного поля разнообразна**, может происходить наименование города, а может указываться область+город или даже страна+область+город.  
- Год_Окончания_УЗ - год окончания учебного заведения  
- Пособие - получает ли абитуриент пособия. Возможные значения:0 - абитуриент не получает пособие, 1 - абитуриент получает пособие  
- Страна_ПП - страна постоянного проживания. Поскольку долгое время данное поле было полем ввода, то происходит **дублирование значений**.  
- Регион_ПП - регион постоянного проживания. Поскольку долгое время данное поле было полем ввода, то происходит **дублирование значений**.  
- Город_ПП - город постоянного проживания. Поскольку долгое время данное поле было полем ввода, то происходит **дублирование значений**.  
- Общежитие - требуется ли общежитие абитуриенту. Возможные значения: 0 - абитуриенту не требуется общежитие, 1 - абитуриенту требуется общежитие  
- Наличие_Матери - поле, показывающие наличие матери. Возможные значения: 0 - у абитуриента нет матери, 1 - у абитуриента есть мать  
- Наличие_Отца - поле, показывающие наличие отца. Возможные значения: 0 - у абитуриента нет отца, 1 - у абитуриента есть отец  
- Страна_Родители - страна постоянного проживания родителей  
- Опекунство - является ли абитуриент опекаемым. Возможные значения: 0 - абитуриент не является опекаемым, 1 - абитуриент является опекаемым  
- Село - проживает ли абитуриент в сельской местности. Возможные значения: 0 - абитуриент не проживает в сельской местности, 1 -абитуриент проживает в сельской местности  
- Иностранец - является ли абитуриент иностранным студентом. Возможные значения: 0 - абитуриент не является иностранцем, 1 - абитуриент является иностранцем  
- КодФакультета - идентификатор факультета  
- СрБаллАттестата - средний балл аттестата или средний балл ЕГЭ. Зависит от того, сдавал ли абитуриент ЕГЭ
- Статус (**целевая переменная**) - статус студента. Возможные значения: -1 – ушел в академический отпуск, 4 – закончил обучение, 3 – отчислен, 5 – призван в армию  

### Метрика:
В качестве метрики выступает F1-мера 

In [96]:
import pandas as pd
import numpy as np
import re
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score
import warnings
import time

In [97]:
warnings.filterwarnings('ignore')
#pd.set_option('display.max_colwidth', None) #выводим на экран весь текст из колонки
pd.set_option('display.max_rows', None) #выводим на экран все строки
pd.set_option('display.max_columns', None) #выводим на экран все колонки

In [98]:
df_train = pd.read_csv('train_dataset_train.csv')
df_test = pd.read_csv('test_dataset_test.csv')

#подгружаем датасеты для замены опечаток (ручная выборка)
id_city_1 = pd.read_csv('id_city_1.csv')
id_country = pd.read_csv('id_country.csv')
id_language = pd.read_csv('id_language.csv')
id_region = pd.read_csv('id_region.csv')

In [99]:
train = df_train.copy()
test = df_test.copy()

In [100]:
train.head()

Unnamed: 0,ID,Код_группы,Год_Поступления,Пол,Основания,Изучаемый_Язык,Дата_Рождения,Уч_Заведение,Где_Находится_УЗ,Год_Окончания_УЗ,Пособие,Страна_ПП,Регион_ПП,Город_ПП,Общежитие,Наличие_Матери,Наличие_Отца,Страна_Родители,Опекунство,Село,Иностранец,КодФакультета,СрБаллАттестата,Статус
0,72716,16019,2015,Жен,ОО,Английский язык,1998-02-08 00:00:00.000,"МБОУ ""СОШ №59""","Алтайский край, Барнаул г",2014.0,0.0,Россия,Алтайский край,Барнаул г,0.0,0,0.0,Россия,0.0,0.0,0.0,41.0,4.294,3
1,63306,14895,2010,Муж,ЦН,,1992-04-18 00:00:00.000,,,,0.0,Россия,Алтайский край,Барнаул г,0.0,1,1.0,Россия,0.0,0.0,0.0,28.0,67.0,4
2,82469,20103,2017,Жен,ДН,Английский язык,1999-03-21 00:00:00.000,МБОУ Алтайская СОШ №5,"Алтайский край, Алтайский р-н, Алтайское с",2017.0,0.0,Россия,Алтайский край,Алтайское с,0.0,1,1.0,Россия,0.0,0.0,0.0,41.0,4.133,4
3,81661,19838,2017,Жен,БН,Английский язык,1994-12-08 00:00:00.000,ФГБОУ ВО Алтайский государственный университет,"Алтайский край, г. Барнаул",2017.0,0.0,Россия,Алтайский край,г. Барнаул,0.0,1,1.0,Россия,0.0,0.0,0.0,35.0,74.0,4
4,81509,19803,2017,Жен,БН,Английский язык,1995-06-28 00:00:00.000,ФГБОУ ВО Алтайский государственный университет,"Алтайский край, г. Барнаул",2017.0,0.0,Россия,Алтайский край,г. Барнаул,0.0,1,1.0,Россия,0.0,0.0,0.0,28.0,53.0,4


In [101]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13584 entries, 0 to 13583
Data columns (total 24 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   ID                13584 non-null  int64  
 1   Код_группы        13584 non-null  int64  
 2   Год_Поступления   13584 non-null  int64  
 3   Пол               13577 non-null  object 
 4   Основания         13584 non-null  object 
 5   Изучаемый_Язык    12758 non-null  object 
 6   Дата_Рождения     13584 non-null  object 
 7   Уч_Заведение      12351 non-null  object 
 8   Где_Находится_УЗ  12203 non-null  object 
 9   Год_Окончания_УЗ  12284 non-null  float64
 10  Пособие           12576 non-null  float64
 11  Страна_ПП         13237 non-null  object 
 12  Регион_ПП         12966 non-null  object 
 13  Город_ПП          13141 non-null  object 
 14  Общежитие         13498 non-null  float64
 15  Наличие_Матери    13584 non-null  int64  
 16  Наличие_Отца      13584 non-null  float6

In [102]:
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6691 entries, 0 to 6690
Data columns (total 23 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   ID                6691 non-null   int64  
 1   Код_группы        6691 non-null   int64  
 2   Год_Поступления   6691 non-null   int64  
 3   Пол               6688 non-null   object 
 4   Основания         6691 non-null   object 
 5   Изучаемый_Язык    6295 non-null   object 
 6   Дата_Рождения     6691 non-null   object 
 7   Уч_Заведение      6113 non-null   object 
 8   Где_Находится_УЗ  6031 non-null   object 
 9   Год_Окончания_УЗ  6074 non-null   float64
 10  Пособие           6207 non-null   float64
 11  Страна_ПП         6531 non-null   object 
 12  Регион_ПП         6401 non-null   object 
 13  Город_ПП          6477 non-null   object 
 14  Общежитие         6656 non-null   float64
 15  Наличие_Матери    6691 non-null   int64  
 16  Наличие_Отца      6691 non-null   float64


### Предобработка

In [103]:
# приведем к читаемым типам данных
def df_astype (data):
    m = data.select_dtypes(np.number)
    data[m.columns]= m.round().astype('Int64')
    data['Дата_Рождения'] = pd.to_datetime(data['Дата_Рождения'])
    return data
train = df_astype (train)
test = df_astype (test)
#train.info()

In [104]:
df_columns = train.columns.values.tolist()
df_columns.remove('ID')
df_columns.remove('Код_группы')
df_columns.remove('Дата_Рождения')
print(df_columns)

['Год_Поступления', 'Пол', 'Основания', 'Изучаемый_Язык', 'Уч_Заведение', 'Где_Находится_УЗ', 'Год_Окончания_УЗ', 'Пособие', 'Страна_ПП', 'Регион_ПП', 'Город_ПП', 'Общежитие', 'Наличие_Матери', 'Наличие_Отца', 'Страна_Родители', 'Опекунство', 'Село', 'Иностранец', 'КодФакультета', 'СрБаллАттестата', 'Статус']


In [105]:
#количество уникальных значений
def all_uni (data, columns):
    for i in columns:
        pd.set_option('display.max_rows', None)
        abc = data[i].value_counts()
        abc = pd.DataFrame(abc)
        abc.rename(columns={i: 'Кол-во'}, inplace=True)
        abc[i] = abc.index
        abc=abc.reset_index(drop=True)
        display(abc)

#all_uni (train, df_columns)

In [106]:
#проверяем значения которые есть в тесте, но нет в трейне:
def df_unique (columns):
    col = columns.copy()
    col.remove('Статус')
    col.remove('Уч_Заведение')
    col.remove('Где_Находится_УЗ')
    col.remove('Регион_ПП')
    col.remove('Город_ПП')
    for i in col:
        print(i, set(test[i].unique()) - set(train[i].unique()))
df_unique (df_columns)

Год_Поступления {2006}
Пол {'жен'}
Основания {'ЛН'}
Изучаемый_Язык {'Английский, немецкий языки'}
Год_Окончания_УЗ {1986, 1981, 1966}
Пособие set()
Страна_ПП {'КАЗАХСТАН', 'Афганистан', 'КИТАЙ'}
Общежитие set()
Наличие_Матери set()
Наличие_Отца set()
Страна_Родители {'Кыргызия', 'РОССИЯ', 'Чеченская республика', 'Афганистан'}
Опекунство set()
Село set()
Иностранец set()
КодФакультета set()
СрБаллАттестата {6, 1040, 3600, 787, 26, 4764, 29, 2468, 4286, 7232, 4928, 3400, 2506, 4053, 3940, 3688, 4846, 3444, 4350}


#### Чистим данные

In [107]:
#заполняем пропуски в городах в трейне
train.loc[[183, 2904, 7253], 'Город_ПП'] = 'Горно-Алтайск'
train.loc[486, 'Город_ПП'] = 'Исфара'
train.loc[[371, 13338], 'Город_ПП'] = 'Горняк'
train.loc[541, 'Город_ПП'] = 'Усть-Каменогорск'
train.loc[[595, 1332, 1423, 2630, 2861, 3182, 4054, 4060, 4662, 4113, 4277, 5622, 6018, 6613, 6814, 6841, 6931,
          7245, 8207, 10228, 10608, 10997, 11134, 12947, 13540], 'Город_ПП'] = 'Барнаул'
train.loc[[612, 6257], 'Город_ПП'] = 'Зудилово'
train.loc[1161, 'Город_ПП'] = 'Жалал-Абад'
train.loc[1172, 'Город_ПП'] = 'Сузол'
train.loc[[1369, 2152, 10275, 10443, 12841], 'Город_ПП'] = 'Павлодар'
train.loc[406, 'Город_ПП'] = 'Билибино'
train.loc[[1510, 11596], 'Город_ПП'] = 'Белокуриха'
train.loc[1553, 'Город_ПП'] = 'Ереван'
train.loc[1693, 'Город_ПП'] = 'Островное'
train.loc[1759, 'Город_ПП'] = 'Лаптево-Логовое'
train.loc[[1767, 6501], 'Город_ПП'] = 'Москва'
train.loc[2447, 'Город_ПП'] = 'Большеромановка'
train.loc[[2523, 8141], 'Город_ПП'] = 'Алматы'
train.loc[[2656, 2964], 'Город_ПП'] = 'Баево'
train.loc[2776, 'Город_ПП'] = 'Шихэцзы'
train.loc[2805, 'Город_ПП'] = 'Кызыл'
train.loc[[3031, 11159], 'Город_ПП'] = 'Душанбе'
train.loc[[3490, 4872], 'Город_ПП'] = 'Шипуново'
train.loc[[3757,  11823], 'Город_ПП'] = 'Курчатов'
train.loc[3870, 'Город_ПП'] = 'Табуны'
train.loc[4050, 'Город_ПП'] = 'Заринск'
train.loc[[4257, 5280, 8531], 'Город_ПП'] = 'Славгород'
train.loc[4424, 'Город_ПП'] = 'Прокопьевск'
train.loc[4606, 'Город_ПП'] = 'Тюменцево'
train.loc[4680, 'Город_ПП'] = 'Корнилово'
train.loc[[5203, 5992, 8363, 342, 976, 1488, 1829, 1875, 2197, 3733, 3963, 4561, 4924, 8159,
           8361, 8417, 9767, 11005, 11086, 11087, 11201, 11992, 12530], 'Город_ПП'] = 'Рубцовск'
train.loc[5709, 'Город_ПП'] = 'Чунцин'
train.loc[5711, 'Город_ПП'] = 'Беляши'
train.loc[5863, 'Город_ПП'] = 'Сяннань'
train.loc[6568, 'Город_ПП'] = 'Камышинск'
train.loc[6809, 'Город_ПП'] = 'Мирный'
train.loc[[6862, 12918], 'Город_ПП'] = 'Зональное'
train.loc[7111, 'Город_ПП'] = 'Маомин'
train.loc[7389, 'Город_ПП'] = 'Павловск'
train.loc[[7555, 11105], 'Город_ПП'] = 'Хайнань'
train.loc[8291, 'Город_ПП'] = 'Панкрушиха'
train.loc[8401, 'Город_ПП'] = 'Подсосново'
train.loc[[8482, 8731, 11044], 'Город_ПП'] = 'Завьялово'
train.loc[[8496, 11737], 'Город_ПП'] = 'Алейск'
train.loc[8604, 'Город_ПП'] = 'Усть-Ишинск'
train.loc[8693, 'Город_ПП'] = 'Топчиха'
train.loc[8754, 'Город_ПП'] = 'Мамонтово'
train.loc[8951, 'Город_ПП'] = 'Темиртау'
train.loc[9052, 'Город_ПП'] = 'Зеленая Роща'
train.loc[9335, 'Город_ПП'] = 'Усть-Каменогорск'
train.loc[9487, 'Город_ПП'] = 'Тальменка'
train.loc[9534, 'Город_ПП'] = 'Шэньцю'
train.loc[10069, 'Город_ПП'] = 'Астана'
train.loc[10208, 'Город_ПП'] = 'Дангара'
train.loc[10314, 'Город_ПП'] = 'Семей'
train.loc[11097, 'Город_ПП'] = 'Кайраккум'
train.loc[11701, 'Город_ПП'] = 'Усть-Кокса'
train.loc[12077, 'Город_ПП'] = 'Вахдат'
train.loc[12147, 'Город_ПП'] = 'Николаевка'
train.loc[12325, 'Город_ПП'] = 'Романово'
train.loc[12381, 'Город_ПП'] = 'Тайхэ'
train.loc[12862, 'Город_ПП'] = 'Гуандун'
train.loc[13203, 'Город_ПП'] = 'Алтайское'
train.loc[13296, 'Город_ПП'] = 'Новозыково'
train.loc[13560, 'Город_ПП'] = 'Рубцовск'
train.loc[2967, 'Город_ПП'] = 'Угловское'
train.loc[7074, 'Город_ПП'] = 'Новоегорьевское'
train.loc[8483, 'Город_ПП'] = 'Кузьминка'
train.loc[[8822, 12376], 'Город_ПП'] = 'Староалейское'
train.loc[9101, 'Город_ПП'] = 'Беспаловский'
train.loc[9351, 'Город_ПП'] = 'Советский Путь'
train.loc[9777, 'Город_ПП'] = 'Устьянка'
train.loc[9990, 'Город_ПП'] = 'Михайловское'
train.loc[11424, 'Город_ПП'] = 'Волчиха'
train.loc[12050, 'Город_ПП'] = 'Таловка'
train.loc[12076, 'Город_ПП'] = 'Ремовский'
train.dropna(subset=['Город_ПП'], inplace = True)

In [108]:
#убираем ненужные nan
train.dropna(subset=['Пол'], inplace = True)

#### Общая категоризация 2 датасетов

In [109]:
#объеденим 2 датасета для общей обработки
train = pd.concat([train, test], axis=0)
train = train.reset_index(drop=True)
train.shape


(19935, 24)

In [110]:
train = train.drop('ID', axis=1)
train = train.drop('Код_группы', axis=1)

In [111]:
#Заменяем опечатки 
def df_text (data, text, column):
    for i in range(len(text['old'])):
        data.loc[(data[column] == text['old'][i]), column] = text['new'][i]
        data.loc[(data[column] == 'КИТАЙ'), column] = 'Китай'
    return data

train = df_text(train, id_country, 'Страна_ПП') 
train = df_text(train, id_country, 'Страна_Родители') 
train = df_text(train, id_language, 'Изучаемый_Язык')

In [112]:
train.loc[(train['Год_Поступления'] == 2212), 'Год_Поступления'] = 2012
train.loc[(train['Пол'] == 'муж'), 'Пол'] = 'Муж'
train.loc[(train['Пол'] == 'жен'), 'Пол'] = 'Жен'

In [113]:
#убираем nan 
train.loc[5975, 'Страна_ПП'] = 'Туркменистан'
train.loc[486, 'Страна_ПП'] = 'Таджикистан'
train['Страна_ПП'] = train['Страна_ПП'].fillna('Россия')
train.loc[(train['Основания'] == 'ЛН'), 'Основания'] = 'ДН'

In [114]:
#возраст на текущий момент
def years_now (data):
    data['Возраст'] = (pd.to_datetime("today") - data['Дата_Рождения']).astype('<m8[Y]')
    data['Возраст'] = data['Возраст'].astype('int')
    data = data.drop('Дата_Рождения', axis=1)
    return data

train = years_now (train)

In [115]:
#опечатки в названиях регионов
def multiple_replace(data, replace_values):
    for i in replace_values:
        data = data.str.replace(i,'')
        data = data.str.replace('ё','е')
    data = data.str.strip()
    return data
replace_values = ['.','\s+г','г\s+','\s+рп','\s+пос','\s+с','ЗАТО','\s+ст','рп\s+','\s+п','\s+дер','ПосЗато', 
                  'с\s+','ст\s+','РП','ЗАТО','п\s+','Барнаул,\s+','кишлак','"','уезд','деревня','сельсовет']

train['Город_ПП'] = multiple_replace(train['Город_ПП'], replace_values)

In [116]:
#приводим названия городов и регионов к единому виду
train = df_text(train, id_city_1, 'Город_ПП') 

In [117]:
%%time
#создаем категорию по уровню образования (0 - нет данных, 1-среднее, 2-средне-специальное, 3-высшее)
#потом ручная правка выпавших значений
train['Ур_образования'] = 0
def id_edu (data, words, marker):
    for i in words:
        data['Ур_образования'][data['Уч_Заведение'].astype(str).str.contains(i, case=False)] = marker
    return data

edu_1 = ['сош','школ','гимназ','кош ','косш ','косшг',' сш','ксш',' мосш','cn',' осш','сш №', 'оош', 'c№', 'с№','Бригантина',
         ' ош ','ООШ','планета','общеобраз','сопш','СШ','МССОМШ','СОПШ','кадет','СОМШ','Новотырышкинская ОШ','ООУ №57','ГБОУШ',
         'УВК ШГ','сменная','вечерняя','Малышево-','Центр образования','Пенджик','Гиназия','О№57','СОУ №',
         'ОШ №','гамназия','ООУ №2','Царицино','СОМ №','КГОШ','Быстроистокская']    
edu_2 = ['лицей','пту','колледж','олимп','техникум','училище',' пу ','пу№','пу №','апэк','АКПЛ','летной','техниккум',
         'коледж','Сигма','коллеж','БКТАКПС','лицея','коллдеж','КемГППК','АТИВТ','ПУ г Камен','ПУ-30 ','Алтайский МТТ',
         'комбинат','СХТ','АСПО','СПН','ББМК','НПО ПЛ','ПЛ-39','БГПК','АМТТ МП','ПУ г. Камень', 'АГК','облпотреб']
edu_3 = ['универси','универст','унвиерс','институт','акаде','ааск','алгту',' гупс',' нигу','фамтт','агау','мэси','кбюи','БПГУ',
         ' тгу','гагу','консерв','фагу','ааэп','кемгу','агту','ГТУ','ВЗФИ','АГПА','АлтГУ','АГУ','АГИМ','БЮИ','СГА','иститу',
         'АГим','НИНХ','ВЗФЭИ','унивес','МАП при','агентства','АГАО','РХБЗ','унивкрс','ААЭиП','РГСУ','БГПУ','АЭЮИ','НГУ',
         'ФАГК','ТГУ','МГУ культуры','СУНЦ','аквдемия','СГГА','ВО НГИИ']

train = id_edu (train, edu_1, 1)
train = id_edu (train, edu_2, 2)
train = id_edu (train, edu_3, 3)

Wall time: 38.7 s


In [118]:
train = train.drop('Уч_Заведение', axis=1)

In [119]:
#заменяем nan в регионе уз
def nan_convert (data, column_1, column_2):
    for i in range(len(data[column_1])):
        if pd.isnull(data[column_1][i]) == True:
            data[column_1][i] = data[column_2][i]
    return data

train = nan_convert (train, 'Где_Находится_УЗ', 'Город_ПП')

In [120]:
%%time
#приводим название регионов к единому виду
#train['Регион_УЗ'] = train['Город_ПП']    #!!!!!!!!!!заменить - заполнить nan Где_Находится_УЗ городомПП, потом дополнить id_region


train['Регион_УЗ'] = None
def region_replace (data, words):
    for i in range(len(words['old'])):
        data['Регион_УЗ'][data['Где_Находится_УЗ'].astype(str).str.contains(words['old'][i],
                                                                                   case=False)] = words['new'][i]
    return data
    
train = region_replace(train, id_region) 

Wall time: 1min 33s


In [121]:
train = train.drop('Регион_ПП', axis=1)
#train = train.drop('Где_Находится_УЗ', axis=1)

In [122]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19935 entries, 0 to 19934
Data columns (total 22 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Год_Поступления   19935 non-null  Int64 
 1   Пол               19932 non-null  object
 2   Основания         19935 non-null  object
 3   Изучаемый_Язык    18926 non-null  object
 4   Где_Находится_УЗ  19773 non-null  object
 5   Год_Окончания_УЗ  18347 non-null  Int64 
 6   Пособие           18488 non-null  Int64 
 7   Страна_ПП         19935 non-null  object
 8   Город_ПП          19721 non-null  object
 9   Общежитие         19856 non-null  Int64 
 10  Наличие_Матери    19935 non-null  Int64 
 11  Наличие_Отца      19935 non-null  Int64 
 12  Страна_Родители   19475 non-null  object
 13  Опекунство        19935 non-null  Int64 
 14  Село              19854 non-null  Int64 
 15  Иностранец        19537 non-null  Int64 
 16  КодФакультета     19935 non-null  Int64 
 17  СрБаллАттест

In [123]:
train.head(100)

Unnamed: 0,Год_Поступления,Пол,Основания,Изучаемый_Язык,Где_Находится_УЗ,Год_Окончания_УЗ,Пособие,Страна_ПП,Город_ПП,Общежитие,Наличие_Матери,Наличие_Отца,Страна_Родители,Опекунство,Село,Иностранец,КодФакультета,СрБаллАттестата,Статус,Возраст,Ур_образования,Регион_УЗ
0,2015,Жен,ОО,Английский язык,"Алтайский край, Барнаул г",2014.0,0.0,Россия,Барнаул,0,0,0,Россия,0,0,0.0,41,4,3,24,1,Барнаул
1,2010,Муж,ЦН,,Барнаул,,0.0,Россия,Барнаул,0,1,1,Россия,0,0,0.0,28,67,4,30,0,Барнаул
2,2017,Жен,ДН,Английский язык,"Алтайский край, Алтайский р-н, Алтайское с",2017.0,0.0,Россия,Алтайское,0,1,1,Россия,0,0,0.0,41,4,4,23,1,Алтайское
3,2017,Жен,БН,Английский язык,"Алтайский край, г. Барнаул",2017.0,0.0,Россия,Барнаул,0,1,1,Россия,0,0,0.0,35,74,4,27,3,Барнаул
4,2017,Жен,БН,Английский язык,"Алтайский край, г. Барнаул",2017.0,0.0,Россия,Барнаул,0,1,1,Россия,0,0,0.0,28,53,4,27,3,Барнаул
5,2015,Муж,СН,Английский язык,"Алтайский край, Барнаул г",2015.0,0.0,Россия,Барнаул,0,0,0,Россия,0,0,0.0,41,4,3,24,1,Барнаул
6,2014,Жен,СН,Английский язык,"Алтайский край, Калманский р-н, Калманка с",2014.0,0.0,Россия,Калманка,1,0,0,Россия,0,1,0.0,51,58,3,26,1,Барнаул
7,2016,Жен,СН,Английский язык,"Россия, Алтайский край, г Барнаул",2016.0,0.0,Россия,Барнаул,0,1,1,Россия,0,0,0.0,26,78,4,27,3,Барнаул
8,2017,Муж,ОО,Английский язык,"Алтайский край, г. Барнаул",2017.0,0.0,Россия,Барнаул,0,1,1,Россия,0,0,0.0,34,65,3,23,2,Барнаул
9,2018,Жен,ОО,Английский язык,"Алтайский край, г. Барнаул",2018.0,0.0,Россия,Барнаул,0,1,1,Россия,0,0,0.0,26,87,3,22,2,Барнаул


In [124]:
train.Где_Находится_УЗ.value_counts()

Алтайский край, Барнаул г                                                          3650
Алтайский край, г. Барнаул                                                         2864
Россия, Алтайский край, г Барнаул                                                  1881
Барнаул                                                                            1328
Алтайский край, Бийск г                                                             361
Алтайский край г. Барнаул                                                           330
г. Барнаул                                                                          187
г.Барнаул                                                                           175
Алтайский край, г. Бийск                                                            167
г. Барнаул Алтайский край                                                           121
Россия, Алтайский край, г Бийск                                                     113
Алтайский край, Новоалтайск г   

In [125]:
train[train['Регион_УЗ']==0]

Unnamed: 0,Год_Поступления,Пол,Основания,Изучаемый_Язык,Где_Находится_УЗ,Год_Окончания_УЗ,Пособие,Страна_ПП,Город_ПП,Общежитие,Наличие_Матери,Наличие_Отца,Страна_Родители,Опекунство,Село,Иностранец,КодФакультета,СрБаллАттестата,Статус,Возраст,Ур_образования,Регион_УЗ


In [126]:
for i in range(len(train['Регион_УЗ'])):
    if pd.isnull(train['Регион_УЗ'][i]) == True:
#    if train['Регион_УЗ'][i]==0:
        train['Регион_УЗ'][i]=train['Где_Находится_УЗ'][i]


#abc = pd.DataFrame(train['Где_Находится_УЗ'].sort_values())
abc = pd.DataFrame(train['Регион_УЗ'].value_counts())
#abc = pd.DataFrame(abc['Где_Находится_УЗ'].unique())
#isplay(train[train['Город_ПП'].isnull()])
abc

Unnamed: 0,Регион_УЗ
Барнаул,14849
Алтайское,1253
Бийск,764
Казахстан,485
Китай,216
Москва,205
Таджикистан,181
Рубцовск,104
Кыргызстан,95
Славгород,86


In [131]:
abc = pd.DataFrame(train['Город_ПП'].value_counts())
abc

Unnamed: 0,Город_ПП
Барнаул,10178
Бийск,815
Новоалтайск,590
Рубцовск,319
Камень-на-Оби,285
Заринск,199
Славгород,195
Горно-Алтайск,170
Белокуриха,125
Семей,125


In [91]:
#Делаем общую категоризацию
#!!!!!!!!!!!!!!!!!!!не забыть про нан, помеять на 0!!!!!!!!!!!!!!!!!!!


from sklearn.preprocessing import LabelEncoder

le_country = LabelEncoder()
le_country.fit(df_train['Country/Region'])

df_train['Country/Region'] = le_country.transform(df_train['Country/Region'])


le_country.classes_

KeyError: 'Country/Region'

*Разбиваем общую выборку и продолжаем предобработку*

In [None]:
#Возвращаем 2 датасета 


In [None]:
#уберем выбросы из трейн
train = train[train['СрБаллАттестата'] <=100].reset_index(drop=True)
train = train[train['СрБаллАттестата'] >=3].reset_index(drop=True)
train = train[(train['СрБаллАттестата'] < 5) | (train['СрБаллАттестата'] >30)].reset_index(drop=True)

In [None]:
#замена параметров
def change (data, column, text):
    for i in range(len(text)):
        data.loc[(data[column] == text['old'][i]), column] = text['new'][i]                        
    return data

In [None]:
#приведем итоговые оценки к общему виду (3=40, 4=70, 5=95). С тестом то же самое, оставляя выбросы
bal = pd.DataFrame({'old': [3,4,5], 'new': [40,70,95]})
        
train = change(train, 'СрБаллАттестата', bal)   
test = change(test, 'СрБаллАттестата', bal)   

In [None]:
train[train['Год_Окончания_УЗ'].isnull()]

In [None]:
train['Ур_образования'].value_counts()

In [None]:
abc = pd.DataFrame(train['Где_Находится_УЗ'].sort_values())
#abc = pd.DataFrame(abc['Уч_Заведение'].unique())
#isplay(train[train['Город_ПП'].isnull()])
#abc

In [None]:
train['Страна_Родители'].unique()

In [None]:
display(train[train['Город_ПП'] == ' '])

In [None]:
train[train['Год_Окончания_УЗ'].isnull()]

In [None]:
vbn = train [['Уч_Заведение', 'Где_Находится_УЗ']].drop_duplicates()
vbn = vbn[vbn['Где_Находится_УЗ'].isnull()]
vbn

In [None]:
train.info()

In [None]:
#проверка на расхождения

#test = test.fillna(0)
df_unique (df_columns)