In [7]:
!pip install pandas
!pip install numpy
!pip install scikit-learn



In [198]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
from sklearn.metrics import mean_squared_error

### 1) Загрузка данных

In [157]:
train_data = pd.read_csv('dataset/train.csv')
test_data = pd.read_csv('dataset/test.csv')

### 2) Предварительный анализ данных

In [160]:
train_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76518 entries, 0 to 76517
Data columns (total 38 columns):
 #   Column                                          Non-Null Count  Dtype  
---  ------                                          --------------  -----  
 0   id                                              76518 non-null  int64  
 1   Marital status                                  76518 non-null  int64  
 2   Application mode                                76518 non-null  int64  
 3   Application order                               76518 non-null  int64  
 4   Course                                          76518 non-null  int64  
 5   Daytime/evening attendance                      76518 non-null  int64  
 6   Previous qualification                          76518 non-null  int64  
 7   Previous qualification (grade)                  76518 non-null  float64
 8   Nacionality                                     76518 non-null  int64  
 9   Mother's qualification                 

In [162]:
train_data.describe()

Unnamed: 0,id,Marital status,Application mode,Application order,Course,Daytime/evening attendance,Previous qualification,Previous qualification (grade),Nacionality,Mother's qualification,...,Curricular units 1st sem (without evaluations),Curricular units 2nd sem (credited),Curricular units 2nd sem (enrolled),Curricular units 2nd sem (evaluations),Curricular units 2nd sem (approved),Curricular units 2nd sem (grade),Curricular units 2nd sem (without evaluations),Unemployment rate,Inflation rate,GDP
count,76518.0,76518.0,76518.0,76518.0,76518.0,76518.0,76518.0,76518.0,76518.0,76518.0,...,76518.0,76518.0,76518.0,76518.0,76518.0,76518.0,76518.0,76518.0,76518.0,76518.0
mean,38258.5,1.111934,16.054419,1.64441,9001.286377,0.915314,3.65876,132.378766,1.2266,19.837633,...,0.05796,0.137053,5.933414,7.234468,4.007201,9.626085,0.062443,11.52034,1.228218,-0.080921
std,22088.988286,0.441669,16.682337,1.229645,1803.438531,0.278416,8.623774,10.995328,3.392183,15.399456,...,0.40849,0.93383,1.627182,3.50304,2.772956,5.546035,0.462107,2.653375,1.398816,2.251382
min,0.0,1.0,1.0,0.0,33.0,0.0,1.0,95.0,1.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,7.6,-0.8,-4.06
25%,19129.25,1.0,1.0,1.0,9119.0,1.0,1.0,125.0,1.0,1.0,...,0.0,0.0,5.0,6.0,1.0,10.0,0.0,9.4,0.3,-1.7
50%,38258.5,1.0,17.0,1.0,9254.0,1.0,1.0,133.1,1.0,19.0,...,0.0,0.0,6.0,7.0,5.0,12.142857,0.0,11.1,1.4,0.32
75%,57387.75,1.0,39.0,2.0,9670.0,1.0,1.0,140.0,1.0,37.0,...,0.0,0.0,6.0,9.0,6.0,13.244048,0.0,12.7,2.6,1.79
max,76517.0,6.0,53.0,9.0,9991.0,1.0,43.0,190.0,109.0,44.0,...,12.0,19.0,23.0,33.0,20.0,18.0,12.0,16.2,3.7,3.51


In [164]:
train_data.head()

Unnamed: 0,id,Marital status,Application mode,Application order,Course,Daytime/evening attendance,Previous qualification,Previous qualification (grade),Nacionality,Mother's qualification,...,Curricular units 2nd sem (credited),Curricular units 2nd sem (enrolled),Curricular units 2nd sem (evaluations),Curricular units 2nd sem (approved),Curricular units 2nd sem (grade),Curricular units 2nd sem (without evaluations),Unemployment rate,Inflation rate,GDP,Target
0,0,1,1,1,9238,1,1,126.0,1,1,...,0,6,7,6,12.428571,0,11.1,0.6,2.02,Graduate
1,1,1,17,1,9238,1,1,125.0,1,19,...,0,6,9,0,0.0,0,11.1,0.6,2.02,Dropout
2,2,1,17,2,9254,1,1,137.0,1,3,...,0,6,0,0,0.0,0,16.2,0.3,-0.92,Dropout
3,3,1,1,3,9500,1,1,131.0,1,19,...,0,8,11,7,12.82,0,11.1,0.6,2.02,Enrolled
4,4,1,1,2,9500,1,1,132.0,1,19,...,0,7,12,6,12.933333,0,7.6,2.6,0.32,Graduate


### Описание датасета

* id: Уникальный идентификатор записи.
* Marital status: Семейное положение (категориальный признак, но уже преобразованный).
* Application mode: Режим подачи заявки (категориальный признак, но уже преобразованный).
* Application order: Порядок подачи заявки (числовой признак).
* Course: Код курса (числовой признак).
* Daytime/evening attendance: Тип посещаемости (дневная/вечерняя) (категориальный признак, но уже преобразованный).
* Previous qualification: Предыдущее образование (категориальный признак, но уже преобразованный).
* Previous qualification (grade): Оценка за предыдущее образование (числовой признак).
* Nacionality: Национальность (категориальный признак, но уже преобразованный).
* Mother's qualification: Образование матери (категориальный признак, но уже преобразованный).
* Father's qualification: Образование отца (категориальный признак, но уже преобразованный).
* Mother's occupation: Профессия матери (категориальный признак, но уже преобразованный).
* Father's occupation: Профессия отца (категориальный признак, но уже преобразованный).
* Admission grade: Оценка при поступлении (числовой).
* Displaced: Признак перемещения (0 или 1) (категориальный признак, но уже преобразованный).
* Educational special needs: Нужды в специальном образовании (0 или 1) (категориальный признак, но уже преобразованный).
* Debtor: Долговые обязательства (0 или 1) (категориальный признак, но уже преобразованный).
* Tuition fees up to date: Оплата обучения на текущий момент (0 или 1) (категориальный признак).
* Gender: Пол (категориальный признак, но уже преобразованный).
* Scholarship holder: Наличие стипендии (0 или 1) (категориальный признак, но уже преобразованный).
* Age at enrollment: Возраст на момент поступления (числовой признак).
* International: Статус международного студента (0 или 1) (категориальный признак, но уже преобразованный).

Столбцы, относящиеся к учебной деятельности (числовые признаки):
* Curricular units 1st sem (credited): Количество зачётов за курсы первого семестра.
* Curricular units 1st sem (enrolled): Общее количество курсов, на которые студент записался в первом семестре. Это значение помогает оценить нагрузку студента.
* Curricular units 1st sem (evaluations): Количество оценок, полученных студентом за курсы первого семестра. Это может включать все оценки, полученные за различные задания и экзамены.
* Curricular units 1st sem (approved): Количество курсов первого семестра, которые студент успешно завершил и получил за них кредиты.
* Curricular units 1st sem (grade): Средняя оценка за курсы первого семестра. Этот показатель может помочь в анализе успеваемости студента.
* Curricular units 1st sem (without evaluations): Количество курсов первого семестра, по которым не было получено оценок. Это может указывать на курсы, которые студент не завершил или по которым не были проведены оценки.
* Curricular units 2nd sem (credited): Аналогично первому семестру, это количество засчётов, полученных за курсы второго семестра.
* Curricular units 2nd sem (enrolled): Общее количество курсов второго семестра, на которые записался студент.
* Curricular units 2nd sem (evaluations): Количество оценок, полученных за курсы второго семестра.
* Curricular units 2nd sem (approved): Количество курсов второго семестра, которые студент успешно завершил.
* Curricular units 2nd sem (grade): Средняя оценка за курсы второго семестра.
* Curricular units 2nd sem (without evaluations): Количество курсов второго семестра без полученных оценок.

Экономические показатели (числовые признаки):
* Unemployment rate: Уровень безработицы в регионе или стране на момент сбора данных. Этот показатель может влиять на решения студентов о выборе учебного заведения или курса.
* Inflation rate: Уровень инфляции в регионе или стране на момент сбора данных. Высокая инфляция может повлиять на стоимость образования и доступность ресурсов для студентов.
* GDP: Валовой внутренний продукт (ВВП) страны или региона на момент сбора данных. Этот показатель является индикатором экономического состояния страны и может коррелировать с финансированием образования и доступностью учебных ресурсов.

__Target__ - целевой признак, выпустился студент или отчислен

### 3) Выявление пропусков и дубликатов

In [168]:
missing_values = train_data.isnull().sum()
print("\nПропуски в данных:\n", missing_values[missing_values > 0])
duplicates = train_data.duplicated().sum()
print("\nКоличество дубликатов:\n", duplicates)


Пропуски в данных:
 Series([], dtype: int64)

Количество дубликатов:
 0


### 4) Выявление категориальных признаков

In [171]:
categorical_features = train_data.select_dtypes(include=['object']).columns.tolist()
print("\nКатегориальные признаки:\n", categorical_features)


Категориальные признаки:
 ['Target']


### 5) Преобразование категориальных данных

In [174]:
encoder = OneHotEncoder(sparse_output=False)
encoded_categorical = encoder.fit_transform(train_data[categorical_features])
encoded_df = pd.DataFrame(encoded_categorical, columns=encoder.get_feature_names_out(categorical_features))
train_data = pd.concat([train_data.reset_index(drop=True), encoded_df.reset_index(drop=True)], axis=1)
train_data.drop(columns=categorical_features, inplace=True)

In [176]:
train_data.head()

Unnamed: 0,id,Marital status,Application mode,Application order,Course,Daytime/evening attendance,Previous qualification,Previous qualification (grade),Nacionality,Mother's qualification,...,Curricular units 2nd sem (evaluations),Curricular units 2nd sem (approved),Curricular units 2nd sem (grade),Curricular units 2nd sem (without evaluations),Unemployment rate,Inflation rate,GDP,Target_Dropout,Target_Enrolled,Target_Graduate
0,0,1,1,1,9238,1,1,126.0,1,1,...,7,6,12.428571,0,11.1,0.6,2.02,0.0,0.0,1.0
1,1,1,17,1,9238,1,1,125.0,1,19,...,9,0,0.0,0,11.1,0.6,2.02,1.0,0.0,0.0
2,2,1,17,2,9254,1,1,137.0,1,3,...,0,0,0.0,0,16.2,0.3,-0.92,1.0,0.0,0.0
3,3,1,1,3,9500,1,1,131.0,1,19,...,11,7,12.82,0,11.1,0.6,2.02,0.0,1.0,0.0
4,4,1,1,2,9500,1,1,132.0,1,19,...,12,6,12.933333,0,7.6,2.6,0.32,0.0,0.0,1.0


### 6) Нормализация данных

In [179]:
scaler = StandardScaler()
numeric_features = ["Previous qualification (grade)", "Admission grade", "Age at enrollment", "Curricular units 1st sem (credited)", "Curricular units 1st sem (enrolled)", "Curricular units 1st sem (enrolled)", "Curricular units 1st sem (approved)", "Curricular units 1st sem (grade)", "Curricular units 1st sem (without evaluations)", "Curricular units 2nd sem (credited)", "Curricular units 2nd sem (enrolled)", "Curricular units 2nd sem (evaluations)", "Curricular units 2nd sem (approved)", "Curricular units 2nd sem (grade)", "Curricular units 2nd sem (without evaluations)", "Unemployment rate", "Inflation rate", "GDP"]
train_data[numeric_features] = scaler.fit_transform(train_data[numeric_features])

In [181]:
train_data.head()

Unnamed: 0,id,Marital status,Application mode,Application order,Course,Daytime/evening attendance,Previous qualification,Previous qualification (grade),Nacionality,Mother's qualification,...,Curricular units 2nd sem (evaluations),Curricular units 2nd sem (approved),Curricular units 2nd sem (grade),Curricular units 2nd sem (without evaluations),Unemployment rate,Inflation rate,GDP,Target_Dropout,Target_Enrolled,Target_Graduate
0,0,1,1,1,9238,1,1,-0.580138,1,1,...,-0.066933,0.71866,0.505317,-0.135127,-0.158418,-0.44911,0.933176,0.0,0.0,1.0
1,1,1,17,1,9238,1,1,-0.671086,1,19,...,0.504003,-1.44511,-1.735681,-0.135127,-0.158418,-0.44911,0.933176,1.0,0.0,0.0
2,2,1,17,2,9254,1,1,0.420293,1,3,...,-2.06521,-1.44511,-1.735681,-0.135127,1.763675,-0.663578,-0.372698,1.0,0.0,0.0
3,3,1,1,3,9500,1,1,-0.125396,1,19,...,1.07494,1.079288,0.575895,-0.135127,-0.158418,-0.44911,0.933176,0.0,1.0,0.0
4,4,1,1,2,9500,1,1,-0.034448,1,19,...,1.360408,0.71866,0.59633,-0.135127,-1.477502,0.98068,0.178079,0.0,0.0,1.0


### 7) Генерация новых признаков на основе существующих

In [184]:
train_data['Parent Qualification Score'] = train_data['Mother\'s qualification'] + train_data['Father\'s qualification']
train_data['Total Approved Units'] = train_data['Curricular units 1st sem (approved)'] + train_data['Curricular units 2nd sem (approved)']
train_data['Curricular Load'] = train_data['Curricular units 1st sem (enrolled)'] + train_data['Curricular units 2nd sem (enrolled)']

In [186]:
train_data.head()

Unnamed: 0,id,Marital status,Application mode,Application order,Course,Daytime/evening attendance,Previous qualification,Previous qualification (grade),Nacionality,Mother's qualification,...,Curricular units 2nd sem (without evaluations),Unemployment rate,Inflation rate,GDP,Target_Dropout,Target_Enrolled,Target_Graduate,Parent Qualification Score,Total Approved Units,Curricular Load
0,0,1,1,1,9238,1,1,-0.580138,1,1,...,-0.135127,-0.158418,-0.44911,0.933176,0.0,0.0,1.0,20,1.3963,0.105813
1,1,1,17,1,9238,1,1,-0.671086,1,19,...,-0.135127,-0.158418,-0.44911,0.933176,1.0,0.0,0.0,38,-1.511525,0.105813
2,2,1,17,2,9254,1,1,0.420293,1,3,...,-0.135127,1.763675,-0.663578,-0.372698,1.0,0.0,0.0,22,-2.999632,0.105813
3,3,1,1,3,9500,1,1,-0.125396,1,19,...,-0.135127,-0.158418,-0.44911,0.933176,0.0,1.0,0.0,22,2.128955,1.93311
4,4,1,1,2,9500,1,1,-0.034448,1,19,...,-0.135127,-1.477502,0.98068,0.178079,0.0,0.0,1.0,56,1.3963,1.318547


### 8) Проведение отбора сгенерированных признаков

In [216]:
X = train_data.drop(columns=['Target_Graduate'])
y = train_data['Target_Graduate']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [218]:
# метод SelectKBest для выбора лучших признаков на основе статистических критериев.
X_new = SelectKBest(f_classif, k=5).fit_transform(X, y)
print("Отобранные признаки:", X_new)

Отобранные признаки: [[ 0.67763969  0.71865983  0.50531678  0.          1.39629952]
 [-0.06641429 -1.44511022 -1.73568123  1.         -1.51152451]
 [-1.55452226 -1.44511022 -1.73568123  1.         -2.99963248]
 ...
 [-0.06641429  0.35803149  0.31985488  0.          0.29161719]
 [-1.55452226 -1.44511022 -1.73568123  1.         -2.99963248]
 [ 0.67763969  0.71865983  0.72855797  0.          1.39629952]]


In [220]:
# Важность признаков с помощью случайного леса
model = RandomForestClassifier(n_estimators=100)
model.fit(X, y)

importances = model.feature_importances_
feature_importances = pd.DataFrame(importances, index=X.columns, columns=['Importance']).sort_values('Importance', ascending=False)

print(feature_importances)

                                                Importance
Target_Enrolled                                   0.252577
Target_Dropout                                    0.173592
Curricular units 2nd sem (approved)               0.137266
Total Approved Units                              0.121898
Curricular units 1st sem (approved)               0.075928
Curricular units 1st sem (grade)                  0.069877
Curricular units 2nd sem (grade)                  0.045909
Curricular units 2nd sem (evaluations)            0.015785
Scholarship holder                                0.015218
Tuition fees up to date                           0.012800
Curricular units 1st sem (evaluations)            0.011676
Curricular Load                                   0.010347
Age at enrollment                                 0.007832
Admission grade                                   0.004525
Course                                            0.004014
Previous qualification (grade)                    0.0039

In [221]:
#  LASSO для отбора признаков с помощью L1-регуляризации
from sklearn.linear_model import LassoCV

lasso = LassoCV(cv=5)
lasso.fit(X, y)

selected_features = X.columns[lasso.coef_ != 0]
print("Отобранные признаки с помощью LASSO:", selected_features)

Отобранные признаки с помощью LASSO: Index(['id', 'Application mode', 'Course',
       'Curricular units 1st sem (evaluations)', 'Parent Qualification Score',
       'Total Approved Units'],
      dtype='object')
