1. Масштабирование данных (для одного признака)

In [None]:
from sklearn.preprocessing import StandardScaler
import pandas as pd

data = pd.read_csv('Admission_Predict_Ver1.1.csv')

scaler = StandardScaler()
data['GRE Score Scaled'] = scaler.fit_transform(data[['GRE Score']])

2. Преобразование категориальных признаков в количественные

In [5]:
import pandas as pd
from sklearn.preprocessing import StandardScaler, LabelEncoder

# 1. Масштабирование 'GRE Score'
scaler = StandardScaler()
data['GRE Score Scaled'] = scaler.fit_transform(data[['GRE Score']])

# 2.1. Label Encoding для 'University Rating'
label_encoder = LabelEncoder()
data['University Rating Label'] = label_encoder.fit_transform(data['University Rating'])

# 2.2. One Hot Encoding для 'University Rating'
one_hot = pd.get_dummies(data['University Rating'], prefix='University_Rating')
data = pd.concat([data, one_hot], axis=1)

print(data.head())

   Serial No.  GRE Score  TOEFL Score  University Rating  SOP  LOR   CGPA  \
0           1        337          118                  4  4.5   4.5  9.65   
1           2        324          107                  4  4.0   4.5  8.87   
2           3        316          104                  3  3.0   3.5  8.00   
3           4        322          110                  3  3.5   2.5  8.67   
4           5        314          103                  2  2.0   3.0  8.21   

   Research  Chance of Admit   GRE Score Scaled  ...  University_Rating_1  \
0         1              0.92          1.819238  ...                False   
1         1              0.76          0.667148  ...                False   
2         1              0.72         -0.041830  ...                False   
3         1              0.80          0.489904  ...                False   
4         0              0.65         -0.219074  ...                False   

   University_Rating_2  University_Rating_3  University_Rating_4  \
0     

Какие методы Вы использовали для решения задачи и почему?

1. Масштабирование признака (StandardScaler)

Использовала StandardScaler из библиотеки sklearn для признака GRE Score.

GRE Score — числовой признак с широким диапазоном (260–340). Масштабирование необходимо для:

a) Алгоритмов, чувствительных к масштабу (SVM, KNN, линейная регрессия).

b) Ускорения сходимости градиентного спуска (в нейросетях или логистической регрессии).

StandardScaler выбрала вместо MinMaxScaler, потому что:

a) Данные не ограничены жёсткими границами (например, 0–1).

b) Устойчив к выбросам (редкие очень высокие/низкие значения не исказят трансформацию).

2. Label Encoding для University Rating

Применила LabelEncoder из sklearn, который заменил категории целыми числами

University Rating — порядковая категория (рейтинг 5 > 4 > 3 и т.д.).

Label Encoding сохраняет информацию о ранжировании, что полезно для деревьев решений (могут учитывать порядок) и простота и экономия памяти (один столбец вместо нескольких, как в OHE).




3. One Hot Encoding (OHE) для University Rating

Использовала pd.get_dummies() для создания бинарных столбцов, потому что:
Альтернатива для моделей, которые не должны учитывать порядок категорий. Например: Логистическая регрессия (может решить, что 5 «важнее» 1 из-за численного значения). 

А так же устраняет искусственную порядковую зависимость, которая может исказить предсказания.

Но есть недостаток
Этот метод увеличивает размерность данных (проблема для рейтингов с большим числом уникальных значений, но здесь их всего 5).


