In [4]:
import pandas as pd
from sklearn.datasets import fetch_openml
from sklearn.preprocessing import LabelEncoder

#  датасет adult через sklearn
adult = fetch_openml("adult", version=2, as_frame=True)
df = adult.frame  

print("Все столбцы датасета:")
print(df.columns.tolist(), end="\n\n")

# отбор нужных признаков с правильным именем целевого признака
df_selected = df[['education', 'marital-status', 'occupation', 'class']]

print("Исходные данные:")
print(df_selected.head(), end="\n\n")

le_education = LabelEncoder()
df_selected['education_encoded'] = le_education.fit_transform(df_selected['education'])

print("После Label Encoding признака 'education':")
print(df_selected[['education', 'education_encoded']], end="\n\n")

df_encoded = pd.get_dummies(df_selected, columns=['marital-status', 'occupation'], drop_first=False)

print("После One-Hot Encoding признаков 'marital-status' и 'occupation':")
print(df_encoded.head(), end="\n\n")

#  Проверка размерности таблицы до и после кодирования
print("Размерность до кодирования:", df_selected.shape)
print("Размерность после кодирования:", df_encoded.shape, end="\n\n")

#  Проверка дамми-ловушки
marital_cols = [col for col in df_encoded.columns if col.startswith('marital-status_')]
print("Корреляция между one-hot признаками 'marital-status':")
print(df_encoded[marital_cols].corr(), end="\n\n")

print("Если матрица корреляции содержит 1 между всеми столбцами, значит дамми-ловушка присутствует.")
print("Чтобы избежать дамми-ловушки, можно использовать drop_first=True в pd.get_dummies.")

Все столбцы датасета:
['age', 'workclass', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'class']

Исходные данные:
      education      marital-status         occupation  class
0          11th       Never-married  Machine-op-inspct  <=50K
1       HS-grad  Married-civ-spouse    Farming-fishing  <=50K
2    Assoc-acdm  Married-civ-spouse    Protective-serv   >50K
3  Some-college  Married-civ-spouse  Machine-op-inspct   >50K
4  Some-college       Never-married                NaN  <=50K

После Label Encoding признака 'education':
          education  education_encoded
0              11th                  1
1           HS-grad                 11
2        Assoc-acdm                  7
3      Some-college                 15
4      Some-college                 15
...             ...                ...
48837    Assoc-acdm                  7
48838       HS-grad            

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_selected['education_encoded'] = le_education.fit_transform(df_selected['education'])
