In [None]:
# Установка библиотеки ucimlrepo
!pip install ucimlrepo

Collecting ucimlrepo
  Downloading ucimlrepo-0.0.7-py3-none-any.whl.metadata (5.5 kB)
Downloading ucimlrepo-0.0.7-py3-none-any.whl (8.0 kB)
Installing collected packages: ucimlrepo
Successfully installed ucimlrepo-0.0.7


In [None]:
# Импорт необходимых библиотек
import pandas as pd
from ucimlrepo import fetch_ucirepo

# Загрузка набора данных Adult Income
adult = fetch_ucirepo(id=2)

# Данные (в виде DataFrame Pandas)
X = adult.data.features
y = adult.data.targets

# Объединяем признаки и целевую переменную в один DataFrame для удобства
df = pd.concat([X, y], axis=1)

# Выводим основную информацию о наборе данных
print("Первые 5 строк набора данных:")
print(df.head())
print("\n" + "="*60)

Первые 5 строк набора данных:
   age         workclass  fnlwgt  education  education-num  \
0   39         State-gov   77516  Bachelors             13   
1   50  Self-emp-not-inc   83311  Bachelors             13   
2   38           Private  215646    HS-grad              9   
3   53           Private  234721       11th              7   
4   28           Private  338409  Bachelors             13   

       marital-status         occupation   relationship   race     sex  \
0       Never-married       Adm-clerical  Not-in-family  White    Male   
1  Married-civ-spouse    Exec-managerial        Husband  White    Male   
2            Divorced  Handlers-cleaners  Not-in-family  White    Male   
3  Married-civ-spouse  Handlers-cleaners        Husband  Black    Male   
4  Married-civ-spouse     Prof-specialty           Wife  Black  Female   

   capital-gain  capital-loss  hours-per-week native-country income  
0          2174             0              40  United-States  <=50K  
1           

In [None]:
# 1) Число столбцов в наборе данных
num_columns = df.shape[1]
print(f"1) Число столбцов в наборе данных: {num_columns}")

# 2) Проверяем пропуски в данных (отмечены как NaN)
missing_values = df.isnull().sum()
print(f"\n2) Пропуски в данных:")
# Проверяем, есть ли вообще пропущенные значения
if missing_values.any():
    print("В данных присутствуют пропуски в следующих столбцах:")
    # Выводим только те столбцы, где есть пропуски
    for column, missing_count in missing_values.items():
        if missing_count > 0:
            print(f"   - {column}: {missing_count} пропусков")
else:
    print("Пропуски в данных отсутствуют.")

# 3) Количество уникальных значений в столбце race
unique_race_count = df['race'].nunique()
print(f"\n3) Количество уникальных значений в столбце 'race': {unique_race_count}")
print(f"   Уникальные значения: {df['race'].unique().tolist()}")

# 4) Медиана hours-per-week
hours_median = df['hours-per-week'].median()
print(f"\n4) Медиана 'hours-per-week': {hours_median}")

# 5) Кого больше - женщин или мужчин с ЗП >50K?
high_income_gender = df[df['income'] == '>50K']['sex'].value_counts()
print(f"\n5) Распределение по полу для людей с доходом >50K:")
print(high_income_gender)

if high_income_gender.get('Male', 0) > high_income_gender.get('Female', 0):
    print("   Вывод: Мужчин с зарплатой >50K больше.")
else:
    print("   Вывод: Женщин с зарплатой >50K больше.")

1) Число столбцов в наборе данных: 15

2) Пропуски в данных:
В данных присутствуют пропуски в следующих столбцах:
   - workclass: 963 пропусков
   - occupation: 966 пропусков
   - native-country: 274 пропусков

3) Количество уникальных значений в столбце 'race': 5
   Уникальные значения: ['White', 'Black', 'Asian-Pac-Islander', 'Amer-Indian-Eskimo', 'Other']

4) Медиана 'hours-per-week': 40.0

5) Распределение по полу для людей с доходом >50K:
sex
Male      6662
Female    1179
Name: count, dtype: int64
   Вывод: Мужчин с зарплатой >50K больше.


In [None]:
# 6) Заполняем пропущенные данные в отдельных столбцах наиболее встречаемыми значениями (модой)
print("\n6) Заполнение пропущенных данных:")
# Создаем копию DataFrame, чтобы не изменять исходные данные
df_filled = df.copy()

# Находим столбцы с пропусками
columns_with_missing = missing_values[missing_values > 0].index

if len(columns_with_missing) > 0:
    print("Заполняем пропуски наиболее частыми значениями (модой):")
    for column in columns_with_missing:
        # Вычисляем моду (наиболее часто встречающееся значение) для столбца
        # mode() возвращает Series, берем первое значение на случай, если несколько мод
        most_frequent_value = df[column].mode()[0]
        # Заполняем пропуски
        df_filled[column].fillna(most_frequent_value, inplace=True)
        print(f"   - Столбец '{column}': заполнено {df[column].isnull().sum()} пропусков значением '{most_frequent_value}'")

    # Проверяем, что пропусков не осталось
    print(f"\n   Проверка: осталось пропусков после заполнения - {df_filled.isnull().sum().sum()}")
else:
    print("   Пропуски для заполнения отсутствуют.")

print("\n" + "="*60)
print("Обработка завершена!")


6) Заполнение пропущенных данных:
Заполняем пропуски наиболее частыми значениями (модой):
   - Столбец 'workclass': заполнено 963 пропусков значением 'Private'
   - Столбец 'occupation': заполнено 966 пропусков значением 'Prof-specialty'
   - Столбец 'native-country': заполнено 274 пропусков значением 'United-States'

   Проверка: осталось пропусков после заполнения - 0

Обработка завершена!


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_filled[column].fillna(most_frequent_value, inplace=True)


1) 15

2) В данных присутствуют пропуски в следующих столбцах:
   - workclass
   - occupation
   - native-country

3) 5
   
4) 40.0

5) Мужчин с зарплатой >50K больше.

6) Заполнил пропуски наиболее частыми значениями. Ещё можно было бы заполнить пропуски, например, константой или медианой.