In [63]:
import pandas as pd
import numpy as np

url= "https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data"
columns = ['age', 'workclass', 'fnlwgt', 'education', 'education-num',
           'marital-status', 'occupation', 'relationship', 'race', 'sex',
           'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'income']

df = pd.read_csv(url, names=columns, na_values='?', skipinitialspace=True)

print("Первые 5 строк данных:")
df.head()



Первые 5 строк данных:


Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [64]:
# 1. Число столбцов в наборе данных

print("Число столбцов в наборе данных: ",  len(data.columns))

Число столбцов в наборе данных:  15


In [66]:
# 2. Есть ли пропуски в данных? Если есть, то в каких столбцах
missing_columns = df.columns[df.isnull().any()].tolist()
print(f" Есть ли пропуски в данных? {'Да' if missing_columns else 'Нет'}")

print("\nСтолбцы с пропущенными значениями:")
missing_columns = df.columns[df.isnull().any()].tolist()
if missing_columns:
    for col in missing_columns:
        print(f"{col}: {df[col].isnull().sum()} пропусков")
else:
    print("Пропущенных значений нет.")

 Есть ли пропуски в данных? Да

Столбцы с пропущенными значениями:
workclass: 1836 пропусков
occupation: 1843 пропусков
native-country: 583 пропусков


In [67]:
# Проверка пропущенных значений
print("\nПропущенные значения в каждом столбце:")
print(df.isnull().sum())


Пропущенные значения в каждом столбце:
age                  0
workclass         1836
fnlwgt               0
education            0
education-num        0
marital-status       0
occupation        1843
relationship         0
race                 0
sex                  0
capital-gain         0
capital-loss         0
hours-per-week       0
native-country     583
income               0
dtype: int64


In [68]:
# 3. Кол-во уникальных значений в столбце race
unique_race_count = df['race'].nunique()
print(f"\n Количество уникальных значений в столбце race: {unique_race_count}")


 Количество уникальных значений в столбце race: 5


In [69]:
# 4. Медиана hours-per-week
median_hours = df['hours-per-week'].median()
print(f"\n Медиана hours-per-week: {median_hours}")


 Медиана hours-per-week: 40.0


In [70]:
# 5. Кого больше - женщин или мужчин с ЗП >50K?
df_select = df[df['income'] == '>50K']
male = len(df_select[df_select['sex']=='Male'])
female = len(df_select[df_select['sex']=='Female'])

print(f'Количество мужчин с ЗП >50K: {male}')
print(f'Количество женщин с ЗП >50K: {female}')

if male > female:
    print('Больше мужчин.')
elif female > male:
    print('Больше женщин.')
else:
    print('Количество мужчин и женщин одинаково.')


Количество мужчин с ЗП >50K: 6662
Количество женщин с ЗП >50K: 1179
Больше мужчин.


In [71]:
# 6. Заполните пропущенные данные в отдельных столбцах наиболее встречаемыми значениями.
print("\nЗаполнение пропущенных данных:")
for col in df.columns:
    if df[col].isnull().any():
        most_frequent_value = df[col].mode()[0]
        df[col] = df[col].fillna(most_frequent_value)

print("\nПропущенные значения после обработки:")
print(df.isnull().sum())


Заполнение пропущенных данных:

Пропущенные значения после обработки:
age               0
workclass         0
fnlwgt            0
education         0
education-num     0
marital-status    0
occupation        0
relationship      0
race              0
sex               0
capital-gain      0
capital-loss      0
hours-per-week    0
native-country    0
income            0
dtype: int64


In [80]:
# 1. Число столбцов в наборе данных:  15
# 2. Есть ли пропуски в данных? Да

#Столбцы с пропущенными значениями:
#workclass: 1836 пропусков
#occupation: 1843 пропусков
#native-country: 583 пропусков
# 3. Количество уникальных значений в столбце race: 5
# 4. Медиана hours-per-week: 40.0
# 5. Количество мужчин с ЗП >50K: 6662
#Количество женщин с ЗП >50K: 1179
#Больше мужчин.
# 6. Заполнение пропущенных данных:

#Пропущенные значения после обработки:
#age               0
#workclass         0
#fnlwgt            0
#education         0
#education-num     0
#marital-status    0
#occupation        0
#relationship      0
#race              0
#sex               0
#capital-gain      0
#capital-loss      0
#hours-per-week    0
#native-country    0
#income            0
#dtype: int64

print(f" Другие методы заполнения пропусков:")
print("   Средним значением")
print("   Медианой")
print("   Метод интерполяции")
print("   Заполнение специальными значениями (например, Unknown, 0, -1)")
print("   Удаление строк или столбцов с пропусками")
print("   С помощью алгоритмов машинного обучения")

 Другие методы заполнения пропусков:
   Средним значением
   Медианой
   Метод интерполяции
   Заполнение специальными значениями (например, Unknown, 0, -1)
   Удаление строк или столбцов с пропусками
   С помощью алгоритмов машинного обучения
