## 1. Загрузка библиотек и данных

In [1]:
import pandas as pd
import numpy as np

In [2]:

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'


column_names = [
    'age', 'workclass', 'fnlwgt', 'education', 'education-num',
    'marital-status', 'occupation', 'relationship', 'race', 'sex',
    'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'salary'
]


df = pd.read_csv(url, header=None, names=column_names, sep=',\s*', na_values='?', engine='python')


  df = pd.read_csv(url, header=None, names=column_names, sep=',\s*', na_values='?', engine='python')


## 2. Первичный осмотр данных

In [3]:

df.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,salary
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [4]:

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       30725 non-null  object
 2   fnlwgt          32561 non-null  int64 
 3   education       32561 non-null  object
 4   education-num   32561 non-null  int64 
 5   marital-status  32561 non-null  object
 6   occupation      30718 non-null  object
 7   relationship    32561 non-null  object
 8   race            32561 non-null  object
 9   sex             32561 non-null  object
 10  capital-gain    32561 non-null  int64 
 11  capital-loss    32561 non-null  int64 
 12  hours-per-week  32561 non-null  int64 
 13  native-country  31978 non-null  object
 14  salary          32561 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


## 3. Ответы на вопросы

### Вопрос 1: Число столбцов в наборе данных

In [5]:
num_columns = df.shape[1]
print(f'Число столбцов: {num_columns}')

Число столбцов: 15


### Вопрос 2: Есть ли пропуски в данных? Если есть, то в каких столбцах

In [6]:

missing_values = df.isnull().sum()
print("Пропуски в столбцах:")
print(missing_values[missing_values > 0])

Пропуски в столбцах:
workclass         1836
occupation        1843
native-country     583
dtype: int64


### Вопрос 3: Кол-во уникальных значений в столбце race

In [7]:
unique_races = df['race'].nunique()
print(f'Количество уникальных значений в столбце race: {unique_races}')
print("Сами значения:")
print(df['race'].unique())

Количество уникальных значений в столбце race: 5
Сами значения:
['White' 'Black' 'Asian-Pac-Islander' 'Amer-Indian-Eskimo' 'Other']


### Вопрос 4: Медиана hours-per-week

In [8]:
median_hours = df['hours-per-week'].median()
print(f'Медиана для hours-per-week: {median_hours}')

Медиана для hours-per-week: 40.0


### Вопрос 5: Кого больше - женщин или мужчин с ЗП >50K?

In [9]:

high_income_df = df[df['salary'] == '>50K']


gender_counts = high_income_df['sex'].value_counts()
print("Количество мужчин и женщин с ЗП >50K:")
print(gender_counts)

if gender_counts['Male'] > gender_counts['Female']:
    print("\nМужчин с ЗП >50K больше.")
else:
    print("\nЖенщин с ЗП >50K больше.")

Количество мужчин и женщин с ЗП >50K:
sex
Male      6662
Female    1179
Name: count, dtype: int64

Мужчин с ЗП >50K больше.


### Вопрос 6: Заполнение пропущенных данных

#### 6.1. Заполните пропущенные данные в отдельных столбцах наиболее встречаемыми значениями.

In [10]:

df_filled = df.copy()


cols_with_missing = ['workclass', 'occupation', 'native-country']


for col in cols_with_missing:
    mode_val = df_filled[col].mode()[0]
    df_filled[col].fillna(mode_val, inplace=True)
    print(f'Пропуски в столбце "{col}" заменены на "{mode_val}"')


print("\nПроверка после заполнения:")
print(df_filled.isnull().sum())

Пропуски в столбце "workclass" заменены на "Private"
Пропуски в столбце "occupation" заменены на "Prof-specialty"
Пропуски в столбце "native-country" заменены на "United-States"

Проверка после заполнения:
age               0
workclass         0
fnlwgt            0
education         0
education-num     0
marital-status    0
occupation        0
relationship      0
race              0
sex               0
capital-gain      0
capital-loss      0
hours-per-week    0
native-country    0
salary            0
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_filled[col].fillna(mode_val, inplace=True)


#### 6.2. Как еще можно было бы заполнить пропущенные данные?

Заполнение пропусков — важный этап предобработки данных. Выбор метода зависит от типа данных (категориальные, числовые) и их природы. Помимо замены на моду (самое частое значение), существуют и другие подходы:

1.  **Для категориальных данных:**
    * **Создание отдельной категории:** Можно заменить все пропуски новой категорией, например, `"Unknown"` или `"Missing"`. Это может быть полезно, если сам факт пропуска несет в себе какую-то информацию.
    * **Заполнение на основе других признаков:** Если данные связаны, можно заполнять пропуски модой, но не по всему столбцу, а в рамках определенной группы. Например, пропуски в `occupation` можно было бы заполнять самой популярной профессией для определенного `workclass`.

2.  **Для числовых данных (здесь таких пропусков нет, но в общем случае):**
    * **Замена средним (mean):** Хорошо подходит для данных с нормальным распределением без сильных выбросов.
    * **Замена медианой (median):** Более устойчивый к выбросам метод, чем среднее. Часто является предпочтительным для числовых данных.
    * **Замена нулем или константой:** Применимо, если пропуск означает отсутствие чего-либо (например, пропуск в столбце "сумма скидки" означает, что скидки не было).

3.  **Продвинутые методы (для любых типов данных):**
    * **Алгоритм k-ближайших соседей (KNN Imputer):** Пропуски заполняются на основе средних/модальных значений у `k` самых похожих объектов (соседей).
    * **Использование моделей машинного обучения:** Можно построить модель (например, линейную регрессию или дерево решений), где столбец с пропусками будет целевой переменной, а остальные — признаками. Модель предскажет наиболее вероятные значения для пропусков.

---

## Итоговые ответы на вопросы

**1) Число столбцов в наборе данных:**
   - 15

**2) Есть ли пропуски в данных? Если есть, то в каких столбцах:**
   - Да, пропуски есть в столбцах: `workclass`, `occupation`, `native-country`.

**3) Кол-во уникальных значений в столбце `race`:**
   - 5

**4) Медиана `hours-per-week`:**
   - 40.0

**5) Кого больше - женщин или мужчин с ЗП >50K?**
   - Мужчин.

**6) Заполните пропущенные данные в отдельных столбцах наиболее встречаемыми значениями. Как еще можно было бы заполнить пропущенные данные?**
   - Пропуски были заполнены модой (самым частым значением). Другие способы включают: создание отдельной категории для пропусков (например, "Unknown"), заполнение средним/медианой для числовых данных, а также использование более сложных алгоритмов, таких как KNN или предсказательные модели.