### **Описание данных `Adult` (Census Income Dataset)**

`Adult` — это широко используемый датасет из 1994 года, извлечённый из базы данных переписи населения США. Он предназначен для задачи классификации, цель которой — предсказать, зарабатывает ли человек более 50 000 долларов в год (`>50K`) или менее (`<=50K`).

---

### **1. Общая информация**
- **Название:** `Adult (Census Income Dataset)`
- **Источник:** US Census Bureau, 1994
- **Автор извлечения:** Barry Becker
- **Первое использование:** Ron Kohavi, 1996, статья *"Scaling Up the Accuracy of Naive-Bayes Classifiers: a Decision-Tree Hybrid"*
- **Цель:** Предсказать уровень дохода (`>50K` или `<=50K`)

---

### **2. Структура данных**
- **Число экземпляров (записей):** 48,842
  - Обучающая выборка: 32,561
  - Тестовая выборка: 16,281
- **После удаления пропусков:** 45,222 (30,162 обучающих, 15,060 тестовых)
- **Атрибуты:** 14 признаков + целевая переменная (`income`)
  - 6 непрерывных (continuous)
  - 8 категориальных (nominal)

---

### **3. Описание признаков**
| **Признак**       | **Тип**        | **Описание**                                               |
|-------------------|---------------|------------------------------------------------------------|
| `age`             | Непрерывный   | Возраст человека                                           |
| `workclass`       | Категориальный| Тип занятости (Private, Self-emp, Gov, Without-pay и др.)   |
| `fnlwgt`          | Непрерывный   | Вес записи, отражающий репрезентативность человека          |
| `education`       | Категориальный| Уровень образования (Bachelors, HS-grad, Masters и др.)     |
| `education-num`   | Непрерывный   | Количество лет обучения, связанное с уровнем образования    |
| `marital-status`  | Категориальный| Семейное положение (Married, Divorced, Never-married и др.) |
| `occupation`      | Категориальный| Профессия (Tech-support, Sales, Exec-managerial и др.)      |
| `relationship`    | Категориальный| Отношение к главе семьи (Husband, Wife, Unmarried и др.)    |
| `race`            | Категориальный| Раса (White, Black, Asian-Pac-Islander и др.)               |
| `sex`             | Категориальный| Пол (Male, Female)                                          |
| `capital-gain`    | Непрерывный   | Доход от прироста капитала                                 |
| `capital-loss`    | Непрерывный   | Убытки от капитала                                         |
| `hours-per-week`  | Непрерывный   | Количество рабочих часов в неделю                          |
| `native-country`  | Категориальный| Родная страна (United-States, Mexico, India и др.)          |
| `income`          | Целевая перем.| Доход: `>50K` или `<=50K`                                   |

---

### **4. Пропуски в данных**
- **7% записей** содержат пропуски (`?`) в атрибутах `workclass`, `occupation` и `native-country`.

---

### **5. Распределение классов**
- **<=50K:** 76.07% (75.22% без неизвестных значений)
- **>50K:** 23.93% (24.78% без неизвестных значений)

---

### **6. Особенности и важные замечания**
- Датасет включает **дискретные и непрерывные атрибуты**.
- Целевая переменная (`income`) — бинарная (`>50K` или `<=50K`).
- **Задача:** бинарная классификация.

---


In [30]:
import numpy as np
import pandas as pd

In [31]:
features_list = """age: continuous.
workclass: Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked.
fnlwgt: continuous.
education: Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool.
education-num: continuous.
marital-status: Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse.
occupation: Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces.
relationship: Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried.
race: White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black.
sex: Female, Male.
capital-gain: continuous.
capital-loss: continuous.
hours-per-week: continuous.
native-country: United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands.""".split("\n")

features = {}
for i, description in enumerate(features_list):
    feature, _ = description.split(":")
    features[i] = feature

features[len(features_list)] = "target"


In [32]:
pd.set_option("display.max_columns", None)

df_train = pd.read_csv("datasets/adult.data", header=None)
df_test = pd.read_csv("datasets/adult.test", header=None)

df_train = df_train.rename(features, axis=1)
df_test = df_test.rename(features, axis=1)

df_train.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,target
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [29]:
df_train.describe()

Unnamed: 0,age,fnlwgt,education-num,capital-gain,capital-loss,hours-per-week
count,32561.0,32561.0,32561.0,32561.0,32561.0,32561.0
mean,38.581647,189778.4,10.080679,1077.648844,87.30383,40.437456
std,13.640433,105550.0,2.57272,7385.292085,402.960219,12.347429
min,17.0,12285.0,1.0,0.0,0.0,1.0
25%,28.0,117827.0,9.0,0.0,0.0,40.0
50%,37.0,178356.0,10.0,0.0,0.0,40.0
75%,48.0,237051.0,12.0,0.0,0.0,45.0
max,90.0,1484705.0,16.0,99999.0,4356.0,99.0
