

Вам необходимо анализировать набор данных [adult.data](http://archive.ics.uci.edu/ml/datasets/Adult) (источник: UCI Machine Learning Repository) с помощью Python, pandas, numpy, scipy.

Чтобы выполнить работу, скачайте настоящий ipynb-файл, откройте его в *Jupyter Notebook*, впишите решения в оставленные для этого ячейки (при необходимости можно добавлять новые ячейки), приводя полный работающий код, а также все необходимые пояснения и ответы (для этого нужно использовать markdown-ячейки). Вы можете вставлять формулы с помощью TeX-разметки в markdown-ячейки. После выполнения работы необходимо вытащить ipynb-файл из Jupyter (например, с помощью *File → Download as… → IPython Notebook*).

**Подсказка.** Файл [adult.data](http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data) является CSV-файлом, но в нём отсутствуют имена переменных — они (вместе с описаниями) приводятся в отдельном файле [adult.names](http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.names). При загрузке датафрейма с помощью `pd.read_csv` используйте параметры `header=None` (чтобы первая строка не воспринималась как строка с именами переменных) и `names=["age", "workclass", "fnlwgt", "education", "education-num", "marital-status", "occupation", "relationship", "race", "sex", "capital-gain", "capital-loss", "hours-per-week", "native-country", "50K"]`. Чтобы убрать лишние пробелы после запятых, которые есть в файле, следует добавить опцию `skipinitialspace=True`.

### Вопрос 1
Сколько мужчин и женщин в выборке?

In [1]:
import pandas as pd

file_data = pd.read_csv( '/Users/giniatullinaalsuzamilevna/Desktop/Data/adult.data', names=["age", "workclass", "fnlwgt", "education", "education-num", "marital-status", "occupation", "relationship", "race", "sex", "capital-gain", "capital-loss", "hours-per-week", "native-country", "50K"], skipinitialspace = True, header = None)
file_data['sex'].count()

32561

### Вопрос 2
Каков средний возраст мужчин?


In [2]:
file_data.groupby([file_data['sex'] == 'Male'])['age'].mean().values[1]

39.43354749885268

### Вопрос 3
Какова доля граждан США?

In [3]:
file_data['native-country'].str.contains('United-States').sum()

29170

### Вопрос 4
Нарисовать распределение уровня образования в виде столбчатой диаграммы (bar plot).

In [None]:
df = pd.DataFrame(file_data)
df[['sex','education-num']]

df.plot.bar(x='sex', y = 'education-num', rot = 0)

### Вопрос 5
Найти среднее и стандартное отклонение переменной "final weight" (fnlwgt) для разведённых людей?

In [None]:
file_data.groupby([file_data['marital-status'] == 'Divorced'])['fnlwgt'].mean().values[1]

file_data.groupby([file_data['marital-status'] == 'Divorced'])['fnlwgt'].std().values[1]

### Вопрос 6
Правда ли, что люди, зарабатывающие более 50 тыс. в основном имеют высшее образование?

In [None]:
fd = file_data[file_data['50K'] == '>50K']

fd_true = fd['education'].str.contains('Bachelors|HS-grad|Assoc-acdm|Assoc-voc|Masters|Doctorate', regex = True) == True
fd_true.sum()

fd_false = fd['education'].str.contains('Bachelors|HS-grad|Assoc-acdm|Assoc-voc|Masters|Doctorate', regex = True)==False
fd_false.sum()

if fd_true.sum() > fd_false.sum():
    print('True') 
else:
    print('False')

### Вопрос 7
Каков максимальный возраст мужчин и женщин каждой расы?

In [None]:
file_data.groupby([file_data['race'] == 'White'])['age'].max().values[1]

file_data.groupby([file_data['race'] == 'Asian-Pac-Islander'])['age'].max().values[1]

file_data.groupby([file_data['race'] == 'Amer-Indian-Eskimo'])['age'].max().values[1]

file_data.groupby([file_data['race'] == 'Other'])['age'].max().values[1]

file_data.groupby([file_data['race'] == 'Black'])['age'].max().values[1]

### Вопрос 8
Люди из каких стран работают как фермеры/рыбаки?

In [None]:
p_job =file_data[file_data['occupation'] == 'Farming-fishing']

p_job.drop_duplicates(subset = ['native-country'])

### Вопрос 9
Рассмотрим два отношения 1) количество мужчин-бакалавров к количеству мужчин-магистров и 2) количество женщин-бакалавров к количеству женщин-магистров. Какое отношение больше?


### Вопрос 10
Каково максимальное количество рабочих часов в неделю? Как много людей работают столько часов в неделю? Каков их заработок?

In [None]:
max_hours = file_data['hours-per-week'].max()
count_people = file_data[file_data['hours-per-week'] == max_hours].count()

count_people_h = count_people['sex']

file_data.groupby([file_data['hours-per-week'] == max_hours])['50K'].count().values[1]