

Вам необходимо анализировать набор данных [adult.data](http://archive.ics.uci.edu/ml/datasets/Adult) (источник: UCI Machine Learning Repository) с помощью Python, pandas, numpy, scipy.

Чтобы выполнить работу, скачайте настоящий ipynb-файл, откройте его в *Jupyter Notebook*, впишите решения в оставленные для этого ячейки (при необходимости можно добавлять новые ячейки), приводя полный работающий код, а также все необходимые пояснения и ответы (для этого нужно использовать markdown-ячейки). Вы можете вставлять формулы с помощью TeX-разметки в markdown-ячейки. После выполнения работы необходимо вытащить ipynb-файл из Jupyter (например, с помощью *File → Download as… → IPython Notebook*).

**Подсказка.** Файл [adult.data](http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data) является CSV-файлом, но в нём отсутствуют имена переменных — они (вместе с описаниями) приводятся в отдельном файле [adult.names](http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.names). При загрузке датафрейма с помощью `pd.read_csv` используйте параметры `header=None` (чтобы первая строка не воспринималась как строка с именами переменных) и `names=["age", "workclass", "fnlwgt", "education", "education-num", "marital-status", "occupation", "relationship", "race", "sex", "capital-gain", "capital-loss", "hours-per-week", "native-country", "50K"]`. Чтобы убрать лишние пробелы после запятых, которые есть в файле, следует добавить опцию `skipinitialspace=True`.

### Вопрос 1
Сколько мужчин и женщин в выборке?

In [5]:
import pandas as pd
pass_data = pd.read_csv('adult.data', header = None, names=["age", "workclass", "fnlwgt", "education", "education-num", "marital-status", "occupation", "relationship", "race", "sex", "capital-gain", "capital-loss", "hours-per-week", "native-country", "50K"], skipinitialspace=True)
pass_data[pass_data.sex =='Female'].sex.count()

10771

In [6]:
pass_data[pass_data.sex =='Male'].sex.count()

21790

### Вопрос 2
Каков средний возраст мужчин?


In [7]:
import pandas as pd
pass_data = pd.read_csv('adult.data', header = None, names=["age", "workclass", "fnlwgt", "education", "education-num", "marital-status", "occupation", "relationship", "race", "sex", "capital-gain", "capital-loss", "hours-per-week", "native-country", "50K"], skipinitialspace=True)
pass_data[(pass_data.sex == 'Male')].age.mean()

39.43354749885268

### Вопрос 3
Какова доля граждан США?

In [8]:
import pandas as pd
pass_data = pd.read_csv('adult.data', header = None, names=["age", "workclass", "fnlwgt", "education", "education-num", "marital-status", "occupation", "relationship", "race", "sex", "capital-gain", "capital-loss", "hours-per-week", "native-country", "50K"], skipinitialspace=True)
pass_data['native-country'].value_counts().loc['United-States']/len(pass_data)

0.895857006848684

### Вопрос 4
Нарисовать распределение уровня образования в виде столбчатой диаграммы (bar plot).

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
pass_data = pd.read_csv('adult.data', header = None, names=["age", "workclass", "fnlwgt", "education", "education-num", "marital-status", "occupation", "relationship", "race", "sex", "capital-gain", "capital-loss", "hours-per-week", "native-country", "50K"], skipinitialspace=True)
pass_data[['education', 'education-num']]
pass_data.plot.bar(x = 'education', y = 'education-num')

### Вопрос 5
Найти среднее и стандартное отклонение переменной "final weight" (fnlwgt) для разведённых людей?

In [9]:
import pandas as pd
pass_data = pd.read_csv('adult.data', header = None, names=["age", "workclass", "fnlwgt", "education", "education-num", "marital-status", "occupation", "relationship", "race", "sex", "capital-gain", "capital-loss", "hours-per-week", "native-country", "50K"], skipinitialspace=True)
pass_data[(pass_data['marital-status'] == 'Divorced')].fnlwgt.mean()

185802.79045689848

In [10]:
pass_data[(pass_data['marital-status'] == 'Divorced')].fnlwgt.std()

105646.78945933603

### Вопрос 6
Правда ли, что люди, зарабатывающие более 50 тыс. в основном имеют высшее образование?

In [11]:
import pandas as pd
pass_data = pd.read_csv('adult.data', header = None, names=["age", "workclass", "fnlwgt", "education", "education-num", "marital-status", "occupation", "relationship", "race", "sex", "capital-gain", "capital-loss", "hours-per-week", "native-country", "50K"], skipinitialspace=True)
pass_data[pass_data['50K'] == '>50K']
x = pass_data['education'].str.contains('Bachelors|HS-grad|Assoc-acdm|Assoc-voc|Masters|Doctorate', regex = True) == True
x.sum()
y = pass_data['education'].str.contains('Bachelors|HS-grad|Assoc-acdm|Assoc-voc|Masters|Doctorate', regex = True) == False
y.sum()
if x.sum() > y.sum() :
    print('TRUE') 
else:
    print('FALSE')

TRUE


### Вопрос 7
Каков максимальный возраст мужчин и женщин каждой расы?

In [18]:
import pandas as pd
pass_data[(pass_data['race'] == 'White') & (pass_data['sex'] == 'Male')].age.max()

90

In [16]:
pass_data[(pass_data['race'] == 'White') & (pass_data['sex'] == 'Female')].age.max()

90

In [17]:
pass_data[(pass_data['race'] == 'Asian-Pac-Islander') & (pass_data['sex'] == 'Male')].age.max()

90

In [19]:
pass_data[(pass_data['race'] == 'Asian-Pac-Islander') & (pass_data['sex'] == 'Female')].age.max()

75

In [20]:
pass_data[(pass_data['race'] == 'Amer-Indian-Eskimo') & (pass_data['sex'] == 'Male')].age.max()

82

In [21]:
pass_data[(pass_data['race'] == 'Amer-Indian-Eskimo') & (pass_data['sex'] == 'Female')].age.max()

80

In [22]:
pass_data[(pass_data['race'] == 'Other') & (pass_data['sex'] == 'Male')].age.max()

77

In [23]:
pass_data[(pass_data['race'] == 'Other') & (pass_data['sex'] == 'Female')].age.max()

74

In [25]:
pass_data[(pass_data['race'] == 'Black') & (pass_data['sex'] == 'Male')].age.max()

90

In [26]:
pass_data[(pass_data['race'] == 'Black') & (pass_data['sex'] == 'Female')].age.max()

90

### Вопрос 8
Люди из каких стран работают как фермеры/рыбаки?

In [27]:
pass_data[pass_data.occupation == 'Farming-fishing'].drop_duplicates(subset =['native-country'])

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,50K
16,25,Self-emp-not-inc,176756,HS-grad,9,Never-married,Farming-fishing,Own-child,White,Male,0,0,35,United-States,<=50K
255,42,Self-emp-not-inc,303044,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,Asian-Pac-Islander,Male,0,0,40,Cambodia,>50K
500,23,Local-gov,324960,HS-grad,9,Never-married,Farming-fishing,Not-in-family,White,Male,0,0,40,Poland,<=50K
771,37,Private,327323,5th-6th,3,Separated,Farming-fishing,Not-in-family,White,Male,0,0,32,Guatemala,<=50K
861,43,Private,191547,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,40,Mexico,<=50K
2353,33,Private,176711,Bachelors,13,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,40,England,<=50K
3532,34,Private,127651,10th,6,Never-married,Farming-fishing,Not-in-family,White,Male,0,0,44,?,<=50K
6006,33,Private,93206,5th-6th,3,Married-civ-spouse,Farming-fishing,Husband,Asian-Pac-Islander,Male,0,0,40,Philippines,<=50K
6559,32,Self-emp-not-inc,190290,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,40,Italy,<=50K
8551,35,Self-emp-not-inc,102471,HS-grad,9,Divorced,Farming-fishing,Not-in-family,White,Male,0,0,80,Puerto-Rico,<=50K


### Вопрос 9
Рассмотрим два отношения 1) количество мужчин-бакалавров к количеству мужчин-магистров и 2) количество женщин-бакалавров к количеству женщин-магистров. Какое отношение больше?


In [28]:
bachelors_man = pass_data[(pass_data.education == 'Bachelors') & (pass_data.sex == 'Male')].count().sum()

In [29]:
masters_man = pass_data[(pass_data.education == 'Masters') & (pass_data.sex == 'Male')].count().sum()

In [30]:
rel_man = bachelors_man/masters_man

In [31]:
bachelors_woman = pass_data[(pass_data.education == 'Bachelors') & (pass_data.sex == 'Female')].count().sum()

In [32]:
masters_woman = pass_data[(pass_data.education == 'Masters') & (pass_data.sex == 'Female')].count().sum()

In [33]:
rel_woman = bachelors_woman/masters_woman

In [34]:
if rel_man > rel_woman:
    print("1")
else:
    print("2")

1


### Вопрос 10
Каково максимальное количество рабочих часов в неделю? Как много людей работают столько часов в неделю? Каков их заработок?

In [35]:
pass_data['hours-per-week'].max()

99

In [36]:
pass_data[pass_data['hours-per-week']  == pass_data['hours-per-week'].max()].sex.count()

85

In [37]:
pass_data[pass_data['hours-per-week']  == pass_data['hours-per-week'].max()].iloc[:,14]

935       >50K
1172      >50K
1887      >50K
3578      >50K
4086     <=50K
         ...  
30992    <=50K
31681     >50K
31699    <=50K
32469    <=50K
32531    <=50K
Name: 50K, Length: 85, dtype: object