# Анализ данных по доходу населения UCI Adult

С использованием набора данных [UCI Adult](https://archive.ics.uci.edu/ml/datasets/Adult) ответить на вопросы ниже и отправить результаты используя [этот шаблон](https://docs.google.com/spreadsheets/d/1APCeL8kSAhZ2wpsTcc5gE5HblVsDy0xRUh9iIw6vV0c/edit#gid=0).



In [18]:
import pandas as pd

df = pd.read_csv("adult.data.csv")

df.head()


Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,salary
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


1. **Сколько мужчин и женщин (признак sex) представлено в этом наборе данных?**





In [3]:
   df['sex'].value_counts()


Male      21790
Female    10771
Name: sex, dtype: int64


2. **Каков средний возраст (признак age) женщин?**


In [5]:
   df[df['sex'] == 'Female']['age'].mean()


36.85823043357163


3. **Сколько граждан Германии (признак native-country)?**


In [6]:
   df[df['native-country'] == 'Germany'].shape[0]


137

4. **Каков средний возраст среди тех, кто получает более 50K в год, и среди тех, кто получает менее 50K?**


In [7]:
   df[df['salary'] == '>50K']['age'].mean(), df[df['salary'] == '<=50K']['age'].mean()


(44.24984058155847, 36.78373786407767)

5. **Правда ли, что люди с высшим образованием получают более высокий доход (признак education – Bachelors, Masters, Doctorate)?**


In [None]:
   df[df['education'].isin(['Bachelors', 'Masters', 'Doctorate'])]['salary'].value_counts(normalize=True)


6. **Выведите статистику по возрасту для каждой расы и каждого пола. Используйте groupby и describe.**


In [9]:
   df.groupby(['race', 'sex'])['age'].describe()


Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,std,min,25%,50%,75%,max
race,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Amer-Indian-Eskimo,Female,119.0,37.117647,13.114991,17.0,27.0,36.0,46.0,80.0
Amer-Indian-Eskimo,Male,192.0,37.208333,12.049563,17.0,28.0,35.0,45.0,82.0
Asian-Pac-Islander,Female,346.0,35.089595,12.300845,17.0,25.0,33.0,43.75,75.0
Asian-Pac-Islander,Male,693.0,39.073593,12.883944,18.0,29.0,37.0,46.0,90.0
Black,Female,1555.0,37.854019,12.637197,17.0,28.0,37.0,46.0,90.0
Black,Male,1569.0,37.6826,12.882612,17.0,27.0,36.0,46.0,90.0
Other,Female,109.0,31.678899,11.631599,17.0,23.0,29.0,39.0,74.0
Other,Male,162.0,34.654321,11.355531,17.0,26.0,32.0,42.0,77.0
White,Female,8642.0,36.811618,14.329093,17.0,25.0,35.0,46.0,90.0
White,Male,19174.0,39.652498,13.436029,17.0,29.0,38.0,49.0,90.0


7. **Каков процент заработавших более 50K среди женатых мужчин (признак marital-status)? Сравните с холостыми мужчинами.**


In [12]:
   married = df[df['marital-status'].isin(['Married-civ-spouse', 'Married-AF-spouse'])]
   single = df[df['marital-status'] == 'Never-married']
   married_percentage = married[married['salary'] == '>50K'].shape[0] / married.shape[0]
   single_percentage = single[single['salary'] == '>50K'].shape[0] / single.shape[0]
   married_percentage, single_percentage

(0.44682978865257683, 0.04596087241411589)

8. **Среди кого больше доля зарабатывающих много (>50K): среди женатых или холостых мужчин (признак marital-status)?**


In [13]:

married_men = df[(df['sex'] == 'Male') & df['marital-status'].str.startswith('Married')]
single_men = df[(df['sex'] == 'Male') & ~df['marital-status'].str.startswith('Married')]
married_men_percentage = married_men[married_men['salary'] == '>50K'].shape[0] / married_men.shape[0]
single_men_percentage = single_men[single_men['salary'] == '>50K'].shape[0] / single_men.shape[0]
married_men_percentage, single_men_percentage


(0.4405139945351156, 0.08449509031397745)

9. **Какое максимальное число часов человек работает в неделю (признак hours-per-week)?**
 **Сколько людей работают такое количество часов и каков среди них процент зарабатывающих много?**



In [14]:
max_hours = df['hours-per-week'].max()
people_max_hours = df[df['hours-per-week'] == max_hours]
percentage_high_income = people_max_hours[people_max_hours['salary'] == '>50K'].shape[0] / people_max_hours.shape[0]
max_hours, people_max_hours.shape[0], percentage_high_income

(99, 85, 0.29411764705882354)

10. **Посчитайте среднее время работы (hours-per-week) зарабатывающих мало и много (salary) для каждой страны (native-country).**




In [17]:
avg_hours_by_country = df.groupby(['native-country', 'salary'])['hours-per-week'].mean()
avg_hours_by_country

native-country  salary
?               <=50K     40.164760
                >50K      45.547945
Cambodia        <=50K     41.416667
                >50K      40.000000
Canada          <=50K     37.914634
                            ...    
United-States   >50K      45.505369
Vietnam         <=50K     37.193548
                >50K      39.200000
Yugoslavia      <=50K     41.600000
                >50K      49.500000
Name: hours-per-week, Length: 82, dtype: float64

---

## Респект

Особенный респект **Алымсеитову**, который не поленился и с нуля создал файл **Checkpoint 1** для нашей группы, потому что в сайте его не оказалось в формате ipynb. Реально красавчик, без него бы не вывезли! 💪
