## 0. А что мы сейчас открыли?
Jupyter Notebook - интерактивная среда для запуска программного кода в браузере. Удобный инструмент для анализа данных, который используется многими специалистами по data science.

<center>
<img src="https://media.giphy.com/media/5Zesu5VPNGJlm/giphy.gif" height="400" width="400">

#### Краткая инструкция на все случаи жизни:
- Как создать новую ячейку?
> Просто `нажать кнопку +`.

- Как запустить код в ячейке?

> Выделить ячейку и `нажать кнопку Run` или `Ctrl + Enter` *(см. Help - Keyboard Shortcuts)*.

- Как понять, что код успешно выполнен?

> Под ячейкой не появились сообщения об ошибках + поле `In []` слева от ячейки содержит число, а не символ `*`.


*В некоторых ячейках вам придётся дописать свой код и выполнить его.*

## 1. Python?

<center>
<img src="https://i05.fotocdn.net/s28/247/public_pin_l/328/2674477046.jpg" height="400" width="400">

Python - это свободный интерпретируемый объектно-ориентированный расширяемый встраиваемый язык программирования очень высокого уровня (Г.Россум, Ф.Л.Дж.Дрейк, Д.С.Откидач "Язык программирования Python").

## 2. Anaconda?

![image.png](attachment:image.png)

Сборка Anaconda включает очень много полезных библиотек для анализа данных. 

Среди наиболее популярных библиотек:
 - <a href="http://numpy.org">Numpy</a> - это один из основных пакетов для научных вычислений. Он содержит функциональные средства для работы с многомерными массивами и высокоуровневыми математическими функциями.
 - <a href="http://numpy.org">SciPy</a> - научные вычисления. Методы оптимизации, интегрирования, модули обработки сигналов и изображений, статистика, линейная алгебра, сплайны, кластеризация и многое другое. 
 -  <a href="http://pandas.pydata.org/">Pandas</a> - библиотека для обработки и анализа данных. Мы будем использовать её для быстрой и удобной работы с таблицами данных.
 - <a href="http://scikit-learn.org/stable/">Scikit-learn</a> - реализация очень многих методов машинного обучения и интеллекуального анализа данных (data mining) с отличной документацией. 
 - <a href="http://http://matplotlib.org/">matplotlib</a> - библиотека для визуализации данных, позволяет рисовать красивые картинки и смеяться над графиками Excel.

### Итак, начнем!

<center>
<img src="https://sd.keepcalm-o-matic.co.uk/i/keep-calm-and-code-on-1117.png" height="400" width="400">

Интерпретатор (aka программа, выполняющая ваш код) можно использовать в качестве калькулятора:

In [1]:
2 + 2

4

In [3]:
14 / 3

4.666666666666667

Возведение в степень:

In [4]:
3 ** 2

9

Взятие корня aka возведение в дробную степень:

In [6]:
9 ** (1 / 2)

3.0

Целочисленное деление:

In [2]:
14 // 3

4

Взятие остатка от деления:

In [11]:
14 % 3

2

Можно выводить текст:

In [4]:
print('Привет всем!')

Привет всем!


И не только текст:

In [12]:
print(2 + 2)
print(3 ** 3)

4
27


Помимо встроенных в Python функций можно пользоваться библиотеками.
- Чтобы подключить библиотеку, пишем `import <имя библиотеки>`.
- Чтобы вызвать функцию из библиотеки, пишем `<имя библиотеки>.<имя функции>(<параметры функции>)`.

Например:

In [30]:
import math

print(round(math.sqrt(153), 4))

12.3693


---

---

Пришло время писать код. Выведите значение следующего выражения:

$$
  \sqrt{0.03 + \log(6) \div 3 \cdot 5 - cos\left(\frac{\pi}{3}\right)}
$$

Помните, что приоритет операций в Python совпадает с приоритетом операций в математике.

*Спойлер: все необходимые функции можно найти в уже подключенной библиотеке `math`.*

In [None]:
# YOUR CODE

## 3. Переменные и типы данных

Можно задавать любые переменные. Переменная - это объект, которому дано имя. Число, строка, массив... практически что угодно.

In [48]:
number_1 = 4
number_2 = 10

result = number_1 * number_2
print(result)

40


### Какие есть часто используемые встроенные типы данных?

*Числа* бывают целочисленными `int` и вещественными `float`.

Можно:
- производить любые арифметические операции (см. выше)

In [71]:
number = 123
float_number = 123.0
print('number type:', type(number))
print('\tnumber:', number)
print('float number type:', type(float_number))
print('\tfloat number:', float_number)
print()

number type: <class 'int'>
	number: 123
float number type: <class 'float'>
	float number: 123.0



*Строки* заключаются в двойные `" "` или одинарные `' '` кавычки, разницы нет.

Можно
- складывать
- умножать
- см. встроенные методы класса `str`

In [69]:
string1 = 'how' * 2
string2 = " are you"
string = 'hello, ' + string1 + string2 + str(number)
print('string type:', type(string))
print('\t' + string)
print()

string type: <class 'str'>
	hello, howhow are you123



In [78]:
# один из быстрых способов прочитать, что делает метод
?string1.upper

print('\tupper string:', string1.upper())

	upper string: HOWHOW


*Список* можно создать, заключив его элементы в квадратные скобки `[]`.

*Кортеж* можно создать, заключив его элементы в круглые скобки `()`.

С обоими можно:
- складывать
- умножать
- обращаться к элементу по индексу
- обращаться сразу к нескольким элементам (slice)

Со списком можно (с кортежом -- нет):
- присваивать значение по индексу
- добавлять значения в конец списка (см. встроенные методы обоих классов)

In [135]:
list1 = ['la']
print('list type:', type(list1))
print('\tlist1:' , list1)
list12 = list1 * 3
print('\tlist1 * 3:', list12)
list2 = [2, 3] + list12
print('\tlist2:', list2)
print('\tlist2[2]:', list2[2])
list1.append(list2)
print('\tlist1.append(list2):', list1)

print('\nAttention!')
list2[0] = 111
print('\tlist2:', list2)
print('\tlist1:', list1)

list type: <class 'list'>
	list1: ['la']
	list1 * 3: ['la', 'la', 'la']
	list2: [2, 3, 'la', 'la', 'la']
	list2[2]: la
	list1.append(list2): ['la', [2, 3, 'la', 'la', 'la']]

Attention!
	list2: [111, 3, 'la', 'la', 'la']
	list1: ['la', [111, 3, 'la', 'la', 'la']]


Конструкция `list[i1:i2]` позволяет получить доступ ко всем элементам с `i1`-го по `i2 - 1`-ый включительно:

In [139]:
print('list2[0:4]:', list2[0:4])
# отрицательный индекс -i == len(list2) - i
print('list2[1:-1]:', list2[1:-1])
print('list2[1:-1]:', list2[1:len(list2) - 1])

list2[0:4]: [111, 3, 'la', 'la']
list2[1:-1]: [3, 'la', 'la']
list2[1:-1]: [3, 'la', 'la']


In [124]:
tuple1 = ('la', )
print('tuple type:', type(tuple1))
print('\ttuple1:' , tuple1)
tuple12 = tuple1 * 3
print('\ttuple1 * 3:', tuple12)
tuple2 = (2, 3) + tuple12
print('\ttuple2:', tuple2)
print('\ttuple2[2]:', tuple2[2])

print('\nAnd here goes an error:')
tuple2[0] = 111

tuple type: <class 'tuple'>
	tuple1: ('la',)
	tuple1 * 3: ('la', 'la', 'la')
	tuple2: (2, 3, 'la', 'la', 'la')
	tuple2[2]: la

And here goes an error:


TypeError: 'tuple' object does not support item assignment

*Словарь* можно создать, заключив его элементы (пары `ключ:значение`) в квадратные скобки `{}`.

Можно:
- арифметические операции не поддерживаются

In [110]:
dict1 = {'human': 'человек', 'кошка': 'cat', 'дерево': 'tree'}
dict2 = {'one': 0, 'two': 0, 'five': 0, 'six': 1, 'eight': 2, 'nine': 1}

print('dict type:', type(dict1))
print('\tdict1 keys:', dict1.keys())

dict2['eighty'] = 3
print('\tadded element to dict2:', dict2)

dict type: <class 'dict'>
	dict1 keys: dict_keys(['human', 'кошка', 'дерево'])
	added element to dict2: {'one': 0, 'two': 0, 'five': 0, 'six': 1, 'eight': 2, 'nine': 1, 'eighty': 3}


*Множество* можно создать, заключив его элементы в квадратные скобки `{}`. Содержит только уникальные вхождения элементов.

Можно:
- объединять, пересекать, вычитать... -- производить любые множественные операции (см. встроенные методы класса `set`)

In [121]:
set1 = {1, 2, 3, 3, 2, 2, 2, 2}
print('set type:', type(set1))
print('\tset1:', set1)

set2 = {6, 7, 8}
print('\tset1 intersect set2:', set1.intersection(set2))
print('\tset1 union set2:', set1.union(set2))

set2.add(1)
# удаляет случайный элемент множества
set2.pop()
print('\tset1 intersect set2:', set1.intersection(set2))
print('\tset1 union set2:', set1.union(set2))

set type: <class 'set'>
	set1: {1, 2, 3}
	set1 intersect set2: set()
	set1 union set2: {1, 2, 3, 6, 7, 8}
	set1 intersect set2: {1}
	set1 union set2: {1, 2, 3, 6, 7}


---

---

Для усвоения напишем ещё немного кода.

На вход поступает число `n`. Выведите `n` пингвинов.

In [131]:
# так можно производить ввод с клавиатуры
# input() вернёт строку -> преобразуем в int
n = int(input())

hoholok = "   _~_    "
glazki  = "  (o o)   "
kluvik  = " /  V  \\  "
puziko  = "/(  _  )\\ "
lapki   = "  ^^ ^^   "

2


In [132]:
# YOUR CODE

   _~_       _~_    
  (o o)     (o o)   
 /  V  \   /  V  \  
/(  _  )\ /(  _  )\ 
  ^^ ^^     ^^ ^^   


## 4. Условия

![image.png](attachment:image.png)

In [135]:
a = int(input("Insert a number: "))
print('\nis it an odd number?')
if not a % 2 == 0:
    print("YES")
else:
    print("NO")

Insert a number: 3

is it an odd number?
YES


## 5. Циклы: while и for

 Циклы используются в тех случаях, когда нам нужно сделать что-нибудь много раз.
 
Цикл *for* - нужно повторить что-нибудь n-ное количество раз.

Цикл *while* - нужно повторить что-нибудь, пока не будет выполнено определенное условие.

In [7]:
# У нас есть список покупок:
shoplist = ['apple', 'cola', 'milk', 'bread', 'towel']

In [8]:
for item in shoplist:
    print(item)

apple
cola
milk
bread
towel


### Турникет в метро и цикл while

<center>
<img src="http://mtdata.ru/u14/photo8EA0/20076702186-0/original.jpg" height="250" width="250">

In [9]:
# Покупаем билет на метро с 10 поездками
number_of_trips = 10 

# Пользуемся им, пока не закончится
while number_of_trips > 0:
    number_of_trips = number_of_trips - 1
    print(number_of_trips,'Проходим!')

9 Проходим!
8 Проходим!
7 Проходим!
6 Проходим!
5 Проходим!
4 Проходим!
3 Проходим!
2 Проходим!
1 Проходим!
0 Проходим!


---

---

Вам дан словарь типичного программиста. На вход поступает строка с разделёнными пробелами словами (считывание и разделение строки на слова уже реализовано за вас).

Необходимо вывести каждое слово на отдельной строке, переведя его, если возможно.

*Спойлер: вас может заинтересовать оператор `in`*.

In [1]:
geek_dict = {'bug': 'mistake',
             'debug': 'find a mistake',
             'neuralnet': 'some magic method',
             'monty': 'python',
             'jimmy': 'newbie'
            }

# input() возвращает строку
# метод split() разбивает строку по указанному разделителю
words = input().split(' ')

words

monty python's flying circus


['monty', "python's", 'flying', 'circus']

In [3]:
# YOUR CODE

python
python's
flying
circus


## 6. Библиотеки и их применение

Как уже говорилось, при работе с Python можно подключать установленные библиотеки.

Допустим, мы хотим подключить библиотеку `math`. Вместо конструкции `import math` можно использовать `import math as M`.

Тогда дальнейший вызов функций этой библиотеки будет осуществляться через `M.sqrt()` вместо `math.sqrt()`. Такая возможность бывает удобна, если вам лень каждый раз при вызове функций писать полное название библиотеки.

Рассмотрим поближе библиотеки `pandas` и `numpy`.

### Знакомство с NumPy
Библиотека NumPy -- быстрая библиотека для математики в Python, основная структура данных -- массив numpy.array:

In [1]:
# подключение модуля numpy
import numpy as np

In [6]:
# основная структура данных - массив
a = np.array([1, 2, 3, 4, 5])
b = np.array([0.1, 0.2, 0.3, 0.4, 0.5])

print("a =", a, " type:", a.dtype)
print("b =", b, " type:", b.dtype)

a = [1 2 3 4 5]  type: int64
b = [0.1 0.2 0.3 0.4 0.5]  type: float64


Арифметические операции, в отличие от операций над списками, применяются поэлементно:

In [13]:
list1 = [1, 2, 3]
array1 = np.array(list1)

print('list1 * 3:', list1 * 3)
print('array1 * 3:', array1 * 3)
print('list1 + [1]:', list1 + [1])
print('array1 + 1:', array1 + 1)

list1 * 3: [1, 2, 3, 1, 2, 3, 1, 2, 3]
array1 * 3: [3 6 9]
list1 + [1]: [1, 2, 3, 1]
array1 + 1: [2 3 4]


Если в операции участвуют $2$ массива (по умолчанию -- одинакового размера), операции считаются для соответствующих пар:

In [15]:
print("a + b =", a + b)
print("a * b =", a * b)

a + b = [1.1 2.2 3.3 4.4 5.5]
a * b = [0.1 0.4 0.9 1.6 2.5]


#### *Л — логика*
К элементам массива можно применять логические операции. Возвращаемое значение -- массив, содержащий результаты вычислений для каждого элемента (`True` или `False`):

In [51]:
print("a =", a)
print("\ta == 2:", a == 2)
print("\ta > 2: ", a > 2)
print("\nb =", b)
print("\tb > 0:  ", b > 0)
print("\tb < 0.5:", b < 0.5)

print("\nДругие логические операции:")
print("\tnp.logical_not(a > 2):        ", np.logical_not(a > 2))
print("\tnp.logical_and(a > 2, b > 0): ", np.logical_and(a > 2, b > 0))
print("\tnp.logical_or(a > 4, b < 0.5):", np.logical_or(a > 2, b < 0.5))

print("\nИли более кратко:")
print("\t~(a > 2):           ", ~(a > 2))  # как np.logical_not
print("\t(a > 2) & (b > 0):  ", (a > 2) & (b > 0)) # как np.logical_and
print("\t(a > 2) | (b < 0.5):", (a > 2) | (b < 0.5)) # как np.logical_or

a = [1 2 3 4 5]
	a == 2: [False  True False False False]
	a > 2:  [False False  True  True  True]

b = [0.1 0.2 0.3 0.4 0.5]
	b > 0:   [ True  True  True  True  True]
	b < 0.5: [ True  True  True  True False]

Другие логические операции:
	np.logical_not(a > 2):         [ True  True False False False]
	np.logical_and(a > 2, b > 0):  [False False  True  True  True]
	np.logical_or(a > 4, b < 0.5): [ True  True  True  True  True]

Или более кратко:
	~(a > 2):            [ True  True False False False]
	(a > 2) & (b > 0):   [False False  True  True  True]
	(a > 2) | (b < 0.5): [ True  True  True  True  True]


Зачем это нужно? Чтобы выбирать элементы массива, удовлетворяющие какому-нибудь условию:

In [54]:
print("a =", a)
print("a > 2:", a > 2)
# индексация - выбираем элементы из массива в тех позициях, где True
print("a[a > 2]:", a[a > 2])

a = [1 2 3 4 5]
a > 2: [False False  True  True  True]
a[a > 2]: [3 4 5]


#### А ещё NumPy умеет...

Все операции NumPy оптимизированы для векторных вычислений и в методах np.array реализовано множество функций, которые могут вам понадобиться:

In [57]:
print("np.sum(a) =", np.sum(a))
print("np.min(a) =", np.min(a))
print("np.argmin(a) =", np.argmin(a)) # индекс минимального элемента
print("np.unique(['male','male','female','female','male']) =", np.unique(['male', 'male', 'female', 'female', 'male']))
# и ещё много  всего ...

np.sum(a) = 15
np.min(a) = 1
np.argmin(a) = 0
np.unique(['male','male','female','female','male']) = ['female' 'male']


---

---

Пора немного потренироваться с NumPy. Google в помощь.

Выполните операции, перечисленные ниже:

In [None]:
print("Разность между a и b:", # YOUR CODE
     )
print("Квадраты элементов b:", # YOUR CODE
     )
print("Половины произведений элементов массивов a и b:", # YOUR CODE
     )

print()
print("Элементы массива a, стоящие на местах, где элементы b > 0.25:", # YOUR CODE
     )

print()
print("Максимальный элемент b:", # YOUR CODE
     )
print("Индекс максимального элемента b:", # YOUR CODE
     )
print("Арифметическоее среднее массива b:", # YOUR CODE
     )

### Pandas
![](https://filearmy.s3.amazonaws.com/2017/03/03/25b10be.jpg)

Pandas предназначена для работы с данными и хранит их в виде таблицы с именованными колонками и пронумерованными строками. Создать свою таблицу можно, например, с помощью словаря:

In [2]:
import pandas as pd

In [140]:
weather = pd.DataFrame({
    'City': ['MSK', 'SPB', 'NN', 'SPB'],
    'Temperature': [-3, +2, -3, +2],
    'State': ['Cloudy', 'Clear', 'Snow', 'Clear'],
    'Date':[pd.datetime(2017, 1, 16), pd.datetime(2017, 1, 13), pd.datetime(2017, 3, 13), pd.datetime(2017, 1, 1)]
})
weather

Unnamed: 0,City,Date,State,Temperature
0,MSK,2017-01-16,Cloudy,-3
1,SPB,2017-01-13,Clear,2
2,NN,2017-03-13,Snow,-3
3,SPB,2017-01-01,Clear,2


#### Чтение данных из файлов
В Pandas можно легко и удобно считывать таблицы (форматы .csv, .tsv, ...).

Считаем данные с информацией об образовании, семейном положении, возрасте и условиях работы людей, а также зарплате (колонка `target` содержит информацию, превышает ли зарплата $50К$):

In [288]:
data = pd.read_csv('train.csv', header=0)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
age               32561 non-null int64
workclass         30725 non-null object
fnlwgt            32561 non-null int64
education         32561 non-null object
education_num     32561 non-null int64
marital_status    32561 non-null object
occupation        30718 non-null object
relationship      32561 non-null object
race              32561 non-null object
sex               32561 non-null object
capital_gain      32561 non-null int64
capital_loss      32561 non-null int64
hours_per_week    32561 non-null int64
native_country    31978 non-null object
target            32561 non-null object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


Более подробное описание датасета можно найти [тут](https://archive.ics.uci.edu/ml/datasets/adult).

In [289]:
# выводим первые строки таблицы
data.head(3)

Unnamed: 0,age,workclass,fnlwgt,education,education_num,marital_status,occupation,relationship,race,sex,capital_gain,capital_loss,hours_per_week,native_country,target
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K


Обращаться к колонке можно двумя способами:

In [290]:
data['age'].head()

0    39
1    50
2    38
3    53
4    28
Name: age, dtype: int64

In [291]:
data.age.head()

0    39
1    50
2    38
3    53
4    28
Name: age, dtype: int64

Вывести только строки с фиксированным значением в столбце можно так:

In [309]:
# вывод строк с информацией о лицах мужского пола
data[data.sex == 'Male'].head()

Unnamed: 0,age,workclass,fnlwgt,education,education_num,marital_status,occupation,relationship,race,sex,capital_gain,capital_loss,hours_per_week,native_country,target
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
7,52,Self-emp-not-inc,209642,HS-grad,9,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,45,United-States,>50K


При сборе данных неизбежно возникают *пропущенные значения* и в таблице появляются поля с NaN.

Воспользуемся методом Pandas `isnull`, который обнаружит все пропущенные значения в таблице, и выведем количество таких значений по столбцам:

In [292]:
data.isnull().sum()

age                  0
workclass         1836
fnlwgt               0
education            0
education_num        0
marital_status       0
occupation        1843
relationship         0
race                 0
sex                  0
capital_gain         0
capital_loss         0
hours_per_week       0
native_country     583
target               0
dtype: int64

С NaN бывает крайне неудобно работать, но в данном случае достаточно заменить их на что-то нейтральное. Для этого заполним их самыми частыми значениями:

In [293]:
print(data['workclass']value_counts(sort=True))
data['workclass']fillna('Private',inplace=True)

Private             22696
Self-emp-not-inc     2541
Local-gov            2093
State-gov            1298
Self-emp-inc         1116
Federal-gov           960
Without-pay            14
Never-worked            7
Name: workclass, dtype: int64


In [294]:
print(data['occupation']value_counts(sort=True))
data['occupation']fillna('Prof-specialty',inplace=True)

Prof-specialty       4140
Craft-repair         4099
Exec-managerial      4066
Adm-clerical         3770
Sales                3650
Other-service        3295
Machine-op-inspct    2002
Transport-moving     1597
Handlers-cleaners    1370
Farming-fishing       994
Tech-support          928
Protective-serv       649
Priv-house-serv       149
Armed-Forces            9
Name: occupation, dtype: int64


In [296]:
print(data['native_country'].value_counts(sort=True))
data['native_country'].fillna('United-States', inplace=True)

United-States                 29170
Mexico                          643
Philippines                     198
Germany                         137
Canada                          121
Puerto-Rico                     114
El-Salvador                     106
India                           100
Cuba                             95
England                          90
Jamaica                          81
South                            80
China                            75
Italy                            73
Dominican-Republic               70
Vietnam                          67
Guatemala                        64
Japan                            62
Poland                           60
Columbia                         59
Taiwan                           51
Haiti                            44
Iran                             43
Portugal                         37
Nicaragua                        34
Peru                             31
France                           29
Greece                      

Проверим, что все NaN заменились на какие-то значения:

In [297]:
data.isnull().sum()

age               0
workclass         0
fnlwgt            0
education         0
education_num     0
marital_status    0
occupation        0
relationship      0
race              0
sex               0
capital_gain      0
capital_loss      0
hours_per_week    0
native_country    0
target            0
dtype: int64

Теперь можно выводить различные статистики и не бояться ошибок при подсчётах.

Например, минимальный, средний и максимальный возраст:

In [327]:
data.age.min(), data.age.mean(), data.age.max()

(17, 38.58164675532078, 90)

Также, можно выводить целые наборы статистик по всем полям таблицы:

In [323]:
data.describe(include=['int'])

Unnamed: 0,age,fnlwgt,education_num,capital_gain,capital_loss,hours_per_week
count,32561.0,32561.0,32561.0,32561.0,32561.0,32561.0
mean,38.581647,189778.4,10.080679,1077.648844,87.30383,40.437456
std,13.640433,105550.0,2.57272,7385.292085,402.960219,12.347429
min,17.0,12285.0,1.0,0.0,0.0,1.0
25%,28.0,117827.0,9.0,0.0,0.0,40.0
50%,37.0,178356.0,10.0,0.0,0.0,40.0
75%,48.0,237051.0,12.0,0.0,0.0,45.0
max,90.0,1484705.0,16.0,99999.0,4356.0,99.0


In [326]:
data.describe(include=['object'])

Unnamed: 0,workclass,education,marital_status,occupation,relationship,race,sex,native_country,target
count,32561,32561,32561,32561,32561,32561,32561,32561,32561
unique,8,16,7,14,6,5,2,41,2
top,Private,HS-grad,Married-civ-spouse,Prof-specialty,Husband,White,Male,United-States,<=50K
freq,24532,10501,14976,5983,13193,27816,21790,29753,24720


### Немного анализа данных

![](https://media.giphy.com/media/J14dxhoJLWlI4/giphy.gif)

Посмотрим, какой процент людей имеет зарплату $\leqslant 50K$:

In [298]:
data.target.value_counts() / len(data) * 100

<=50K    75.919044
>50K     24.080956
Name: target, dtype: float64

Т.е. если бы мы хотели предсказать зарплату на данном датасете, можно было бы угадывать правильный ответ в $75$ случаях из $100$, всегда прогнозируя $\leqslant 50K$.

Попробуем посмотреть на влияние образования на доход, для этого выведем проценты людей с разными зарплатами для каждого вида образования:

In [299]:
pd.crosstab(data.education, data.target, margins=True) / len(data) * 100

target,<=50K,>50K,All
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10th,2.674979,0.190412,2.865391
11th,3.424342,0.18427,3.608612
12th,1.228463,0.101348,1.329812
1st-4th,0.497528,0.018427,0.515955
5th-6th,0.973557,0.049139,1.022696
7th-8th,1.861122,0.122846,1.983969
9th,1.495654,0.082921,1.578576
Assoc-acdm,2.463069,0.813857,3.276926
Assoc-voc,3.135653,1.108688,4.244341
Bachelors,9.625012,6.821044,16.446055


В некоторых группах процент людей с высокой зарплатой не сильно отличается от процента людей с низкой. В каких?

<br><br><br>

Например, в группе Bachelors отличие не такое уж сильное, а в группе Masters людей с высокой зарплатой даже немного больше.

---

---

Добавьте в список `high_paid_education` названия групп, внутри которых, по вашему мнению, высоких зарплат достаточно много.

In [300]:
high_paid_education = ['Bachelors',
                       'Masters',
                       # YOUR GROUPS
                      ]

Выведем таблицу, содержащую только людей с выбранным образованием:

In [301]:
# записываем, в каких строках образование соответствует одному из перечисленных
high_paid_indices = data.education.isin(high_paid_education)
# сохраняем эти строки
high_paid = data[high_paid_indices]
high_paid.head()

Unnamed: 0,age,workclass,fnlwgt,education,education_num,marital_status,occupation,relationship,race,sex,capital_gain,capital_loss,hours_per_week,native_country,target
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
5,37,Private,284582,Masters,14,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,40,United-States,<=50K
8,31,Private,45781,Masters,14,Never-married,Prof-specialty,Not-in-family,White,Female,14084,0,50,United-States,>50K


---

---

Выведите процент людей из новой таблицы `high_paid`, имеющих зарплату $\leqslant 50K$.

In [331]:
# YOUR CODE

Выведите из таблицы `high_paid` проценты людей с разными зарплатами для каждого семейного статуса.

In [329]:
# YOUR CODE

#### Bonus track

Вернёмся к исходной таблице `data`. Проверьте влияние области работы `occupation` на величину зарплаты.

In [313]:
data.head()

Unnamed: 0,age,workclass,fnlwgt,education,education_num,marital_status,occupation,relationship,race,sex,capital_gain,capital_loss,hours_per_week,native_country,target
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


Попробуйте выделить такую группу людей, внутри которой больше половины имеют высокий уровень доходов.

<br><br><br><br><br><br>

### Для тех, кто выжил, и хочет ещё

Скачайте данные по <a href=https://www.dropbox.com/s/f2e3afgxw90qluw/yob2015.txt?dl=0>ссылке</a>.
В файле представлена информация об именах новорожденных в США в 2015 году в формате: "name, gender, count"

In [18]:
names = pd.read_csv('yob2015.txt', names=['Name', 'Gender', 'Count'])
names.head(10)

Unnamed: 0,Name,Gender,Count
0,Emma,F,20355
1,Olivia,F,19553
2,Sophia,F,17327
3,Ava,F,16286
4,Isabella,F,15504
5,Mia,F,14820
6,Abigail,F,12311
7,Emily,F,11727
8,Charlotte,F,11332
9,Harper,F,10241


In [20]:
names.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32952 entries, 0 to 32951
Data columns (total 3 columns):
Name      32952 non-null object
Gender    32952 non-null object
Count     32952 non-null int64
dtypes: int64(1), object(2)
memory usage: 772.4+ KB


In [21]:
names.describe(include=['object'])

Unnamed: 0,Name,Gender
count,32952,32952
unique,30460,2
top,Judah,F
freq,2,18993


In [22]:
names.describe(include=['int64'])

Unnamed: 0,Count
count,32952.0
mean,111.318979
std,672.158227
min,5.0
25%,7.0
50%,11.0
75%,30.0
max,20355.0


---

---

Задание.

- Выведите все имена, которых было больше $15000$.
- Посчитайте долю новорождённых мальчиков и девочек.