# Инструменты для оперативной работы с данными

## Преподаватель Александр Швец

### Чем занимаюсь

* Технический директор Marilyn и Aori
* Основатель сообщества MoscowDigital

### Контакты

* Email: ashwets@gmail.com
* Facebook: [fb.com/ashwets](fb.com/ashwets)


## Какие знания потребуются

* Базовые принципы программирования на Python
* Работа с файлами
* Выполнение http-запросов и работа с API

## План занятия

* Знакомство со средой Anaconda и обзор инструментов
* Загрузка, обработка и сохранение данных
* Простейшие операции с данными
* Объединение и группировка данных
* Отличие от других подходов


## Anaconda

* Легко начать
* Доступна для всех платформ
* [https://www.continuum.io/downloads](https://www.continuum.io/downloads)
* Не является обязательной

### Jpupyter

* Блоки с кодом
* Блоки с markdown https://guides.github.com/features/mastering-markdown/
* Горячие клавиши
* Удобно шарить на GitHub

In [1]:
import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

%matplotlib inline

In [2]:
from datetime import date

In [3]:
pd.Series([1, 1, 2, 3, 5, 8])

0    1
1    1
2    2
3    3
4    5
5    8
dtype: int64

In [None]:
pd.Series([1, 1, 2, 3, 5, 8, 13.5])

0     1.0
1     1.0
2     2.0
3     3.0
4     5.0
5     8.0
6    13.5
dtype: float64

In [7]:
pd.Series([1, 1, 2, 3, 5, 8, 13.5, "asd", date(2017, 1, 1)])

0             1
1             1
2             2
3             3
4             5
5             8
6          13.5
7           asd
8    2017-01-01
dtype: object

In [6]:
weather = pd.DataFrame({
    'City': ['MSK', 'SPB', 'NN', 'MSK', 'SPB'],
    'Temperature': [-3, +2, -2, -3, +2],
    'State' : ['Cloudy', 'Clear', 'Snow', 'Cloudy', 'Clear'],
    'Date': [date(2017, 1, 1), date(2017, 1, 1), date(2017, 1, 1), date(2017, 1, 2), date(2017, 1, 2)]
})
weather

Unnamed: 0,City,Date,State,Temperature
0,MSK,2017-01-01,Cloudy,-3
1,SPB,2017-01-01,Clear,2
2,NN,2017-01-01,Snow,-2
3,MSK,2017-01-02,Cloudy,-3
4,SPB,2017-01-02,Clear,2


In [11]:
weather = pd.DataFrame()
weather['City'] = ['MSK', 'SPB', 'NN', 'MSK', 'SPB']
weather['Temperature'] = [-3, +2, -2, -3, +2]
weather['State'] = ['Cloudy', 'Clear', 'Snow', 'Cloudy', 'Clear']
weather

Unnamed: 0,City,Temperature,State
0,MSK,-3,Cloudy
1,SPB,2,Clear
2,NN,-2,Snow
3,MSK,-3,Cloudy
4,SPB,2,Clear


## Файлы для практики

https://catalog.data.gov/dataset/baby-names-from-social-security-card-applications-national-level-data


In [12]:
DATA_PATH = '/Users/ashvets/Temp/names/'

In [14]:
pd.read_csv(DATA_PATH + 'yob1880.txt').head(10)

Unnamed: 0,Mary,F,7065
0,Anna,F,2604
1,Emma,F,2003
2,Elizabeth,F,1939
3,Minnie,F,1746
4,Margaret,F,1578
5,Ida,F,1472
6,Alice,F,1414
7,Bertha,F,1320
8,Sarah,F,1288
9,Annie,F,1258


In [3]:
names = pd.read_csv(
    DATA_PATH + 'yob2000.txt', 
    names=['Name','Gender','Count']
)
names.head(10)

NameError: name 'pd' is not defined

In [21]:
names.query('Count > 20000')

Unnamed: 0,Name,Gender,Count
0,Emily,F,25953
1,Hannah,F,23075
17653,Jacob,M,34467
17654,Michael,M,32028
17655,Matthew,M,28572
17656,Joshua,M,27534
17657,Christopher,M,24928
17658,Nicholas,M,24650
17659,Andrew,M,23633
17660,Joseph,M,22820


In [27]:
names.query('(Count > 20000 | Count < 10) & Gender == "M"')

Unnamed: 0,Name,Gender,Count
17653,Jacob,M,34467
17654,Michael,M,32028
17655,Matthew,M,28572
17656,Joshua,M,27534
17657,Christopher,M,24928
17658,Nicholas,M,24650
17659,Andrew,M,23633
17660,Joseph,M,22820
17661,Daniel,M,22310
17662,Tyler,M,21501


In [2]:
names[(names.Count > 20000) & (names.Gender == "M")]

NameError: name 'names' is not defined

In [1]:
names[(names.Name.str.startswith("M")) & (names.Count > 3000)].head(10)

NameError: name 'names' is not defined

In [35]:
names[(names.Name.str.startswith("M")) & (names.Count > 3000)].to_csv(
    'example.csv',
    index=False
)

In [34]:
weather.to_csv('weather.csv', index=False)

### Сортировка

In [37]:
names.sort_values(by='Name', ascending=True).head(10)

Unnamed: 0,Name,Gender,Count
26755,Aadam,M,6
27994,Aadarsh,M,5
24482,Aadil,M,9
23569,Aaditya,M,11
26756,Aahil,M,6
9868,Aailyah,F,9
13145,Aaisha,F,6
20726,Aakash,M,28
11793,Aakilah,F,7
7568,Aalayah,F,13


In [38]:
names.sort_values(by='Count', ascending=False).head(10)

Unnamed: 0,Name,Gender,Count
17653,Jacob,M,34467
17654,Michael,M,32028
17655,Matthew,M,28572
17656,Joshua,M,27534
0,Emily,F,25953
17657,Christopher,M,24928
17658,Nicholas,M,24650
17659,Andrew,M,23633
1,Hannah,F,23075
17660,Joseph,M,22820


### Функции

In [40]:
names.Count.sum()

3777294

In [42]:
names[names.Gender=='M'].Count.sum(), names[names.Gender=='F'].Count.sum()

(1962556, 1814738)

In [41]:
print("{} boys and {} girls".format(
        names[names.Gender=='M'].Count.sum(), 
        names[names.Gender=='F'].Count.sum()
))

1962556 boys and 1814738 girls


In [43]:
def count_to_len(row):
    return len(row.Name)
names.apply(count_to_len, axis=1)

0        5
1        6
2        7
3        6
4        5
5        6
6        8
7        7
8        9
9        6
10       6
11       6
12       5
13       7
14       7
15       6
16       4
17       5
18       5
19       8
20       6
21       4
22       6
23       7
24       6
25       8
26       7
27       5
28       5
29       7
        ..
29734    5
29735    4
29736    4
29737    7
29738    6
29739    9
29740    9
29741    8
29742    5
29743    6
29744    4
29745    6
29746    5
29747    6
29748    6
29749    6
29750    5
29751    6
29752    5
29753    7
29754    4
29755    6
29756    6
29757    5
29758    5
29759    4
29760    5
29761    5
29762    2
29763    5
dtype: int64

In [44]:
def count_to_len(row):
    return len(row.Name)
names['Len'] = names.apply(count_to_len, axis=1)
names.head(10)

Unnamed: 0,Name,Gender,Count,Len
0,Emily,F,25953,5
1,Hannah,F,23075,6
2,Madison,F,19967,7
3,Ashley,F,17997,6
4,Sarah,F,17689,5
5,Alexis,F,17627,6
6,Samantha,F,17264,8
7,Jessica,F,15705,7
8,Elizabeth,F,15089,9
9,Taylor,F,15077,6


In [45]:
names['Len'] = names.apply(lambda row: len(row.Name), axis=1).head(10)
names.head(10)

Unnamed: 0,Name,Gender,Count,Len
0,Emily,F,25953,5.0
1,Hannah,F,23075,6.0
2,Madison,F,19967,7.0
3,Ashley,F,17997,6.0
4,Sarah,F,17689,5.0
5,Alexis,F,17627,6.0
6,Samantha,F,17264,8.0
7,Jessica,F,15705,7.0
8,Elizabeth,F,15089,9.0
9,Taylor,F,15077,6.0


In [47]:
def foo(bar):
    print("bar")
    print(bar)
names.head(3).apply(foo)

bar
0      Emily
1     Hannah
2    Madison
Name: Name, dtype: object
bar
0    F
1    F
2    F
Name: Gender, dtype: object
bar
0    25953
1    23075
2    19967
Name: Count, dtype: object
bar
0    5
1    6
2    7
Name: Len, dtype: object


Name      None
Gender    None
Count     None
Len       None
dtype: object

## Другие функции

* count() – подсчет
* max() – максимальное значение
* min() – минимальное значение
* mean() – среднее
* median() – медиана


## Объединение и группировка

### Соединение через merge

In [68]:
cols = ['Name','Gender','Count']
names_1900 = pd.read_csv(DATA_PATH + 'yob1900.txt', names=cols)
names_1950 = pd.read_csv(DATA_PATH + 'yob1950.txt', names=cols)
names_1900_1950 = pd.merge(names_1900, names_1950, on=['Name', 'Gender'], suffixes=('_1900', '_1950'))
names_1900_1950.head(10)

Unnamed: 0,Name,Gender,Count_1900,Count_1950
0,Mary,F,16707,65485
1,Helen,F,6343,7060
2,Anna,F,6114,3817
3,Margaret,F,5304,18107
4,Ruth,F,4765,7126
5,Elizabeth,F,4096,14339
6,Florence,F,3920,1446
7,Ethel,F,3896,1603
8,Marie,F,3856,5223
9,Lillian,F,3414,1887


In [69]:
names_2000 = pd.read_csv(DATA_PATH + 'yob2000.txt', names=cols)
names_1900_1950_2000 = pd.merge(names_1900_1950, names_2000, on=['Name', 'Gender'])
names_1900_1950_2000.head(10)

Unnamed: 0,Name,Gender,Count_1900,Count_1950,Count
0,Mary,F,16707,65485,6184
1,Helen,F,6343,7060,890
2,Anna,F,6114,3817,10581
3,Margaret,F,5304,18107,3120
4,Ruth,F,4765,7126,902
5,Elizabeth,F,4096,14339,15089
6,Florence,F,3920,1446,60
7,Ethel,F,3896,1603,14
8,Marie,F,3856,5223,785
9,Lillian,F,3414,1887,2598


In [70]:
def agg_count(row):
    row.Count = row.Count_1900 + row.Count_1950 + row.Count
    return row

names_1900_1950_2000 = names_1900_1950_2000.apply(agg_count, axis=1)
names_1900_1950_2000.head(10)

Unnamed: 0,Name,Gender,Count_1900,Count_1950,Count
0,Mary,F,16707,65485,88376
1,Helen,F,6343,7060,14293
2,Anna,F,6114,3817,20512
3,Margaret,F,5304,18107,26531
4,Ruth,F,4765,7126,12793
5,Elizabeth,F,4096,14339,33524
6,Florence,F,3920,1446,5426
7,Ethel,F,3896,1603,5513
8,Marie,F,3856,5223,9864
9,Lillian,F,3414,1887,7899


In [52]:
del names_1900_1950_2000['Count_1950']

In [71]:
names_1900_1950_2000[names_1900_1950_2000.Name=="Mary"]

Unnamed: 0,Name,Gender,Count_1900,Count_1950,Count
0,Mary,F,16707,65485,88376
1375,Mary,M,75,119,204


### Объединение через concat

In [54]:
names_all = pd.concat([names_1900, names_1950, names_2000], names=['Year', 'Pos'])
names_all.sort_values(by='Count', ascending=False).head(10)

Unnamed: 0,Name,Gender,Count
6113,James,M,86266
6114,Robert,M,83590
0,Linda,F,80439
6115,John,M,79447
1,Mary,F,65485
6116,Michael,M,65185
6117,David,M,60761
6118,William,M,60722
6119,Richard,M,51028
2,Patricia,F,47952


In [55]:
names_all = pd.concat({'1900': names_1900, '1950': names_1950, '2000': names_2000}, names=['Year', 'Pos'])
names_all[names_all.Name.str.startswith('M')].sort_values(by='Count', ascending=False).head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,Name,Gender,Count
Year,Pos,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1950,1,Mary,F,65485
1950,6116,Michael,M,65185
2000,17654,Michael,M,32028
2000,17655,Matthew,M,28572
2000,2,Madison,F,19967
1950,14,Margaret,F,18107
1900,0,Mary,F,16707
1950,6135,Mark,M,16625
2000,17,Megan,F,11433
1950,31,Martha,F,9840


### Группировка

In [61]:
names_all.groupby('Name').sum().head(10)

Unnamed: 0_level_0,Count
Name,Unnamed: 1_level_1
Aadam,6
Aadarsh,5
Aadil,9
Aaditya,11
Aahil,6
Aailyah,9
Aaisha,6
Aakash,28
Aakilah,7
Aalayah,13


In [75]:
names_var2 = names_all.groupby('Name').sum()
names_var2

Unnamed: 0_level_0,Count
Name,Unnamed: 1_level_1
Aadam,6
Aadarsh,5
Aadil,9
Aaditya,11
Aahil,6
Aailyah,9
Aaisha,6
Aakash,28
Aakilah,7
Aalayah,13


In [80]:
names_var2 = names_var2.reset_index()

In [81]:
names_var2[names_var2.Name == "Mary"]

Unnamed: 0,Name,Count
20807,Mary,88580


In [82]:
names_all.groupby('Gender').sum()

Unnamed: 0_level_0,Count
Gender,Unnamed: 1_level_1
F,3828010
M,3904520


In [83]:
names_all.groupby('Gender').count()

Unnamed: 0_level_0,Name,Count
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
F,25991,25991
M,17813,17813


## Отличия от других подходов
* Excel
* База данных

### Домашнее задание

Результат по выполнению заданий необходимо предоставить в виде ссылки на файл формата Jupyter (ipynb) в github.

В файле должны быть сохранены результаты запуска на тестовых данных.


Дано: данные о популярности имен для новорожденных, скачивается по ссылке https://www.ssa.gov/oact/babynames/names.zip


Добавлять исходные данные в репозиторий с выполненным заданием необязательно, но в блокноте необходимо выделить путь к файлам в отдельную переменную, которую легко поменять.

I С использованием Pandas написать функцию, которая загружает указанные года и выводит ТОП-3 популярных имен. Например:

```
count_top3([1880]) == ['John', 'William', 'Mary']
count_top3([1900, 1950, 2000]) == ['James', 'John', 'Robert']
```

II С использованием Pandas написать функцию, которая возвращает динамику изменения количества имен за указанные года в разрезе полов. Например:

```
count_dynamics([1900, 1950, 2000]) == {'M': [146391, 1675092, 1262262], 'F': [279409, 1390888, 670434]}
```

In [None]:
def count_top3(years):
    return ['John', 'William', 'Mary']

In [None]:
count_top3([1880]) == ['John', 'William', 'Mary']

In [None]:
count_top3([]) == ['James', 'John', 'Robert']

### Полезные ссылки

- [10 minutes to Pandas](http://pandas.pydata.org/pandas-docs/stable/10min.html)
- [Python Data Science Handbook](https://www.safaribooksonline.com/library/view/python-data-science/9781491912126/)
- [Python for Data Analysis](http://www.cin.ufpe.br/~embat/Python%20for%20Data%20Analysis.pdf)
- [Открытые датасеты](https://docs.google.com/spreadsheets/d/1ZSLP1McnXv0FtOd9t7dMp3AfaiusvaGwWV0F9g2pbho/edit#gid=0)
- https://habrahabr.ru/company/ods/blog/322626