# Инструменты для оперативной работы с данными

## Преподаватель Александр Швец

### Чем занимаюсь

* Технический директор Marilyn и Aori
* Основатель сообщества MoscowDigital

### Контакты

* Email: ashwets@gmail.com
* Facebook: [fb.com/ashwets](fb.com/ashwets)


## Какие знания потребуются

* Базовые принципы программирования на Python
* Работа с файлами
* Выполнение http-запросов и работа с API

## План занятия

* Знакомство со средой Anaconda и обзор инструментов
* Загрузка, обработка и сохранение данных
* Простейшие операции с данными
* Объединение и группировка данных
* Отличие от других подходов


## Anaconda

* Легко начать
* Доступна для всех платформ
* [https://www.continuum.io/downloads](https://www.continuum.io/downloads)
* Не является обязательной

### Jpupyter

* Блоки с кодом
* Блоки с markdown https://guides.github.com/features/mastering-markdown/\
* Горячие клавиши
* Удобно шарить на GitHub

In [1]:
import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

%matplotlib inline

In [7]:
pd.Series([1,1,2,3,5,8,13.0,"asd"])

0      1
1      1
2      2
3      3
4      5
5      8
6     13
7    asd
dtype: object

In [2]:
from datetime import date
date(2017, 1, 1)

datetime.date(2017, 1, 1)

In [10]:
weather = pd.DataFrame({
    'City': ['MSK', 'SPB', 'NN', 'MSK', 'SPB', 'NN'],
    'Temperature': [-3, +2, -2, -3, +2, -2],
    'State' : ['Cloudy', 'Clear', 'Snow', 'Cloudy', 'Clear', 'Snow'],
    'Date': [date(2017, 1, 1), date(2017, 1, 1), date(2017, 1, 1), date(2017, 1, 2), date(2017, 1, 2), date(2017, 1, 2)]
})
weather

Unnamed: 0,City,Date,State,Temperature
0,MSK,2017-01-01,Cloudy,-3
1,SPB,2017-01-01,Clear,2
2,NN,2017-01-01,Snow,-2
3,MSK,2017-01-02,Cloudy,-3
4,SPB,2017-01-02,Clear,2
5,NN,2017-01-02,Snow,-2


## Файлы для практики

https://catalog.data.gov/dataset/baby-names-from-social-security-card-applications-national-level-data


In [12]:
pd.read_csv('/Users/ashvets/Temp/names/yob1880.txt').head(10)

Unnamed: 0,Mary,F,7065
0,Anna,F,2604
1,Emma,F,2003
2,Elizabeth,F,1939
3,Minnie,F,1746
4,Margaret,F,1578
5,Ida,F,1472
6,Alice,F,1414
7,Bertha,F,1320
8,Sarah,F,1288
9,Annie,F,1258


In [13]:
names = pd.read_csv(
    '/Users/ashvets/Temp/names/yob1900.txt', 
    names=['Name','Gender','Count']
)
names.head(10)

Unnamed: 0,Name,Gender,Count
0,Mary,F,16707
1,Helen,F,6343
2,Anna,F,6114
3,Margaret,F,5304
4,Ruth,F,4765
5,Elizabeth,F,4096
6,Florence,F,3920
7,Ethel,F,3896
8,Marie,F,3856
9,Lillian,F,3414


In [16]:
names.query('Gender=="F" & Count > 5000')

Unnamed: 0,Name,Gender,Count
0,Mary,F,16707
1,Helen,F,6343
2,Anna,F,6114
3,Margaret,F,5304


In [17]:
names[names.Gender=='M'].head(10)

Unnamed: 0,Name,Gender,Count
2225,John,M,9829
2226,William,M,8579
2227,James,M,7245
2228,George,M,5403
2229,Charles,M,4100
2230,Robert,M,3821
2231,Joseph,M,3714
2232,Frank,M,3477
2233,Edward,M,2720
2234,Henry,M,2606


In [20]:
names[names.Gender=='M'].head(10).to_csv(
    '/Users/ashvets/Temp/names/example.csv',
    index=False
)

In [21]:
weather.to_csv('/Users/ashvets/Temp/names/weather.csv', index=False)

In [23]:
names.sort_values(by='Count', ascending=False).head(10)

Unnamed: 0,Name,Gender,Count
0,Mary,F,16707
2225,John,M,9829
2226,William,M,8579
2227,James,M,7245
1,Helen,F,6343
2,Anna,F,6114
2228,George,M,5403
3,Margaret,F,5304
4,Ruth,F,4765
2229,Charles,M,4100


In [27]:
names[names.Gender=='M'].Count.sum()

150490

In [28]:
print("{} boys and {} girls".format(
        names[names.Gender=='M'].Count.sum(), 
        names[names.Gender=='F'].Count.sum()
))

150490 boys and 299822 girls


In [29]:
names.apply(lambda row: (row.Name, len(row.Name)), axis=1).head(10)

0         (Mary, 4)
1        (Helen, 5)
2         (Anna, 4)
3     (Margaret, 8)
4         (Ruth, 4)
5    (Elizabeth, 9)
6     (Florence, 8)
7        (Ethel, 5)
8        (Marie, 5)
9      (Lillian, 7)
dtype: object

In [31]:
def count_to_len(row):
    row.Len = len(row.Name)
    return row
names.apply(count_to_len, axis=1).head(10)

Unnamed: 0,Name,Gender,Count
0,Mary,F,16707
1,Helen,F,6343
2,Anna,F,6114
3,Margaret,F,5304
4,Ruth,F,4765
5,Elizabeth,F,4096
6,Florence,F,3920
7,Ethel,F,3896
8,Marie,F,3856
9,Lillian,F,3414


In [37]:
def foo(bar):
    print("bar")
    print(bar)
names.head(5).apply(foo, axis=1)

bar
Name       Mary
Gender        F
Count     16707
Name: 0, dtype: object
bar
Name      Helen
Gender        F
Count      6343
Name: 1, dtype: object
bar
Name      Anna
Gender       F
Count     6114
Name: 2, dtype: object
bar
Name      Margaret
Gender           F
Count         5304
Name: 3, dtype: object
bar
Name      Ruth
Gender       F
Count     4765
Name: 4, dtype: object


0    None
1    None
2    None
3    None
4    None
dtype: object

## Другие функции

* count() – подсчет
* max() – максимальное значение
* min() – минимальное значение
* mean() – среднее
* median() – медиана


## Объединение и группировка

In [41]:
cols = ['Name','Gender','Count']
names_1880 = pd.read_csv('/Users/ashvets/Temp/names/yob1880.txt', names=cols)
names_1890 = pd.read_csv('/Users/ashvets/Temp/names/yob1890.txt', names=cols)
pd.merge(names_1880, names_1890, on=['Name', 'Gender'], suffixes=('_a', '_b')).head(10)


Unnamed: 0,Name,Gender,Count_a,Count_b
0,Mary,F,7065,12078
1,Anna,F,2604,5233
2,Emma,F,2003,2980
3,Elizabeth,F,1939,3112
4,Minnie,F,1746,2650
5,Margaret,F,1578,3100
6,Ida,F,1472,2178
7,Alice,F,1414,2271
8,Bertha,F,1320,2388
9,Sarah,F,1288,1786


In [45]:
PATH = '/Users/ashvets/Temp/names/'
cols = ['Name','Gender','Count']
names_1900 = pd.read_csv(PATH + 'yob1900.txt', names=cols)
names_1950 = pd.read_csv('/Users/ashvets/Temp/names/yob1950.txt', names=cols)
names_2000 = pd.read_csv('/Users/ashvets/Temp/names/yob2000.txt', names=cols)
names_1900_1950 = pd.merge(names_1900, names_1950, on=['Name', 'Gender'], suffixes=('_1900', '_1950'))
names_1900_1950.head(10)

Unnamed: 0,Name,Gender,Count_1900,Count_1950
0,Mary,F,16707,65485
1,Helen,F,6343,7060
2,Anna,F,6114,3817
3,Margaret,F,5304,18107
4,Ruth,F,4765,7126
5,Elizabeth,F,4096,14339
6,Florence,F,3920,1446
7,Ethel,F,3896,1603
8,Marie,F,3856,5223
9,Lillian,F,3414,1887


In [46]:
names_1900_1950_2000 = pd.merge(names_1900_1950, names_2000, on=['Name', 'Gender'])
names_1900_1950_2000.head(10)

Unnamed: 0,Name,Gender,Count_1900,Count_1950,Count
0,Mary,F,16707,65485,6184
1,Helen,F,6343,7060,890
2,Anna,F,6114,3817,10581
3,Margaret,F,5304,18107,3120
4,Ruth,F,4765,7126,902
5,Elizabeth,F,4096,14339,15089
6,Florence,F,3920,1446,60
7,Ethel,F,3896,1603,14
8,Marie,F,3856,5223,785
9,Lillian,F,3414,1887,2598


In [54]:
def agg_count(row):
    row.Count = row.Count_1900 + row.Count_1950 + row.Count
    return row

names_1900_1950_2000.apply(agg_count, axis=1).sort_values(by='Count', ascending=False).head(10)

Unnamed: 0,Name,Gender,Count_1900,Count_1950,Count
1147,James,M,7245,86266,111489
1145,John,M,9829,79447,109360
1150,Robert,M,3821,83590,101145
1195,Michael,M,495,65185,97708
1146,William,M,8579,60722,89955
0,Mary,F,16707,65485,88376
277,Linda,F,126,80439,81414
1176,David,M,885,60761,81401
1155,Thomas,M,2557,45635,60830
1168,Richard,M,1142,51028,58522


In [59]:
names_all = pd.concat([names_1900, names_1950], names=['Year', 'Pos'])
names_all

Unnamed: 0,Name,Gender,Count
0,Mary,F,16707
1,Helen,F,6343
2,Anna,F,6114
3,Margaret,F,5304
4,Ruth,F,4765
5,Elizabeth,F,4096
6,Florence,F,3920
7,Ethel,F,3896
8,Marie,F,3856
9,Lillian,F,3414


## Отличия от других подходов
* Excel
* База данных

### Домашнее задание

Результат по выполнению заданий необходимо предоставить в виде ссылки на файл формата Jupyter (ipynb) в github.

В файле должны быть сохранены результаты запуска на тестовых данных.


Дано: данные о популярности имен для новорожденных, скачивается по ссылке https://www.ssa.gov/oact/babynames/names.zip


Добавлять исходные данные в репозиторий с выполненным заданием необязательно, но в блокноте необходимо выделить путь к файлам в отдельную переменную, которую легко поменять.

I С использованием Pandas написать функцию, которая загружает указанные года и выводит ТОП-3 популярных имен. Например:

```
count_top3([1880]) == ['John', 'William', 'Mary']
count_top3([1900, 1950, 2000]) == ['James', 'John', 'Robert']
```

II С использованием Pandas написать функцию, которая возвращает динамику изменения количества имен за указанные года в разрезе полов. Например:

```
count_dynamics([1900, 1950, 2000]) == {'M': [146391, 1675092, 1262262], 'F': [279409, 1390888, 670434]}
```

In [56]:
def count_top3(years):
    return ['John', 'William', 'Mary']

In [57]:
count_top3([1880]) == ['John', 'William', 'Mary']

True

In [58]:
count_top3([1900, 1950, 2000]) == ['James', 'John', 'Robert']

False

### Полезные ссылки

- [10 minutes to Pandas](http://pandas.pydata.org/pandas-docs/stable/10min.html)
- [Python Data Science Handbook](https://www.safaribooksonline.com/library/view/python-data-science/9781491912126/)
- [Python for Data Analysis](http://www.cin.ufpe.br/~embat/Python%20for%20Data%20Analysis.pdf)
- [Открытые датасеты](https://docs.google.com/spreadsheets/d/1ZSLP1McnXv0FtOd9t7dMp3AfaiusvaGwWV0F9g2pbho/edit#gid=0)
- https://habrahabr.ru/company/ods/blog/322626