# Инструменты для оперативной работы с данными

## Преподаватель Александр Швец

### Чем занимаюсь

* Директор по продукту Marilyn
* Основатель сообщества MoscowDigital

### Контакты

* Email: ashwets@gmail.com
* Facebook: [fb.com/ashwets](fb.com/ashwets)


## Какие знания потребуются

* Базовые принципы программирования на Python
* Работа с файлами
* Выполнение http-запросов и работа с API

## План занятия

* Знакомство со средой Anaconda и обзор инструментов
* Загрузка, обработка и сохранение данных
* Простейшие операции с данными
* Объединение и группировка данных
* Отличие от других подходов


## Anaconda

* Легко начать
* Доступна для всех платформ
* [https://www.continuum.io/downloads](https://www.continuum.io/downloads)
* Не является обязательной

### Jpupyter

* Блоки с кодом
* Блоки с markdown https://guides.github.com/features/mastering-markdown/\
* Горячие клавиши
* Удобно шарить на GitHub

In [2]:
import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

%matplotlib inline

In [7]:
pd.Series([1,1,2,3,5,8,13.0,"qwer"])

0       1
1       1
2       2
3       3
4       5
5       8
6      13
7    qwer
dtype: object

In [13]:
from datetime import date
date(2017, 1, 1)

datetime.date(2017, 1, 1)

In [15]:
weather = pd.DataFrame({
    'City': ['MSK', 'SPB', 'NN', 'MSK', 'SPB', 'NN'],
    'Temperature': [-3, +2, -2, -3, +2, -2],
    'State' : ['Cloudy', 'Clear', 'Snow', 'Cloudy', 'Clear', 'Snow'],
    'Date': [date(2017, 1, 1), date(2017, 1, 1), date(2017, 1, 1), date(2017, 1, 2), date(2017, 1, 2), date(2017, 1, 2)]
})
weather

Unnamed: 0,City,Date,State,Temperature
0,MSK,2017-01-01,Cloudy,-3
1,SPB,2017-01-01,Clear,2
2,NN,2017-01-01,Snow,-2
3,MSK,2017-01-02,Cloudy,-3
4,SPB,2017-01-02,Clear,2
5,NN,2017-01-02,Snow,-2


## Файлы для практики

https://catalog.data.gov/dataset/baby-names-from-social-security-card-applications-national-level-data


In [20]:
pd.read_csv('/Users/ashvets/Temp/names/yob1900.txt').head(10)

Unnamed: 0,Mary,F,16707
0,Helen,F,6343
1,Anna,F,6114
2,Margaret,F,5304
3,Ruth,F,4765
4,Elizabeth,F,4096
5,Florence,F,3920
6,Ethel,F,3896
7,Marie,F,3856
8,Lillian,F,3414
9,Annie,F,3324


In [4]:
names = pd.read_csv(
    '/Users/ashvets/Temp/names/yob1900.txt', 
    names=['Name','Gender','Count']
)
names.head(10)

Unnamed: 0,Name,Gender,Count
0,Mary,F,16707
1,Helen,F,6343
2,Anna,F,6114
3,Margaret,F,5304
4,Ruth,F,4765
5,Elizabeth,F,4096
6,Florence,F,3920
7,Ethel,F,3896
8,Marie,F,3856
9,Lillian,F,3414


In [21]:
names.query('Gender=="F" & Count > 5000')

Unnamed: 0,Name,Gender,Count
0,Mary,F,16707
1,Helen,F,6343
2,Anna,F,6114
3,Margaret,F,5304


In [22]:
names[names.Gender=='M'].head(10)

Unnamed: 0,Name,Gender,Count
2225,John,M,9829
2226,William,M,8579
2227,James,M,7245
2228,George,M,5403
2229,Charles,M,4100
2230,Robert,M,3821
2231,Joseph,M,3714
2232,Frank,M,3477
2233,Edward,M,2720
2234,Henry,M,2606


In [23]:
weather.to_csv('/Users/ashvets/Temp/weather.csv', index=False)

In [5]:
names.sort_values(by='Count', ascending=True).head(10)

Unnamed: 0,Name,Gender,Count
3730,Zeno,M,5
2130,Minnette,F,5
2129,Mimi,F,5
2128,Mila,F,5
2127,Micaela,F,5
2126,Metha,F,5
2125,Meredith,F,5
2131,Modie,F,5
2124,Melvinia,F,5
2122,Melita,F,5


In [27]:
names[names.Gender=='M'].Count.sum()

150490

In [28]:
print("{} boys and {} girls".format(
        names[names.Gender=='M'].Count.sum(), 
        names[names.Gender=='F'].Count.sum()
))

150490 boys and 299822 girls


In [6]:
names.apply(lambda row: (row.Name, len(row.Name)), axis=1).head(10)

0         (Mary, 4)
1        (Helen, 5)
2         (Anna, 4)
3     (Margaret, 8)
4         (Ruth, 4)
5    (Elizabeth, 9)
6     (Florence, 8)
7        (Ethel, 5)
8        (Marie, 5)
9      (Lillian, 7)
dtype: object

In [7]:
def count_to_len(row):
    row.Count = len(row.Name)
    return row
names.apply(count_to_len, axis=1).head(10)

Unnamed: 0,Name,Gender,Count
0,Mary,F,4
1,Helen,F,5
2,Anna,F,4
3,Margaret,F,8
4,Ruth,F,4
5,Elizabeth,F,9
6,Florence,F,8
7,Ethel,F,5
8,Marie,F,5
9,Lillian,F,7


## Другие функции

* count() – подсчет
* max() – максимальное значение
* min() – минимальное значение
* mean() – среднее
* median() – медиана


## Объединение и группировка

In [8]:
cols = ['Name','Gender','Count']
names_1880 = pd.read_csv('/Users/ashvets/Temp/names/yob1880.txt', names=cols)
names_1890 = pd.read_csv('/Users/ashvets/Temp/names/yob1890.txt', names=cols)
pd.merge(names_1880, names_1890, on=['Name', 'Gender'], suffixes=('_1880', '_1890')).head(10)


Unnamed: 0,Name,Gender,Count_1880,Count_1890
0,Mary,F,7065,12078
1,Anna,F,2604,5233
2,Emma,F,2003,2980
3,Elizabeth,F,1939,3112
4,Minnie,F,1746,2650
5,Margaret,F,1578,3100
6,Ida,F,1472,2178
7,Alice,F,1414,2271
8,Bertha,F,1320,2388
9,Sarah,F,1288,1786


In [9]:
names_1880.groupby('Name').count().query('Gender > 1').head(10)

Unnamed: 0_level_0,Gender,Count
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Addie,2,2
Allie,2,2
Alma,2,2
Alpha,2,2
Alva,2,2
Anna,2,2
Annie,2,2
Arthur,2,2
Artie,2,2
Augusta,2,2


In [33]:
names_1880_1890 = pd.merge(names_1880, names_1890, on=['Name', 'Gender'], suffixes=('_1880', '_1890'))

In [34]:
names_1880_1890.groupby('Gender').sum()

Unnamed: 0_level_0,Count_1880,Count_1890
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
F,90627,184821
M,109311,109017


In [11]:
cols = ['Name','Gender','Count']
names_1900 = pd.read_csv('/Users/ashvets/Temp/names/yob1900.txt', names=cols)
names_1950 = pd.read_csv('/Users/ashvets/Temp/names/yob1950.txt', names=cols)
names_2000 = pd.read_csv('/Users/ashvets/Temp/names/yob2000.txt', names=cols)
names_1900_1950 = pd.merge(names_1900, names_1950, on=['Name', 'Gender'], suffixes=('_1900', '_1950'))

In [13]:
names_1900_1950_2000 = pd.merge(names_1900_1950, names_2000, on=['Name', 'Gender'])
names_1900_1950_2000.head(10)

Unnamed: 0,Name,Gender,Count_1900,Count_1950,Count
0,Mary,F,16707,65485,6184
1,Helen,F,6343,7060,890
2,Anna,F,6114,3817,10581
3,Margaret,F,5304,18107,3120
4,Ruth,F,4765,7126,902
5,Elizabeth,F,4096,14339,15089
6,Florence,F,3920,1446,60
7,Ethel,F,3896,1603,14
8,Marie,F,3856,5223,785
9,Lillian,F,3414,1887,2598


In [15]:
def agg_count(row):
    row.Count = row.Count_1900 + row.Count_1950 + row.Count
    return row

names_1900_1950_2000.apply(agg_count, axis=1).sort_values(by='Count', ascending=False).head(10)

Unnamed: 0,Name,Gender,Count_1900,Count_1950,Count
1147,James,M,7245,86266,111489
1145,John,M,9829,79447,109360
1150,Robert,M,3821,83590,101145
1195,Michael,M,495,65185,97708
1146,William,M,8579,60722,89955
0,Mary,F,16707,65485,88376
277,Linda,F,126,80439,81414
1176,David,M,885,60761,81401
1155,Thomas,M,2557,45635,60830
1168,Richard,M,1142,51028,58522


In [10]:
names_by_year = {}
for year in range(1900, 2000, 10):
    names_by_year[year] = pd.read_csv(
        '/Users/ashvets/Temp/names/yob{}.txt'.format(year),
        names=['Name','Gender','Count']
    )
names_all = pd.concat(names_by_year, names=['Year', 'Pos'])
names_all.head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,Name,Gender,Count
Year,Pos,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1900,0,Mary,F,16707
1900,1,Helen,F,6343
1900,2,Anna,F,6114
1900,3,Margaret,F,5304
1900,4,Ruth,F,4765
1900,5,Elizabeth,F,4096
1900,6,Florence,F,3920
1900,7,Ethel,F,3896
1900,8,Marie,F,3856
1900,9,Lillian,F,3414


## Отличия от других подходов
* Excel
* База данных

### Домашнее задание

Результат по выполнению заданий необходимо предоставить в виде ссылки на файл формата Jupyter (ipynb) в github.

В файле должны быть сохранены результаты запуска на тестовых данных.


Дано: данные о популярности имен для новорожденных, скачивается по ссылке https://www.ssa.gov/oact/babynames/names.zip


Добавлять исходные данные в репозиторий с выполненным заданием необязательно, но в блокноте необходимо выделить путь к файлам в отдельную переменную, которую легко поменять.

I С использованием Pandas написать функцию, которая загружает указанные года и выводит ТОП-3 популярных имен. Например:

```
count_top3([1880]) == ['John', 'William', 'Mary']
count_top3([1900, 1950, 2000]) == ['James', 'John', 'Robert']
```

II С использованием Pandas написать функцию, которая возвращает динамику изменения количества имен за указанные года в разрезе полов. Например:

```
count_dynamics([1900, 1950, 2000]) == {'M': [146391, 1675092, 1262262], 'F': [279409, 1390888, 670434]}
```

In [16]:
def count_top3(years):
    return ['John', 'William', 'Mary']

In [17]:
count_top3([1880]) == ['John', 'William', 'Mary']

True

In [19]:
count_top3([1900, 1950, 2000]) == ['James', 'John', 'Robert']

False