# Инструменты для оперативной работы с данными

## Преподаватель Александр Швец

### Чем занимаюсь

* Технический директор Marilyn и Aori
* Основатель сообщества MoscowDigital

### Контакты

* Email: ashwets@gmail.com
* Facebook: [fb.com/ashwets](fb.com/ashwets)


## Какие знания потребуются

* Базовые принципы программирования на Python
* Работа с файлами
* Выполнение http-запросов и работа с API

## План занятия

* Знакомство со средой Anaconda и обзор инструментов
* Загрузка, обработка и сохранение данных
* Простейшие операции с данными
* Объединение и группировка данных
* Отличие от других подходов


## Anaconda

* Легко начать
* Доступна для всех платформ
* [https://www.continuum.io/downloads](https://www.continuum.io/downloads)
* Не является обязательной

### Jpupyter

* Блоки с кодом
* Блоки с markdown https://guides.github.com/features/mastering-markdown/
* Горячие клавиши
* Удобно шарить на GitHub

In [1]:
import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

%matplotlib inline

In [2]:
from datetime import date

In [3]:
pd.Series([1,1,2,3,5,8])

0    1
1    1
2    2
3    3
4    5
5    8
dtype: int64

In [4]:
pd.Series([1,1,2,3,5,8,13.5])

0     1.0
1     1.0
2     2.0
3     3.0
4     5.0
5     8.0
6    13.5
dtype: float64

In [5]:
pd.Series([1,1,2,3,5,8,13.5,"asd",date(2017, 1, 1)])

0             1
1             1
2             2
3             3
4             5
5             8
6          13.5
7           asd
8    2017-01-01
dtype: object

In [6]:
weather = pd.DataFrame({
    'City': ['MSK', 'SPB', 'NN', 'MSK', 'SPB'],
    'Temperature': [-3, +2, -2, -3, +2],
    'State' : ['Cloudy', 'Clear', 'Snow', 'Cloudy', 'Clear'],
    'Date': [date(2017, 1, 1), date(2017, 1, 1), date(2017, 1, 1), date(2017, 1, 2), date(2017, 1, 2)]
})
weather

Unnamed: 0,City,Date,State,Temperature
0,MSK,2017-01-01,Cloudy,-3
1,SPB,2017-01-01,Clear,2
2,NN,2017-01-01,Snow,-2
3,MSK,2017-01-02,Cloudy,-3
4,SPB,2017-01-02,Clear,2


## Файлы для практики

https://catalog.data.gov/dataset/baby-names-from-social-security-card-applications-national-level-data


In [7]:
DATA_PATH = '/Users/ashvets/Temp/names/'

In [8]:
pd.read_csv(DATA_PATH + 'yob1880.txt').head(10)

Unnamed: 0,Mary,F,7065
0,Anna,F,2604
1,Emma,F,2003
2,Elizabeth,F,1939
3,Minnie,F,1746
4,Margaret,F,1578
5,Ida,F,1472
6,Alice,F,1414
7,Bertha,F,1320
8,Sarah,F,1288
9,Annie,F,1258


In [9]:
names = pd.read_csv(
    DATA_PATH + 'yob1900.txt', 
    names=['Name','Gender','Count']
)
names.head(10)

Unnamed: 0,Name,Gender,Count
0,Mary,F,16707
1,Helen,F,6343
2,Anna,F,6114
3,Margaret,F,5304
4,Ruth,F,4765
5,Elizabeth,F,4096
6,Florence,F,3920
7,Ethel,F,3896
8,Marie,F,3856
9,Lillian,F,3414


In [10]:
names.head(10).style.set_properties(**{'text-align': 'right'})

Unnamed: 0,Name,Gender,Count
0,Mary,F,16707
1,Helen,F,6343
2,Anna,F,6114
3,Margaret,F,5304
4,Ruth,F,4765
5,Elizabeth,F,4096
6,Florence,F,3920
7,Ethel,F,3896
8,Marie,F,3856
9,Lillian,F,3414


In [11]:
names.query('Count > 5000 & Gender == "M"')

Unnamed: 0,Name,Gender,Count
2225,John,M,9829
2226,William,M,8579
2227,James,M,7245
2228,George,M,5403


In [12]:
names[(names.Count > 5000) & (names.Gender == "M")].head(10)

Unnamed: 0,Name,Gender,Count
2225,John,M,9829
2226,William,M,8579
2227,James,M,7245
2228,George,M,5403


In [13]:
names.query('Count > 5000 & Gender == "M"').head(10).to_csv(
    DATA_PATH + 'example.csv',
    index=False
)

In [14]:
weather.to_csv(DATA_PATH + 'weather.csv', index=False)

In [15]:
names.sort_values(by='Count', ascending=True).head(10)


Unnamed: 0,Name,Gender,Count
3730,Zeno,M,5
2130,Minnette,F,5
2129,Mimi,F,5
2128,Mila,F,5
2127,Micaela,F,5
2126,Metha,F,5
2125,Meredith,F,5
2131,Modie,F,5
2124,Melvinia,F,5
2122,Melita,F,5


In [16]:
names[names.Gender=='M'].Count.sum()

150490

In [17]:
print("{} boys and {} girls".format(
        names[names.Gender=='M'].Count.sum(), 
        names[names.Gender=='F'].Count.sum()
))

150490 boys and 299822 girls


In [18]:
def count_to_len(row):
    row.Len = len(row.Name)
    return row
names.apply(count_to_len, axis=1).head(10)

Unnamed: 0,Name,Gender,Count
0,Mary,F,16707
1,Helen,F,6343
2,Anna,F,6114
3,Margaret,F,5304
4,Ruth,F,4765
5,Elizabeth,F,4096
6,Florence,F,3920
7,Ethel,F,3896
8,Marie,F,3856
9,Lillian,F,3414


In [19]:
def foo(bar):
    print("bar")
    print(bar)
names.head(3).apply(foo, axis=1)

bar
Name       Mary
Gender        F
Count     16707
Name: 0, dtype: object
bar
Name      Helen
Gender        F
Count      6343
Name: 1, dtype: object
bar
Name      Anna
Gender       F
Count     6114
Name: 2, dtype: object


0    None
1    None
2    None
dtype: object

## Другие функции

* count() – подсчет
* max() – максимальное значение
* min() – минимальное значение
* mean() – среднее
* median() – медиана


## Объединение и группировка

### Соединение через merge

In [20]:
cols = ['Name','Gender','Count']
names_1880 = pd.read_csv(DATA_PATH + 'yob1880.txt', names=cols)
names_1890 = pd.read_csv(DATA_PATH + 'yob1890.txt', names=cols)
pd.merge(names_1880, names_1890, on=['Name', 'Gender'], suffixes=('_1880', '_1890')).head(10)


Unnamed: 0,Name,Gender,Count_1880,Count_1890
0,Mary,F,7065,12078
1,Anna,F,2604,5233
2,Emma,F,2003,2980
3,Elizabeth,F,1939,3112
4,Minnie,F,1746,2650
5,Margaret,F,1578,3100
6,Ida,F,1472,2178
7,Alice,F,1414,2271
8,Bertha,F,1320,2388
9,Sarah,F,1288,1786


In [21]:
cols = ['Name','Gender','Count']
names_1900 = pd.read_csv(DATA_PATH + 'yob1900.txt', names=cols)
names_1950 = pd.read_csv(DATA_PATH + 'yob1950.txt', names=cols)
names_1900_1950 = pd.merge(names_1900, names_1950, on=['Name', 'Gender'], suffixes=('_1900', '_1950'))
names_1900_1950.head(10)

Unnamed: 0,Name,Gender,Count_1900,Count_1950
0,Mary,F,16707,65485
1,Helen,F,6343,7060
2,Anna,F,6114,3817
3,Margaret,F,5304,18107
4,Ruth,F,4765,7126
5,Elizabeth,F,4096,14339
6,Florence,F,3920,1446
7,Ethel,F,3896,1603
8,Marie,F,3856,5223
9,Lillian,F,3414,1887


In [22]:
names_2000 = pd.read_csv(DATA_PATH + 'yob2000.txt', names=cols)
names_1900_1950_2000 = pd.merge(names_1900_1950, names_2000, on=['Name', 'Gender'])
names_1900_1950_2000.head(10)

Unnamed: 0,Name,Gender,Count_1900,Count_1950,Count
0,Mary,F,16707,65485,6184
1,Helen,F,6343,7060,890
2,Anna,F,6114,3817,10581
3,Margaret,F,5304,18107,3120
4,Ruth,F,4765,7126,902
5,Elizabeth,F,4096,14339,15089
6,Florence,F,3920,1446,60
7,Ethel,F,3896,1603,14
8,Marie,F,3856,5223,785
9,Lillian,F,3414,1887,2598


In [23]:
def agg_count(row):
    row.Count = row.Count_1900 + row.Count_1950 + row.Count
    return row

names_1900_1950_2000.apply(agg_count, axis=1).head(10)

Unnamed: 0,Name,Gender,Count_1900,Count_1950,Count
0,Mary,F,16707,65485,88376
1,Helen,F,6343,7060,14293
2,Anna,F,6114,3817,20512
3,Margaret,F,5304,18107,26531
4,Ruth,F,4765,7126,12793
5,Elizabeth,F,4096,14339,33524
6,Florence,F,3920,1446,5426
7,Ethel,F,3896,1603,5513
8,Marie,F,3856,5223,9864
9,Lillian,F,3414,1887,7899


### Объединение через concat

In [24]:
names_all = pd.concat([names_1900, names_1950], names=['Year', 'Pos'])
names_all.head(10)

Unnamed: 0,Name,Gender,Count
0,Mary,F,16707
1,Helen,F,6343
2,Anna,F,6114
3,Margaret,F,5304
4,Ruth,F,4765
5,Elizabeth,F,4096
6,Florence,F,3920
7,Ethel,F,3896
8,Marie,F,3856
9,Lillian,F,3414


In [25]:
names_1900.sort_values(by='Count', ascending=False).head(10)

Unnamed: 0,Name,Gender,Count
0,Mary,F,16707
2225,John,M,9829
2226,William,M,8579
2227,James,M,7245
1,Helen,F,6343
2,Anna,F,6114
2228,George,M,5403
3,Margaret,F,5304
4,Ruth,F,4765
2229,Charles,M,4100


In [26]:
names_all.groupby('Name').sum().sort_values(by='Count', ascending=False).head(10)

Unnamed: 0_level_0,Count
Name,Unnamed: 1_level_1
James,93804
John,89502
Robert,87639
Mary,82386
Linda,80695
William,69471
Michael,65859
David,61789
Richard,52267
Thomas,48291


In [29]:
names_1900.groupby('Gender').sum()

Unnamed: 0_level_0,Count
Gender,Unnamed: 1_level_1
F,299822
M,150490


In [30]:
names_1900.groupby('Gender').Count.count()

Gender
F    2225
M    1506
Name: Count, dtype: int64

## Отличия от других подходов
* Excel
* База данных

### Домашнее задание

Результат по выполнению заданий необходимо предоставить в виде ссылки на файл формата Jupyter (ipynb) в github.

В файле должны быть сохранены результаты запуска на тестовых данных.


Дано: данные о популярности имен для новорожденных, скачивается по ссылке https://www.ssa.gov/oact/babynames/names.zip


Добавлять исходные данные в репозиторий с выполненным заданием необязательно, но в блокноте необходимо выделить путь к файлам в отдельную переменную, которую легко поменять.

I С использованием Pandas написать функцию, которая загружает указанные года и выводит ТОП-3 популярных имен. Например:

```
count_top3([1880]) == ['John', 'William', 'Mary']
count_top3([1900, 1950, 2000]) == ['James', 'John', 'Robert']
```

II С использованием Pandas написать функцию, которая возвращает динамику изменения количества имен за указанные года в разрезе полов. Например:

```
count_dynamics([1900, 1950, 2000]) == {'M': [146391, 1675092, 1262262], 'F': [279409, 1390888, 670434]}
```

In [None]:
def count_top3(years):
    return ['John', 'William', 'Mary']

In [None]:
count_top3([1880]) == ['John', 'William', 'Mary']

In [None]:
count_top3([1900, 1950, 2000]) == ['James', 'John', 'Robert']

### Полезные ссылки

- [10 minutes to Pandas](http://pandas.pydata.org/pandas-docs/stable/10min.html)
- [Python Data Science Handbook](https://www.safaribooksonline.com/library/view/python-data-science/9781491912126/)
- [Python for Data Analysis](http://www.cin.ufpe.br/~embat/Python%20for%20Data%20Analysis.pdf)
- [Открытые датасеты](https://docs.google.com/spreadsheets/d/1ZSLP1McnXv0FtOd9t7dMp3AfaiusvaGwWV0F9g2pbho/edit#gid=0)
- https://habrahabr.ru/company/ods/blog/322626