# Майнор "Интеллектуальный анализ данных", Введение в Анализ данных (ВШЭ). Семинар 3: Способы знакомства с данными и библиотека pandas.
### Чиркова Надежда

#### Проверочная
Дан небольшой файл "russian\_weather.txt", в каждой строке которого через ";" записаны сначала лейбл (текстовая строка), а затем N вещественных чисел.

Пример строки (N=5):

Numbers;1.1;1.2;1.3;1.4;1.5;

В выданном файле N = 114, строка означает российский город, а числа --- температуру с 1980 по 1990 год с некоторым периодом.
Требуется написать python-скрипт, который
1. считывает числовые данные в numpy array с dtype=float и сохраняет в отдельном списке лейблы (в том же порядке);
1. рассматривая строки как функции (со 114 значениями), строит их всех на одном графике. На графике желательно подписать оси (например, "Город"--"Температуры"), название, а также легенду (указывающую названия городов каждой линии, для этого их и надо сохранить в список).

[Только сегодня и только сейчас] Можно пользоваться интернетом!

Данные (для тестирования кода) лежат в ваших папках.

Если у кого-то (вдруг) осталось время, подумайте, какие выводы можно сделать по графику и напишите внизу ноутбука.

In [2]:
# Можно импортировать только два модуля:
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline 

[Источник данных о погоде в городах мира](https://datamarket.com/data/set/1loo/average-monthly-temperatures-across-the-world#!ds=1loo!1n6s=2cr.2dx.2dy.2fi.2fl&display=line&s=31x&e=5q9)

## 0. Данные для семинара
На семинаре мы будем учиться загружать данные в python и смотреть на них глазами (до применения методов машинного обучения).
Делать мы это будем на примере датасета road_data.csv, цифры для которого взяты с портала открытых данных data.gov.ru, а за идею и сборку которого нужно поблагодарить Олега Иванова :)

В датасете 94 объекта (соответствуют регионам или усреденным величинам по округам), для каждого известны 6 признаков:
1. Машин на тысячу лиц в регионе
2. Число ДТП на 100 000 человек
3. Водка и ликеро-водочные изделия на душу населения
4. Число зарегистрированных преступлений на 100 000 человек населения
5. Среднедушевые доходы населения (в месяц, рублей)
6. Оборот розничной торговли на душу населения (в фактически действовавших ценах; рублей)


## 1. Чтение данных в python

__Наиболее популярные форматы данных (при скачивании датасета из интернета)__:
* _csv_ (comma separated file), _tsv_ (tab separated file)
* _xls_ (eXceL Spreadsheet ---таблицы Microsoft)
* _json_ (JavaScript Object Notation, используется для _сериализации_ структур языка, то есть сохранения сложных объектов, например, вложенных списков или словарей python). Json-текст представляет собой либо набор пар ключ: значение, либо упорядоченный набор значений
* _txt_ в иной специфичной для задачи форме (например, vowpal-wabbit и uci bag-of-words для <<мешка слов>>)

В реальной жизни данные хранятся в базах данных, откуда с помощью sql-подобных языков из них составляют файлы в указанных выше форматах.

Практически для любого формата легко написать короткий скрипт, считывающий данные в объекты python, например _numpy.ndarray_ (это мы делали в проверочной). Однако в силу частоты использования этого функционала в python, разумеется, есть готовые модули для импорта данных. Для xls: http://www.python-excel.org/ , для json: https://docs.python.org/2/library/json.html. Мы чаще всего будем испольховать формат csv. 

### Модуль Pandas

In [27]:
import pandas

__Pandas__  --- модуль для первичной работы с данными (и предлагающий делать на них несложную аналитику).
Основные возможности:
* удобное чтение и запись данных из csv, txt, xls, SQL databases, HDF5
* удобная работа с пропусками в данных
* поиск, сортировка, выборка объектов, удовлетворяющих заданным критериям
* возможности по соединению датасетов
* красивая визуализация

Модуль интегрирован с numpy и pandas для удобства работы и просмотра данных.

__Чтение из csv__:
[pandas.read_csv()](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)
У функции  параметров, основные необходимые:
* filepath_or_buffer (перый и единственный обязательный аргумент) --- имя файла
* sep -- разделитель (; , \t ...)
* quotechar --- символ кавычек, все что внутри считается за строку (разделители также могут входить в эту строку; ' " ...)
* names --- список названий колонок
* header --- номер строки файла (с 0), которую нужно считать заголовком
* dtype --- словарь, сопоставляющий именам колонок типы данных в них
* na_values --- строка/список/словарь (ключи -- названия колонок) строковых значений, которые нужно считать пропуском.

По умолчанию names=None и header=0, то есть названия колонок берутся из первой строки файла. Можно передать названия через names. Если вы не хотите давать названия, укажите header=None, тогда названия будут даны автоматически индексами с 0. Учтите, что названия нужны при дальнейшей работе с данными (если вы только не собираетесь взять оттуда только numpy-матрицу; в этом случае они не понадобятся). Следите за длиной списка названий, он должен совпадать с реальным числом колонок в файле (а в противном случае вы не получите ошибки)! Чтобы заменить заголовки, записанные в файле, нужно установить header=0 и передать names.

Для чтения xls: [pandas.read_excel](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html)

Для чтения sql: [pandas.read_sql](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_sql.html)

Мы ими пользоваться, скорее всего, не будем.

In [28]:
data = pandas.read_csv("road_data.csv", sep=",", header=0, names=["cars", "accidents", "vodka", "crime", "income", "retail"])
data  # Вот так все красиво отображается

Unnamed: 0,cars,accidents,vodka,crime,income,retail
0,273.1,142.2,9.3,1537,25928,165051
1,284.6,137.8,11.5,1358,33467,207394
2,288.4,83.9,6.6,968,23735,144992
3,166.6,119.1,7.8,1527,20152,138669
4,266.3,211.2,10.9,1315,18796,116202
5,283.7,164.1,8.0,1306,22056,158218
6,223.7,185.5,9.3,1387,18123,121813
7,290.3,231.5,11.7,1565,23182,144553
8,252.6,122.7,11.5,1164,17575,104945
9,250.5,182.8,7.6,1180,20809,130337


Переменная, которую возвращает функция чтения, ссылается на _датафрейм_; это основная структура данных в pandas. Его можно создать и вручную:

In [29]:
df = pandas.DataFrame({'AAA' : [4,5,6,7], 'BBB' : [10,20,30,40], 'CCC' : [100,50,-30,-50]})
df

Unnamed: 0,AAA,BBB,CCC
0,4,10,100
1,5,20,50
2,6,30,-30
3,7,40,-50


К колонкам можно обращаться двумя способами (если у колонки числовое название, работает только второй):

In [30]:
print data.crime
print "_" * 25
print data["crime"]

SyntaxError: Missing parentheses in call to 'print' (<ipython-input-30-d27bb2cabd52>, line 1)

Полезный функционал:
* параметр df.dtypes --- типы колонок
* метод [df.fillna(value)](http://pandas.pydata.org/pandas-docs/version/0.17.1/generated/pandas.DataFrame.fillna.html), value --- на что заменить (скаляр или словарь с ключами-названиями колонок)
* методы df.head([N]) и df.tail([N]) --- показать N (необязательный аргумент) первых или последних значений
* параметры df.index, df.columns и df.values --- соответственно индексы строк датафрейма, названия колонок и np.array, составленный из значений датафрейма
* метод df.T --- транспонировать данные (поменять строки и столбцы местами)
* сортировка данных по индексу (по названиям строк) и по значениям колонки, например df.sort_index(axis=1, ascending=False) и df.sort_values(by='B')
* метод df.copy() --- копировать датафрейм

Все структуры данных, показываемые и возвращаемые pandas, имеют тип, придуманный разработчиками pandas (а не стандартный для python список или словарь). Все эти типы имеют удобный интерфейс обращения к своим элементам (индексация, slicing), но иногда кажутся непривычными. Например, df[smth], как указано выше, должен выдать колонку, имеющую название smth (если она существует в датафрейме), а в numpy конструкция ar[smth] выдаст строчку с индексом smth.

В датафрейме, в отличие от numpy, могут храниться данные разных типов (главное, чтобы тип был один и тот же внутри колонки), например float, int, string.

In [31]:
print data.index[2:5], data.columns[0], data.dtypes

SyntaxError: Missing parentheses in call to 'print' (<ipython-input-31-732ea36911b7>, line 1)

#### Работа с данными, хранящимися в датафрейме
__Изменение данных__

Если-то изменение: df.ix[condition, name] = value. Во всех полях колонки-признака name, удовлетворяющих условию condition, установить значение value:

In [32]:
data2 = data.copy()
data2.ix[data2.crime < 1000, "vodka"] = 0

Изменение с маской: df.where(mask, value), mask должна иметь форму, совпадающую с формой таблицы датафрейма (такое же число строк и столбцов). Везде, где в маске стоит False, установить значение value, и вернуть копию датафрейма с изменениями:

In [33]:
data2.where(np.zeros(data2.values.shape, dtype=np.bool), 0).head()

Unnamed: 0,cars,accidents,vodka,crime,income,retail
0,0,0,0,0,0,0
1,0,0,0,0,0,0
2,0,0,0,0,0,0
3,0,0,0,0,0,0
4,0,0,0,0,0,0


> Упражнение: как таким образом заменить пропущенные значения нулями в датафрейме?

.

.

.

.

> Решение:
data2.where(data2.values!=None, 0)

__Выборка данных__

Выбор по критерию: df.loc[criteria, columns]. Возвращает датафрейм с колонками, указанными в списке строк columns (если не указан, то из всех колонок датафрейма) и строками, удовлетворяющими условию condition.

Самое простое: выбор строк с нужыми индексами, метод isin(list)

In [34]:
data[data.index.isin([10,20,30])]

Unnamed: 0,cars,accidents,vodka,crime,income,retail
10,294.7,183.5,7.1,1143,22222,151358
20,302.5,172.1,11.0,1458,26167,156056
30,275.7,223.7,12.6,1897,21392,136772


In [35]:
data.loc[data.crime > 1000, ["crime", "vodka"]].head()

Unnamed: 0,crime,vodka
0,1537,9.3
1,1358,11.5
3,1527,7.8
4,1315,10.9
5,1306,8.0


В логическом условии можно указывать несколько условий, брать их в скобки и соединять операторами and (&), or (|) и not(~).

Если после выборки поставить присваивание = value, то выбранным полям, очевидно, присвоится данное значение.

In [36]:
data.loc[(data.cars < 200)&(data.accidents > 100)] # круто, таких мало!

Unnamed: 0,cars,accidents,vodka,crime,income,retail
3,166.6,119.1,7.8,1527,20152,138669
50,196.7,168.2,10.6,1196,14517,92500
54,185.1,164.9,11.3,1140,15264,96535
74,168.9,124.1,10.3,1973,13472,54096


Сортировка и argsort (все просто и без комментариев):

In [37]:
print data.cars.sort_values().head()
print "_" * 25
data.cars[data.cars.argsort()].head()

SyntaxError: invalid syntax (<ipython-input-37-d2f0e6db2527>, line 1)

In [38]:
data.sort_values(by=["cars", "crime"], ascending=False, na_position="last").tail() # те же значения в обратном порядке

Unnamed: 0,cars,accidents,vodka,crime,income,retail
3,166.6,119.1,7.8,1527,20152,138669
41,154.3,46.9,4.8,474,21717,152841
42,130.0,45.8,0.0,391,13821,36955
46,127.8,34.8,0.0,272,17188,77088
93,73.1,61.2,13.4,1567,52695,108218


Можно сохранять критерии в переменные и потом делать комбинации:

In [39]:
crit1 = data.cars < 200
crit2 = data.vodka > 10
crit3 = data.income > 130000
data[crit1 | crit2].head()

Unnamed: 0,cars,accidents,vodka,crime,income,retail
1,284.6,137.8,11.5,1358,33467,207394
3,166.6,119.1,7.8,1527,20152,138669
4,266.3,211.2,10.9,1315,18796,116202
7,290.3,231.5,11.7,1565,23182,144553
8,252.6,122.7,11.5,1164,17575,104945


Метод groupby(column) группирует объекты по указанной(-ым) колонке(-ам). Из многообразной функциональности этого метода разберем только несколько баовых приемов:

In [40]:
data.groupby("vodka").groups

{0.0: [42, 46],
 1.2: [44],
 1.6000000000000001: [43],
 2.2000000000000002: [45],
 3.2000000000000002: [40],
 4.2999999999999998: [35],
 4.5: [47],
 4.5999999999999996: [39],
 4.7000000000000002: [34, 38],
 4.7999999999999998: [41],
 5.0: [33, 36, 82],
 5.2000000000000002: [61],
 5.7000000000000002: [58],
 5.7999999999999998: [64],
 6.0: [59],
 6.5999999999999996: [2, 15],
 6.7000000000000002: [12],
 6.7999999999999998: [70],
 6.9000000000000004: [60],
 7.0: [17],
 7.0999999999999996: [10, 75],
 7.2000000000000002: [32],
 7.2999999999999998: [37],
 7.4000000000000004: [62],
 7.5: [13],
 7.5999999999999996: [9],
 7.7999999999999998: [3],
 7.9000000000000004: [81],
 8.0: [5, 31],
 8.5: [57],
 8.6999999999999993: [55, 76],
 8.8000000000000007: [48],
 9.0999999999999996: [72],
 9.1999999999999993: [71],
 9.3000000000000007: [0, 6],
 9.4000000000000004: [78, 79],
 9.5999999999999996: [51],
 9.8000000000000007: [63],
 10.1: [92],
 10.199999999999999: [89],
 10.300000000000001: [74],
 10.5: [

In [41]:
data.groupby("vodka").get_group(9.3)

Unnamed: 0,cars,accidents,vodka,crime,income,retail
0,273.1,142.2,9.3,1537,25928,165051
6,223.7,185.5,9.3,1387,18123,121813


In [42]:
print data.groupby("vodka").aggregate(np.mean).head()
print data.groupby("vodka").aggregate(np.mean).tail() # и внизу, и вверху списка втречается разное число аварий

SyntaxError: invalid syntax (<ipython-input-42-df2d9cd67e0b>, line 1)

> __Задача__:
    найти все строки, в которых показатеь показатель accidents превышает 150 и выполнено хотя бы одно из двух условий: vodka превышает 10; показатель crime превышает 1000. Отсортировать значения по убыванию показателя accidents. Решение в следующем cell.

In [43]:
data.loc[ (data.accidents > 150) & ((data.vodka > 10) | (data.crime > 1000))].sort_values(by="accidents", ascending=False)

Unnamed: 0,cars,accidents,vodka,crime,income,retail
35,262.0,238.1,4.3,1220,11311,56382
72,240.1,237.4,9.1,2143,14752,83988
7,290.3,231.5,11.7,1565,23182,144553
69,295.0,229.8,10.6,2412,24731,204811
30,275.7,223.7,12.6,1897,21392,136772
31,345.3,222.9,8.0,1410,17804,127898
92,215.1,217.5,10.1,1864,20417,108408
28,283.7,215.9,12.2,1146,20161,141100
87,369.6,213.3,11.4,2700,24343,128066
4,266.3,211.2,10.9,1315,18796,116202


## 2. Агрегация данных, подсчет статистик

Когда данных много, понять что-то о них можно, только посмотрев какие-то агрегированные показатели. В последнем примере с groupby мы уже рассмотрели такой пример, когда у каждой паре (группа, признак) считается агрегированный показатель по другому признаку. Далее мы рассмотрим некоторые базовые приемы работы с агрегацией данных и заодно повторим numpy.

In [44]:
data.describe() # по каждому признаку можно посмотреть количество непустых значений, среднее, разброс, квантили, минимум и максимум

Unnamed: 0,cars,accidents,vodka,crime,income,retail
count,94.0,94.0,94.0,94.0,94.0,94.0
mean,265.364894,151.535106,9.328723,1542.914894,23908.659574,141267.382979
std,53.686899,43.361153,3.73192,517.883921,9471.639563,41616.807344
min,73.1,34.8,0.0,272.0,11311.0,36955.0
25%,242.275,123.375,6.925,1192.0,18592.0,116973.75
50%,269.25,150.2,9.7,1514.5,20949.0,137789.0
75%,293.85,179.075,11.65,1892.75,26022.5,158203.75
max,484.8,238.1,17.8,3203.0,66276.0,333529.0


Все эти функции можно применить непосредственно к датафрейму, а указав 1 в качестве аргумента применять их другой оси (то есть строкам):

In [45]:
print "Sum:"
print data.sum()
print "Min:"
print data.min()
print "Sum by rows:"
print data.sum(1).head()   # на нашем датасете совершенно бесполезная операция

SyntaxError: Missing parentheses in call to 'print' (<ipython-input-45-71a7ba185463>, line 1)

Применение функций к столбцам:

In [46]:
print data.apply(np.cumsum).head()
print data.apply(lambda x: x > x.mean()).head()

SyntaxError: invalid syntax (<ipython-input-46-49b6d42a04e1>, line 1)

> Задача: посчитать среднее, дисперсию и матрицу ковариций признаков, используя только numpy  с векторизацией (без циклов!) и не используя в нем соответствующих функций, то есть посчитать по формулам.
    
$\bar x = mean(\{x_1, \dots, x_n\}) = \frac 1 n \sum_{i=1} ^ n x_i$

$std(\{x_1, \dots, x_n\}) = \sqrt{\frac 1 n \sum_{i=1} ^ n (x_i - \bar x)^2}$

$cov(\{x_1, \dots, x_n\}, \{y_1, \dots, y_n\} = \frac 1 {n-1} \sum_{i=1} ^ n (x_i-\bar x) (y_i - \bar y)$.
Нам надо сделать это для каждой пары векторов $X_i, X_j$

In [47]:
# Решение:
X = data.values
mean = np.sum(X, axis=0) / X.shape[0]
std = np.sqrt(np.sum((X - mean[np.newaxis, :])**2, axis=0)/X.shape[0])



cov = (1/(X.shape[0] - 1)) * np.sum(X - mean[np.newaxis, :]) * Y - mean[np.newaxis, :]))





# задача с матрицей корреляций перенесена в ДЗ1
std

SyntaxError: invalid syntax (<ipython-input-47-dfe71863a42d>, line 8)

In [48]:
np.cov(X.T)

array([[  2.88228316e+03,   1.05555759e+03,   6.20034923e+01,
          7.98289160e+03,   7.89400062e+04,   8.48628763e+05],
       [  1.05555759e+03,   1.88018961e+03,   4.56054324e+01,
          8.86224711e+03,  -5.28619858e+04,   2.32182509e+04],
       [  6.20034923e+01,   4.56054324e+01,   1.39272306e+01,
          1.10848204e+03,   1.91207550e+04,   6.19843932e+04],
       [  7.98289160e+03,   8.86224711e+03,   1.10848204e+03,
          2.68203756e+05,   8.29597476e+05,   4.01354356e+06],
       [  7.89400062e+04,  -5.28619858e+04,   1.91207550e+04,
          8.29597476e+05,   8.97119560e+07,   2.68012060e+08],
       [  8.48628763e+05,   2.32182509e+04,   6.19843932e+04,
          4.01354356e+06,   2.68012060e+08,   1.73195865e+09]])

In [52]:
# mean == X.mean(axis=0), std == X.std(axis=0), cov == np.cov(X.T)
X

array([[  2.73100000e+02,   1.42200000e+02,   9.30000000e+00,
          1.53700000e+03,   2.59280000e+04,   1.65051000e+05],
       [  2.84600000e+02,   1.37800000e+02,   1.15000000e+01,
          1.35800000e+03,   3.34670000e+04,   2.07394000e+05],
       [  2.88400000e+02,   8.39000000e+01,   6.60000000e+00,
          9.68000000e+02,   2.37350000e+04,   1.44992000e+05],
       [  1.66600000e+02,   1.19100000e+02,   7.80000000e+00,
          1.52700000e+03,   2.01520000e+04,   1.38669000e+05],
       [  2.66300000e+02,   2.11200000e+02,   1.09000000e+01,
          1.31500000e+03,   1.87960000e+04,   1.16202000e+05],
       [  2.83700000e+02,   1.64100000e+02,   8.00000000e+00,
          1.30600000e+03,   2.20560000e+04,   1.58218000e+05],
       [  2.23700000e+02,   1.85500000e+02,   9.30000000e+00,
          1.38700000e+03,   1.81230000e+04,   1.21813000e+05],
       [  2.90300000e+02,   2.31500000e+02,   1.17000000e+01,
          1.56500000e+03,   2.31820000e+04,   1.44553000e+05],


In [50]:
cov # абсолютные значения не интерпретируются

NameError: name 'cov' is not defined

In [20]:
f(X.T) # с корреляцией лучше

NameError: name 'f' is not defined

Матрица корреляций признаков: $cor_{ij} = \frac {cov_{ij}}{\sqrt{cov_{ii}cov_{jj}}}$

Лучше всего коррелируют показатели "алкоголь" и "преступность". Ожидаемо :)

In [22]:
def calc_cov(x1, x2, n):
    X = np.column_stack([x1, x2])
    X -= X.mean(axis=0) 
    fact = n - 1 
    return np.dot(X.T, X.conj()) / fact

In [None]:
def calc_shit():
    c = calc_cov()

In [None]:
c = cov(x, y, rowvar, bias, ddof)
    if c.size == 0:
        # handle empty arrays
        return c
    try:
        d = diag(c)
    except ValueError: # scalar covariance
        return 1
    return c/sqrt(multiply.outer(d,d))

In [67]:
c = np.array([-1, 0, 5, 4])

In [69]:
c[c >= 0]

array([0, 5, 4])

In [None]:
np.min(c[c >-])

In [123]:
def calc_cov(X):
    X -= X.mean(axis = 0)
    return (np.dot(X.T, X) / (X.shape[1] - 1))

In [124]:
def compute_corr_matrix(X):
    cov = calc_cov(X)
    diag = np.diag(cov)
    dmr = np.sqrt(np.multiply.outer(diag, diag))
    return cov/dmr

In [125]:
compute_corr_matrix(X)

array([[ 1.        ,  0.45343265,  0.30946778,  0.28711738,  0.15524001,
         0.37982248],
       [ 0.45343265,  1.        ,  0.2818275 ,  0.39464863, -0.12871154,
         0.01286648],
       [ 0.30946778,  0.2818275 ,  1.        ,  0.57354018,  0.540938  ,
         0.39909952],
       [ 0.28711738,  0.39464863,  0.57354018,  1.        ,  0.16912579,
         0.1862202 ],
       [ 0.15524001, -0.12871154,  0.540938  ,  0.16912579,  1.        ,
         0.67992407],
       [ 0.37982248,  0.01286648,  0.39909952,  0.1862202 ,  0.67992407,
         1.        ]])