# Начало работы с GraphLab

In [2]:
import graphlab

# [graphlab.SFrame](https://turi.com/products/create/docs/generated/graphlab.SFrame.html)

Табличный, изменяемый по столбцам объект данных, который может масштабироваться до больших данных (big data). Каждый столбец в SFrame является неизменяемым по размеру [SArray](https://turi.com/products/create/docs/generated/graphlab.SArray.html#graphlab.SArray), но SFrames являются изменяемыми (столбцы с легкостью могут быть добавлены и вычтены). SFrame по существу выступает в качестве упорядоченного dict (хэш-таблица ключ-значение) SArrays.

В настоящее время существует поддержка построения SFrame из следующих форматов данных:

- csv-файл (значение, разделенное запятыми)
- архив каталога sframe (каталог, где ранее был сохранен sframe)
- общий текстовый файл (с параметрами синтаксического анализа csv)
- словарь Python
- pandas.DataFrame
- JSON
- Apache Avro
- PySpark RDD

и из следующих источников:

- локальная файловая система
- файловая система сервера GraphLab
- HDFS
- Amazon S3
- HTTP(S).

#### Создание SFrame

In [3]:
sf = graphlab.SFrame({
    'id' : [1,2,3],
    'test data': ['test 1', 'test 2', 'test 3']
})
sf

id,test data
1,test 1
2,test 2
3,test 3


In [4]:
sf = graphlab.SFrame({'id': range(0, 100)})

In [5]:
sf # просмотр первых нескольких строк таблицы

id
0
1
2
3
4
5
6
7
8
9


In [6]:
sf.tail()

id
90
91
92
93
94
95
96
97
98
99


In [7]:
sf.head()

id
0
1
2
3
4
5
6
7
8
9


In [8]:
sf.head(3)

id
0
1
2


In [9]:
len(sf)

100

## 1. Загрузка данных

In [10]:
sf = graphlab.SFrame('people-example.csv')
sf

------------------------------------------------------
Inferred types from first 100 line(s) of file as 
column_type_hints=[str,str,str,str,int]
If parsing fails due to incorrect types, you can correct
the inferred type list above and pass it to read_csv in
the column_type_hints argument
------------------------------------------------------


Имя,Фамилия,Город,Страна,Возраст
Семен,Мельник,Чикаго,США,24
Елена,Бойко,Квебек,Канада,23
Екатерина,Коваленко,Манчестер,Англия,45
Александр,Шевчук,Вашингтон,США,23
Иван,Олейник,Киев,Украина,23
София,Коваленко,Киев,Украина,22
Николай,Семенов,Стокгольм,Швеция,25
Елена,Бойко,Квебек,Канада,23
Екатерина,Коваленко,Манчестер,Англия,22
Александр,Шевчук,Вашингтон,США,23


## 2. GraphLab Canvas

In [11]:
sf.show()

Canvas is accessible via web browser at the URL: http://localhost:43384/index.html
Opening Canvas in default web browser.


In [12]:
# Для визуализации в текущем ноутбуке:
graphlab.canvas.set_target('ipynb')

In [13]:
sf['Возраст'].show(view='Categorical')

## 3. Работа со столбцами

In [14]:
sf['Страна']

dtype: str
Rows: 56
['США', 'Канада', 'Англия', 'США', 'Украина', 'Украина', 'Швеция', 'Канада', 'Англия', 'США', 'Украина', 'Польша', 'Швеция', 'Канада', 'Англия', 'США', 'Польша', 'Украина', 'Швеция', 'Канада', 'Англия', 'США', 'Украина', 'Украина', 'Швеция', 'Канада', 'Англия', 'США', 'Польша', 'Польша', 'Швеция', 'Канада', 'Англия', 'США', 'Польша', 'Украина', 'Швеция', 'Канада', 'Англия', 'США', 'Украина', 'Украина', 'Швеция', 'Канада', 'Англия', 'США', 'Украина', 'Польша', 'Швеция', 'Канада', 'Англия', 'США', 'Украина', 'Украина', 'Швеция', 'США']

In [15]:
sf['Возраст']

dtype: int
Rows: 56
[24, 23, 45, 23, 23, 22, 25, 23, 22, 23, 23, 22, 25, 23, 45, 23, 23, 45, 25, 23, 45, 23, 23, 22, 25, 23, 22, 23, 23, 22, 25, 23, 22, 23, 23, 45, 25, 23, 22, 23, 23, 45, 25, 23, 22, 23, 23, 45, 25, 23, 45, 23, 23, 22, 25, 25]

In [16]:
sf['Возраст'].mean()

26.339285714285715

In [17]:
sf['Возраст'].min()

22

In [18]:
print sf['Страна'][50]

Англия


In [19]:
sf['Возраст'] * sf['Возраст']

dtype: int
Rows: 56
[576, 529, 2025, 529, 529, 484, 625, 529, 484, 529, 529, 484, 625, 529, 2025, 529, 529, 2025, 625, 529, 2025, 529, 529, 484, 625, 529, 484, 529, 529, 484, 625, 529, 484, 529, 529, 2025, 625, 529, 484, 529, 529, 2025, 625, 529, 484, 529, 529, 2025, 625, 529, 2025, 529, 529, 484, 625, 625]

#### Логический фильтр

In [20]:
sf[sf['Имя'] == 'Семен']

Имя,Фамилия,Город,Страна,Возраст
Семен,Мельник,Чикаго,США,24
Семен,Семенов,Стокгольм,Швеция,25
Семен,Семенов,Стокгольм,Швеция,25
Семен,Семенов,Стокгольм,Швеция,25
Семен,Семенов,Стокгольм,Швеция,25
Семен,Семенов,Стокгольм,Швеция,25
Семен,Семенов,Вашингтон,США,25


In [21]:
sf[(sf['Имя'] == 'Семен') & (sf['Возраст'] > 24)]

Имя,Фамилия,Город,Страна,Возраст
Семен,Семенов,Стокгольм,Швеция,25
Семен,Семенов,Стокгольм,Швеция,25
Семен,Семенов,Стокгольм,Швеция,25
Семен,Семенов,Стокгольм,Швеция,25
Семен,Семенов,Стокгольм,Швеция,25
Семен,Семенов,Вашингтон,США,25


### 3.1. Добавление столбцов SFrame

In [22]:
sf

Имя,Фамилия,Город,Страна,Возраст
Семен,Мельник,Чикаго,США,24
Елена,Бойко,Квебек,Канада,23
Екатерина,Коваленко,Манчестер,Англия,45
Александр,Шевчук,Вашингтон,США,23
Иван,Олейник,Киев,Украина,23
София,Коваленко,Киев,Украина,22
Николай,Семенов,Стокгольм,Швеция,25
Елена,Бойко,Квебек,Канада,23
Екатерина,Коваленко,Манчестер,Англия,22
Александр,Шевчук,Вашингтон,США,23


In [23]:
sf['ФИО'] = sf['Имя'] + ' ' + sf['Фамилия']

In [24]:
sf

Имя,Фамилия,Город,Страна,Возраст,ФИО
Семен,Мельник,Чикаго,США,24,Семен Мельник
Елена,Бойко,Квебек,Канада,23,Елена Бойко
Екатерина,Коваленко,Манчестер,Англия,45,Екатерина Коваленко ...
Александр,Шевчук,Вашингтон,США,23,Александр Шевчук ...
Иван,Олейник,Киев,Украина,23,Иван Олейник
София,Коваленко,Киев,Украина,22,София Коваленко ...
Николай,Семенов,Стокгольм,Швеция,25,Николай Семенов ...
Елена,Бойко,Квебек,Канада,23,Елена Бойко
Екатерина,Коваленко,Манчестер,Англия,22,Екатерина Коваленко ...
Александр,Шевчук,Вашингтон,США,23,Александр Шевчук ...


### 3.2. Использование функции apply() для изменения данных

In [25]:
sf['Страна']

dtype: str
Rows: 56
['США', 'Канада', 'Англия', 'США', 'Украина', 'Украина', 'Швеция', 'Канада', 'Англия', 'США', 'Украина', 'Польша', 'Швеция', 'Канада', 'Англия', 'США', 'Польша', 'Украина', 'Швеция', 'Канада', 'Англия', 'США', 'Украина', 'Украина', 'Швеция', 'Канада', 'Англия', 'США', 'Польша', 'Польша', 'Швеция', 'Канада', 'Англия', 'США', 'Польша', 'Украина', 'Швеция', 'Канада', 'Англия', 'США', 'Украина', 'Украина', 'Швеция', 'Канада', 'Англия', 'США', 'Украина', 'Польша', 'Швеция', 'Канада', 'Англия', 'США', 'Украина', 'Украина', 'Швеция', 'США']

In [26]:
sf['Страна'].show()

In [27]:
def transform_country(country):
    if country == 'США':
        return 'Соединенные Штаты'
    else:
        return country

In [28]:
print transform_country('США')

Соединенные Штаты


In [29]:
sf['Страна'].apply(transform_country)

dtype: str
Rows: 56
['Соединенные Штаты', 'Канада', 'Англия', 'Соединенные Штаты', 'Украина', 'Украина', 'Швеция', 'Канада', 'Англия', 'Соединенные Штаты', 'Украина', 'Польша', 'Швеция', 'Канада', 'Англия', 'Соединенные Штаты', 'Польша', 'Украина', 'Швеция', 'Канада', 'Англия', 'Соединенные Штаты', 'Украина', 'Украина', 'Швеция', 'Канада', 'Англия', 'Соединенные Штаты', 'Польша', 'Польша', 'Швеция', 'Канада', 'Англия', 'Соединенные Штаты', 'Польша', 'Украина', 'Швеция', 'Канада', 'Англия', 'Соединенные Штаты', 'Украина', 'Украина', 'Швеция', 'Канада', 'Англия', 'Соединенные Штаты', 'Украина', 'Польша', 'Швеция', 'Канада', 'Англия', 'Соединенные Штаты', 'Украина', 'Украина', 'Швеция', 'Соединенные Штаты']

In [30]:
sf['Страна'] = sf['Страна'].apply(transform_country)

In [31]:
sf

Имя,Фамилия,Город,Страна,Возраст,ФИО
Семен,Мельник,Чикаго,Соединенные Штаты ...,24,Семен Мельник
Елена,Бойко,Квебек,Канада,23,Елена Бойко
Екатерина,Коваленко,Манчестер,Англия,45,Екатерина Коваленко ...
Александр,Шевчук,Вашингтон,Соединенные Штаты ...,23,Александр Шевчук ...
Иван,Олейник,Киев,Украина,23,Иван Олейник
София,Коваленко,Киев,Украина,22,София Коваленко ...
Николай,Семенов,Стокгольм,Швеция,25,Николай Семенов ...
Елена,Бойко,Квебек,Канада,23,Елена Бойко
Екатерина,Коваленко,Манчестер,Англия,22,Екатерина Коваленко ...
Александр,Шевчук,Вашингтон,Соединенные Штаты ...,23,Александр Шевчук ...
