# Начало работы с GraphLab

In [64]:
import graphlab

# [graphlab.SFrame](https://turi.com/products/create/docs/generated/graphlab.SFrame.html)

Табличный, изменяемый по столбцам объект данных, который может масштабироваться до больших данных (big data). Каждый столбец в SFrame является неизменяемым по размеру [SArray](https://turi.com/products/create/docs/generated/graphlab.SArray.html#graphlab.SArray), но SFrames являются изменяемыми (столбцы с легкостью могут быть добавлены и вычтены). SFrame по существу выступает в качестве упорядоченного dict (хэш-таблица ключ-значение) SArrays.

В настоящее время существует поддержка построения SFrame из следующих форматов данных:

- csv-файл (значение, разделенное запятыми)
- архив каталога sframe (каталог, где ранее был сохранен sframe)
- общий текстовый файл (с параметрами синтаксического анализа csv)
- словарь Python
- pandas.DataFrame
- JSON
- Apache Avro
- PySpark RDD

и из следующих источников:

- локальная файловая система
- файловая система сервера GraphLab
- HDFS
- Amazon S3
- HTTP(S).

In [92]:
sf = graphlab.SFrame({
    'id' : [1,2,3],
    'test data': ['test 1', 'test 2', 'test 3']
})
sf

id,test data
1,test 1
2,test 2
3,test 3


In [107]:
sf = graphlab.SFrame({'id': range(0, 100)})

In [108]:
sf # просмотр первых нескольких строк таблицы

id
0
1
2
3
4
5
6
7
8
9


In [109]:
sf.tail()

id
90
91
92
93
94
95
96
97
98
99


In [2]:
len(sf)

NameError: name 'sf' is not defined

## 1. Загрузка данных

In [131]:
sf = graphlab.SFrame('people-example.csv')
sf

------------------------------------------------------
Inferred types from first 100 line(s) of file as 
column_type_hints=[str,str,str,str,int]
If parsing fails due to incorrect types, you can correct
the inferred type list above and pass it to read_csv in
the column_type_hints argument
------------------------------------------------------


Имя,Фамилия,Город,Страна,Возраст
Семен,Мельник,Чикаго,США,24
Елена,Бойко,Квебек,Канада,23
Екатерина,Коваленко,Манчестер,Англия,45
Александр,Шевчук,Вашингтон,США,23
Иван,Олейник,Киев,Украина,23
София,Коваленко,Киев,Украина,22
Николай,Семенов,Стокгольм,Швеция,25
Елена,Бойко,Квебек,Канада,23
Екатерина,Коваленко,Манчестер,Англия,22
Александр,Шевчук,Вашингтон,США,23


## 2. GraphLab Canvas

In [132]:
sf.show()

In [47]:
# Для визуализации в текущем ноутбуке:
graphlab.canvas.set_target('ipynb')

In [133]:
sf['Возраст'].show(view='Categorical')

## 3. Работа со столбцами

In [50]:
sf['Страна']

dtype: str
Rows: 8
['США', 'Канада', 'Англия', 'США', 'Украина', 'Украина', 'Швеция', 'США']

In [51]:
sf['Возраст']

dtype: int
Rows: 8
[24, 23, 22, 23, 23, 22, 25, 25]

In [52]:
sf['Возраст'].mean()

23.375

In [55]:
sf['Возраст'].min()

22

In [138]:
print sf['Страна'][50]

Англия


In [139]:
sf['Возраст'] * sf['Возраст']

dtype: int
Rows: 56
[576, 529, 2025, 529, 529, 484, 625, 529, 484, 529, 529, 484, 625, 529, 2025, 529, 529, 2025, 625, 529, 2025, 529, 529, 484, 625, 529, 484, 529, 529, 484, 625, 529, 484, 529, 529, 2025, 625, 529, 484, 529, 529, 2025, 625, 529, 484, 529, 529, 2025, 625, 529, 2025, 529, 529, 484, 625, 625]

In [148]:
sf[sf['Имя'] == 'Семен']

Имя,Фамилия,Город,Страна,Возраст,id
Семен,Мельник,Чикаго,США,24,0
Семен,Семенов,Стокгольм,Швеция,25,12
Семен,Семенов,Стокгольм,Швеция,25,24
Семен,Семенов,Стокгольм,Швеция,25,36
Семен,Семенов,Стокгольм,Швеция,25,48
Семен,Семенов,Стокгольм,Швеция,25,54
Семен,Семенов,Вашингтон,США,25,55


### 3.1. Добавление столбцов SFrame

In [56]:
sf

Имя,Фамилия,Страна,Возраст
Семен,Мельник,США,24
Елена,Бойко,Канада,23
Екатерина,Коваленко,Англия,22
Александр,Шевчук,США,23
Иван,Олейник,Украина,23
София,Коваленко,Украина,22
Семен,Семенов,Швеция,25
Семен,Семенов,США,25


In [123]:
sf['ФИО'] = sf['Имя'] + ' ' + sf['Фамилия']

In [124]:
sf

Имя,Фамилия,Страна,Возраст,ФИО
Семен,Мельник,США,24,Семен Мельник
Елена,Бойко,Канада,23,Елена Бойко
Екатерина,Коваленко,Англия,45,Екатерина Коваленко ...
Александр,Шевчук,США,23,Александр Шевчук ...
Иван,Олейник,Украина,23,Иван Олейник
София,Коваленко,Украина,22,София Коваленко ...
Николай,Семенов,Швеция,25,Николай Семенов ...
Елена,Бойко,Канада,23,Елена Бойко
Екатерина,Коваленко,Англия,22,Екатерина Коваленко ...
Александр,Шевчук,США,23,Александр Шевчук ...


### 3.2. Использование функции apply() для изменения данных

In [60]:
sf['Страна']

dtype: str
Rows: 8
['США', 'Канада', 'Англия', 'США', 'Украина', 'Украина', 'Швеция', 'США']

In [80]:
sf['Страна'].show()

In [81]:
def transform_country(country):
    if country == 'США':
        return 'Соединенные Штаты'
    else:
        return country

In [82]:
print transform_country('США')

Соединенные Штаты


In [83]:
sf['Страна'].apply(transform_country)

dtype: str
Rows: 8
['Соединенные Штаты', 'Канада', 'Англия', 'Соединенные Штаты', 'Украина', 'Украина', 'Швеция', 'Соединенные Штаты']

In [84]:
sf['Страна'] = sf['Страна'].apply(transform_country)

In [85]:
sf

Имя,Фамилия,Страна,Возраст
Семен,Мельник,Соединенные Штаты ...,24
Елена,Бойко,Канада,23
Екатерина,Коваленко,Англия,22
Александр,Шевчук,Соединенные Штаты ...,23
Иван,Олейник,Украина,23
София,Коваленко,Украина,22
Семен,Семенов,Швеция,25
Семен,Семенов,Соединенные Штаты ...,25
