# Чтение данных из Tarantool

In [None]:
import tarantool
import os
import pandas

In [None]:
# подключение к БД Tarantool
HOST=os.environ['TARANTOOL_HOST']
PORT=os.environ['TARANTOOL_PORT']
LOGIN=os.environ['TARANTOOL_LOGIN']
PASSWORD=os.environ['TARANTOOL_PASSWORD']

connection = tarantool.connect(host = HOST, port=int(PORT), user=LOGIN, password=PASSWORD)

In [None]:
# имя таблицы 
tableName = 'table1'

## Пример 1

Выбирать данные через `select *` не совсем правильно, т.к. нельзя быть уверенным, что последовательность полей будет такой как мы ожидаем, в итоге поля могут быть не правильно именованы, такое обычно приводит к тяжелым ошибкам.  

In [None]:
sql = f"""
SELECT * from {tableName}
"""
print(sql)
rst = connection.execute(sql)
rst

In [None]:
df = pandas.DataFrame( rst)
display(df)

# Пример 2

Для упрощения перевода списка в строку здесь добавляется виртуальная колонка c4.

In [None]:
columns = ['c1', 'c2', 'c3']
sql = f"""
SELECT {' '.join([x+',' for x in columns])} null as c4 from {tableName}
"""
print(sql)
rst = connection.execute(sql)
rst

In [None]:
df = pandas.DataFrame( rst, columns=columns+['c4'])
display(df)

In [None]:
connection.close()

In [None]:
# Пример 3

In [None]:
import pyspark
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType,StructField, LongType, StringType, IntegerType, DateType, TimestampType, FloatType
from pyspark.sql.functions import col, cast, date_trunc, sum, dayofweek, hour, dayofmonth, lit

In [None]:
# запуск spark
spark = SparkSession.builder.appName('fill').getOrCreate()

In [None]:
# подключение к БД Tarantool
HOST=os.environ['TARANTOOL_HOST']
PORT=os.environ['TARANTOOL_PORT']
LOGIN=os.environ['TARANTOOL_LOGIN']
PASSWORD=os.environ['TARANTOOL_PASSWORD']

jdbcURLTarantool = f'jdbc:tarantool://{HOST}:{PORT}?user={LOGIN}&password={PASSWORD}'

In [None]:
sql = f"""
select  *  from  {tableName} 
"""

dfData = spark.read.format("jdbc") \
                .option('url', jdbcURLTarantool) \
                .option('driver', 'org.tarantool.jdbc.SQLDriver') \
                .option('query', sql) \
                .load()

In [None]:
dfData.show()

In [None]:
display(dfData.toPandas())

In [None]:
spark.stop()