# Przesyłanie danych do tabel databricks
Databricks umożliwia pracę na plikach z danymi, ale nie są one wygodne do pracy na jednym zbiorze przez wielu użytkowników. Do tego celu najlepiej sprawdzają się tabele, do których wszyscy uprawnieni użytkownicy mają dostęp i zmiany widoczne są przez wszystkich.

Dane mogą zostać zaimportowane z różnych formatów plików przechowujących dane, takich jak: JSON, CSV, Parquet. By utworzyć tabelę, najpier należy przesłać pliki z danymi do systemu plików, z których za pomocą interfejsu databricks, zakładka "Data", można dokonać importu. Po wybraniu przycisku Create należy przesłać plik, lub wybrać go z systemu plików, następnie do wczytania danych można wykorzystać interfejs lub wygenerowany notebook. Przy dużych zestawach danych interfejs nie daje rady przetworzyć danych i konieczne jest wykorzystanie notebooka. 

Domyślnie dane zapisywane są w tabelach jako string. Możliwe jest wykorzystanie automatycznego wykrywania typu danych podając wartoś "true" w parametrze infer_schema lub ręcznie utworzyć całe schema.

Aby pierwszy rząd w bazie został uznany jako nazwy kolumn należy ustawić wartość "true" w parametrze first_row_is_header.

In [0]:
# lokalizacja i typ pliku
file_location = "/FileStore/tables/creditcard.csv"
file_type = "csv"

# parametry
infer_schema = "true"
first_row_is_header = "true"
delimiter = ","

df = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(file_location)

display(df)

In [0]:
# tworzenie tabeli tymczasowej
temp_table_name = "creditcard"

df.createOrReplaceTempView(temp_table_name)

In [0]:
%sql

select * from `creditcard`

In [0]:
# tworzenie tabeli
permanent_table_name = "creditcard"

# zapusywanie tabeli w bazie - domyślnie zakomentowane
df.write.format("parquet").saveAsTable(permanent_table_name)