# Ładowanie danych do CAS

## Parsowanie danych po stronie klienta i załadowanie do CAS

In [1]:
import swat
conn = swat.CAS('localhost',5570)

W katalogu `dane` znajduje sie plik `iris.csv` o strukturze jak poniżej.

`"sepal_length","sepal_width","petal_length","petal_width","variety"
5.1,3.5,1.4,.2,"Setosa"
4.9,3,1.4,.2,"Setosa"
4.7,3.2,1.3,.2,"Setosa"
...
6.5,3,5.2,2,"Virginica"
6.2,3.4,5.4,2.3,"Virginica"
5.9,3,5.1,1.8,"Virginica"`

Aby sparsować plik CSV oraz załadować dane do CAS możemy użyć tych samych funkcji co w module `pandas` tj. `read_csv`, `read_table`, `read_excel` itp.

Kompletna lista obsługiwanych typów plików oraz przykłądy użycia: https://sassoftware.github.io/python-swat/api.html#client-side-files

In [2]:
iris = conn.read_csv('../../dane/iris.csv')
iris

NOTE: Cloud Analytic Services made the uploaded file available as table TMP9BILRDX6 in caslib CASUSER(fl0r3k).
NOTE: The table TMP9BILRDX6 has been created in caslib CASUSER(fl0r3k) from binary data uploaded to Cloud Analytic Services.


CASTable('TMP9BILRDX6', caslib='CASUSER(fl0r3k)')

W wyniku wywołania `read_csv`, plik `iris.csv` został sprasowany i wysłany do serwera CAS. Po stronie serwera, w domyślnej (tzw. aktywnej bibliotece) została utworzona tabela o strukturze jak wskazany plik CSV i wypełniona danymi z tego pliku. Aktywną biblioteką jest `CASUSER(nazwaUzytkownika)`

Ponieważ nie podaliśmy nazwy tabeli to serwer przypisał jej losową nazwę. Zwrócony obiekt (`CASTable`) jest tzw. uchwytem do naszej tabeli znajdującej się w pamięci serwera CAS. Nie jest samą tabelą a tylko elementem za pomocą którego możemy operować na tabeli. 

Mając naszą tabelę w CAS oraz używając uchwytu możemy wywoływać akcje. Część z dostępnych akcji pokrywa się z tymi, które są w module `pandas`.

In [3]:
iris.tableInfo()

Unnamed: 0,Name,Rows,Columns,IndexedColumns,Encoding,CreateTimeFormatted,ModTimeFormatted,AccessTimeFormatted,JavaCharSet,CreateTime,ModTime,AccessTime,Global,Repeated,View,SourceName,SourceCaslib,Compressed,Creator,Modifier
0,TMP9BILRDX6,150,5,0,utf-8,03Apr2018:19:30:23,03Apr2018:19:30:23,03Apr2018:19:30:23,UTF8,1838403000.0,1838403000.0,1838403000.0,0,0,0,,,0,fl0r3k,


In [4]:
iris.tableDetails()

Unnamed: 0,Node,Blocks,Active,Rows,IndexSize,DataSize,VardataSize,CompressedSize,CompressionRatio,Mapped,MappedMemory,Unmapped,UnmappedMemory,Allocated,AllocatedMemory,DeletedRows
0,ALL,8,8,150,0,8450,1250,0,0,0,0,0,0,8,8496,0


In [5]:
iris.columnInfo()

Unnamed: 0,Column,ID,Type,RawLength,FormattedLength,NFL,NFD
0,sepal_length,1,double,8,12,0,0
1,sepal_width,2,double,8,12,0,0
2,petal_length,3,double,8,12,0,0
3,petal_width,4,double,8,12,0,0
4,variety,5,varchar,10,10,0,0


In [6]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [7]:
iris.tail()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,variety
145,5.8,2.7,5.1,1.9,Virginica
146,6.8,3.2,5.9,2.3,Virginica
147,6.7,3.3,5.7,2.5,Virginica
148,6.7,3.0,5.2,2.3,Virginica
149,6.3,2.5,5.0,1.9,Virginica


In [8]:
iris.summary()

Unnamed: 0,Column,Min,Max,N,NMiss,Mean,Sum,Std,StdErr,Var,USS,CSS,CV,TValue,ProbT,Skewness,Kurtosis
0,sepal_length,4.3,7.9,150.0,0.0,5.843333,876.5,0.828066,0.067611,0.685694,5223.85,102.168333,14.171126,86.425375,3.331256e-129,0.314911,-0.552064
1,sepal_width,2.0,4.4,150.0,0.0,3.057333,458.6,0.435866,0.035588,0.189979,1430.4,28.306933,14.25642,85.908304,8.004458e-129,0.318966,0.228249
2,petal_length,1.0,6.9,150.0,0.0,3.758,563.7,1.765298,0.144136,3.116278,2582.71,464.3254,46.974407,26.072599,2.166017e-57,-0.274884,-1.402103
3,petal_width,0.1,2.5,150.0,0.0,1.199333,179.9,0.762238,0.062236,0.581006,302.33,86.569933,63.555114,19.270595,2.6590209999999998e-42,-0.102967,-1.340604


Więcej akcji poznamy później.

In [9]:
iris.dropTable()

NOTE: Cloud Analytic Services dropped table TMP9BILRDX6 from caslib CASUSER(fl0r3k).


## Wysłanie danych do serwera CAS i parsowanie po stronie serwera

Parsowanie dużego pliku może zająć więcej czasu niż gdybyśmy wysłali go do serwera i pozwolili serwerowi go sparsować.

Do wysłania pliku na serwer służy funkcja `upload_file()`

In [10]:
iris = conn.upload_file('../../dane/iris.csv')
iris

NOTE: Cloud Analytic Services made the uploaded file available as table IRIS in caslib CASUSER(fl0r3k).
NOTE: The table IRIS has been created in caslib CASUSER(fl0r3k) from binary data uploaded to Cloud Analytic Services.


CASTable('IRIS', caslib='CASUSER(fl0r3k)')

W tym przypadku tabela otrzymała nazwę taką samą jak plik czyli IRIS.

In [11]:
iris.dropTable()

NOTE: Cloud Analytic Services dropped table IRIS from caslib CASUSER(fl0r3k).


## Ładowanie danych bezpośrednio przez serwer CAS

Jeżeli dane mamy zapisane na serwerze, w konkretnej bibliotece możemy poprosić serwer CAS aby je nam załadował. W tym przypadku dane znajdują się w mojej bibliotece `CASUSER`.

In [12]:
iris = conn.load_path('iris.csv')

In [13]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [14]:
iris.dropTable()

NOTE: Cloud Analytic Services dropped table IRIS from caslib CASUSER(fl0r3k).


http://support.sas.com/documentation/onlinedoc/viya/examples.htm

Aby wyświetlić wszystkie obecnie załadowane tabele w aktywnej bibliotece należy użyć akcji `tableInfo` z zestawu akcji `table`.

In [15]:
conn.table.tableInfo()

NOTE: No tables are available in caslib CASUSER(fl0r3k) of Cloud Analytic Services.


In [16]:
conn.terminate()

## Zadanie 2

1\. Utwórz sesję CAS.

2\. Załąduj plik `cars.csv` zanajdujący się w katalogu za danymi. Użyj parsowania po stronie klienta.

3\. Upewnij się, że dane zostały załadowane popranie i odpowiedz na pytania:

a) Jaka jest nazwa biblioteki oraz tabeli po stronie CAS do której załadowane dane.

b) Ile jest kolumn i wierszy w tabeli?

4\. Powołaj drugą sesję w CAS.

a). Czy załadowana tabela jest widoczna w drugiej sesji?

5\. Załaduj do pamięci CAS ten sam plik co pierwszej sesji. Tym razem użyj parsowania po stronie serwera.

6\. Upewnij się, że dane zostały załadowane popranie.

7\. Usuń załadowane dane a następnie zakończ wszystkie powołane sesje.

### Rozwiązanie

In [1]:
import swat
s1 = swat.CAS('localhost',5570)

In [2]:
cars = s1.read_csv('../../dane/cars.csv')
cars

NOTE: Cloud Analytic Services made the uploaded file available as table TMPHFWN72_3 in caslib CASUSER(fl0r3k).
NOTE: The table TMPHFWN72_3 has been created in caslib CASUSER(fl0r3k) from binary data uploaded to Cloud Analytic Services.


CASTable('TMPHFWN72_3', caslib='CASUSER(fl0r3k)')

In [3]:
cars.head()

Unnamed: 0,Make,Model,Type,Origin,DriveTrain,MSRP,Invoice,EngineSize,Cylinders,Horsepower,MPG_City,MPG_Highway,Weight,Wheelbase,Length
0,Acura,MDX,SUV,Asia,All,36945.0,33337.0,3.5,6.0,265.0,17.0,23.0,4451.0,106.0,189.0
1,Acura,RSX Type S 2dr,Sedan,Asia,Front,23820.0,21761.0,2.0,4.0,200.0,24.0,31.0,2778.0,101.0,172.0
2,Acura,TSX 4dr,Sedan,Asia,Front,26990.0,24647.0,2.4,4.0,200.0,22.0,29.0,3230.0,105.0,183.0
3,Acura,TL 4dr,Sedan,Asia,Front,33195.0,30299.0,3.2,6.0,270.0,20.0,28.0,3575.0,108.0,186.0
4,Acura,3.5 RL 4dr,Sedan,Asia,Front,43755.0,39014.0,3.5,6.0,225.0,18.0,24.0,3880.0,115.0,197.0


In [4]:
cars.tableInfo()

Unnamed: 0,Name,Rows,Columns,IndexedColumns,Encoding,CreateTimeFormatted,ModTimeFormatted,AccessTimeFormatted,JavaCharSet,CreateTime,ModTime,AccessTime,Global,Repeated,View,SourceName,SourceCaslib,Compressed,Creator,Modifier
0,TMPHFWN72_3,428,15,0,utf-8,03Apr2018:19:33:08,03Apr2018:19:33:08,03Apr2018:19:33:09,UTF8,1838403000.0,1838403000.0,1838403000.0,0,0,0,,,0,fl0r3k,


In [5]:
s2 = swat.CAS('localhost',5570)

In [6]:
s2.tableInfo()

NOTE: No tables are available in caslib CASUSER(fl0r3k) of Cloud Analytic Services.


In [8]:
cars = s2.upload_file('../../dane/cars.csv')
cars

NOTE: Cloud Analytic Services made the uploaded file available as table CARS in caslib CASUSER(fl0r3k).
NOTE: The table CARS has been created in caslib CASUSER(fl0r3k) from binary data uploaded to Cloud Analytic Services.


CASTable('CARS', caslib='CASUSER(fl0r3k)')

In [9]:
cars.head()

Unnamed: 0,Make,Model,Type,Origin,DriveTrain,MSRP,Invoice,EngineSize,Cylinders,Horsepower,MPG_City,MPG_Highway,Weight,Wheelbase,Length
0,Acura,MDX,SUV,Asia,All,36945.0,33337.0,3.5,6.0,265.0,17.0,23.0,4451.0,106.0,189.0
1,Acura,RSX Type S 2dr,Sedan,Asia,Front,23820.0,21761.0,2.0,4.0,200.0,24.0,31.0,2778.0,101.0,172.0
2,Acura,TSX 4dr,Sedan,Asia,Front,26990.0,24647.0,2.4,4.0,200.0,22.0,29.0,3230.0,105.0,183.0
3,Acura,TL 4dr,Sedan,Asia,Front,33195.0,30299.0,3.2,6.0,270.0,20.0,28.0,3575.0,108.0,186.0
4,Acura,3.5 RL 4dr,Sedan,Asia,Front,43755.0,39014.0,3.5,6.0,225.0,18.0,24.0,3880.0,115.0,197.0


In [10]:
s1.CASTable(name='TMPHFWN72_3').dropTable()
s2.CASTable(name='CARS').dropTable()

NOTE: Cloud Analytic Services dropped table TMPHFWN72_3 from caslib CASUSER(fl0r3k).
NOTE: Cloud Analytic Services dropped table CARS from caslib CASUSER(fl0r3k).


In [11]:
s1.terminate()
s2.terminate()