# Praca z obiektem CAS Table

In [1]:
import swat
s = swat.CAS('localhost',5570)

In [2]:
iris = s.upload_file('../../dane/iris.csv')
iris.head()

NOTE: Cloud Analytic Services made the uploaded file available as table IRIS in caslib CASUSER(fl0r3k).
NOTE: The table IRIS has been created in caslib CASUSER(fl0r3k) from binary data uploaded to Cloud Analytic Services.


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


## Wybór zakresu danych

### Wybór kolumn

Po numerze kolumny:

In [3]:
iris[[1]].head()

Unnamed: 0,sepal_width
0,3.5
1,3.0
2,3.2
3,3.1
4,3.6


In [4]:
iris[[1,3,4]].head()

Unnamed: 0,sepal_width,petal_width,variety
0,3.5,0.2,Setosa
1,3.0,0.2,Setosa
2,3.2,0.2,Setosa
3,3.1,0.2,Setosa
4,3.6,0.2,Setosa


Po nazwie:

In [5]:
iris[['sepal_width','variety']].head()

Unnamed: 0,sepal_width,variety
0,3.5,Setosa
1,3.0,Setosa
2,3.2,Setosa
3,3.1,Setosa
4,3.6,Setosa


Aby wybrać zakres kolumn należy użyć `loc[wiersze,kolumny]` oraz operatora `:`

In [6]:
iris.loc[:,'sepal_length':'variety'].head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


Więcej przykładów użycia `loc[]` oraz wybierania zakresów kolumn i wierszy znajdziesz tutaj: https://pandas.pydata.org/pandas-docs/stable/indexing.html

Czasami chcemy wybrać kolmny po nazwach, gdzie nazwa spełnia konkretny warunek. W celu osiągnięcia zamierzanego rezultatu, należy przygotować listę kolumn, posługując się metodami dostępnymi w języku Python.

In [7]:
matching = [s for s in iris.columns if "sepal" in s]
matching

['sepal_length', 'sepal_width']

Wybraliśmy wszystkie kolumny zawierające w nazie fragment `sepal`

In [8]:
iris[matching].head()

Unnamed: 0,sepal_length,sepal_width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1
4,5.0,3.6


### Wybór wierszy

Do wyboru wierszy nie możemy użyć `loc[wiersze,kolumny]`. W systemie rozproszonym nie można wskaząć konkretnego wiersza po numerze wiersze w tabeli.  

In [9]:
iris.loc[1,:].head()

IndexError: Row selection is not supported.

Można za to sprecyzować warunek jaki mają spełniać wiersze

In [10]:
iris.params.where = 'sepal_length > 6.8 and variety = "Virginica"'
iris

CASTable('IRIS', caslib='CASUSER(fl0r3k)', where='sepal_length > 6.8 and variety = "Virginica"')

In [11]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,variety
0,7.1,3.0,5.9,2.1,Virginica
1,7.6,3.0,6.6,2.1,Virginica
2,7.3,2.9,6.3,1.8,Virginica
3,7.2,3.6,6.1,2.5,Virginica
4,7.7,3.8,6.7,2.2,Virginica


Obiekt `CASTable` posiada kilka użytecznych parametrów, które możemy ustawić. Jednym z nich jest `where` pozwalający na ustawienie, które rekordy na tabeli będziemy przetwarzać. Od momentu ustawienia `where` wszystkie akcje, jakie wykonamy na tabeli będą uwzględniały tylko wiersze spełniające wstawiony warunek. 

Aby pozbyć się warunku można przypisać do `where` pusty string albo usunąć parametr `where` z tabeli za pomocą instrukcji `del`

In [12]:
iris.params.where = ''
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [13]:
iris.params.where = 'sepal_length > 6.8 and variety = "Virginica"'
iris

CASTable('IRIS', caslib='CASUSER(fl0r3k)', where='sepal_length > 6.8 and variety = "Virginica"')

In [14]:
del iris.params.where
iris

CASTable('IRIS', caslib='CASUSER(fl0r3k)')

**UWAGA: ustawione na tabeli parametry nie modyfikują załadowanej tabeli. Zmieniają tylko nasz sposób interakcji z tabelą i działają tylko w obrębie posiadanego uchwytu do tabeli. W przypadku gdybyśmy mieli dwa uchwyty wskazujace na tą samą tabelę, w zależności od ustawionych parametrów, wywoływane akcje miałyby inny rezultat.**

In [15]:
iris.params.where = 'sepal_length > 6.8 and variety = "Virginica"'
iris

CASTable('IRIS', caslib='CASUSER(fl0r3k)', where='sepal_length > 6.8 and variety = "Virginica"')

In [16]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,variety
0,7.1,3.0,5.9,2.1,Virginica
1,7.6,3.0,6.6,2.1,Virginica
2,7.3,2.9,6.3,1.8,Virginica
3,7.2,3.6,6.1,2.5,Virginica
4,7.7,3.8,6.7,2.2,Virginica


In [17]:
inny_iris = s.CASTable(name='IRIS',caslib='CASUSER(fl0r3k)')
inny_iris

CASTable('IRIS', caslib='CASUSER(fl0r3k)')

In [18]:
inny_iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [19]:
del iris.params.where

## Kolumny wyliczane

Za pomocą `params` w tabeli możemy dodać nowe kolumny. Parametr `computedvars` zawiera nazwy kolumn jakie chcemy dodać za pomocą kalkulacji. Dla przykładu dodamy kolumnę `length_factor`, która będzie iloczynem `sepal_length` oraz `petal_length`.

In [20]:
iris.params.computedvars = ['length_factor']

Samo dodanie nazwy kolumny oczywiście nie wystarczy. Przy próbie odczytu tabeli dostaniemy błąd.

In [21]:
iris.head()

ERROR: You did not specify a program for the computed columns.
ERROR: Failure opening table 'IRIS'
ERROR: The action stopped due to errors.


SWATError: You did not specify a program for the computed columns.

Musimy jeszcze dodać kod, za pomocą którego serwer przypisze wartości do naszej kolumny wyliczanej

In [22]:
iris.params.computedvarsprogram = 'length_factor = sepal_length * petal_length;'

In [23]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,variety,length_factor
0,5.1,3.5,1.4,0.2,Setosa,7.14
1,4.9,3.0,1.4,0.2,Setosa,6.86
2,4.7,3.2,1.3,0.2,Setosa,6.11
3,4.6,3.1,1.5,0.2,Setosa,6.9
4,5.0,3.6,1.4,0.2,Setosa,7.0


Możliwe jest wyliczanie wielu kolumn.

In [24]:
iris.params.computedvars.append('width_factor')
iris.params.computedvarsprogram = iris.params.computedvarsprogram + 'width_factor = sepal_width * petal_width;'
iris

CASTable('IRIS', caslib='CASUSER(fl0r3k)', computedvars=['length_factor', 'width_factor'], computedvarsprogram='length_factor = sepal_length * petal_length;width_factor = sepal_width * petal_width;')

W razie gdyby powyższy kod, ktoś uruchomił kilka razy ;)

In [25]:
iris.params.computedvars = ['length_factor','width_factor']
iris.params.computedvarsprogram = '''
    length_factor = sepal_length * petal_length;
    width_factor = sepal_width * petal_width;
'''
iris

CASTable('IRIS', caslib='CASUSER(fl0r3k)', computedvars=['length_factor', 'width_factor'], computedvarsprogram='\n    length_factor = sepal_length * petal_length;\n    width_factor = sepal_width * petal_width;\n')

In [26]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,variety,length_factor,width_factor
0,5.1,3.5,1.4,0.2,Setosa,7.14,0.7
1,4.9,3.0,1.4,0.2,Setosa,6.86,0.6
2,4.7,3.2,1.3,0.2,Setosa,6.11,0.64
3,4.6,3.1,1.5,0.2,Setosa,6.9,0.62
4,5.0,3.6,1.4,0.2,Setosa,7.0,0.72


# Zadanie 3

1\. Korzystając ze zbioru `class.csv` przelicz kolumny z jednostek imperialnych na metryczne a następnie oblicz index masy ciała (BMI).

2\. Wylicz statystyki opisowe dla wszystkich zmiennych numercznych.

3\. Pobierz imiona osób w klasie z niedowagą i nadwagą.

4\. Usuń wszystkie tabele oraz zakończ aktywne sesje.

### Rozwiązanie

In [30]:
import swat
s = swat.CAS('localhost',5570)

In [31]:
cls = s.upload_file('../../dane/class.csv')

NOTE: Cloud Analytic Services made the uploaded file available as table CLASS in caslib CASUSER(fl0r3k).
NOTE: The table CLASS has been created in caslib CASUSER(fl0r3k) from binary data uploaded to Cloud Analytic Services.


In [33]:
cls.params.computedvars = ['waga','wzrost','BMI']
cls.params.computedvarsprogram = '''
    waga = 0.45359237 * Weight;
    wzrost = 2.54* Height;
    BMI = waga/(wzrost/100)**2;
'''
cls

CASTable('CLASS', caslib='CASUSER(fl0r3k)', computedvars=['waga', 'wzrost', 'BMI'], computedvarsprogram='\n    waga = 0.45359237 * Weight;\n    wzrost = 2.54* Height;\n    BMI = waga/(wzrost/100)**2;\n')

In [34]:
cls.summary()

Unnamed: 0,Column,Min,Max,N,NMiss,Mean,Sum,Std,StdErr,Var,USS,CSS,CV,TValue,ProbT,Skewness,Kurtosis
0,Age,11.0,16.0,19.0,0.0,13.315789,253.0,1.492672,0.342442,2.22807,3409.0,40.105263,11.209791,38.884748,8.04926e-19,0.063612,-1.110926
1,Height,51.3,72.0,19.0,0.0,62.336842,1184.4,5.127075,1.176232,26.286901,74304.92,473.164211,8.224791,52.997076,3.202374e-21,-0.25967,-0.138969
2,Weight,50.5,150.0,19.0,0.0,100.026316,1900.5,22.773933,5.224699,518.652047,199435.75,9335.736842,22.767942,19.144897,2.045197e-13,0.183351,0.683365
3,waga,22.906415,68.038855,19.0,0.0,45.371174,862.052299,10.330082,2.369883,106.710604,41033.115422,1920.790868,22.767942,19.144897,2.045197e-13,0.183351,0.683365
4,wzrost,130.302,182.88,19.0,0.0,158.335579,3008.376,13.022771,2.987629,169.592568,479385.621872,3052.666221,8.224791,52.997076,3.202374e-21,-0.25967,-0.138969
5,BMI,13.491336,21.431781,19.0,0.0,17.86502,339.435379,2.092826,0.480127,4.379922,6142.858406,78.838601,11.71466,37.208923,1.762437e-18,-0.127908,-0.281321


In [35]:
cls.params.where = 'BMI < 18.5 or BMI >=25 '

In [36]:
cls.head()

Unnamed: 0,Name,Sex,Age,Height,Weight,waga,wzrost,BMI
0,Alfred,M,14.0,69.0,112.5,51.029142,175.26,16.613175
1,Barbara,F,13.0,65.3,98.0,44.452052,165.862,16.158388
2,Carol,F,14.0,62.8,102.5,46.493218,159.512,18.272707
3,Thomas,M,11.0,57.5,85.0,38.555351,146.05,18.075135
4,Henry,M,14.0,63.5,102.5,46.493218,161.29,17.872064


In [37]:
cls.dropTable()

NOTE: Cloud Analytic Services dropped table CLASS from caslib CASUSER(fl0r3k).


In [38]:
s.terminate()