# Wprowadzenie

Program można utworzyć na trzy różne sposoby

- Plik -> Nowy -> Program
- Program -> Nowy program
- Ikona "Nowy" na pasku narzędzi

Komentarze w SAS są kolorowane na zielono. Wyróżniamy dwa typy komentarzy:

- W tej samej linii: 

*tekst komentarza w tej samej linii;

- Komentarz wielowierszowy

/<code>&ast;</code> tekst

długiego

komentarza <code>&ast;</code>/

Do komentowania można także wykorzystać skróty klawiszowe:

- wstawianie komentarza: CTRL + / 
- usunięcie komentarza: CTRL + SHIFT + /

Uruchomienie kodu:

- Przycisk uruchom – uruchomienie wszystkich procedur w programie
- Przycisk uruchom zaznaczone – uruchomienie zaznaczonej procedury w programie
- Klawisz F3 lub F8 - uruchomienie zaznaczonej procedury w programie

**WAŻNE:** 
- zaznaczenie procedury i kliknięcie przycisku uruchom spowoduje uruchomienie wszystkich procedur w programie.
- polecenia w SAS kończymy średnikiem.
- SAS nie jest wrażliwy na wielkość liter.

# Tworzenie biblioteki

Do utworzenia biblioteki wykorzystuje się instrukcję `libname` według następujących zasad:

`libname nazwa_biblioteki "ścieżka_do_katalogu";`

Przykład:

`libname dane "c:\sas\ankiety";`

In [1]:
libname bib "/folders/myfolders/przetwarzanie-danych-SAS/";

SAS Connection established. Subprocess id is 2177



# Proc means - statystyki agregujące

Procedura służy do wyliczania statystyk opisowych na zadeklarowanym zbiorze. Miary te są obliczane dla całego zbioru bądź w ramach określonych grup.

```
proc means data=zbior <statystyki> <opcje>;
var <zmienne>;
by <zmienne>;
class <zmienne>;
where <warunek>;
output out=zbior_wynikowy;
run;
```

Domyślnie `proc means` oblicza pięc statystyk:
- n - liczba obserwacji (bez braków danych)
- mean - średnia
- min - minimum
- max - maksimum
- std - odchylenie standardowe

Nimniej lista dostępnych miar jest dużo szersza m.in.:
- nmiss - liczba braków danych
- var - wariancja
- cv - współczynnik zmienności
- skew - współczynnik asymetrii
- kurt - współczynnik koncentracji
- median - mediana
- q1 - kwartyl dolny
- q3 - kwartyl górny

Zobaczmy co się stanie po wywołaniu procedury `proc means` bez żadnych argumentów.

In [3]:
proc means data=bib.bank;
run;

Variable,Label,N,Mean,Std Dev,Minimum,Maximum
wiek praca stan_cywil saldo kontakt dzien miesiac czas licz_kontakt dni_kontakt licz_kontakt_poprz wynik_poprz,wiek praca stan_cywil saldo kontakt dzien miesiac czas licz_kontakt dni_kontakt licz_kontakt_poprz wynik_poprz,45211 44923 45211 45211 32191 45211 45211 45211 45211 45211 45211 8252,40.9362102 5.6851947 1.8322753 1362.27 1.0902737 15.8064188 6.1446551 258.1630798 2.7638407 40.1978280 0.5803234 2.0398691,10.6187620 2.9754947 0.6082298 3044.77 0.2865779 8.3224762 2.4080340 257.5278123 3.0980209 100.1287460 2.3034410 0.6360368,18.0000000 1.0000000 1.0000000 -8019.00 1.0000000 1.0000000 1.0000000 0 1.0000000 -1.0000000 0 1.0000000,95.0000000 10.0000000 3.0000000 102127.00 2.0000000 31.0000000 12.0000000 4918.00 63.0000000 871.0000000 275.0000000 3.0000000


Rezultatem jest policzenie domyślnych statystyk opisowych dla wszystkich cech ilościowych ze zbioru. Po zadeklarowaniu konkretnej cechy wygląd raportu jest nieco inny:

In [4]:
proc means data=bib.bank;
var saldo;
run;

Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
N,Mean,Std Dev,Minimum,Maximum
45211,1362.27,3044.77,-8019.0,102127.0


Oczywiście dużo sensowniej jest porównywać statystyki według grup np. wykształcenia:

In [5]:
proc means data=bib.bank;
var saldo;
class wykszt;
run;

Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
wykszt,N Obs,N,Mean,Std Dev,Minimum,Maximum
podstawowe,6851,6851,1250.95,2690.74,-2604.0,71188.0
srednie,23202,23202,1154.88,2558.26,-8019.0,81204.0
wyzsze,13301,13301,1758.42,3839.09,-6847.0,102127.0


Oczywiście w argumencie `var` i `class` może być więcej zmiennych - w SAS oddzielamy je spacją.

In [6]:
proc means data=bib.bank;
var saldo wiek;
class wykszt hipoteka;
run;

wykszt,hipoteka,N Obs,Variable,Label,N,Mean,Std Dev,Minimum,Maximum
podstawowe,nie,2957,saldo wiek,saldo wiek,2957 2957,1571.42 50.5752452,3412.62 12.5138693,-1038.00 18.0000000,71188.00 95.0000000
,tak,3894,saldo wiek,saldo wiek,3894 3894,1007.59 42.2891628,1938.88 8.9557293,-2604.00 20.0000000,29397.00 75.0000000
srednie,nie,9164,saldo wiek,saldo wiek,9164 9164,1340.13 42.2917940,3055.14 11.6130815,-8019.00 18.0000000,81204.00 95.0000000
,tak,14038,saldo wiek,saldo wiek,14038 14038,1033.95 38.4448639,2165.04 8.7590205,-2093.00 20.0000000,58544.00 73.0000000
wyzsze,nie,6923,saldo wiek,saldo wiek,6923 6923,1919.12 40.6853965,4309.55 10.8060627,-6847.00 21.0000000,102127.00 89.0000000
,tak,6378,saldo wiek,saldo wiek,6378 6378,1583.98 38.4085920,3243.63 8.6292551,-4057.00 20.0000000,43074.00 75.0000000


Statystyki, które mają być policzone podaje się po nazwie zbioru:

In [7]:
proc means data=bib.bank mean median;
var saldo;
class wykszt hipoteka;
run;

Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
wykszt,hipoteka,N Obs,Mean,Median
podstawowe,nie,2957,1571.42,521.0
,tak,3894,1007.59,343.5
srednie,nie,9164,1340.13,416.5
,tak,14038,1033.95,380.0
wyzsze,nie,6923,1919.12,618.0
,tak,6378,1583.98,543.0


Dodatkowo z wykorzystaniem opcji `maxdec=` można określić liczbę miejsc dziesiętnych wyświetlanych w raporcie:

In [8]:
proc means data=bib.bank mean median maxdec=0;
var saldo;
class wykszt hipoteka;
run;

Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
wykszt,hipoteka,N Obs,Mean,Median
podstawowe,nie,2957,1571,521
,tak,3894,1008,344
srednie,nie,9164,1340,417
,tak,14038,1034,380
wyzsze,nie,6923,1919,618
,tak,6378,1584,543


Dla zmiennych w argumencie `class` nie są uwzględnianie braki danych. Wyświetlenie ich jest możliwe poprzez dodanie opcji `missing`:

In [14]:
proc means data=bib.bank mean median missing maxdec=0;
var saldo;
class wykszt hipoteka;
run;

Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
wykszt,hipoteka,N Obs,Mean,Median
,nie,1037,1780,679
,tak,820,1207,442
podstawowe,nie,2957,1571,521
,tak,3894,1008,344
srednie,nie,9164,1340,417
,tak,14038,1034,380
wyzsze,nie,6923,1919,618
,tak,6378,1584,543


Zamiast argumentu `class` można także wykorzystać `by`:

In [9]:
proc means data=bib.bank mean median maxdec=0;
var saldo;
by wykszt hipoteka;
run;

Niemniej skorzystanie z tej opcji wymaga wcześniejszego posortowania zbioru według zmiennych podanych w argumencie `by`:

In [11]:
proc sort data=bib.bank out=bank_sort;
by wykszt hipoteka;
run;

proc means data=bank_sort mean median maxdec=0;
var saldo;
by wykszt hipoteka;
run;

Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
Mean,Median
1780,679

Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
Mean,Median
1207,442

Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
Mean,Median
1571,521

Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
Mean,Median
1008,344

Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
Mean,Median
1340,417

Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
Mean,Median
1034,380

Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
Mean,Median
1919,618

Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
Mean,Median
1584,543


Wówczas dla każdej kombinacji zmiennych uzyskujemy osobną tabelę. Oczywiście oba argumenty mogą zostać wykorzystane w jednej procedurze:

In [13]:
proc means data=bank_sort mean median maxdec=0;
var saldo;
class hipoteka;
by wykszt;
run;

Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
hipoteka,N Obs,Mean,Median
nie,1037,1780,679
tak,820,1207,442

Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
hipoteka,N Obs,Mean,Median
nie,2957,1571,521
tak,3894,1008,344

Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
hipoteka,N Obs,Mean,Median
nie,9164,1340,417
tak,14038,1034,380

Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
hipoteka,N Obs,Mean,Median
nie,6923,1919,618
tak,6378,1584,543


Można także skorzystać z argumentu `where` w celu ograniczenia zakresu zbioru wejściowego:

In [15]:
proc means data=bib.bank mean median maxdec=0;
var saldo;
class wykszt;
where hipoteka="tak" and wiek > 50;
run;

Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
wykszt,N Obs,Mean,Median
podstawowe,815,1073,351
srednie,1656,1438,554
wyzsze,789,2231,757


Jaka jest relacja pomiędzy przeciętnym czasem trwania rozmowy z klientami zamężnymi lub żonatymi w porównaniu do klientów rozwiedzionych bądź owdowiałych powyżej 50 roku życia?