# Proc tabulate

Służy do tworzenia złożonych zestawień tabelarycznych - zawiera w sobie opcje procedury `means` oraz `freq`.

```
proc tabulate data=zbior <out=zbior_wynikowy> <missing>;
class <lista zmiennych klasyfikujących>;
var <lista zmiennych analizowanych>;
table <wyrażenie_stron>, <wyrażenie_wierszy> , wyrażenie_kolumn 	</lista opcji tabeli>;
by <notsorted> <descending> zmienna_1 < ... <descending> zmienna_n>;
run;
```

Opcje poszczególnych instrukcji:

**CLASS**

- `ascending/descending` - porządek sortowania
- `missing` - wyświetlanie braków danych
- `order=data/formatted/freq/unformatted` - porządek wyświetlania

**TABLE**

- `box=` - tekst dla pustego pola powyżej wierszy

Statystyki poszczególnych instrukcji:

**CLASS**

- `n`
- `nmiss`
- `pctn`

**VAR**

- takie same jak w `proc means`

Operatory

| operator | działanie |
|----------|-----------|
| przecinek | oddziela wymiary w tabeli |
| gwiazdka | przecina elementy wewnątrz wymiaru |
| spacja | łączy elementy wewnątrz wymiaru |
| nawiasy okrągłe | grupuje elementy, aby inny operator mógł być użyty dla całej grupy |
| znak równości | przypisuje etykietę do zmiennej lub statystyki |

In [1]:
libname bib "/folders/myfolders/przetwarzanie-danych-SAS/";

SAS Connection established. Subprocess id is 3297



## Tablice jednowymiarowe

W `proc tabulate` jako argument `class` podajemy zmienne, które będziemy traktować jako zmienne klasyfikujące lub liczyli dla nich częstości, natomiast w argumencie `var` te zmienne, dla których będą wyznaczane statystyki opisowe. W tych dwóch argumentach jedynie te zmienne deklarujemy, natomiast wygląd tabeli ustalamy w argumencie `table`.

In [4]:
proc tabulate data=bib.bank;
class wykszt wynik hipoteka;
var saldo;
table wykszt wynik hipoteka;
run;

wykszt,wykszt,wykszt,wynik,wynik,hipoteka,hipoteka
podstawowe,srednie,wyzsze,nie,tak,nie,tak
N,N,N,N,N,N,N
6851,23202,13301,38317,5037,19044,24310


Domyślną statystyką dla cech w argumencie `class` jest liczebność - `n`. Mamy także do dyspozycji wartość `all` wyświetlającą sumę:

In [5]:
proc tabulate data=bib.bank;
class wykszt wynik hipoteka;
var saldo;
table all wykszt wynik hipoteka;
run;

All,wykszt,wykszt,wykszt,wynik,wynik,hipoteka,hipoteka
All,podstawowe,srednie,wyzsze,nie,tak,nie,tak
N,N,N,N,N,N,N,N
43354,6851,23202,13301,38317,5037,19044,24310


Użycie gwiazdki oraz nawiasów:

In [10]:
proc tabulate data=bib.bank;
class wykszt wynik hipoteka;
var saldo;
table all wykszt*(wynik hipoteka);
run;

All,wykszt,wykszt,wykszt,wykszt,wykszt,wykszt,wykszt,wykszt,wykszt,wykszt,wykszt,wykszt
All,podstawowe,podstawowe,podstawowe,podstawowe,srednie,srednie,srednie,srednie,wyzsze,wyzsze,wyzsze,wyzsze
All,wynik,wynik,hipoteka,hipoteka,wynik,wynik,hipoteka,hipoteka,wynik,wynik,hipoteka,hipoteka
All,nie,tak,nie,tak,nie,tak,nie,tak,nie,tak,nie,tak
PctN,PctN,PctN,PctN,PctN,PctN,PctN,PctN,PctN,PctN,PctN,PctN,PctN
100.0,14.44,1.36,6.82,8.98,47.87,5.65,21.14,32.38,26.08,4.6,15.97,14.71


Liczebności możemy także zamienić na procenty:

In [12]:
proc tabulate data=bib.bank;
class wykszt wynik hipoteka;
var saldo;
table (all wykszt*(wynik hipoteka))*pctn="%";
run;

All,wykszt,wykszt,wykszt,wykszt,wykszt,wykszt,wykszt,wykszt,wykszt,wykszt,wykszt,wykszt
All,podstawowe,podstawowe,podstawowe,podstawowe,srednie,srednie,srednie,srednie,wyzsze,wyzsze,wyzsze,wyzsze
All,wynik,wynik,hipoteka,hipoteka,wynik,wynik,hipoteka,hipoteka,wynik,wynik,hipoteka,hipoteka
All,nie,tak,nie,tak,nie,tak,nie,tak,nie,tak,nie,tak
%,%,%,%,%,%,%,%,%,%,%,%,%
100.0,14.44,1.36,6.82,8.98,47.87,5.65,21.14,32.38,26.08,4.6,15.97,14.71


Zobaczmy jak wyglądają miary tendencji centralnej salda w ramach posiadania kredytu hipotecznego

In [14]:
proc tabulate data=bib.bank;
class wykszt wynik hipoteka;
var saldo;
table hipoteka*saldo;
run;

hipoteka,hipoteka
nie,tak
saldo,saldo
Sum,Sum
30213725.0,28540774.0


Domyślną statystyką dla zmiennych w argumencie `var` jest suma, ale możemy to zmienić.

In [15]:
proc tabulate data=bib.bank;
class wykszt wynik hipoteka;
var saldo;
table hipoteka*saldo*mean;
run;

hipoteka,hipoteka
nie,tak
saldo,saldo
Mean,Mean
1586.52,1174.03


Dodajmy jeszcze medianę:

In [17]:
proc tabulate data=bib.bank;
class wykszt wynik hipoteka;
var saldo;
table hipoteka*saldo*(mean median);
run;

hipoteka,hipoteka,hipoteka,hipoteka
nie,nie,tak,tak
saldo,saldo,saldo,saldo
Mean,Median,Mean,Median
1586.52,497.0,1174.03,410.0


I odpowiednie etykiety

In [20]:
proc tabulate data=bib.bank;
class wykszt wynik hipoteka;
var saldo;
table hipoteka="Kredyt hipoteczny"*saldo=""*(mean="Średnie saldo" median="Mediana salda");
run;

Kredyt hipoteczny,Kredyt hipoteczny,Kredyt hipoteczny,Kredyt hipoteczny
nie,nie,tak,tak
Średnie saldo,Mediana salda,Średnie saldo,Mediana salda
1586.52,497.0,1174.03,410.0


Taką tabelę możemy także zapisać do zbioru SAS poprzez argument `out=`.

In [21]:
proc tabulate data=bib.bank out=bank_saldo_hipoteka;
class wykszt wynik hipoteka;
var saldo;
table hipoteka="Kredyt hipoteczny"*saldo=""*(mean="Średnie saldo" median="Mediana salda");
run;

Kredyt hipoteczny,Kredyt hipoteczny,Kredyt hipoteczny,Kredyt hipoteczny
nie,nie,tak,tak
Średnie saldo,Mediana salda,Średnie saldo,Mediana salda
1586.52,497.0,1174.03,410.0


## Tablice dwuwymiarowe

Użycie przecinka w argumencie `table` powoduje utworzenie tablicy krzyżowej.

In [22]:
proc tabulate data=bib.bank;
class wykszt wynik_poprz;
table wykszt, wynik_poprz;
run;

Unnamed: 0_level_0,wynik_poprz,wynik_poprz,wynik_poprz
Unnamed: 0_level_1,1,2,3
Unnamed: 0_level_2,N,N,N
wykszt,133,643,244
podstawowe,133,643,244
srednie,675,2589,987
wyzsze,622,1492,544


Możemy także globalnie dodać opcję `missing`, która odpowiada za wyświetlanie braków danych. Natomiast opcja `descending` w argumencie `class` zmienia kierunek sortowania kategorii.

In [24]:
proc tabulate data=bib.bank missing;
class wykszt wynik_poprz / descending;
table wykszt, wynik_poprz;
run;

Unnamed: 0_level_0,wynik_poprz,wynik_poprz,wynik_poprz,wynik_poprz
Unnamed: 0_level_1,3,2,1,.
Unnamed: 0_level_2,N,N,N,N
wykszt,544,1492,622,10643
wyzsze,544,1492,622,10643
srednie,987,2589,675,18951
podstawowe,244,643,133,5831
,65,177,81,1534


Dodajmy podsumowanie w kolumnach i wierszach oraz zamieńmy liczebności na procenty.

In [2]:
proc tabulate data=bib.bank missing;
class wykszt wynik_poprz / descending;
table wykszt all, (wynik_poprz all="Razem")*pctn="%";
run;

Unnamed: 0_level_0,wynik_poprz,wynik_poprz,wynik_poprz,wynik_poprz,Razem
Unnamed: 0_level_1,3,2,1,.,Razem
Unnamed: 0_level_2,%,%,%,%,%
wykszt,1.2,3.3,1.38,23.54,29.42
wyzsze,1.2,3.3,1.38,23.54,29.42
srednie,2.18,5.73,1.49,41.92,51.32
podstawowe,0.54,1.42,0.29,12.9,15.15
,0.14,0.39,0.18,3.39,4.11
All,4.07,10.84,3.34,81.75,100.0


Opcja `box=` w argumencie `table` umożliwia dodanie tekstu w kwadracie znajdującym się w lewym górnym rogu tabeli:

In [4]:
proc tabulate data=bib.bank missing;
class wykszt wynik_poprz / descending;
table wykszt all, (wynik_poprz all="Razem")*pctn="%" / box="Podział";
run;

Podział,wynik_poprz,wynik_poprz,wynik_poprz,wynik_poprz,Razem
Podział,3,2,1,.,Razem
Podział,%,%,%,%,%
wykszt,1.2,3.3,1.38,23.54,29.42
wyzsze,1.2,3.3,1.38,23.54,29.42
srednie,2.18,5.73,1.49,41.92,51.32
podstawowe,0.54,1.42,0.29,12.9,15.15
,0.14,0.39,0.18,3.39,4.11
All,4.07,10.84,3.34,81.75,100.0


Możemy takżę analizować procenty wierszowe oraz kolumnowe:

In [3]:
proc tabulate data=bib.bank missing;
class wykszt wynik_poprz / descending;
table wykszt all, (wynik_poprz all="Razem")*colpctn="%";
table wykszt all, (wynik_poprz all="Razem")*rowpctn="%";
run;

Unnamed: 0_level_0,wynik_poprz,wynik_poprz,wynik_poprz,wynik_poprz,Razem
Unnamed: 0_level_1,3,2,1,.,Razem
Unnamed: 0_level_2,%,%,%,%,%
wykszt,29.57,30.44,41.16,28.8,29.42
wyzsze,29.57,30.44,41.16,28.8,29.42
srednie,53.64,52.83,44.67,51.28,51.32
podstawowe,13.26,13.12,8.8,15.78,15.15
,3.53,3.61,5.36,4.15,4.11
All,100.0,100.0,100.0,100.0,100.0

Unnamed: 0_level_0,wynik_poprz,wynik_poprz,wynik_poprz,wynik_poprz,Razem
Unnamed: 0_level_1,3,2,1,.,Razem
Unnamed: 0_level_2,%,%,%,%,%
wykszt,4.09,11.22,4.68,80.02,100.0
wyzsze,4.09,11.22,4.68,80.02,100.0
srednie,4.25,11.16,2.91,81.68,100.0
podstawowe,3.56,9.39,1.94,85.11,100.0
,3.5,9.53,4.36,82.61,100.0
All,4.07,10.84,3.34,81.75,100.0


Utwórzmy tabelę dwuwymiarową także dla zmiennej ilościowej:

In [5]:
proc tabulate data=bib.bank;
class wykszt wynik_poprz;
var czas;
table wykszt, wynik_poprz="Czas rozmowy z klientem"*czas=""*max="" / box="MAX";
run;

MAX,Czas rozmowy z klientem,Czas rozmowy z klientem,Czas rozmowy z klientem
MAX,1,2,3
wykszt,1205.0,1512.0,1548.0
podstawowe,1205.0,1512.0,1548.0
srednie,2062.0,1823.0,2053.0
wyzsze,1723.0,2219.0,1925.0


## Tablice trzywymiarowe

Dodanie kolejnego przecinka powoduje tworzenie nowych tablic według pierwszej podanej zmiennej:

In [6]:
proc tabulate data=bib.bank;
class wykszt wynik_poprz;
var czas;
table wykszt, czas*(min max), wynik_poprz;
run;

Unnamed: 0_level_0,Unnamed: 1_level_0,wynik_poprz,wynik_poprz,wynik_poprz
Unnamed: 0_level_1,Unnamed: 1_level_1,1,2,3
czas,Min,40.0,5.0,5.0
czas,Max,1205.0,1512.0,1548.0
wykszt podstawowe,,,,
wynik_poprz 1 2 3 czas Min 40.00 5.00 5.00 Max 1205.00 1512.00 1548.00,,,,

Unnamed: 0_level_0,Unnamed: 1_level_0,wynik_poprz,wynik_poprz,wynik_poprz
Unnamed: 0_level_1,Unnamed: 1_level_1,1,2,3
czas,Min,40.0,5.0,5.0
czas,Max,1205.0,1512.0,1548.0

Unnamed: 0_level_0,Unnamed: 1_level_0,wynik_poprz,wynik_poprz,wynik_poprz
Unnamed: 0_level_1,Unnamed: 1_level_1,1,2,3
czas,Min,1.0,5.0,6.0
czas,Max,2062.0,1823.0,2053.0
wykszt srednie,,,,
wynik_poprz 1 2 3 czas Min 1.00 5.00 6.00 Max 2062.00 1823.00 2053.00,,,,

Unnamed: 0_level_0,Unnamed: 1_level_0,wynik_poprz,wynik_poprz,wynik_poprz
Unnamed: 0_level_1,Unnamed: 1_level_1,1,2,3
czas,Min,1.0,5.0,6.0
czas,Max,2062.0,1823.0,2053.0

Unnamed: 0_level_0,Unnamed: 1_level_0,wynik_poprz,wynik_poprz,wynik_poprz
Unnamed: 0_level_1,Unnamed: 1_level_1,1,2,3
czas,Min,4.0,5.0,5.0
czas,Max,1723.0,2219.0,1925.0
wykszt wyzsze,,,,
wynik_poprz 1 2 3 czas Min 4.00 5.00 5.00 Max 1723.00 2219.00 1925.00,,,,

Unnamed: 0_level_0,Unnamed: 1_level_0,wynik_poprz,wynik_poprz,wynik_poprz
Unnamed: 0_level_1,Unnamed: 1_level_1,1,2,3
czas,Min,4.0,5.0,5.0
czas,Max,1723.0,2219.0,1925.0


## Zadania

1. Jaki procent stanowią braki danych dla zmiennej rodzaj wykonywanej pracy? (0,64%)
2. Ile procent spośród klientów z wyższym wykształceniem ma kredyt hipoteczny (bez uwzględniania braków danych)? (14,71%)
3. Ile wynosi średni czas rozmowy z bankiem wśród klientów posiadających pożyczkę i pracujących jako technik? (239,18 sekund)