# Proc format - formatowanie wartości

Procedura `proc format` umożliwia utworzenie tzw. formatu czyli zbioru etykiet, które mają być nałożone na wartości występujące w zbiorze danych. Formaty są przechowywane w pamięci i nie są przypisane do konkretnego zbioru danych. Dzięki temu określony format może zostać zastosowany w wielu sytuacjach. W związku z tym procedura `proc format` jest jedną z nielicznych, w której nie podaje się argumentu `data=`.

```
proc format <opcje>;
value nazwa_formatu
wartosc1=etykieta1
wartosc2=etykieta2
wartosc3=etykieta3
...
;
run;
```

Nazwa formatu może mieć maksymalnie 31 znaków i nie może kończyć się cyfrą. Typ formatu zależy od rodzaju zmiennej wobec której ma zostać zastosowany.

In [3]:
libname bib "/folders/myfolders/przetwarzanie-danych-SAS/";

proc freq data=bib.bank;
table wynik_poprz;
run;

wynik_poprz,wynik_poprz,wynik_poprz,wynik_poprz,wynik_poprz
wynik_poprz,Frequency,Percent,Cumulative Frequency,Cumulative Percent
1,1511,18.31,1511,18.31
2,4901,59.39,6412,77.70
3,1840,22.30,8252,100.00
Frequency Missing = 36959,Frequency Missing = 36959,Frequency Missing = 36959,Frequency Missing = 36959,Frequency Missing = 36959


W pierwszej kolejności zajmiemy się formatowaniem zmienej numerycznej:

In [4]:
proc format;
value wynik
1="Sukces"
2="Porażka"
3="Inny"
;
run;

proc freq data=bib.bank;
table wynik_poprz;
format wynik_poprz wynik.;
run;

wynik_poprz,wynik_poprz,wynik_poprz,wynik_poprz,wynik_poprz
wynik_poprz,Frequency,Percent,Cumulative Frequency,Cumulative Percent
Sukces,1511,18.31,1511,18.31
Porażka,4901,59.39,6412,77.70
Inny,1840,22.30,8252,100.00
Frequency Missing = 36959,Frequency Missing = 36959,Frequency Missing = 36959,Frequency Missing = 36959,Frequency Missing = 36959


Argument `format` jest dostępny w większości procedur raportujących. Jako wartość tego argumentu należy zadeklarować parę `zmienna_formatowana nazwa_formatu.`. SAS odróżnia nazwę zmiennej od nazwy formatu poprzez symbol kropki `.`, który należy umieścić po nazwie formatu.

W `proc format` można także deklarować przedziały wartości:

In [5]:
proc format;
value wiek4p
low-<20="poniżej 20 lat"
20-<40="20-39 lat"
40-<60="40-59 lat"
60-high="60 lat i więcej"
;
run;

proc means data=bib.bank mean maxdec=2;
var saldo;
class wiek;
format wiek wiek4p.;
run;


Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
wiek,N Obs,Mean
poniżej 20 lat,47,497.04
20-39 lat,23315,1171.62
40-59 lat,20065,1488.35
60 lat i więcej,1784,2458.62


Mamy do dyspozycji wbudowane wielkości `low` i `high`, które zwalniają nas z konieczności określania minimalnej i maksymalnej wartości cechy - SAS zrobi to automatycznie. Podczas deklaracji przdziałów symbol `<` wskazuje wartość, która nie ma być uwzględniona w danym przedziale.

Z kolei formatowanie zmiennej tekstowej różni się kilkoma szczegółami:

In [6]:
proc format; 
value $wyk
"podstawowe"="Wykształcenie podstawowe"
"srednie"="Wykształcenie średnie"
"wyzsze"="Wykształcenie wyższe"
other="Wykształcenie nieustalone"
;
run;

proc means data=bib.bank median maxdec=2;
var czas;
class wykszt;
format wykszt $wyk.;
run;

Analysis Variable : czas czas,Analysis Variable : czas czas,Analysis Variable : czas czas
wykszt,N Obs,Median
Wykształcenie podstawowe,6851,178.0
Wykształcenie średnie,23202,183.0
Wykształcenie wyższe,13301,176.0


Przede wszystkim w procedurze `proc format` nazwa formatu musi być poprzedzona symbolem dolara `$`. W SAS jest to symbol powiązany ze zmiennymi tekstowymi. Mamy do dyspozycji także wbudowaną kategorię `other`, która zbiera wszystkie obserwacje nie pasujące do zadeklarowanych wcześniej wartości.

Aby w tabeli pojawiło się wykształcenie nieustalone należy dodać argument `missing` w procedurze `proc means`:

In [7]:
proc means data=bib.bank median missing maxdec=2;
var czas;
class wykszt;
format wykszt $wyk.;
run;

Analysis Variable : czas czas,Analysis Variable : czas czas,Analysis Variable : czas czas
wykszt,N Obs,Median
Wykształcenie nieustalone,1857,180.0
Wykształcenie podstawowe,6851,178.0
Wykształcenie średnie,23202,183.0
Wykształcenie wyższe,13301,176.0


`proc format` umożliwia także grupowanie wariantów cech. Wówczas kolejne warianty cechy podaje się po przecinku:

In [8]:
proc format; 
value $wyk3k
"podstawowe","średnie"="Wykształcenie podstawowe i średnie"
"wyzsze"="Wykształcenie wyższe"
other="Wykształcenie nieustalone"
;
run;

proc means data=bib.bank median missing maxdec=2;
var czas;
class wykszt;
format wykszt $wyk3k.;
run;

Analysis Variable : czas czas,Analysis Variable : czas czas,Analysis Variable : czas czas
wykszt,N Obs,Median
Wykształcenie nieustalone,25059,183.0
Wykształcenie podstawowe i średnie,6851,178.0
Wykształcenie wyższe,13301,176.0


W jednej procedurze można wykorzystać kilka formatów:

In [10]:
proc means data=bib.bank mean median maxdec=2;
var saldo;
class wiek wykszt;
format wiek wiek4p. wykszt $wyk.;
run;

Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
wiek,wykszt,N Obs,Mean,Median
poniżej 20 lat,Wykształcenie podstawowe,12,479.92,189.5
,Wykształcenie średnie,19,455.58,329.0
20-39 lat,Wykształcenie podstawowe,2131,1050.74,319.0
,Wykształcenie średnie,12649,964.93,330.0
,Wykształcenie wyższe,7888,1531.41,542.0
40-59 lat,Wykształcenie podstawowe,4141,1219.94,413.0
,Wykształcenie średnie,9862,1311.97,475.0
,Wykształcenie wyższe,5019,2026.44,621.0
60 lat i więcej,Wykształcenie podstawowe,567,2246.19,989.0
,Wykształcenie średnie,672,2444.73,990.0


W związku z tym, że formaty nie są przypisane do konkretnej zmiennej to występuję niebezpieczeństwo błędnego użycia:

In [11]:
proc means data=bib.bank mean maxdec=2;
var saldo;
class czas;
format czas wiek4p.;
run;

Analysis Variable : saldo saldo,Analysis Variable : saldo saldo,Analysis Variable : saldo saldo
czas,N Obs,Mean
poniżej 20 lat,1186,1152.21
20-39 lat,1436,1299.33
40-59 lat,2037,1406.98
60 lat i więcej,40552,1368.4


Zadanie:

Utwórz format o dla zmiennej numerycznej o następujących wartościach:

- poniżej 100 euro
- 100 - 1000 euro
- 1000 euro i więcej

Jaki procent klientów charakteryzuje się saldem ze środkowego przedziału?