# Proc freq - analiza kontyngencji

Procedura wykorzystywana do analizy częstości dla jednej bądź dwóch zmiennych. Wyznacza częstości wystąpień wartości wybranych zmiennych i ich udziały procentowe. Umożliwia testowanie hipotez statystycznych dla zmiennych mierzonych na skali nominalnej lub porządkowej.

```
proc freq data=zbior <opcje>;
by <zmienne>;
table <zmienne> / <opcje>;
run;
```

Opcje dla procedury `proc freq`:
- noprint - brak wydruku
- nlevels - liczba poziomów zmiennej

Opcje dla argumentu `table`:
- chisq - test chi-kwadrat
- missing - uwzględnienie braków danych
- nocum - pominięcie wartości skumulowanych
- nocol - pominięcie procentów kolumnowych
- norow - pominięcie procentów wierszowych
- nopercent - pominięcie udziałów procentowych
- nofreq - pominięcie częstości
- out= - określenie zbioru wynikowego

Zaczynamy od przypisania biblioteki:

In [1]:
libname bib "/folders/myfolders/przetwarzanie-danych-SAS/";

SAS Connection established. Subprocess id is 2411



Sprawdzenie częstości zmiennej `kontakt`:

In [2]:
proc freq data=bib.bank;
table kontakt;
run;

kontakt,kontakt,kontakt,kontakt,kontakt
kontakt,Frequency,Percent,Cumulative Frequency,Cumulative Percent
1,29285,90.97,29285,90.97
2,2906,9.03,32191,100.00
Frequency Missing = 13020,Frequency Missing = 13020,Frequency Missing = 13020,Frequency Missing = 13020,Frequency Missing = 13020


Domyślnie kategoria zawierająca braki danych nie jest włączana do obliczeń - jest tylko informacja o liczebności tej kategorii. Włączenie braków danych do obliczeń jest możliwe z parametrem `missing`.

In [3]:
proc freq data=bib.bank;
table kontakt / missing;
run;

kontakt,kontakt,kontakt,kontakt,kontakt
kontakt,Frequency,Percent,Cumulative Frequency,Cumulative Percent
.,13020,28.8,13020,28.8
1,29285,64.77,42305,93.57
2,2906,6.43,45211,100.0


Uzyskane wyniki można także zapisać w zbiorze SAS:

In [4]:
proc freq data=bib.bank;
table kontakt / missing out=kontakt_freq;
run;

kontakt,kontakt,kontakt,kontakt,kontakt
kontakt,Frequency,Percent,Cumulative Frequency,Cumulative Percent
.,13020,28.8,13020,28.8
1,29285,64.77,42305,93.57
2,2906,6.43,45211,100.0


Podanie dwóch zmiennych w argumencie `table` powoduje utworzenie tabeli częstości dla każdej z tych zmiennych:

In [5]:
proc freq data=bib.bank;
table wynik hipoteka;
run;

wynik,wynik,wynik,wynik,wynik
wynik,Frequency,Percent,Cumulative Frequency,Cumulative Percent
nie,39922,88.3,39922,88.3
tak,5289,11.7,45211,100.0

hipoteka,hipoteka,hipoteka,hipoteka,hipoteka
hipoteka,Frequency,Percent,Cumulative Frequency,Cumulative Percent
nie,20081,44.42,20081,44.42
tak,25130,55.58,45211,100.0


Połączenie dwóch cech symbolem gwiazdki powoduje utworzenie tablicy krzyżowej:

In [2]:
proc freq data=bib.bank;
table wynik*hipoteka;
run;

Table of wynik by hipoteka,Table of wynik by hipoteka,Table of wynik by hipoteka,Table of wynik by hipoteka
wynik(wynik),hipoteka(hipoteka),hipoteka(hipoteka),hipoteka(hipoteka)
wynik(wynik),nie,tak,Total
Frequency Percent Row Pct Col Pct,,,
nie,16727 37.00 41.90 83.30,23195 51.30 58.10 92.30,39922 88.30
tak,3354 7.42 63.41 16.70,1935 4.28 36.59 7.70,5289 11.70
Total,20081 44.42,25130 55.58,45211 100.00
Frequency Percent Row Pct Col Pct,Table of wynik by hipoteka wynik(wynik) hipoteka(hipoteka) nie tak Total nie 16727 37.00 41.90 83.30 23195 51.30 58.10 92.30 39922 88.30  tak 3354 7.42 63.41 16.70 1935 4.28 36.59 7.70 5289 11.70  Total 20081 44.42 25130 55.58 45211 100.00,,

Frequency Percent Row Pct Col Pct

Table of wynik by hipoteka,Table of wynik by hipoteka,Table of wynik by hipoteka,Table of wynik by hipoteka
wynik(wynik),hipoteka(hipoteka),hipoteka(hipoteka),hipoteka(hipoteka)
wynik(wynik),nie,tak,Total
nie,16727 37.00 41.90 83.30,23195 51.30 58.10 92.30,39922 88.30
tak,3354 7.42 63.41 16.70,1935 4.28 36.59 7.70,5289 11.70
Total,20081 44.42,25130 55.58,45211 100.00


Tak utworzona tabela zawiera bardzo dużo danych. Można je ograniczyc poprzez dodanie opcji:

In [3]:
proc freq data=bib.bank;
table wynik*hipoteka / nocol norow nopercent;
run;

Table of wynik by hipoteka,Table of wynik by hipoteka,Table of wynik by hipoteka,Table of wynik by hipoteka
wynik(wynik),hipoteka(hipoteka),hipoteka(hipoteka),hipoteka(hipoteka)
wynik(wynik),nie,tak,Total
Frequency,,,
nie,16727,23195.0,39922.0
tak,3354,1935.0,5289.0
Total,20081,25130.0,45211.0
Frequency,Table of wynik by hipoteka wynik(wynik) hipoteka(hipoteka) nie tak Total nie 16727 23195 39922 tak 3354 1935 5289 Total 20081 25130 45211,,

Frequency

Table of wynik by hipoteka,Table of wynik by hipoteka,Table of wynik by hipoteka,Table of wynik by hipoteka
wynik(wynik),hipoteka(hipoteka),hipoteka(hipoteka),hipoteka(hipoteka)
wynik(wynik),nie,tak,Total
nie,16727,23195,39922
tak,3354,1935,5289
Total,20081,25130,45211


W procedurze `proc freq` można także przeprowadzić test niezależności $\chi^2$. Ten test jest stosowany w przypadku badania niezależności cech jakościowych. Układ hipotez jest następujący:

H0: zmienne są niezależne
H1: zmienne nie są niezależne

Na podstawie przyjętego poziomu istotności $\alpha$ (zwykle $\alpha=0,05$) i wartości $p$ podejmuje się decyzję o odrzuceniu hipotezy zerowej. Jeśli $\alpha < p$ to nie ma podstaw do odrzucenia hipotezy zerowej.

In [4]:
proc freq data=bib.bank;
table wynik*hipoteka / chisq;
run;

Table of wynik by hipoteka,Table of wynik by hipoteka,Table of wynik by hipoteka,Table of wynik by hipoteka
wynik(wynik),hipoteka(hipoteka),hipoteka(hipoteka),hipoteka(hipoteka)
wynik(wynik),nie,tak,Total
Frequency Percent Row Pct Col Pct,,,
nie,16727 37.00 41.90 83.30,23195 51.30 58.10 92.30,39922 88.30
tak,3354 7.42 63.41 16.70,1935 4.28 36.59 7.70,5289 11.70
Total,20081 44.42,25130 55.58,45211 100.00
Frequency Percent Row Pct Col Pct,Table of wynik by hipoteka wynik(wynik) hipoteka(hipoteka) nie tak Total nie 16727 37.00 41.90 83.30 23195 51.30 58.10 92.30 39922 88.30  tak 3354 7.42 63.41 16.70 1935 4.28 36.59 7.70 5289 11.70  Total 20081 44.42 25130 55.58 45211 100.00,,

Frequency Percent Row Pct Col Pct

Table of wynik by hipoteka,Table of wynik by hipoteka,Table of wynik by hipoteka,Table of wynik by hipoteka
wynik(wynik),hipoteka(hipoteka),hipoteka(hipoteka),hipoteka(hipoteka)
wynik(wynik),nie,tak,Total
nie,16727 37.00 41.90 83.30,23195 51.30 58.10 92.30,39922 88.30
tak,3354 7.42 63.41 16.70,1935 4.28 36.59 7.70,5289 11.70
Total,20081 44.42,25130 55.58,45211 100.00

Statistic,DF,Value,Prob
Chi-Square,1.0,875.6937,<.0001
Likelihood Ratio Chi-Square,1.0,872.9319,<.0001
Continuity Adj. Chi-Square,1.0,874.8224,<.0001
Mantel-Haenszel Chi-Square,1.0,875.6743,<.0001
Phi Coefficient,,-0.1392,
Contingency Coefficient,,0.1378,
Cramer's V,,-0.1392,

Fisher's Exact Test,Fisher's Exact Test.1
"Cell (1,1) Frequency (F)",16727
Left-sided Pr <= F,<.0001
Right-sided Pr >= F,1.0000
,
Table Probability (P),<.0001
Two-sided Pr <= P,<.0001


W przypadku tablic o wymiarach $2x2$ przeprowadzany jest wariant testu $\chi^2$ - dokładny test Fishera. Wartość $p < \alpha$, w związku z czym istnieją podstawy do odrzucenia hipotezy zerowej. Istnieje związek pomiędzy wynikiem kampanii marketingowej a posiadaniem przez klienta kredytu hipotecznego.

W procedurze `proc freq` można także grupować zmienne, wobec czego następujące zapisy są równoważne:

In [5]:
proc freq data=bib.bank;
table wynik*hipoteka / nocol norow nopercent;
table wynik*kredyt / nocol norow nopercent;
run;

Table of wynik by hipoteka,Table of wynik by hipoteka,Table of wynik by hipoteka,Table of wynik by hipoteka
wynik(wynik),hipoteka(hipoteka),hipoteka(hipoteka),hipoteka(hipoteka)
wynik(wynik),nie,tak,Total
Frequency,,,
nie,16727,23195.0,39922.0
tak,3354,1935.0,5289.0
Total,20081,25130.0,45211.0
Frequency,Table of wynik by hipoteka wynik(wynik) hipoteka(hipoteka) nie tak Total nie 16727 23195 39922 tak 3354 1935 5289 Total 20081 25130 45211,,

Frequency

Table of wynik by hipoteka,Table of wynik by hipoteka,Table of wynik by hipoteka,Table of wynik by hipoteka
wynik(wynik),hipoteka(hipoteka),hipoteka(hipoteka),hipoteka(hipoteka)
wynik(wynik),nie,tak,Total
nie,16727,23195,39922
tak,3354,1935,5289
Total,20081,25130,45211

Table of wynik by kredyt,Table of wynik by kredyt,Table of wynik by kredyt,Table of wynik by kredyt
wynik(wynik),kredyt(kredyt),kredyt(kredyt),kredyt(kredyt)
wynik(wynik),nie,tak,Total
Frequency,,,
nie,39159,763.0,39922.0
tak,5237,52.0,5289.0
Total,44396,815.0,45211.0
Frequency,Table of wynik by kredyt wynik(wynik) kredyt(kredyt) nie tak Total nie 39159 763 39922 tak 5237 52 5289 Total 44396 815 45211,,

Frequency

Table of wynik by kredyt,Table of wynik by kredyt,Table of wynik by kredyt,Table of wynik by kredyt
wynik(wynik),kredyt(kredyt),kredyt(kredyt),kredyt(kredyt)
wynik(wynik),nie,tak,Total
nie,39159,763,39922
tak,5237,52,5289
Total,44396,815,45211


In [6]:
proc freq data=bib.bank;
table wynik*(hipoteka kredyt) / nocol norow nopercent;
run;

Table of wynik by hipoteka,Table of wynik by hipoteka,Table of wynik by hipoteka,Table of wynik by hipoteka
wynik(wynik),hipoteka(hipoteka),hipoteka(hipoteka),hipoteka(hipoteka)
wynik(wynik),nie,tak,Total
Frequency,,,
nie,16727,23195.0,39922.0
tak,3354,1935.0,5289.0
Total,20081,25130.0,45211.0
Frequency,Table of wynik by hipoteka wynik(wynik) hipoteka(hipoteka) nie tak Total nie 16727 23195 39922 tak 3354 1935 5289 Total 20081 25130 45211,,

Frequency

Table of wynik by hipoteka,Table of wynik by hipoteka,Table of wynik by hipoteka,Table of wynik by hipoteka
wynik(wynik),hipoteka(hipoteka),hipoteka(hipoteka),hipoteka(hipoteka)
wynik(wynik),nie,tak,Total
nie,16727,23195,39922
tak,3354,1935,5289
Total,20081,25130,45211

Table of wynik by kredyt,Table of wynik by kredyt,Table of wynik by kredyt,Table of wynik by kredyt
wynik(wynik),kredyt(kredyt),kredyt(kredyt),kredyt(kredyt)
wynik(wynik),nie,tak,Total
Frequency,,,
nie,39159,763.0,39922.0
tak,5237,52.0,5289.0
Total,44396,815.0,45211.0
Frequency,Table of wynik by kredyt wynik(wynik) kredyt(kredyt) nie tak Total nie 39159 763 39922 tak 5237 52 5289 Total 44396 815 45211,,

Frequency

Table of wynik by kredyt,Table of wynik by kredyt,Table of wynik by kredyt,Table of wynik by kredyt
wynik(wynik),kredyt(kredyt),kredyt(kredyt),kredyt(kredyt)
wynik(wynik),nie,tak,Total
nie,39159,763,39922
tak,5237,52,5289
Total,44396,815,45211


Zadania:
1. Czy sposób kontaktu z klientem (zmienna kontakt) ma wpływ na to czy klient zdecydował się na założenie lokaty (zmienna wynik)?
2. Utwórz macierz dzień x miesiąc. W którym miesiącu wykonano najwięcej telefonów do klientów? Który dzień którego miesiąca charakteryzował się największą liczbą połączeń?