## 2. Kategorie danych i sposoby ich wizualizacji

![image.png](attachment:aabced3d-58d2-4cb4-9543-074ca7ccd8b0.png)

Będziemy liczyli statystki. Ale zanim zaczniemy liczyć powiedzmy coś więcej o danych, na których te statystki będziemy wyliczać.

W zależności od typu danych z jakimi mamy do czynienia, możemy chcieć zastosować różne podejścia statystyczne i metody wizualizacji. Dlatego tak ważna jest umiejętność klasyfikacji danych.

Dane możemy klasyfikować na dwa główne sposoby:

1. na podstawie ich typu
2. na podstawie poziomu pomiaru (ang. *measure level*)

Wczytajmy przykładowe dane

In [2]:
# wczytanie danych
import pandas as pd

df = pd.read_csv("mock_data.csv")
df

Unnamed: 0,id,first_name,last_name,gender,age,height,country,balance,job
0,1,Arlana,Grief,Female,45,0.16,Argentina,643754.58,Librarian
1,2,Grethel,Harrod,Female,105,1.73,Brazil,479360.77,Web Developer II
2,3,Glendon,Patis,Male,88,0.13,China,667788.74,Budget/Accounting Analyst IV
3,4,Andonis,Hallewell,Male,107,1.07,Finland,890018.70,Senior Developer
4,5,Amii,Jurzyk,Female,45,0.44,Vietnam,374309.71,Financial Advisor
...,...,...,...,...,...,...,...,...,...
995,996,Gearalt,O'Hagan,Male,88,2.07,Vietnam,299494.37,Mechanical Systems Engineer
996,997,Derick,Zanussii,Male,70,0.08,China,250944.71,Financial Advisor
997,998,Leonie,Dumsday,Female,31,1.36,China,377651.51,Staff Accountant III
998,999,Matilde,Brogi,Female,109,1.04,Brazil,304332.82,Research Nurse


#### 1. Podział danych ze względu na typ

![image.png](attachment:aabced3d-58d2-4cb4-9543-074ca7ccd8b0.png)

Dane ze względu na typ można podzielić na dane:
* kategoryczne
* liczbowe (numeryczne)
    * dyskretne
    * ciągłe

Przykłady danych kategorycznych:
- płeć
- tak/nie
- marki samochodów
- kraje

Przykłady danych liczbowych:
- dyskretnych:
    - grupa wiekowa
    - liczba dzieci
    - ocena
- ciągłych:
    - stan konta
    - wzrost
    - odelgłość
    - pole
    - czas

Hint: Zaokrąglenie danych nie jest równoważne z ich dyskretyzacją. Ważny jest sposób w jaki o nich myślimy (interpretujemy).

Pytanie 1

Zmienna przedstawia wagę osoby. Jaki typ danych reprezentuje?

A. kategoryczne, dyskretne \
B. kategoryczne, ciągłe \
C. numeryczne, dyskretne \
D. numeryczne, ciągłe

Pytanie 2

Zmienna przedstawia płeć osoby. Jaki typ danych reprezentuje?

A. kategoryczne \
B. numeryczne, dyskretne \
C. numeryczne, ciągłe

Dane ze względu na poziom pomiaru można podzielić na dane:
- jakościowe (aka kwalitatywne, ang. qualitative)
    - nominalne (ang. nominal)
    - porządkowe (ang. ordinal)
- ilościowe (aka kwantytatywne, ang. quantitative)
    - interwałowe (ang. interval)
    - ilorazowa (ang. ratio)

#### Dane jakościowe (*ang. qualitative*)

Dane jakościowe to dane, które opisują cechy lub kategorie i nie mają wartości liczbowej. Ich celem jest klasyfikacja obiektów lub zjawisk na podstawie jakościowych atrybutów. Danych jakościowych nie można uporządkować liczbowo ani wykorzystać do przeprowadzania operacji matematycznych.

Dane jakościowe możemy podzielić na:
- dane nominalne (*ang. nominal*) - dane bez porządku (np. kolory, płeć, marka samochodu, gatunek zwierzęcia).
- dane porządkowe (*ang. ordinal*) -  dane, które można uporządkować, ale różnice między nimi nie mają określonej wartości (np. stopnie w szkole, pory roku, opinia zbierana w ankiecie)

#### Dane ilościowe (*ang. quantitative*) 

Dane ilościowe to dane, które opisują ilość i mają wartości liczbowe. Te dane umożliwiają wykonywanie operacji matematycznych, takich jak dodawanie, odejmowanie, czy średnia arytmetyczna. Mogą być mierzone lub zliczane i są kluczowe w analizach statystycznych.

Dane ilościowe możemy podzielić na:
- dane interwałowe (*ang. interval*) - dane liczbowe nie posiadające prawdziwego zera (aka rzeczywiste zero, absolutny punkt zerowy). Zero jest tu tylko punktem na skali, a nie brakiem wartości. Możliwe są operacje dodawania i odejmowania, ale nie można sensownie porównywać stosunków między wartościami; nie ma sensu mówienie, że 10 stopni jest dwa razy cieplejsze niż 5 stopni. Dlaczego ?

![image.png](attachment:f8c790f6-bc4d-4eb8-b27a-5eb99d69d3f0.png)

Patrząc na stopnie w skali Celciusa moglibyśmy powiedzieć, że dzisiaj jest dwa razy cieplej niż wczoraj, ale patrząc na stopnie w skali Farenheita już nie. Dlaczego tak jest? Ponieważ O w skali Celciusa i 0 w skali Farenheita nie są prawdziwymi zerami. Te skale zostały sztucznie stworzone przez człowieka. Przykłady danych interwałowych: temperatura w skali C i F, lata w kalendarzu)
- dane ilorazowe (*ang. ratio*) - dane liczbowe posiadające prawdziwe zero. Możliwe są wszystkie operacje matematyczne, w tym sensowne jest porównywanie stosunków między wartościami; sens ma powiedzenie że coś waży dwa razy więcej (np. waga, wzrost, długość, temperatura mierzona w Kelvinach 0K=-213.15C=-459.67F). Większość rzeczy, które obserwujemy w świecie są właśnie tego typu. Nazwa (ratio) pochodzi stąd, że mogą one przedstawiać relację między różnymi rzeczami. Na przykład, jeśli mam 2 jabłka, a ty masz 6, to ty masz ich 3 razy więcej niż ja. Jak to obliczyłem? Stosunek 6 do 2 wynosi 3. Inne przykłady to liczba przedmiotów w ogóle, odległość czy czas.

Na koniec, liczby takie jak 2, 3, 10, 10,5 czy $\pi$ mogą być zarówno danymi interwałowymi, jak i ilorazowymi. Trzeba być ostrożnym i uwzględniać kontekst, w którym się je stosuje.

Pytanie 1 \
Zmienna przedstawia płeć osoby. Jaki jest jej poziom pomiaru?

A. nominalny \
B. porządkowy \
C. interwałowy \
D. ilorazowy

Pytanie 2 \
Zmienna przedstawia wagę osoby. Jaki jest jej poziom pomiaru?

A. nominalny \
B. porządkowy \
C. interwałowy \
D. ilorazowy