# ADATTÍPUSOK

## Adatok alapvető típusai

- numerikus vagy kvantitativ adatok
    - diszkrét adatok
    - folyamatos adatok
- kategórikus vagy kvalitativ adatok
    - nominális adatok
    - ordinális adatok

## Az adatok felvehető értékei

A **folytonos** változók egy adott skálán tetszőleges értékeket vehetnek fel. A skála bármely két értéke között végtelen sok újabb
érték helyezkedik el, s a folytonos típusú változók ezen értékek bármelyikét felvehetik. Általában lebegőpontos változókkal reprezentáljuk.<br>
Például ilyen a magasság, mert 180cm és 185cm között létezik végtelen sok magasság, de ilyen a súly vagy a távolság is.

A **diszkrét** adatok a mérési skálán nem vehetnek fel tetszőleges értékeket, a felvehető értékek jól elkülönülnek egymástól,
köztük "rés" van. Véges vagy megszámlálható végtelen sok értéke lehet.<br>
Ilyen lehet például az irányítószám, mert a 1173 és a 1174 között nem vehet fel értéket, ott "rés" van. Ilyen lehet még a nem (férfi/nő, nincs közte tesztőleges másik érték) vagy a beosztás (csoportvezető / osztályvezető).

## Az adatok egymáshoz való viszonya

A **felsorolás típusú (nominális, névleges) adatok** esetében csak az vizsgálható, hogy 2 érték azonos-e vagy különbözik.<br>
Ilyen például a szemszín, mert az vizsgálható, hogy két embernek egyforma színű-e a szeme, de nem lehet sorba rendezni az alapján az embereket, hogy a kék szeműek szebbek mint a barna szeműek.<br>
Értelmezett műveletek: =, !=, módusz, entrópia, kontingencia, korreláció

A **rendezett típusú (ordinális, sorrendi) adatok** nagyság szerint sorba rendezhetőek, elegendő információt hordoznak a sorba rendezhetőséghez.<br>
Ilyen adat lehet példál a katonai rendfokozat, ahol az egyes rangok között fel lehet állítani sorrendet az alapján, hogy ki kinek a felettese.<br>
Értelmezett műveletek: =, !=, <, >, medián, percintilis, rang korreláció, széria próba, előjeles rangösszeg próba

Az **intervallum skálázott adatok** esetén a sorrendiség mellet a különbség is meghatározható, de az arány nem. Az értékek közötti különbségek is jelentőséggel bírnak. A 0 pont megválasztása tetszőleges. <br>
Ilyen adat lehet például a dátum vagy a hőmérséklet (Celsiusban vagy Fahrenheitben): annak van értelme, hogy egyik esemény 1000-ben történt egy másik 2000-ben, de ezek aránya nem értelmezhető, nem mondhatjuk azt, hogy kétszer később történt.<br>
Értelmezett műveletek: =, !=, <, >, +, -, átlag, szórás, Pearson féle korreláció, t és F próba

Az **arány skálázott adatok** esetében a felvett értékek aránya is jelentést hordoz, ugyan úgy, ahogy azok különbsége is.<br>
Például a hosszúság vagy az idő lehet ilyen, vagy akár a Kelvinben kifejezett hőmérséklet. Nem csak annak van értelme, hogy pl. egy program 2 perc alatt fut le egy másik 4 alatt, hanem annak is van értelme, hogy az egyik folyamat kétszer olyan gyors.<br>
Értelmezett műveletek: =, !=, <, >, +, -, *, ÷, mértani és harmónikus közép, százalék variáció

# Adatok előkészítése

## Az adatok előkészítésnek fő feladatai

**Adat integráció**: különféle adatbázisok, adatkockák, vagy fájlok egyesítése

**Adat tisztítás**: hiányzó értékek kitöltése, zajos adatok simítása, outlier-ek azonosítása vagy törlése, inkonzisztenciák feloldása, adathibák karanténba helyezése

**Adat transzformáció**: adatok konvertálása új alakra, pl: normalizáció és aggregáció

**Adat redukció**: az adatok kisebb mértékű reprezentációja, de azonos, vagy hasonló elemzési eredmény

**Adat diszkretizáció**: az adatok egy részének különleges jelentőségű redukciója és transzformációja, főként numerikus adatokon

## Adatok átkódolása

### One-hot encoding

A **dummy változó** kvalitatív értéket fejez ki (pl: igen, nem) de a kódolása kvantitatív módon történik (pl: igen=1, nem=0).

A **one-hot encoding** egy kódolási technika, ami tetszőleges kategórikus változót dummy változókká alakít át. Például regressziós módszerek alkalmazása esetén van erre szükség. (Regresszió: valaminek a visszafejlődése, visszaesése, visszafelé történő mozgása, változása, csökkenése.)

|ID |Név         |Szak                        |
|---|------------|----------------------------|
|1  |Kiss Aranka |gazdaságinformatikus        |
|2  |Tóth János  |programtervező informatikus |
|3  |Nagy Péter  |mérnökinformatikus          |
|4  |Nagy Ábel   |programtervező informatikus |

**Triviális kódolás** esetén minden lehetséges értéknek egy dummy változó szükséges.
|ID |Név         |Szak_GI |Szak_PI |Szak_MI |
|---|------------|--------|--------|--------|
|1  |Kiss Aranka |1       |0       |0       |
|2  |Tóth János  |0       |1       |0       |
|3  |Nagy Péter  |0       |0       |1       |
|4  |Nagy Ábel   |0       |1       |0       |

Ebben az esetben ha Szak_MI oszlop értékei nem lennének megadva, akkor is meg tudnánk mondani minden egyes sorban az értékét a Szak_GI és a Szak_PI alapján, tehát a Szak_MI nem független a többi változó értékétől.

**Referencia kódolás** esetén a referencia csoportban minden dummy változó 0 értéket vesz fel, ezáltal ugyan olyan információ tartalmú kódoláshoz egy dummy változóval kevesebb szükséges.
|ID |Név         |Szak_GI |Szak_PI |
|---|------------|--------|--------|
|1  |Kiss Aranka |1       |0       |
|2  |Tóth János  |0       |1       |
|3  |Nagy Péter  |0       |0       |
|4  |Nagy Ábel   |0       |1       |

Ebben az esetben a referencia érték a Szak_MI (mérnökinformatikus). Ha itt nem lennének megadva a Szak_PI oszlop értékei, akkor minden esetben tudnánk a Szak_GI alapján meghatározni.

A **dummy változó csapda** az a jelenség, amikor a függetlennek tekintett változók között multikollinearitás áll fenn, azaz az egyik változó értéke megjósolható a többi változó lineáris kombinációjaként. Triviális kódolás esetén egy változó értéke meghatározható a többi változó értékéből, mert csak egy helyen lehet 1 érték. Ezért olyan modellekben (pl. regresszió), amelyek függetlenséget feltételeznek a prediktív változók között, *k* értékű kategorikus változót *k-1* dummy változóval szabad csak kódolni (tehát referencia kódolást kell alkalmazni).

### Label encoding

A **label encoding** a kategorikus változókat (abc sorrend alapján) egyedi egész értékekkel helyettesíti. A megfeleltetés egy-az-egyhez típusú és illesztéssel (fit, fit_transform) jön létre. Mivel egy-az-egyhez megfeleltetés jön létre, ezért létezik hozzá dekóder is, ami az ellentétel konverziót valósítja meg.

|ID |Név         |Szak                        |
|---|------------|----------------------------|
|1  |Kiss Aranka |gazdaságinformatikus        |
|2  |Tóth János  |programtervező informatikus |
|3  |Nagy Péter  |mérnökinformatikus          |
|4  |Nagy Ábel   |programtervező informatikus |

|ID |Név         |Szak |
|---|------------|-----|
|1  |Kiss Aranka |0    |
|2  |Tóth János  |2    |
|3  |Nagy Péter  |1    |
|4  |Nagy Ábel   |2    |

Kihívások:
 - a nominális értékeket gyakorlatilag ordinális értékekre cseréltük
 - fennáll a veszélye, hogy a kialakítandó modellek beépítik a sorrendi kapcsolatokat
 - programtervező informatikus > gazdaságinformatikus ?

### One-hot encoding vs. Label encoding

Mikor melyiket érdemes használni?<br>
- One-hot encoding
    - a kategorikus értékek nem ordinálisak
    - a kategorikus értékek száma viszonylag alacsony
- Label encoding
    - a kategorikus értékek abc sorrend szerint ordinálisak (pl. általános iskola, gimnázium, Bsc, …)
    - a kategorikus értékek száma meglehetősen magas, ezért a one-hot encoding nagy memóriaigényű lenne<br>

Az alkalmazandó modell sajátosságait figyelembe kell venni. Akkor célszerű Label encodingot használni, ha az adatok ordinálisak és ezt a sorrendiséget a modellnek figyelembe kell vennie ezért a sorrendiséget meg akarjuk őrizni. Akkor célszerű One-hot encodingot használni, ha a kategorikus adatok nominálisak és a kategóriák száma alacsony.

### Ordinal encoding

Az **ordinal encoding** az ordinális sztring értékű változókat megadott sorrend alapján egyedi egész értékekkel helyettesíti. A megfeleltetés egy-az-egyhez típusú és illesztéssel (fit, fit_transform) jön létre. Mivel egy-az-egyhez megfeleltetés jön létre, ezért létezik hozzá dekóder is, ami az ellentétel konverziót valósítja meg.

|ID |Név         |Iskolai végzettség |
|---|------------|-------------------|
|1  |Bármi Áron  |Egyetem BSc        |
|2  |Pál Kata    |Egyetem MSc        |
|3  |Tóth Aranka |Középiskola        |
|4  |Kis Péter   |Egyetem MSc        |
|5  |Kakukk Tomi |Általános iskola   |

|ID |Név         |Szak |
|---|------------|-----|
|1  |Bármi Áron  |3    |
|2  |Pál Kata    |4    |
|3  |Tóth Aranka |2    |
|4  |Kis Péter   |4    |
|5  |Kakukk Tomi |1    |

A sztirng típusú változók között sorrend állítható fel: általános iskola < középsikola < BSc < MSc, tehát ordinális.

## Adatok diszkretizációja

Az adat diszkretizáció folytonos értékek kategorikus intervallumokba osztását jelenti, ami adatredukció és transzformáció által valósul meg. Gyakran szükséges, mert számos algoritmus csak kategorikus adatokkal dolgozik vagy mert a tényleges érték nem fontos csak a "nagyságrendje" (pl: fiatal, középkorú, idős).

Diszkretizációs módszerek pl:
- **vödrözés alkalmazása** (pl: egy adatbázisban tárolt ügyfelek életkorát három egyenlő szélességű intervallumba osztjuk: fiatal, középkorú, idős)
- **klaszterezés** (pl: egy vásárlói adatbázisban a havi költés alapján klaszterezést végzünk, és az így kapott klasztereket címkézzük: alkalmi vásárló, rendszeres vásárló, törzsvásárló)
- **entrópia alapú diszkretizálás** (pl: egy egészségügyi adatbázisban a vércukorszint értékeit egy osztályozási feladat alapján mint pl. cukorbetegség kockázata információelméleti módszerekkel optimalizált határok mentén osztjuk fel: alacsony, közepes, magas kockázat)
- **szakterületi szabályok alapján** (pl: egy orvosi alkalmazásban a vérnyomásértékeket az orvosi irányelvek alapján kategorizáljuk: alacsony, normál, emelkedett, magas vérnyomás)
- **intuitív feldarabolás** (kívánatos lehet a természetesebb határok érdekében) (pl: a forgalom dinamikájának kategorizálása a sebességhatárok figyelembevételével: lassú, normál, gyors forgalom)

### Vödrözés (binning)

#### Egyenlő szélességű partícionálás

Távolság alapú vödrözés ami a tartományt 𝑁 egyenlő intervallumra osztja (egyforma rács). Ha A és B az attribútum legnagyobb és legkisebb értékei, akkor az intervallum: 𝑊 = (𝐵 − 𝐴)/𝑁<br>
__*De*__ az outlier-ek meghatározóak!

Például az alábbi halmaz elemeit akarjuk 5 vödörbe sorolni: [1, 1, 2, 2, 2, 3, 4, 5, 5, 6, 7, 8, 9, 10, 11]. Ez esetben A=1, B=11, N=5.<br>
W=(11-1)/5=2<br>
Ez azt jelenti, hogy a vödrök az alábbiak: [1-3], [3-5], [5-7], [7-9], [9-11]

Az otlierek szerepe az, hogy ha a fenti halmazt tartalmazza még a 101-et is, akkor A=1, B=101, N=5 így W=20, a vödrök pedig:<br>
[1-21], [21-41], [41-61], [61-81], [81-101]<br>
Ez azonban azt jelenti, hogy az összes érték az első vödörbe került, kivéve a 101 ami az utolsóba, a többi vödör pedig üres.

#### Egyenlő mélységű partícionálás

Gyakoriság alapú vödrözés ami tartományt 𝑁 intervallumra osztja oly módon, hogy mindegyik megközelítőleg ugyanannyi elemet tartalmaz. Ha M elem van és N vödörbe kell osztani, akkor egy vödör M/N elemet tartalmaz (ez azonban nem mindig kivitelezhető pontosan).

A korábbi [1, 1, 2, 2, 2, 3, 4, 5, 5, 6, 7, 8, 9, 10, 11, 101] példánál maradva az 5 vödör az alábbi:<br>
[1, 1], [2, 2, 2], [3, 4, 5, 5], [6, 7, 8, 9], [10, 11, 101]<br>
Ebben az esetben az outlier miatt egy elég széles vödör jött létre, illetve a duplikált értékek is nehezítik a vödrök kialakítását.

## Attribútum értékének skálázása

**Tulajdonság skálázása (feature scaling)** vs. **normalizálás (normalization)**:
- Normalizálás: az adatok eloszlása megváltozik
    - hasznos ha tudjuk, hogy az adatok nem normál eloszlásúak
    - A normalizáció megváltoztatja az adatok eloszlását de biztosítja hogy egy specifikus tulajdonságuk megmarad (mint L1, L2 norma).
- Skálázás: az adatok tartománya változik
    - A skálázás egy specifikus tartományra változtatja az adatokat ([0,1] or [-1,1]) de nem változtatja meg az eloszlásukat.

Módszerek:
- min-max skálázás
- z-score standardizálás
- L-norma átalakítás
- normalizáció decimális skálázással
- Log transzformáció

Normalizáció: az adatok olyan módú átalakítása, hogy egy specifikus tartományba essenek vagy egy specifikus eloszlást kövessenek. Segít megelőzni, hogy a nagy értékű tulajdonságok elnyomják a kis értékű tulajdonságokat, segít felgyorsítani a konvergenciát az optimalizálás során, segít elérni, hogy a különböző a különböző tulajdonságok egyformán járuljanak hozzá a tanulási folyamathoz.

### Min-max skálázás

Az attribútum 𝑣 értékét transzformálja lineáris módon a [𝑛𝑒𝑤_𝑚𝑖𝑛𝐴, 𝑛𝑒𝑤_𝑚𝑎𝑥𝐴] tartományra:
![image.png](attachment:image.png)

Például ha egy 0-200 skálán a változó értéke 100, és ezt a 0-1 tartományra akarjuk transzformálni, akkor:<br>
v=100, minA=0, maxA=200, new_minA=0, new_maxA=1<br>
így a fenti képlet alapján (100-0)/(200-0)*(1-0)+0=v'

In [5]:
(100-0)/(200-0)*(1-0)+0

0.5

### L-norma átalakítás

**L1-normalizáció (Least Absolute Deviation– L1 norma alapján)**
- a normált adatok abszolútértékének összege 1, kevésbé érzékeny az outlierekre.

Például az alábbi vektor esetében X=[4,−3,2]<br>
a X′=X/∑∣X∣ képlet alapján:<br>
∣4∣+∣−3∣+∣2∣=4+3+2=9<br>
X′=[4/9​,-3/9​,2/9​] azaz<br>
X′=[0.444,−0.333,0.222]<br>
|0.444|+|-0.333|+|0.222| = 1, azaz a normált adatok abszolútértékének összege 1

In [16]:
import numpy as np
from sklearn.preprocessing import normalize

X = np.array([[4, -3, 2]])
X_normalized = normalize(X, norm='l1')

print(X_normalized, np.sum(np.abs(X_normalized)))

[[ 0.44444444 -0.33333333  0.22222222]] 0.9999999999999999


**L2-normalizáció (Least Squares– L2 norma alapján)**
- a normált adatok négyzeteinek összege 1

Például a X=[4,−3,2] vektor esetén<br>
X′=X/||X||​ képlet alapján, ahol ||X|| a Euklideszi norma az alábbiak alapján számolva:<br>
||X||=sqrt(4^2 + -3^2 + 2^2)=sqrt(16+9+4)=sqrt(29)=5.385<br>
X′=[4,−3,2]/5.385=[0.743,−0.557,0.371]

In [18]:
import numpy as np
from sklearn.preprocessing import normalize

X = np.array([[4, -3, 2]])
X_normalized = normalize(X, norm='l2')

print(X_normalized, np.sqrt(np.sum(X_normalized ** 2)))

[[ 0.74278135 -0.55708601  0.37139068]] 1.0


### Z-score standardizálás

Megmutatja milyen távol vannak az értékek az átlagtól.<br>
𝑣′=(𝑣−𝑎𝑣𝑔𝐴)/𝑠𝐴<br>
ahol:<br>
- 𝑎𝑣𝑔𝐴 az 𝐴 attribútum átlagát és 
- 𝑠𝐴 az 𝐴 attribútum szórását jelenti

<br>Az eredménye mean (átlag) = 0 és standard deviation (szórás) = 1.

Például ha X=[10,20,30,40,50]<br>
avgA=(10+20+30+40+50)/5=30<br>
sA=sqrt((10-30)^2+(20-30)^2+(30-30)^2+(40-30)^2"(50-30)^2)=sqrt(400+100+0+100+400)=14.14<br>
X'=[-1.41, -0.71, 0, 0.71, 1.41]

In [24]:
import numpy as np
from sklearn.preprocessing import StandardScaler

# Sample dataset
X = np.array([[10], [20], [30], [40], [50]])

scaler = StandardScaler()
X_standardized = scaler.fit_transform(X)
print(X_standardized, np.mean(X_standardized), np.std(X_standardized))

[[-1.41421356]
 [-0.70710678]
 [ 0.        ]
 [ 0.70710678]
 [ 1.41421356]] 0.0 0.9999999999999999


### Decimális skálázás

Egy olyan normalizációs technika, ahol a decimális pontot mozdítjuk el oly módon, hogy a végeredményben a legnagyobb érték abszolútértéke kisebb legyen 1-nél.<br>
𝑣′=𝑣/(10^𝑗)<br>
ahol 𝑗 az a legkisebb egész szám, amire max(|𝑣′|) < 1

Például h az adataink: X=[120,45,789]<br>
Akkor a legnagyobb abszolút érték 789, ez 3 számjegy, így j=3<br>
A formulát alkalmazva az eredmény halmaz: X'=[0.12, 0.045, 0.789]<br>
Amit látni kell, hogy a legnagyobb érték abszolút értéke kisebb mint 1.

In [25]:
import numpy as np

X = np.array([120, 45, 789])

max_val = np.max(np.abs(X))

j = len(str(max_val))

X_scaled = X / (10 ** j)

print(X_scaled, j, np.max(X_scaled))

[0.12  0.045 0.789] 3 0.789


### Log transzformáció

A ferde adatok kezelésére használjuk azért, hogy csökkentsük a változatosságot és kevésbé ferdévé tegyük az adatokat. Segít megfelelni a normalitás követelményének azon algoritmusokban, ahol ez elvárás.<br>
𝑦 = log𝑏(𝑥) (y egyenlő b alapú logaritmus x)

![image.png](attachment:image.png)

### Példa

In [35]:
import pandas as pd
import numpy as np
from scipy.spatial.distance import pdist, squareform

df = pd.DataFrame(columns=["ÜgyfélID", "Beszéd (mp)", "SMS (db)", "Adatforgalom (mb)"], 
                  data=[[1, 15000, 20, 800], [2, 5600, 1, 4500], [3, 4200, 33, 1500], [4, 18000, 12, 1200], [5, 8500, 7, 600]])

df.head(10)

Unnamed: 0,ÜgyfélID,Beszéd (mp),SMS (db),Adatforgalom (mb)
0,1,15000,20,800
1,2,5600,1,4500
2,3,4200,33,1500
3,4,18000,12,1200
4,5,8500,7,600


In [40]:
X = df.iloc[:, 1:].values  # "Beszéd (mp)", "SMS (db)", "Adatforgalom (mb)"

distance_matrix = squareform(pdist(X, metric='euclidean'))
distance_df = pd.DataFrame(distance_matrix, index=df["ÜgyfélID"], columns=df["ÜgyfélID"])

print("Distance Matrix without transformation\n", distance_df)

Distance Matrix without transformation
 ÜgyfélID             1             2             3             4            5
ÜgyfélID                                                                     
1             0.000000  10101.997872  10822.669218   3026.559763  6503.089189
2         10101.997872      0.000000   3310.743723  12831.606330  4860.044856
3         10822.669218   3310.743723      0.000000  13803.276459  4393.253464
4          3026.559763  12831.606330  13803.276459      0.000000  9518.929824
5          6503.089189   4860.044856   4393.253464   9518.929824     0.000000


Ez alapján az 1-es ügyfél a 3-as ügyféltől van a legtávolabb.

In [44]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler(feature_range=(0, 1))
X_scaled = scaler.fit_transform(X)

distance_matrix_min_max = squareform(pdist(X_scaled, metric='euclidean'))
distance_df_min_max = pd.DataFrame(distance_matrix_min_max, index=df["ÜgyfélID"], columns=df["ÜgyfélID"])

print("Distance Matrix without transformation\n", distance_df_min_max)

Distance Matrix without transformation
 ÜgyfélID         1         2         3         4         5
ÜgyfélID                                                  
1         0.000000  1.310184  0.899851  0.346812  0.624118
2         1.310184  0.000000  1.265705  1.281224  1.038902
3         0.899851  1.265705  0.000000  1.198575  0.900279
4         0.346812  1.281224  1.198575  0.000000  0.722485
5         0.624118  1.038902  0.900279  0.722485  0.000000


Ez alapján az 1-es ügyfél a 2-es ügyféltől van a legtávolabb.

Az eltérés oka az, hogy az eredeti adathalmazban az egyes értékek más skálán mozognak, így nem egyenlő arányban járulnak hozzá a távolsághoz. A beszéd a tízezres nagyságrendben mozog míg az sms csak tízes nagyságrend.