# Transformări de date

Datele nu se află întotdeauna într-un format convenabil, prin urmare acestea trebuie procesate. De multe ori, trebuie procesate date non-numerice (nume de clienți, coduri poștale, nume de țări etc.) 

O parte importantă a lucrului cu date este cea de înțelegere a acestora. Folosind propriile cunoștințe asupra domeniului, se construiește o intuiție a modului în care datele respective trebuie abordate și procesate. Uneori, cel mai bun lucru este ștergerea anumitor date, alteori trebuie realizată o etapă de feature-engineering. În general, se încearcă transformarea datelor într-un format adecvat datelor de intrare pentru algoritmii ML.

Spark oferă metode ce permit realizarea acestor transformări: http://spark.apache.org/docs/latest/ml-features.html


In [1]:
#Import SparkSession


In [2]:
#Construire sesiune Spark


In [3]:
#Citirea fisierului fake_customers.csv in DataFrame
#df=

In [None]:
#Afișare


## Caracteristici ale datelor

### StringIndexer

De multe ori va trebui să convertim informația de tip șir de caractere în informație numerică, ce corespunde caracteristicilor categoriale. Această transformare se realizează cu ușurință cu ajutorul clasei StringIndexer:

In [None]:
from pyspark.ml.feature import StringIndexer

df = spark.createDataFrame(
    [(0, "a"), (1, "b"), (2, "c"), (3, "a"), (4, "a"), (5, "c")],
    ["user_id", "category"])

indexer = StringIndexer(inputCol="category", outputCol="categoryIndex")
indexed = indexer.fit(df).transform(df)
indexed.show()

### VectorAssembler

VectorAssembler este un transformator ce combină o listă dată de coloane în cadrul unui singur vector coloană. Acesta este util pentru combinarea caracteristicilor brute și a celor generate de către diferiți transformatori într-un singur vector de caracteristici, cu scopul de a antrena modele ML (regresie logistică, arbori de decizie etc.)

VectorAssembler acceptă următoarele tipuri ale coloanelor de intrare: toate tipurile numerice, tipul boolean și vector. În fiecare linie, valorile coloanelor de intrare vor fi concatenate într-un vector, în ordinea specificată.

Presupunem că avem un DataFrame cu coloanele "id", "hour", "mobile", "userFeatures" și "clicked":

     id | hour | mobile | userFeatures     | clicked
    ----|------|--------|------------------|---------
     0  | 18   | 1.0    | [0.0, 10.0, 0.5] | 1.0
     
userFeatures este un vector coloană ce conține 3 caracteristici ale unui utilizator. Dorim să combinăm "hour", "mobile" și "userFeatures" în cadrul unui singur vector de caracteristici, denumit "features", pe care să îl folosim pentru a realiza o predicție asupra coloanei "clicked". Pentru aceasta, specificăm coloanele de intrare ale obiectului VectorAssembler ca fiind "hour", "mobile", "userFeatures", iar coloana de ieșire "features". După această transformare, obținem următorul DataFrame:

     id | hour | mobile | userFeatures     | clicked | features
    ----|------|--------|------------------|---------|-----------------------------
     0  | 18   | 1.0    | [0.0, 10.0, 0.5] | 1.0     | [18.0, 1.0, 0.0, 10.0, 0.5]

In [None]:
#Testati exemplul de mai sus
#Import Vectors, VectorAssembler
from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import VectorAssembler

#Creati DataFrame-ul cu o singura linie de mai sus
dataset = spark.createDataFrame(
    [(0, 18, 1.0, Vectors.dense([0.0, 10.0, 0.5]), 1.0)],
    ["id", "hour", "mobile", "userFeatures", "clicked"])
dataset.show()

In [None]:
# Creați obiectul VectorAssembler
#assembler = 

#Transformați datele, aplicând acest asamblor
#output = 

print("Assembled columns 'hour', 'mobile', 'userFeatures' to vector column 'features'")

#Afișați coloanele features și clicked, fără trunchere


Celelalte transformări au fost prezentate parțial la curs. Pentru detalii asupra tuturor tipurilor de transformări se va consulta documentația. 