In [16]:
import numpy as np
import pandas as pd
shirts = pd.read_csv('data/shirts.csv', index_col=0)
shirts.head()

Unnamed: 0,taglia,colore,prezzo
0,S,bianco,4.99
1,M,bianco,19.99
2,XL,bianco,12.49
3,XL,bianco,14.99
4,S,bianco,14.99


In [17]:
# Crea un array numpy contenente il dataset
X = shirts.values
X[:5]

array([['S', 'bianco', 4.99],
       ['M', 'bianco', 19.99],
       ['XL', 'bianco', 12.49],
       ['XL', 'bianco', 14.99],
       ['S', 'bianco', 14.99]], dtype=object)

In [18]:
# Taglia e colore sono variabili categoriche. 
# Taglia è una variabile categorica ordinale poichè si può stabilire un ordinamento
# Colore è una variabile categorica nominale poichè non si può stabilire un ordine
# Prezzo è una variabile quantitativa continua
# Trasformiamo le variabili categoriche in numeri
#
# Variabili ordinali
#
# Con pandas
size_mapping = {'S': 0, 'M': 1, 'L': 2, 'XL': 3}
shirts['taglia'] = shirts['taglia'].map(size_mapping)
shirts.head()

Unnamed: 0,taglia,colore,prezzo
0,0,bianco,4.99
1,1,bianco,19.99
2,3,bianco,12.49
3,3,bianco,14.99
4,0,bianco,14.99


In [19]:
# Con numpy
# Creaiamo una funzione di mapping
fmap = np.vectorize(lambda t:size_mapping[t])
# Applichiamo la funzione
X[:,0] = fmap(X[:,0])
X[:5]

array([[0, 'bianco', 4.99],
       [1, 'bianco', 19.99],
       [3, 'bianco', 12.49],
       [3, 'bianco', 14.99],
       [0, 'bianco', 14.99]], dtype=object)

In [20]:
# Variabile nominale: one-hot encoding
#
# Con pandas
# Creazione di variabili di comodo: dummies variables
shirts = pd.get_dummies(shirts, columns=['colore'])
shirts.head()

Unnamed: 0,taglia,prezzo,colore_bianco,colore_rosso,colore_verde
0,0,4.99,1,0,0
1,1,19.99,1,0,0
2,3,12.49,1,0,0
3,3,14.99,1,0,0
4,0,14.99,1,0,0


In [21]:
# Con numpy
# Dobbiamo utilizzare scikit-learn
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer
# Encoding della colonna colore
le = LabelEncoder()
X[:,1] = le.fit_transform(X[:,1])
ct = ColumnTransformer([("colore", OneHotEncoder(), [1])], remainder = 'passthrough')
X = ct.fit_transform(X)
X[:5]

array([[1.0, 0.0, 0.0, 0, 4.99],
       [1.0, 0.0, 0.0, 1, 19.99],
       [1.0, 0.0, 0.0, 3, 12.49],
       [1.0, 0.0, 0.0, 3, 14.99],
       [1.0, 0.0, 0.0, 0, 14.99]], dtype=object)