# Notebook per preparare i dati

Partendo dal dataset "Placement_Data_Full_Class.train.csv", questo notebook crea e scrive sul filesystem due file csv:"train.csv" e "test.csv" facendo uso della funzione "train_test_split" della libreria Sklearn.

Tali file che rappresentano uno split del dataset sono impiegati per l'addestramento del classificatore nel notebook di training. 

In [115]:
# Importo pandas per caricare i dati e per salvare i dati su disco
import pandas as pd

In [116]:
# Importo "traint_test_split" per effettuare la suddivisione dei dati
from sklearn.model_selection import train_test_split

In [117]:
# Carico i dati dal dataset
dataset = pd.read_csv('Placement_Data_Full_Class.train.csv')

### Esplorazione del dataset

In [118]:
# Dimensionalità
dataset.shape

(172, 14)

In [119]:
# Da questo noto che il dataset è piuttosto pulito, ad eccezione della colonna "salary" che ha 55 row nulle.
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 172 entries, 0 to 171
Data columns (total 14 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   status          172 non-null    object 
 1   gender          172 non-null    object 
 2   ssc_p           172 non-null    float64
 3   ssc_b           172 non-null    object 
 4   hsc_p           172 non-null    float64
 5   hsc_b           172 non-null    object 
 6   hsc_s           172 non-null    object 
 7   degree_p        172 non-null    float64
 8   degree_t        172 non-null    object 
 9   workex          172 non-null    object 
 10  etest_p         172 non-null    float64
 11  specialisation  172 non-null    object 
 12  mba_p           172 non-null    float64
 13  salary          117 non-null    float64
dtypes: float64(6), object(8)
memory usage: 18.9+ KB


In [120]:
# Esploro le feature del dataset
dataset.columns

Index(['status', 'gender', 'ssc_p', 'ssc_b', 'hsc_p', 'hsc_b', 'hsc_s',
       'degree_p', 'degree_t', 'workex', 'etest_p', 'specialisation', 'mba_p',
       'salary'],
      dtype='object')

In [121]:
# Controllo le prime 5 entry
dataset.head()

Unnamed: 0,status,gender,ssc_p,ssc_b,hsc_p,hsc_b,hsc_s,degree_p,degree_t,workex,etest_p,specialisation,mba_p,salary
0,Not Placed,M,52.0,Central,62.0,Central,Commerce,54.0,Comm&Mgmt,No,72.0,Mkt&HR,55.41,
1,Placed,M,70.0,Central,63.0,Others,Science,70.0,Sci&Tech,Yes,55.0,Mkt&Fin,62.0,300000.0
2,Placed,M,73.0,Central,78.0,Others,Commerce,65.0,Comm&Mgmt,Yes,95.46,Mkt&Fin,62.16,420000.0
3,Placed,M,67.0,Others,63.0,Central,Commerce,72.0,Comm&Mgmt,No,56.0,Mkt&HR,60.41,225000.0
4,Placed,M,80.6,Others,82.0,Others,Commerce,77.6,Comm&Mgmt,No,91.0,Mkt&Fin,74.49,400000.0


In [122]:
# Estraggo dal dataset la variabile da predire, cioè la label y relativa alla feature "status"
Y = dataset['status']

In [123]:
# Estraggo dal dataset le feature rimanenti, che formano il vettore delle feature del nostro modello
X = dataset.drop(columns=['status'])

In [124]:
# Effettuo la divisione del dataset per ottenere i dati di addestramento e di test.
# Ho impostato il parametro test_size=0.20 perciò il training set sarà composto dall'80% dei dati contenuti nel dataset 
# mentre il test set sarà composto dal restante 20%
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, train_size=0.8, test_size=0.2,random_state=0) 

In [125]:
# Costruisco il dataset d'addestramento, cioè il training set
training_set = pd.concat([X_train, Y_train], axis=1)

In [126]:
# Controllo il training set
training_set.head()

Unnamed: 0,gender,ssc_p,ssc_b,hsc_p,hsc_b,hsc_s,degree_p,degree_t,workex,etest_p,specialisation,mba_p,salary,status
44,M,77.67,Others,64.89,Others,Commerce,70.67,Comm&Mgmt,No,89.0,Mkt&Fin,60.39,300000.0,Placed
80,M,84.2,Central,69.4,Central,Science,65.0,Sci&Tech,Yes,80.0,Mkt&HR,52.72,255000.0,Placed
107,M,52.0,Others,55.0,Others,Commerce,56.3,Comm&Mgmt,No,59.0,Mkt&Fin,64.74,,Not Placed
98,M,63.0,Central,60.0,Central,Commerce,57.0,Comm&Mgmt,Yes,78.0,Mkt&Fin,54.55,204000.0,Placed
169,F,60.23,Central,69.0,Central,Science,66.0,Comm&Mgmt,No,72.0,Mkt&Fin,59.47,230000.0,Placed


In [127]:
# Salvo il training set sul filesystem su un nuovo file csv 
training_set.to_csv('train.csv', index=False)

In [128]:
# Costruisco il dataset per valutare il modello che sarà addestrato, cioè il test set
test_set = pd.concat([X_test, Y_test], axis=1)

In [129]:
# Controllo il test set
test_set.head()

Unnamed: 0,gender,ssc_p,ssc_b,hsc_p,hsc_b,hsc_s,degree_p,degree_t,workex,etest_p,specialisation,mba_p,salary,status
54,M,52.0,Others,50.0,Others,Arts,61.0,Comm&Mgmt,No,60.0,Mkt&Fin,58.52,,Not Placed
146,M,78.5,Central,65.5,Central,Science,67.0,Sci&Tech,Yes,95.0,Mkt&Fin,64.86,280000.0,Placed
63,M,62.0,Central,72.0,Central,Commerce,65.0,Comm&Mgmt,No,67.0,Mkt&Fin,56.49,216000.0,Placed
55,M,51.0,Central,44.0,Central,Commerce,57.0,Comm&Mgmt,No,64.0,Mkt&Fin,51.45,,Not Placed
125,F,55.0,Central,67.0,Central,Commerce,64.0,Comm&Mgmt,No,60.0,Mkt&Fin,67.28,,Not Placed


In [130]:
# Salvo il test set sul filesystem su un nuovo file csv 
test_set.to_csv('test.csv',index=False)