In [63]:
!pip install pandas
!pip install scikit-learn
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split

In [64]:
# lettura del csv
path = "mushrooms.partial.csv"
data = pd.read_csv(path)

In [65]:
# prima visualizzazione dei dati
#data.head()

In [66]:
# calcolo dei valori missing in funzione delle colonne
missing_values_count = (data=='?').sum()
#missing_values_count

In [67]:
# calcolo della percentuale dei dati missing
total_values = np.product(data.shape)  #numero totale dei valori
total_missing = missing_values_count.sum()  #numero totale dei valori missing

percent_missing = (total_missing/total_values) * 100
#print('Percentuale dei dati persi:',percent_missing,'%')
#Percentuale dei dati persi: 1.3426814827699245 %

In [68]:
# eliminazione della colonna stalk-root

# I dati persi si trovano unicamente su di una colonna.
# Essi costituiscono circa il 32% di quella colonna
# ed essendo valori categorici, quindi non sotituibili,
# ho sceldo di eliminare interamente la colonna
data_dropped = data.drop(['stalk-root'], axis=1)

In [69]:
# definizione degli insiemi x e y
y = data['class']
X = data.drop(['class'], axis=1)

In [70]:
#y.describe()

In [71]:
# sostituisco le variabili "e" ed "p" con i valori 1.0 e 0.0 rispettivamente
for n in y.keys():
    if y[n]=='e':
        y[n]=1.0
    elif y[n]=='p':
        y[n]=0.0
        
#y.describe()

In [72]:
# generazione degli insiemi di train e testper x e y
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=0)

#X_train.shape

In [73]:
# Applicazione della codifica one-hot ad ogni colonna di X, 
# in quando ognuna di esse rappresenta variabili categoriche.

# Tale codifica crea per ogni valore distinto di ogni colonna una nuova colonna
# i cui valori sono 1 o 0 in funzione della presenza dei rispettivi valori,
# mentre il numero di righe resta invariato.

# es. data la colonna C con valori 'a' e 'b' genera due nuove colonne, una per 'a'
# che avrà valore 1 per ogni riga in C con valore 'a', zero altrimenti,
# ed una colonna per 'b' che avrà valore 1 per ogni riga in C con valore 'b', 
# zero altrimenti

# sparse=False assicura che le colonne codificate vengano restituite come un array numpy e non come una matrice sparsa
# handle_unknown='ignore' ignora eventuali messaggi di errore nel caso in cui ci siano valori diversi in train e test
OH_encoder = OneHotEncoder(sparse=False, handle_unknown='ignore')
OH_X_train = pd.DataFrame(OH_encoder.fit_transform(X_train))
OH_X_test = pd.DataFrame(OH_encoder.transform(X_test))

# la codifica One-hot rimuove gli indici; li ripristino
OH_X_train.index = X_train.index
OH_X_test.index = X_test.index

#OH_X_test.shape

In [74]:
# preparazione dei dati per la scrittura su csv
train = pd.concat([OH_X_train, y_train], axis=1)
test = pd.concat([OH_X_test, y_test], axis=1)

In [75]:
# scrittura
train.to_csv('train.csv', index=False)  # index=False non riporta l'indice come colonna nel csv
test.to_csv('test.csv', index=False)

In [76]:
# verifiche di corretta formattazione per la successiva lettura

#provatrain = pd.read_csv('train.csv')
#provatest = pd.read_csv('test.csv')
#print(provatrain.head())
#print(provatest.head())