# Data Preprocessing: Esercitazione

Per questo esercizio dovrai pulire e processare il Boston Housing Dataset, un dataset contenente diverse informazioni relative alle abitazione nell'area di Boston. Puoi scaricare il dataset [da qui](https://raw.githubusercontent.com/ProfAI/machine-learning-fondamenti/main/datasets/housing_dirty.csv).

Il dataset contiene le seguenti informazioni

1. **CRIM** Tasso di criminalità per capita
2. **ZN** Percentuale di terreni residenziali suddivisi in zone per lotti superiori a 25.000 sq.ft.
3. **INDUS** Percentuale di ettari di attività non al dettaglio per città.
4. **CHAS** Variabile dummy che indica la prossimità al fiume Charles.
5. **NOX** Concentrazione di ossido d'azoto (parti per 10 milioni).
6. **RM** Numero medio di stanze per abitazione
7. **AGE** Percentuale di abitazione occupate costruite dopo il 1940
8. **DIS** Media pesata delle distanze da 5 centri lavorativi di Boston.
9. **RAD** Indice di accessibilità ad autostrade
10. **TAX** Aliquota dell'imposta sulla proprietà a valore pieno in 10.000 USD.
11. **PRATIO** Rapporto studente-insegnante per città.
12. **BLACK** 1000(Bk - 0.63)^2 dove Bk è la percentuale di abitanti di colore per città
13. **LSTAT** Percentuale della popolazione povera
14. **PRICE** Mediana del valore di abitazioni occupate in 1.000 USD.

Nello specifico, devi risolvere i seguenti punti:
1. Verifica il numero di righe e colonne del dataset
2. Verifica la tipologia di ogni variabile
3. Verifica il numero di valori mancanti per ogni colonna
4. Rimuovi eventualmente le colonne con oltre il 30% di valori mancanti
5. Rimuovi eventualmente le righe con oltre il 25% di valori mancanti
6. Rimuovi tutte le righe dove PRICE è mancante
7. Esegui l'imputazione con valore medio per i restanti valori mancanti quantitativi
8. Esegui la codifica di eventuali variabili qualitative
9. Esegui l'imputazione con moda per i restanti valori mancanti qualitativi
10. Esegui la standardizzazione
11. Salva il nuovo dataframe in un tsv chiamato "housing_clean.tsv"

### Soluzione

In [157]:
import pandas as pd
df = pd.read_csv("../datasets/housing_dirty.csv", index_col=0)
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,PRICE
0.0,LOW,18.0,2.31,NO,538.0,6575.0,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1.0,LOW,0.0,7.07,NO,469.0,6421.0,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2.0,LOW,0.0,7.07,NO,469.0,7185.0,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3.0,LOW,0.0,2.18,NO,458.0,6998.0,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4.0,LOW,0.0,2.18,NO,458.0,7147.0,54.2,6.0622,3.0,222.0,18.7,396.9,,36.2


### 1. Verifica il numero di righe e colonne nel dataset

In [158]:
df.shape

(506, 14)

### 2. Verifica la tipologia di ogni variabile

In [159]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Float64Index: 506 entries, 0.0 to 505.0
Data columns (total 14 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CRIM     506 non-null    object 
 1   ZN       504 non-null    float64
 2   INDUS    503 non-null    float64
 3   CHAS     506 non-null    object 
 4   NOX      499 non-null    float64
 5   RM       501 non-null    float64
 6   AGE      502 non-null    float64
 7   DIS      501 non-null    float64
 8   RAD      503 non-null    float64
 9   TAX      504 non-null    float64
 10  PTRATIO  501 non-null    float64
 11  B        503 non-null    float64
 12  LSTAT    307 non-null    float64
 13  PRICE    502 non-null    float64
dtypes: float64(12), object(2)
memory usage: 59.3+ KB


In [160]:
df.describe()

Unnamed: 0,ZN,INDUS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,PRICE
count,504.0,503.0,499.0,501.0,502.0,501.0,503.0,504.0,501.0,503.0,307.0,502.0
mean,11.359127,11.165169,464.341474,5635.118064,68.514741,380.588031,9.574553,408.380952,18.463673,356.732127,12.360521,22.479482
std,23.355367,6.870201,223.653453,2007.343355,28.180007,1273.597641,8.725901,168.806575,2.151734,91.405284,7.307171,9.159295
min,0.0,0.46,0.4,4.88,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.0,5.19,428.0,5757.0,45.025,2.1185,4.0,279.0,17.4,375.425,6.545,16.85
50%,0.0,9.69,504.0,6129.0,77.5,3.4952,5.0,330.0,19.1,391.43,10.59,21.2
75%,12.5,18.1,605.0,6545.0,93.975,6.0622,24.0,666.0,20.2,396.22,17.025,25.0
max,100.0,27.74,871.0,8725.0,100.0,8344.0,24.0,711.0,22.0,396.9,36.98,50.0


In [161]:
df["CRIM"].value_counts()

HIGH         130
LOW          127
VERY HIGH    127
MODERATE     122
Name: CRIM, dtype: int64

In [162]:
df["CHAS"].value_counts()

NO     471
YES     35
Name: CHAS, dtype: int64

### 3. Verifica il numero di valori mancanti per ogni colonna

In [163]:
df.count()

CRIM       506
ZN         504
INDUS      503
CHAS       506
NOX        499
RM         501
AGE        502
DIS        501
RAD        503
TAX        504
PTRATIO    501
B          503
LSTAT      307
PRICE      502
dtype: int64

### 4. Rimuovi eventualmente le colonne con oltre il 30% di valori mancanti

In [164]:
df.count()<df.shape[0]*0.7

CRIM       False
ZN         False
INDUS      False
CHAS       False
NOX        False
RM         False
AGE        False
DIS        False
RAD        False
TAX        False
PTRATIO    False
B          False
LSTAT       True
PRICE      False
dtype: bool

In [165]:
df = df.drop("LSTAT", axis=1)
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,PRICE
0.0,LOW,18.0,2.31,NO,538.0,6575.0,65.2,4.09,1.0,296.0,15.3,396.9,24.0
1.0,LOW,0.0,7.07,NO,469.0,6421.0,78.9,4.9671,2.0,242.0,17.8,396.9,21.6
2.0,LOW,0.0,7.07,NO,469.0,7185.0,61.1,4.9671,2.0,242.0,17.8,392.83,34.7
3.0,LOW,0.0,2.18,NO,458.0,6998.0,45.8,6.0622,3.0,222.0,18.7,394.63,33.4
4.0,LOW,0.0,2.18,NO,458.0,7147.0,54.2,6.0622,3.0,222.0,18.7,396.9,36.2


### 5. Rimuovi eventualmente le righe con oltre il 25% di valori mancanti

In [166]:
row_na = df.isna().sum(axis=1)
row_na = row_na[row_na>df.shape[1]*0.25] 
row_na

14.0     4
34.0     7
63.0     7
131.0    7
234.0    4
dtype: int64

In [167]:
to_remove = row_na.index.values
df = df.drop(to_remove)
df.shape

(501, 13)

### 6. Rimuovi tutte le righe dove MEDV è mancante

In [168]:
row_price_na = df["PRICE"].isna()
row_price_na = row_price_na[row_price_na>0] 
row_price_na

117.0    True
165.0    True
206.0    True
233.0    True
Name: PRICE, dtype: bool

In [169]:
to_remove = row_price_na.index.values
df = df.drop(to_remove)
df.shape

(497, 13)

### 7. Esegui l'imputazione con valore medio per i restanti valori mancanti quantitativi

In [170]:
cols = df.columns
cols = cols.drop(["CRIM", "CHAS"])
cols

Index(['ZN', 'INDUS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B',
       'PRICE'],
      dtype='object')

In [171]:
replace_with = df[cols].mean().round(2)
df[cols] = df[cols].fillna(replace_with)
na_count = df[cols].isna().sum().sum()
na_count

0

### 8. Esegui la codifica di eventuali variabili qualitative

In [172]:
mapping = {"LOW":1, "MODERATE":2, "HIGH":3, "VERY HIGH":4} 
df["CRIM"] = df["CRIM"].map(mapping)
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,PRICE
0.0,1,18.0,2.31,NO,538.0,6575.0,65.2,4.09,1.0,296.0,15.3,396.9,24.0
1.0,1,0.0,7.07,NO,469.0,6421.0,78.9,4.9671,2.0,242.0,17.8,396.9,21.6
2.0,1,0.0,7.07,NO,469.0,7185.0,61.1,4.9671,2.0,242.0,17.8,392.83,34.7
3.0,1,0.0,2.18,NO,458.0,6998.0,45.8,6.0622,3.0,222.0,18.7,394.63,33.4
4.0,1,0.0,2.18,NO,458.0,7147.0,54.2,6.0622,3.0,222.0,18.7,396.9,36.2


In [173]:
mapping = {"YES":1, "NO":0} 
df["CHAS"] = df["CHAS"].map(mapping)
df.head(5)

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,PRICE
0.0,1,18.0,2.31,0,538.0,6575.0,65.2,4.09,1.0,296.0,15.3,396.9,24.0
1.0,1,0.0,7.07,0,469.0,6421.0,78.9,4.9671,2.0,242.0,17.8,396.9,21.6
2.0,1,0.0,7.07,0,469.0,7185.0,61.1,4.9671,2.0,242.0,17.8,392.83,34.7
3.0,1,0.0,2.18,0,458.0,6998.0,45.8,6.0622,3.0,222.0,18.7,394.63,33.4
4.0,1,0.0,2.18,0,458.0,7147.0,54.2,6.0622,3.0,222.0,18.7,396.9,36.2


### 9. Esegui l'imputazione con moda per i restanti valori mancanti qualitativi

In [174]:
cols = ["CRIM", "CHAS"]
replace_with = df[cols].mode()
df[cols] = df[cols].fillna(replace_with)
na_count = df[cols].isna().sum().sum()
na_count

0

 ### 10. Esegui la standardizzazione

In [175]:
df = (df - df.mean())/df.std() #ddof=0 per replicare i risultati di sklearn
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,PRICE
0.0,-1.332248,0.276014,-1.286596,-0.270715,0.333828,0.471394,-0.114356,-0.297537,-0.983221,-0.669013,-1.47482,0.438845,0.163931
1.0,-1.332248,-0.490586,-0.594299,-0.270715,0.025561,0.394837,0.370174,-0.296851,-0.869154,-0.987392,-0.311358,0.438845,-0.097273
2.0,-1.332248,-0.490586,-0.594299,-0.270715,0.025561,0.774641,-0.259362,-0.296851,-0.869154,-0.987392,-0.311358,0.394484,1.328465
3.0,-1.332248,-0.490586,-1.305504,-0.270715,-0.023583,0.681678,-0.80048,-0.295994,-0.755088,-1.10531,0.107488,0.414103,1.18698
4.0,-1.332248,-0.490586,-1.305504,-0.270715,-0.023583,0.75575,-0.503396,-0.295994,-0.755088,-1.10531,0.107488,0.438845,1.491718


### 11. Salva il nuovo dataframe in un tsv chiamato "housing_cleaned.tsv"

In [176]:
df.to_csv("housing_cleaned.tsv", sep="\t")