# Valores ausentes

Esther Cuervo Fernández

14 Mayo 2019

In [213]:
import pandas as pd
import numpy as np

## Lectura de datos

In [214]:
data = pd.read_csv("data/AmesHousing.csv")
TODELETE = ["Order", "PID", "Condition 2", "Heating", "Pool QC", "Roof Matl", "Street", "Utilities", "Lot Frontage"]
ATTR = data.columns.difference(TODELETE)

In [215]:
len(data)

2930

Eliminamos outlier año de construcción de Garage = 2207

In [216]:
data = data[data['Garage Yr Blt']!=2207]

Hayamos el número de valores ausentes en los datos, considerando solo los atributos seleccionados (ATTR)

In [217]:
sumas = data.isna().sum()
for c in ATTR:
    if(sumas[c] > 0):
        print("%s contiene %d valores NaN" % (c, sumas[c]))

Alley contiene 2731 valores NaN
Bsmt Cond contiene 80 valores NaN
Bsmt Exposure contiene 83 valores NaN
Bsmt Full Bath contiene 2 valores NaN
Bsmt Half Bath contiene 2 valores NaN
Bsmt Qual contiene 80 valores NaN
Bsmt Unf SF contiene 1 valores NaN
BsmtFin SF 1 contiene 1 valores NaN
BsmtFin SF 2 contiene 1 valores NaN
BsmtFin Type 1 contiene 80 valores NaN
BsmtFin Type 2 contiene 81 valores NaN
Electrical contiene 1 valores NaN
Fence contiene 2357 valores NaN
Fireplace Qu contiene 1422 valores NaN
Garage Area contiene 1 valores NaN
Garage Cars contiene 1 valores NaN
Garage Cond contiene 159 valores NaN
Garage Finish contiene 159 valores NaN
Garage Qual contiene 159 valores NaN
Garage Type contiene 157 valores NaN
Garage Yr Blt contiene 159 valores NaN
Mas Vnr Area contiene 22 valores NaN
Mas Vnr Type contiene 22 valores NaN
Misc Feature contiene 2823 valores NaN
Total Bsmt SF contiene 1 valores NaN


Muchos de los valores NaN (sobre todo en variables categóricas) son la codificación de "No [Elemento]"

In [218]:
data["Alley"] = data.Alley.fillna("No Alley")
data["Fence"] = data.Fence.fillna("No Fence")
data["Fireplace Qu"] = data.Fence.fillna("No Fireplace")
data["Misc Feature"] = data["Misc Feature"].fillna("None")

In [219]:
sumas = data.isna().sum()
for c in ATTR:
    if(sumas[c] > 0):
        print("%s contiene %d valores NaN" % (c, sumas[c]))

Bsmt Cond contiene 80 valores NaN
Bsmt Exposure contiene 83 valores NaN
Bsmt Full Bath contiene 2 valores NaN
Bsmt Half Bath contiene 2 valores NaN
Bsmt Qual contiene 80 valores NaN
Bsmt Unf SF contiene 1 valores NaN
BsmtFin SF 1 contiene 1 valores NaN
BsmtFin SF 2 contiene 1 valores NaN
BsmtFin Type 1 contiene 80 valores NaN
BsmtFin Type 2 contiene 81 valores NaN
Electrical contiene 1 valores NaN
Garage Area contiene 1 valores NaN
Garage Cars contiene 1 valores NaN
Garage Cond contiene 159 valores NaN
Garage Finish contiene 159 valores NaN
Garage Qual contiene 159 valores NaN
Garage Type contiene 157 valores NaN
Garage Yr Blt contiene 159 valores NaN
Mas Vnr Area contiene 22 valores NaN
Mas Vnr Type contiene 22 valores NaN
Total Bsmt SF contiene 1 valores NaN


## Valores ausentes de Garaje

Comprobamos que todas las casas sin garaje (Garage Area == 0) tienen valor **NaN** en los atributos *Garage Yr Blt*, *Garage Finish* y *Garage Type*.

In [220]:
no_garages = data[data["Garage Area"] == 0]

In [221]:
no_garages["Garage Yr Blt"].count()

0

In [222]:
no_garages["Garage Finish"].count()

0

In [223]:
no_garages["Garage Type"].count()

0

In [224]:
no_garages["Garage Qual"].count()

0

In [225]:
no_garages["Garage Cond"].count()

0

Todos los `count()` son 0, por lo que estos atributos toman el valor **NaN** siempre que el área de garaje sea 0

In [226]:
null_yr_blt = data[data["Garage Yr Blt"].isnull()]
null_gr_finish = data[data["Garage Finish"].isnull()]
null_gr_type = data[data["Garage Type"].isnull()]
null_gr_qual = data[data["Garage Qual"].isnull()]
null_gr_cond = data[data["Garage Cond"].isnull()]

También queremos conocer si cualquiera de estos atributos toma valor **NaN** cuando la casa tiene garaje (Garage Area > 0)

In [227]:
null_yr_blt["Garage Area"].max()

360.0

In [228]:
null_yr_blt[null_yr_blt["Garage Area"]>0]

Unnamed: 0,Order,PID,MS SubClass,MS Zoning,Lot Frontage,Lot Area,Street,Alley,Lot Shape,Land Contour,...,Pool Area,Pool QC,Fence,Misc Feature,Misc Val,Mo Sold,Yr Sold,Sale Type,Sale Condition,SalePrice
1356,1357,903426160,60,RM,57.0,8094,Pave,Grvl,Reg,Lvl,...,0,,MnPrv,Shed,1000,9,2008,WD,Normal,160000


In [229]:
null_gr_finish["Garage Area"].max()

360.0

In [230]:
null_gr_finish[null_gr_finish["Garage Area"]>0]

Unnamed: 0,Order,PID,MS SubClass,MS Zoning,Lot Frontage,Lot Area,Street,Alley,Lot Shape,Land Contour,...,Pool Area,Pool QC,Fence,Misc Feature,Misc Val,Mo Sold,Yr Sold,Sale Type,Sale Condition,SalePrice
1356,1357,903426160,60,RM,57.0,8094,Pave,Grvl,Reg,Lvl,...,0,,MnPrv,Shed,1000,9,2008,WD,Normal,160000


Existe una instancia con área de garaje igual a 360 sq.feet cuyo Garage Finish y Garage Yr Blt es **NaN**. La eliminamos utilizando su PID.

In [231]:
data = data[data.PID != 903426160]

In [232]:
null_gr_type["Garage Area"].max()

0.0

In [233]:
null_gr_qual["Garage Area"].max()

360.0

In [234]:
null_gr_cond["Garage Area"].max()

360.0

Tras esto, ya podemos rellenar los valores **NaN** en los atributos categóricos con un valor "No Garage"

In [235]:
data.loc[data["Garage Finish"].isnull(),"Garage Finish"] = "No Garage"
data.loc[data["Garage Type"].isnull(),"Garage Type"] = "No Garage"
data.loc[data["Garage Qual"].isnull(),"Garage Qual"] = "No Garage"
data.loc[data["Garage Cond"].isnull(),"Garage Cond"] = "No Garage"

Respecto al atributo numérico "Garage Yr Blt", por el momento se decide no utilizar dicho atributo, ya que es de tipo numérico y los valores ausentes generarían problemas.

## Valores ausentes de Sótano

Además de un fenómeno similar al anterior, queremos comprobar que BsmtFin SF 1 + BsmtFin SF 2 + Bsmt Unf SF sea igual a Total Bsmt SF en todas las instancias

In [236]:
(data["BsmtFin SF 1"] + data["BsmtFin SF 2"] + data["Bsmt Unf SF"] == data["Total Bsmt SF"]).all()

False

Como se puede observar, esto no es así para todas las instancias, hay una potencialmente incorrecta. La eliminamos.

In [237]:
data[~(data["BsmtFin SF 1"] + data["BsmtFin SF 2"] + data["Bsmt Unf SF"] == data["Total Bsmt SF"])]

Unnamed: 0,Order,PID,MS SubClass,MS Zoning,Lot Frontage,Lot Area,Street,Alley,Lot Shape,Land Contour,...,Pool Area,Pool QC,Fence,Misc Feature,Misc Val,Mo Sold,Yr Sold,Sale Type,Sale Condition,SalePrice
1341,1342,903230120,20,RM,99.0,5940,Pave,No Alley,IR1,Lvl,...,0,,MnPrv,,0,4,2008,ConLD,Abnorml,79000


In [238]:
data = data[data.PID != 903230120]

`no_sotano` es un DataFrame que contiene aquellas casas sin sótano. Queremos saber si los atributos *Bsmt Full Bath*, *Bsmt Cond*, *Bsmt Exposure*, *BsmtFin Type 1* y *Bsmt Qual* tienen siempre valor **NaN** cuando la casa no tiene sótano.

In [239]:
no_sotano = data[data["Total Bsmt SF"] == 0]

In [240]:
no_sotano["Bsmt Full Bath"].count()

78

In [241]:
no_sotano["Bsmt Full Bath"].sum()

0.0

In [242]:
no_sotano[no_sotano["Bsmt Full Bath"].isna()]

Unnamed: 0,Order,PID,MS SubClass,MS Zoning,Lot Frontage,Lot Area,Street,Alley,Lot Shape,Land Contour,...,Pool Area,Pool QC,Fence,Misc Feature,Misc Val,Mo Sold,Yr Sold,Sale Type,Sale Condition,SalePrice
1497,1498,908154080,20,RL,123.0,47007,Pave,No Alley,IR1,Lvl,...,0,,No Fence,,0,7,2008,WD,Normal,284700


En el caso de `Bsmt Full Bath`, el valor de área 0 siempre resulta en un valor de 0 baños en el sótano excepto por una instancia con valor **NaN** en *Bsmt Full Bath*.

La rellenamos con un 0.

In [243]:
data.loc[data.PID==908154080,"Bsmt Full Bath"] = 0

In [244]:
no_sotano["Bsmt Cond"].count()

0

In [245]:
no_sotano["Bsmt Exposure"].count()

0

In [246]:
no_sotano["BsmtFin Type 1"].count()

0

In [247]:
no_sotano["BsmtFin Type 2"].count()

0

Todos los `count()` son 0, por lo que estos atributos toman el valor **NaN** siempre que el área de sótano sea 0

In [248]:
null_bsmt_cond = data[data["Bsmt Cond"].isnull()]
null_bsmt_exposure = data[data["Bsmt Exposure"].isnull()]
null_bsmt_type = data[data["BsmtFin Type 1"].isnull()]
null_bsmt_type2 = data[data["BsmtFin Type 2"].isnull()]

También queremos conocer si cualquiera de estos atributos toma valor **NaN** cuando la casa tiene sótano (Total Bsmt SF > 0)

In [249]:
null_bsmt_cond["Total Bsmt SF"].max()

0.0

In [250]:
null_bsmt_exposure["Total Bsmt SF"].max()

1595.0

In [251]:
null_bsmt_exposure[null_bsmt_exposure["Total Bsmt SF"]>0]

Unnamed: 0,Order,PID,MS SubClass,MS Zoning,Lot Frontage,Lot Area,Street,Alley,Lot Shape,Land Contour,...,Pool Area,Pool QC,Fence,Misc Feature,Misc Val,Mo Sold,Yr Sold,Sale Type,Sale Condition,SalePrice
66,67,528445060,20,RL,73.0,8987,Pave,No Alley,Reg,Lvl,...,0,,No Fence,,0,5,2010,WD,Normal,221500
1796,1797,528458090,60,FV,81.0,10411,Pave,No Alley,Reg,Lvl,...,0,,No Fence,,0,7,2007,New,Partial,212109
2779,2780,907194130,60,RL,65.0,14006,Pave,No Alley,IR1,Lvl,...,0,,No Fence,,0,2,2006,WD,Normal,192500


Existen tres instancias con área de sótano mayor que 0 cuyo Bsmt Exposure es **NaN**. Las eliminamos utilizando sus PIDs.

In [252]:
data = data[data.PID != 528445060]
data = data[data.PID != 528458090]
data = data[data.PID != 907194130]

In [253]:
null_bsmt_type["Total Bsmt SF"].max()

0.0

In [254]:
null_bsmt_type2["Total Bsmt SF"].max()

3206.0

In [255]:
null_bsmt_type2[null_bsmt_type2["Total Bsmt SF"]>0]

Unnamed: 0,Order,PID,MS SubClass,MS Zoning,Lot Frontage,Lot Area,Street,Alley,Lot Shape,Land Contour,...,Pool Area,Pool QC,Fence,Misc Feature,Misc Val,Mo Sold,Yr Sold,Sale Type,Sale Condition,SalePrice
444,445,528142130,20,RL,85.0,10655,Pave,No Alley,IR1,Lvl,...,0,,No Fence,,0,10,2009,WD,Normal,284000


In [256]:
data = data[data.PID != 528142130]

Tras esto, ya podemos rellenar los valores **NaN** en los atributos categóricos con un valor "No Basement"

In [257]:
data.loc[data["Bsmt Cond"].isnull(),"Bsmt Cond"] = "No Basement"
data.loc[data["Bsmt Exposure"].isnull(),"Bsmt Exposure"] = "No Basement"
data.loc[data["Bsmt Qual"].isnull(),"Bsmt Qual"] = "No Basement"
data.loc[data["BsmtFin Type 1"].isnull(),"BsmtFin Type 1"] = "No Basement"
data.loc[data["BsmtFin Type 2"].isnull(),"BsmtFin Type 2"] = "No Basement"

## Final

In [258]:
sumas = data.isna().sum()
ATTR = ATTR.difference(["Garage Yr Blt"])
for c in ATTR:
    if(sumas[c] > 0):
        print("%s contiene %d valores NaN" % (c, sumas[c]))

Bsmt Half Bath contiene 1 valores NaN
Electrical contiene 1 valores NaN
Garage Area contiene 1 valores NaN
Garage Cars contiene 1 valores NaN
Mas Vnr Area contiene 22 valores NaN
Mas Vnr Type contiene 22 valores NaN


Podemos eliminar las instancias que quedan con NaNs, ya que son muy pocas

In [259]:
removed = data.dropna(how="any",subset=list(ATTR))

## Guardado de fichero

Tras la modificación, guardamos el fichero `data.csv` modificado

In [41]:
removed.to_csv("data/AmesHousing_modified.csv",index=False)