# Árboles de regresión y random forest para regresión y clasificación

## Librerías a utilizar

In [1]:
import pandas as pd

## Carga de datasets

In [2]:
mainpath = "./ds/"
train = "housing_train.csv"
test = "housing_test.csv"
df_train = pd.read_csv(mainpath + train)
df_test = pd.read_csv(mainpath + test)

## Resumen de datos

Las dimensiones del data frame, filas y columnas, se obtiene con la propiedad `shape`, los valores de las cabeceras se obtienen con la propiedad `columns.values`.

In [3]:
df_train.shape

(1460, 81)

La función `describe()` devuelve el conteo de campos no nulos, media, desviación estándar y cuantiles para columnas númericas. En las columnas son objetos (categóricas) devolverá el conteo de campos no nulos, número de valores posibles, el valor más repetido y su frecuencia. Si se desea saber el tipo de datos que tienen las columnas se usa la propiedad `dtypes`.

In [4]:
df_train.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Id,1460.0,730.5,421.610009,1.0,365.75,730.5,1095.25,1460.0
MSSubClass,1460.0,56.89726,42.300571,20.0,20.0,50.0,70.0,190.0
LotFrontage,1201.0,70.049958,24.284752,21.0,59.0,69.0,80.0,313.0
LotArea,1460.0,10516.828082,9981.264932,1300.0,7553.5,9478.5,11601.5,215245.0
OverallQual,1460.0,6.099315,1.382997,1.0,5.0,6.0,7.0,10.0
OverallCond,1460.0,5.575342,1.112799,1.0,5.0,5.0,6.0,9.0
YearBuilt,1460.0,1971.267808,30.202904,1872.0,1954.0,1973.0,2000.0,2010.0
YearRemodAdd,1460.0,1984.865753,20.645407,1950.0,1967.0,1994.0,2004.0,2010.0
MasVnrArea,1452.0,103.685262,181.066207,0.0,0.0,0.0,166.0,1600.0
BsmtFinSF1,1460.0,443.639726,456.098091,0.0,0.0,383.5,712.25,5644.0


In [5]:
df_train.describe(include='object').transpose()

Unnamed: 0,count,unique,top,freq
MSZoning,1460,5,RL,1151
Street,1460,2,Pave,1454
Alley,91,2,Grvl,50
LotShape,1460,4,Reg,925
LandContour,1460,4,Lvl,1311
Utilities,1460,2,AllPub,1459
LotConfig,1460,5,Inside,1052
LandSlope,1460,3,Gtl,1382
Neighborhood,1460,25,NAmes,225
Condition1,1460,9,Norm,1260


In [6]:
df_train.dtypes

Id                 int64
MSSubClass         int64
MSZoning          object
LotFrontage      float64
LotArea            int64
                  ...   
MoSold             int64
YrSold             int64
SaleType          object
SaleCondition     object
SalePrice          int64
Length: 81, dtype: object

## Valores perdidos

Trabajar con los valores perdidos requiere primero su ubicación, posteriormente se seleccionará que debe ser borrado y luego que debe ser sustituido con un nuevo valor, por supuesto habrá que decidir cual será dicho valor nuevo.

### Eliminar campos

Para ubicar si una celda tiene un valor vacío se usa la función `isnull()`, si se prefiere lógica inversa se usa `notnull`. Es posible  obtener un vector  de estos  valores con la  propiedad `values`, transformarlo  a un array con la función `ravel()` y sumar los valores verdaderos con la función `sum()`. También es posible obtener una lista ordenada de las columnas con más valores vacíos.

In [7]:
df_train.isnull().sum().sort_values(ascending=False)

PoolQC         1453
MiscFeature    1406
Alley          1369
Fence          1179
FireplaceQu     690
               ... 
ExterQual         0
Exterior2nd       0
Exterior1st       0
RoofMatl          0
SalePrice         0
Length: 81, dtype: int64

En  el ejemplo  de  arriba, el  valor es  el  número de  valores  vacíos, si  usamos la  función `notnull()` sería el número de valores no vacíos, la suma de ambos debe ser el número total de filas obtenido anteriormente.

Hay dos razones para la falta de valores en los data sets:

- Recolección de datos: No se consiguieron los datos.
- Extracción de datos: Los datos están en la  DB original pero no se extrajeron correctamente al data set.

Se deben evitar datos vacíos para no tener problemas de manejo de información. Se tienen dos opciones:

- Borrar las filas donde falten valores en alguna de las columnas
- Borrar las columnas donde no se tenga suficiente información

En nuestro caso es posible observar que las columnas `MiscFeature, Fence, PoolQC, FirePlaceQu y Alley` tienen muy pocos valores proporcionados (menos del 55 por ciento)y no vale la pena conservarlas. Otro criterio para asegurar que hacemos lo correcto es revisar las correlaciones con la columna `SalesPrice`.

In [8]:
df_train.corr()['SalePrice'].sort_values()

KitchenAbvGr    -0.135907
EnclosedPorch   -0.128578
MSSubClass      -0.084284
OverallCond     -0.077856
YrSold          -0.028923
LowQualFinSF    -0.025606
Id              -0.021917
MiscVal         -0.021190
BsmtHalfBath    -0.016844
BsmtFinSF2      -0.011378
3SsnPorch        0.044584
MoSold           0.046432
PoolArea         0.092404
ScreenPorch      0.111447
BedroomAbvGr     0.168213
BsmtUnfSF        0.214479
BsmtFullBath     0.227122
LotArea          0.263843
HalfBath         0.284108
OpenPorchSF      0.315856
2ndFlrSF         0.319334
WoodDeckSF       0.324413
LotFrontage      0.351799
BsmtFinSF1       0.386420
Fireplaces       0.466929
MasVnrArea       0.477493
GarageYrBlt      0.486362
YearRemodAdd     0.507101
YearBuilt        0.522897
TotRmsAbvGrd     0.533723
FullBath         0.560664
1stFlrSF         0.605852
TotalBsmtSF      0.613581
GarageArea       0.623431
GarageCars       0.640409
GrLivArea        0.708624
OverallQual      0.790982
SalePrice        1.000000
Name: SalePr

Como el razonamiento es el correcto procederemos al borrado de columnas.

In [9]:
def toDel(df):
    for col in df.columns.values:
        nv = pd.isnull(df[col]).values.ravel().sum()
        if nv > df.shape[0] * 0.45:
            print("Deleting: "+col)
            del df[col]
    return df

In [10]:
df_train = toDel(df_train)

Deleting: Alley
Deleting: FireplaceQu
Deleting: PoolQC
Deleting: Fence
Deleting: MiscFeature


### Llenar campos

Es necesario detectar nuevamente que columnas tienen valores vacíos. Esta vez vamos a proceder a reemplazar esos valores. Como sabemos que hay valores númericos y categóricos vacíos; los numéricos serán reemplazados por el promedio original de la columna, los categóricos serán remplazados por el valor no nulo más cercano puede ser el valor que va antes (`ffill`) o el que va después (`bfill`), en este análisis será el segundo.

In [44]:
def DetectNull(df):
    candidates = []
    for col in df.columns.values:
        nv = pd.isnull(df[col]).values.ravel().sum()
        if nv > 0:
            candidates.append((col, df[col].dtype, nv))
    return candidates

In [45]:
DetectNull(df_train)

[('LotFrontage', dtype('float64'), 259),
 ('MasVnrType', dtype('O'), 8),
 ('MasVnrArea', dtype('float64'), 8),
 ('BsmtQual', dtype('O'), 37),
 ('BsmtCond', dtype('O'), 37),
 ('BsmtExposure', dtype('O'), 38),
 ('BsmtFinType1', dtype('O'), 37),
 ('BsmtFinType2', dtype('O'), 38),
 ('Electrical', dtype('O'), 1),
 ('GarageType', dtype('O'), 81),
 ('GarageYrBlt', dtype('float64'), 81),
 ('GarageFinish', dtype('O'), 81),
 ('GarageQual', dtype('O'), 81),
 ('GarageCond', dtype('O'), 81)]

In [49]:
def FillNull(df, list):
    for col in list:
        if col[1] == 'float64':
            df[col[0]] = df[col[0]].fillna(df[col[0]].mean())
        else:
            df[col[0]] = df[col[0]].fillna(method="bfill")
    return df

In [50]:
FillNull(df_train, DetectNull(df_train)).isnull().sum().sort_values(ascending=False)

Id                0
HalfBath          0
GarageType        0
Fireplaces        0
Functional        0
                 ..
MasVnrArea        0
MasVnrType        0
Exterior2nd       0
Exterior1st       0
SalePriceGroup    0
Length: 77, dtype: int64

## Creación de categorías de SalesPrice

In [14]:
def SalePriceGroupValue(x):
    if x >= 500001:
        return 3
    elif x <= 100000:
        return 1
    return 2

In [15]:
df_train["SalePriceGroup"] = df_train["SalePrice"].apply(SalePriceGroupValue)

In [16]:
df_train.tail(15)

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,LotShape,LandContour,Utilities,LotConfig,...,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice,SalePriceGroup
1445,1446,85,RL,70.0,8400,Pave,Reg,Lvl,AllPub,Inside,...,0,0,0,0,5,2007,WD,Normal,129000,2
1446,1447,20,RL,,26142,Pave,IR1,Lvl,AllPub,CulDSac,...,0,0,0,0,4,2010,WD,Normal,157900,2
1447,1448,60,RL,80.0,10000,Pave,Reg,Lvl,AllPub,Inside,...,0,0,0,0,12,2007,WD,Normal,240000,2
1448,1449,50,RL,70.0,11767,Pave,Reg,Lvl,AllPub,Inside,...,0,0,0,0,5,2007,WD,Normal,112000,2
1449,1450,180,RM,21.0,1533,Pave,Reg,Lvl,AllPub,Inside,...,0,0,0,0,8,2006,WD,Abnorml,92000,1
1450,1451,90,RL,60.0,9000,Pave,Reg,Lvl,AllPub,FR2,...,0,0,0,0,9,2009,WD,Normal,136000,2
1451,1452,20,RL,78.0,9262,Pave,Reg,Lvl,AllPub,Inside,...,0,0,0,0,5,2009,New,Partial,287090,2
1452,1453,180,RM,35.0,3675,Pave,Reg,Lvl,AllPub,Inside,...,0,0,0,0,5,2006,WD,Normal,145000,2
1453,1454,20,RL,90.0,17217,Pave,Reg,Lvl,AllPub,Inside,...,0,0,0,0,7,2006,WD,Abnorml,84500,1
1454,1455,20,FV,62.0,7500,Pave,Reg,Lvl,AllPub,Inside,...,0,0,0,0,10,2009,WD,Normal,185000,2
