# Árboles de regresión y random forest para regresión y clasificación

## Librerías a utilizar

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn as sl
from sklearn.model_selection import train_test_split
from sklearn import svm, metrics
from sklearn.tree import DecisionTreeClassifier

## Carga de datasets

In [2]:
mainpath = "./ds/"
train = "housing_train.csv"
test = "housing_test.csv"
df_train = pd.read_csv(mainpath + train)
df_test = pd.read_csv(mainpath + test)

## Resumen de datos

Las dimensiones del data frame, filas y columnas, se obtiene con la propiedad `shape`, los valores de las cabeceras se obtienen con la propiedad `columns.values`.

In [3]:
df_train.shape

(1460, 81)

La función `describe()` devuelve el conteo de campos no nulos, media, desviación estándar y cuantiles para columnas númericas. En las columnas son objetos (categóricas) devolverá el conteo de campos no nulos, número de valores posibles, el valor más repetido y su frecuencia. Si se desea saber el tipo de datos que tienen las columnas se usa la propiedad `dtypes`.

In [4]:
df_train.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Id,1460.0,730.5,421.610009,1.0,365.75,730.5,1095.25,1460.0
MSSubClass,1460.0,56.89726,42.300571,20.0,20.0,50.0,70.0,190.0
LotFrontage,1201.0,70.049958,24.284752,21.0,59.0,69.0,80.0,313.0
LotArea,1460.0,10516.828082,9981.264932,1300.0,7553.5,9478.5,11601.5,215245.0
OverallQual,1460.0,6.099315,1.382997,1.0,5.0,6.0,7.0,10.0
OverallCond,1460.0,5.575342,1.112799,1.0,5.0,5.0,6.0,9.0
YearBuilt,1460.0,1971.267808,30.202904,1872.0,1954.0,1973.0,2000.0,2010.0
YearRemodAdd,1460.0,1984.865753,20.645407,1950.0,1967.0,1994.0,2004.0,2010.0
MasVnrArea,1452.0,103.685262,181.066207,0.0,0.0,0.0,166.0,1600.0
BsmtFinSF1,1460.0,443.639726,456.098091,0.0,0.0,383.5,712.25,5644.0


In [5]:
df_train.describe(include='object').transpose()

Unnamed: 0,count,unique,top,freq
MSZoning,1460,5,RL,1151
Street,1460,2,Pave,1454
Alley,91,2,Grvl,50
LotShape,1460,4,Reg,925
LandContour,1460,4,Lvl,1311
Utilities,1460,2,AllPub,1459
LotConfig,1460,5,Inside,1052
LandSlope,1460,3,Gtl,1382
Neighborhood,1460,25,NAmes,225
Condition1,1460,9,Norm,1260


In [6]:
df_train.dtypes

Id                 int64
MSSubClass         int64
MSZoning          object
LotFrontage      float64
LotArea            int64
                  ...   
MoSold             int64
YrSold             int64
SaleType          object
SaleCondition     object
SalePrice          int64
Length: 81, dtype: object

Para obtener detalles por columna podemos usar `df_train['Nombre de columna'].describe()`, también es posible obtener por columna los posibles valores posibles y sus respectivas frecuencias, como en el siguiente ejemplo.

In [7]:
df_train["SaleType"].value_counts()

WD       1267
New       122
COD        43
ConLD       9
ConLI       5
ConLw       5
CWD         4
Oth         3
Con         2
Name: SaleType, dtype: int64

### Matriz de correlación

La matriz de correlación indicará que tan fuerte o débil es es la relación entre dos variables. Puede leerse por columnas o por filas. En la siguiente imagen se eliminó la columna `Id`, porque no será relevante para el análisis. La claridad de la celda es directamente proporcional a una mayor correlación.

In [None]:
df_train = df_train.drop(columns = ['Id'])
plt.figure(figsize=(20,8),dpi=80)
corrmat = df_train.corr()
sns.heatmap(corrmat, vmax=.8, fmt='.1f', annot=True)

<AxesSubplot:>

De esta forma podemos saber que variables están más relacionadas con otras. en el caso de la variable `SalePrice` las diez variables más útiles serán las siguientes.

In [None]:
df_train.corr()['SalePrice'].sort_values(ascending=False)[1:11]

## Valores perdidos

Trabajar con los valores perdidos requiere primero su ubicación, posteriormente se seleccionará que debe ser borrado y luego que debe ser sustituido con un nuevo valor, por supuesto habrá que decidir cual será dicho valor nuevo.

### Eliminar campos

Para ubicar si una celda tiene un valor vacío se usa la función `isnull()`, si se prefiere lógica inversa se usa `notnull`. Es posible  obtener un vector  de estos  valores con la  propiedad `values`, transformarlo  a un array con la función `ravel()` y sumar los valores verdaderos con la función `sum()`. También es posible obtener una lista ordenada de las columnas con más valores vacíos.

In [None]:
df_train.isnull().sum().sort_values(ascending=False)[0:19]

En  el ejemplo  de  arriba, el  valor es  el  número de  valores  vacíos, si  usamos la  función `notnull()` sería el número de valores no vacíos, la suma de ambos debe ser el número total de filas obtenido anteriormente.

Hay dos razones para la falta de valores en los data sets:

- Recolección de datos: No se consiguieron los datos.
- Extracción de datos: Los datos están en la  DB original pero no se extrajeron correctamente al data set.

Se deben evitar datos vacíos para no tener problemas de manejo de información. Se tienen dos opciones:

- Borrar las filas donde falten valores en alguna de las columnas
- Borrar las columnas donde no se tenga suficiente información

En nuestro caso es posible observar que las columnas `MiscFeature, Fence, PoolQC, FirePlaceQu y Alley` tienen muy pocos valores proporcionados (menos del 55 por ciento)y no vale la pena conservarlas. Otro criterio para asegurar que hacemos lo correcto es revisar las correlaciones con la columna `SalePrice`.

Como el razonamiento es el correcto procederemos al borrado de columnas.

In [None]:
def toDel(df):
    for col in df.columns.values:
        nv = pd.isnull(df[col]).values.ravel().sum()
        if nv > df.shape[0] * 0.45:
            print("Deleting: "+col)
            del df[col]
    return df

In [None]:
df_train = toDel(df_train)

### Llenar campos

Es necesario detectar nuevamente que columnas tienen valores vacíos. Esta vez vamos a proceder a reemplazar esos valores. Como sabemos que hay valores númericos y categóricos vacíos; los numéricos serán reemplazados por el promedio original de la columna, los categóricos serán remplazados por el valor no nulo más cercano puede ser el valor que va antes (`ffill`) o el que va después (`bfill`), en este análisis será el segundo.

In [None]:
def DetectNull(df):
    candidates = []
    for col in df.columns.values:
        nv = pd.isnull(df[col]).values.ravel().sum()
        if nv > 0:
            candidates.append((col, df[col].dtype, nv))
    return candidates

In [None]:
def FillNull(df, list):
    for col in list:
        if col[1] == 'float64':
            df[col[0]] = df[col[0]].fillna(df[col[0]].mean())
        else:
            df[col[0]] = df[col[0]].fillna(method="bfill")
    return df

In [None]:
df_train = FillNull(df_train, DetectNull(df_train))
df_train.isnull().sum().sort_values(ascending=False)

## Problema de regresión


Con skilearn

Usar shuffle

### Árboles de decisión

### Random Forest

## Problema de clasificación
### Creación de categorías de SalesPrice

In [None]:
def SalePriceGroupValue(x):
    if x >= 500001:
        return 3
    elif x <= 100000:
        return 1
    return 2

In [None]:
df_train["SalePriceGroup"] = df_train["SalePrice"].apply(SalePriceGroupValue)

In [None]:
df_train.tail()

### Árboles de decisión

In [None]:
train, test = train_test_split(df_train, test_size=0.2)

In [None]:
colnames = df_train.columns.values.tolist()
# predictors = colnames[:73]
predictors = ['OverallQual','GrLivArea','GarageCars','GarageArea','TotalBsmtSF','1stFlrSF','FullBath','TotRmsAbvGrd','YearBuilt','YearRemodAdd']
target = colnames[75]

In [None]:
model = svm.SVC()
model.fit(train[predictors], train[target])
prediction = model.predict(test[predictors])
print("Accuracy: ", metrics.accuracy_score(prediction, test[target]))

In [None]:
tree = DecisionTreeClassifier(criterion="entropy", min_samples_split=20, random_state=99)
tree.fit(train[predictors], train[target])

In [None]:
prediction = tree.predict(test[predictors])

In [None]:
pd.crosstab(test[target], prediction, colnames=["Predictions"], rownames=["Real"])

In [None]:
print("Accuracy: ", metrics.accuracy_score(prediction, test[target]))

### Random Forest