# House Prices: Preprocesado.

#### *Álvaro Sánchez Castañeda*

Nuestro objetivo es construír un predictor siguiendo las indicaciones de la siguiente **competición de Kaggle:** https://www.kaggle.com/c/house-prices-advanced-regression-techniques. Lo primero que debemos hacer es limpiar los datos: imputar valores perdidos, transformar variables categóricas a numéricas, etc.

En este archivo mostraremos brevemente como hemos preparado los datos, los pasos ha seguir han sido los siguientes:

- **Union** datos de **entrenamiento** (con variable respuesta) y **test** (sin variable respuesta). De este modo tenemos controladas todas las etiquetas de las variables, y hacemos la limpieza simultaneamente.

- **Distinguir valores perdidos** con significado de autenticos valores perdidos. En la documntacion se indica que algunas etiquetas pueden ser 'NA'.

- **Imputar valores perdidos sin significado**. Se ha echo una ligera exploración para decidir como hacer esto.

- **Crear etiquetas** para **valores perdidos con significado**.

- Dos transformaciones a **valores numericos**:
    - Transformar **etiquetas a enteros**.
    - Crear **variables dummies**.

### Inicializamos Spark.

In [1]:
import sys

spark_path = "C:/Users/AlvaroSanchez91/Apps/spark-2.1.0-bin-hadoop2.7"

sys.path.append(spark_path + '/python')
sys.path.append(spark_path + '/python/lib/py4j-0.10.4-src.zip')

from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local[*]").appName("nb06") \
    .getOrCreate()

### Cargamos librerias.

In [2]:
from pyspark.sql.functions import col, count, mean, sum as agg_sum
from pyspark.sql.functions import lit #Da valor constante para crear columna.
from pyspark.sql.types import IntegerType, DoubleType 
from pyspark.sql.functions import  udf #Para crear nuestras propias funciones.

### Cargamos datos.

In [3]:
path = "D:/Ciencia de Datos/kaggle/House Prices. Advanced regression techniques/test.csv"
test_kaggle = spark.read.csv(path, header=True, inferSchema=True, nullValue= 'NA')

path = "D:/Ciencia de Datos/kaggle/House Prices. Advanced regression techniques/train.csv"
datos = spark.read.csv(path, header=True, inferSchema=True,nullValue= 'NA')

Podemos guardar las columnas de datos para trabajar posteriormente con ellas.

In [4]:
columnas=datos.columns
datos.select(columnas[:12]).show(5)

+---+----------+--------+-----------+-------+------+-----+--------+-----------+---------+---------+---------+
| Id|MSSubClass|MSZoning|LotFrontage|LotArea|Street|Alley|LotShape|LandContour|Utilities|LotConfig|LandSlope|
+---+----------+--------+-----------+-------+------+-----+--------+-----------+---------+---------+---------+
|  1|        60|      RL|         65|   8450|  Pave| null|     Reg|        Lvl|   AllPub|   Inside|      Gtl|
|  2|        20|      RL|         80|   9600|  Pave| null|     Reg|        Lvl|   AllPub|      FR2|      Gtl|
|  3|        60|      RL|         68|  11250|  Pave| null|     IR1|        Lvl|   AllPub|   Inside|      Gtl|
|  4|        70|      RL|         60|   9550|  Pave| null|     IR1|        Lvl|   AllPub|   Corner|      Gtl|
|  5|        60|      RL|         84|  14260|  Pave| null|     IR1|        Lvl|   AllPub|      FR2|      Gtl|
+---+----------+--------+-----------+-------+------+-----+--------+-----------+---------+---------+---------+
only showi

In [5]:
print(len(columnas))
print(len(test_kaggle.columns))

81
80


### Unión en un solo Data Frame.

Crearemos la variable objetivo SalePrice para los datos test_kaggle (es la que debemos predecir). A continuación uniremos los Data Frames en uno solo

In [6]:
test_kaggle = test_kaggle.withColumn('SalePrice', lit(None).cast('Integer'))
test_kaggle.columns==datos.columns

True

Las columnas siguen el mismo orden en ambos conjuntos de datos, unamoslos.

In [7]:
full_df = datos.union(test_kaggle)
full_df.select(columnas[-12:]).show(5)

+---------+-----------+--------+------+-----+-----------+-------+------+------+--------+-------------+---------+
|3SsnPorch|ScreenPorch|PoolArea|PoolQC|Fence|MiscFeature|MiscVal|MoSold|YrSold|SaleType|SaleCondition|SalePrice|
+---------+-----------+--------+------+-----+-----------+-------+------+------+--------+-------------+---------+
|        0|          0|       0|  null| null|       null|      0|     2|  2008|      WD|       Normal|   208500|
|        0|          0|       0|  null| null|       null|      0|     5|  2007|      WD|       Normal|   181500|
|        0|          0|       0|  null| null|       null|      0|     9|  2008|      WD|       Normal|   223500|
|        0|          0|       0|  null| null|       null|      0|     2|  2006|      WD|      Abnorml|   140000|
|        0|          0|       0|  null| null|       null|      0|    12|  2008|      WD|       Normal|   250000|
+---------+-----------+--------+------+-----+-----------+-------+------+------+--------+--------

Podemos ver un resumen de los datos.

In [8]:
for i in range(27):
    full_df.select(columnas[i*3:i*3+3]).describe().show()

+-------+-----------------+------------------+--------+
|summary|               Id|        MSSubClass|MSZoning|
+-------+-----------------+------------------+--------+
|  count|             2919|              2919|    2915|
|   mean|           1460.0|  57.1377183967112|    null|
| stddev|842.7870430897713|42.517627829150314|    null|
|    min|                1|                20| C (all)|
|    max|             2919|               190|      RM|
+-------+-----------------+------------------+--------+

+-------+------------------+-----------------+------+
|summary|       LotFrontage|          LotArea|Street|
+-------+------------------+-----------------+------+
|  count|              2433|             2919|  2919|
|   mean| 69.30579531442663|10168.11408016444|  null|
| stddev|23.344904706927394|7886.996359105535|  null|
|    min|                21|             1300|  Grvl|
|    max|               313|           215245|  Pave|
+-------+------------------+-----------------+------+

+-------

## Limpieza valores perdidos.

Comenzaremos viendo cuales son las columnas con valores faltantes. Definiremos dos funciones para contar valores perdidos por columnas.

In [9]:
def count_missings_aux(c):
    return agg_sum(col(c).isNull().cast(IntegerType())).alias(c)

def count_missings(df):
    exprs = [count_missings_aux(c) for c in df.columns]
    return df.agg(*exprs).collect()

NAs=count_missings(full_df)[0].asDict()#Diccionario NAs.
NAs_2={ i:NAs[i]  for i in columnas if (NAs[i]>0)}#Los positivos.

for i in NAs_2:
    print(i,' : ',NAs_2[i])

Fence  :  2348
BsmtFinType1  :  79
BsmtFullBath  :  2
BsmtHalfBath  :  2
KitchenQual  :  1
PoolQC  :  2909
Exterior1st  :  1
BsmtFinSF2  :  1
GarageYrBlt  :  159
GarageType  :  157
GarageCond  :  159
Exterior2nd  :  1
BsmtCond  :  82
GarageArea  :  1
BsmtFinType2  :  80
Utilities  :  2
BsmtQual  :  81
FireplaceQu  :  1420
BsmtExposure  :  82
Alley  :  2721
GarageFinish  :  159
Electrical  :  1
TotalBsmtSF  :  1
MasVnrType  :  24
Functional  :  2
MasVnrArea  :  23
BsmtUnfSF  :  1
SalePrice  :  1459
MSZoning  :  4
BsmtFinSF1  :  1
LotFrontage  :  486
SaleType  :  1
GarageQual  :  159
MiscFeature  :  2814
GarageCars  :  1


Muchas de estas columnas aceptan 'NA' como etiqueta, de modo que realmente no son valores faltantes. Podemos ver la documentación de los datos para diferenciar los autenticos valores faltantes:
https://kaggle2.blob.core.windows.net/competitions-data/kaggle/5407/data_description.txt?sv=2015-12-11&sr=b&sig=GEoDxxP2vPoiS7R3WMUur95X5lY8b%2FlwAneYvM0WaDY%3D&se=2017-06-16T09%3A32%3A41Z&sp=r

### Autenticos valores perdidos.

 La forma de trabajar ha consistido en mirar cada una de las anteriores columnas, comprobar si es un autentico valor perdido, y en caso de que lo sea hacer algunas observaciones para decidir que hacer con dicho valor perdido. Lo ideal sería probar varias opciones ( y hacer esto con mas detalle ), para quedarnos con la mejor.

 La siguiente función, devuelve la identidad y la variable objetivo de todos los valores perdidos de una columna dada, así podemos comprobar si pertenece a test_kaggle (no podremos borrar dicho dato) y tambien si la identidad coincide con otras (se repiten valores perdidos en la misma instancia). 

In [10]:
def NA_show(c):
    full_df.filter(col(c).isNull()).select('Id','SalePrice').show()
#Ejemplo    
NA_show('BsmtFinSF1')

+----+---------+
|  Id|SalePrice|
+----+---------+
|2121|     null|
+----+---------+



#### Variables 'Bsmt'


In [11]:
NA_show('BsmtFinSF1')
NA_show('BsmtFinSF2')
NA_show('BsmtFullBath')
NA_show('BsmtHalfBath')
NA_show('BsmtUnfSF')
NA_show('TotalBsmtSF')
full_df.select(col('BsmtUnfSF')).describe().show()
full_df.select(col('TotalBsmtSF')).describe().show()

+----+---------+
|  Id|SalePrice|
+----+---------+
|2121|     null|
+----+---------+

+----+---------+
|  Id|SalePrice|
+----+---------+
|2121|     null|
+----+---------+

+----+---------+
|  Id|SalePrice|
+----+---------+
|2121|     null|
|2189|     null|
+----+---------+

+----+---------+
|  Id|SalePrice|
+----+---------+
|2121|     null|
|2189|     null|
+----+---------+

+----+---------+
|  Id|SalePrice|
+----+---------+
|2121|     null|
+----+---------+

+----+---------+
|  Id|SalePrice|
+----+---------+
|2121|     null|
+----+---------+

+-------+-----------------+
|summary|        BsmtUnfSF|
+-------+-----------------+
|  count|             2918|
|   mean|560.7721041809458|
| stddev|439.5436594234397|
|    min|                0|
|    max|             2336|
+-------+-----------------+

+-------+------------------+
|summary|       TotalBsmtSF|
+-------+------------------+
|  count|              2918|
|   mean|1051.7775873886224|
| stddev| 440.7662581159385|
|    min|              

Vemos que coinciden las 'Id', podria tener sentido imputar como cero estas variables. 
Crearemos un diccionario con las imputaciones a realizar de cada columna.

In [12]:
fill_dict={}
fill_dict['BsmtFinSF1']=0
fill_dict['BsmtFinSF2']=0
fill_dict['BsmtFullBath']=0
fill_dict['BsmtHalfBath']=0
fill_dict['BsmtUnfSF']=0
fill_dict['TotalBsmtSF']=0

#### Variable Electrical

In [13]:
NA_show('Electrical')#Podriamos eliminar este dato.
full_df.groupBy(col('Electrical')).count().show()#Imputamos el mas corriente
fill_dict['Electrical']='SBrkr'

+----+---------+
|  Id|SalePrice|
+----+---------+
|1380|   167500|
+----+---------+

+----------+-----+
|Electrical|count|
+----------+-----+
|       Mix|    1|
|     FuseF|   50|
|      null|    1|
|     SBrkr| 2671|
|     FuseP|    8|
|     FuseA|  188|
+----------+-----+



#### Variables Exterior.

In [14]:
#Exterior1st
NA_show('Exterior1st')
full_df.groupBy(col('Exterior1st')).count().show()
full_df.filter(col('Exterior1st').isNull()).collect()[0].asDict()

#Exterior2nd
NA_show('Exterior2nd')
full_df.groupBy(col('Exterior2nd')).count().show()

+----+---------+
|  Id|SalePrice|
+----+---------+
|2152|     null|
+----+---------+

+-----------+-----+
|Exterior1st|count|
+-----------+-----+
|       null|    1|
|    HdBoard|  442|
|    CemntBd|  126|
|    AsphShn|    2|
|    WdShing|   56|
|    Plywood|  221|
|    ImStucc|    1|
|    Wd Sdng|  411|
|     Stucco|   43|
|    MetalSd|  450|
|      Stone|    2|
|    AsbShng|   44|
|    BrkComm|    6|
|    BrkFace|   87|
|     CBlock|    2|
|    VinylSd| 1025|
+-----------+-----+

+----+---------+
|  Id|SalePrice|
+----+---------+
|2152|     null|
+----+---------+

+-----------+-----+
|Exterior2nd|count|
+-----------+-----+
|       null|    1|
|    CmentBd|  126|
|    HdBoard|  406|
|    AsphShn|    4|
|      Other|    1|
|    Plywood|  270|
|    Wd Shng|   81|
|    ImStucc|   15|
|    Wd Sdng|  391|
|     Stucco|   47|
|    MetalSd|  447|
|      Stone|    6|
|    AsbShng|   38|
|    Brk Cmn|   22|
|    BrkFace|   47|
|     CBlock|    3|
|    VinylSd| 1014|
+-----------+-----+



Podriamos usar el valor mas freciente, o 'Other', ya que parece que tiene sentido hacerlo (es una clase muy minaritaria, hay que tener cuidado). Sería interesante usar knn para tomar esta decisión.

In [15]:
fill_dict['Exterior1st']='Other'
fill_dict['Exterior2nd']='Other'

#### Variable Functional.

In [16]:
NA_show('Functional')
full_df.groupBy(col('Functional')).count().show()
#Sustituimos por typical.
fill_dict['Functional']='Typ'

+----+---------+
|  Id|SalePrice|
+----+---------+
|2217|     null|
|2474|     null|
+----+---------+

+----------+-----+
|Functional|count|
+----------+-----+
|      Maj1|   19|
|       Sev|    2|
|      null|    2|
|      Min2|   70|
|      Min1|   65|
|       Typ| 2717|
|      Maj2|    9|
|       Mod|   35|
+----------+-----+



#### Variables Garage.

In [17]:
#GarageArea 
NA_show('GarageArea')
full_df.select(col('GarageArea')).describe().show()

#GarageCars
NA_show('GarageCars')
full_df.select(col('GarageCars')).describe().show()

+----+---------+
|  Id|SalePrice|
+----+---------+
|2577|     null|
+----+---------+

+-------+------------------+
|summary|        GarageArea|
+-------+------------------+
|  count|              2918|
|   mean| 472.8745716244003|
| stddev|215.39481499352166|
|    min|                 0|
|    max|              1488|
+-------+------------------+

+----+---------+
|  Id|SalePrice|
+----+---------+
|2577|     null|
+----+---------+

+-------+------------------+
|summary|        GarageCars|
+-------+------------------+
|  count|              2918|
|   mean|1.7666209732693625|
| stddev|0.7616243225993496|
|    min|                 0|
|    max|                 5|
+-------+------------------+



Si nos guiamos por el sentido comun, lo normal es imputar por cero.

In [18]:
fill_dict['GarageArea']=0
fill_dict['GarageCars']=0

#### Variable KitchenQual.

In [19]:
NA_show('KitchenQual')
full_df.groupBy(col('KitchenQual')).count().show()

+----+---------+
|  Id|SalePrice|
+----+---------+
|1556|     null|
+----+---------+

+-----------+-----+
|KitchenQual|count|
+-----------+-----+
|         Gd| 1151|
|       null|    1|
|         Ex|  205|
|         Fa|   70|
|         TA| 1492|
+-----------+-----+



¿Podria ser que no tenga cocina?

In [20]:
full_df.filter(col('KitchenQual').isNull()).select('KitchenAbvGr').show()

+------------+
|KitchenAbvGr|
+------------+
|           1|
+------------+



Parece que tiene cocina. Sustituimos por valor mas tipico.

In [21]:
fill_dict['KitchenQual']='TA'

#### Variable LotFrontage.

In [22]:
NA_show('LotFrontage')
full_df.select(col('LotFrontage')).describe().show()

+---+---------+
| Id|SalePrice|
+---+---------+
|  8|   200000|
| 13|   144000|
| 15|   157000|
| 17|   149000|
| 25|   154000|
| 32|   149350|
| 43|   144000|
| 44|   130250|
| 51|   177000|
| 65|   219500|
| 67|   180000|
| 77|   135750|
| 85|   168500|
| 96|   185000|
|101|   205000|
|105|   169500|
|112|   180000|
|114|   217000|
|117|   139000|
|121|   180000|
+---+---------+
only showing top 20 rows

+-------+------------------+
|summary|       LotFrontage|
+-------+------------------+
|  count|              2433|
|   mean| 69.30579531442663|
| stddev|23.344904706927394|
|    min|                21|
|    max|               313|
+-------+------------------+



Muchos NAs, podría significar algo (aunque no lo especifica). Una opción es imputar por valores muy altos para que así queden apartados del resto de los datos.

In [23]:
fill_dict['LotFrontage']=600

#### Variable MSZoning.

In [24]:
NA_show('MSZoning')
full_df.groupBy(col('MSZoning')).count().show()
#Knn podria funcionar bien, pero imputaremos por el valor mas frequente.
fill_dict['MSZoning']='RL'

+----+---------+
|  Id|SalePrice|
+----+---------+
|1916|     null|
|2217|     null|
|2251|     null|
|2905|     null|
+----+---------+

+--------+-----+
|MSZoning|count|
+--------+-----+
| C (all)|   25|
|    null|    4|
|      RH|   26|
|      FV|  139|
|      RL| 2265|
|      RM|  460|
+--------+-----+



#### Variable MasVnrArea.

In [25]:
NA_show('MasVnrArea')
full_df.select(col('MasVnrArea')).describe().show()
#Tomaremos 0 guiandonos por el sentido común.
fill_dict['MasVnrArea']=0 

+----+---------+
|  Id|SalePrice|
+----+---------+
| 235|   216500|
| 530|   200624|
| 651|   205950|
| 937|   184900|
| 974|   182000|
| 978|   199900|
|1244|   465000|
|1279|   237000|
|1692|     null|
|1707|     null|
|1883|     null|
|1993|     null|
|2005|     null|
|2042|     null|
|2312|     null|
|2326|     null|
|2341|     null|
|2350|     null|
|2369|     null|
|2593|     null|
+----+---------+
only showing top 20 rows

+-------+------------------+
|summary|        MasVnrArea|
+-------+------------------+
|  count|              2896|
|   mean|102.20131215469613|
| stddev|179.33425303776386|
|    min|                 0|
|    max|              1600|
+-------+------------------+



#### Variable SaleType.

In [26]:
NA_show('SaleType')
full_df.groupBy(col('SaleType')).count().show()
#Imputaremos como otro (Oth).
fill_dict['SaleType']='Oth'

+----+---------+
|  Id|SalePrice|
+----+---------+
|2490|     null|
+----+---------+

+--------+-----+
|SaleType|count|
+--------+-----+
|   ConLD|   26|
|     COD|   87|
|     Con|    5|
|    null|    1|
|     Oth|    7|
|   ConLI|    9|
|     CWD|   12|
|   ConLw|    8|
|      WD| 2525|
|     New|  239|
+--------+-----+



#### Variable Utilities.

In [27]:
NA_show('Utilities')
full_df.groupBy(col('Utilities')).count().show()
#Esta variable no aporta información.
full_df=full_df.drop('Utilities')
columnas=full_df.columns

+----+---------+
|  Id|SalePrice|
+----+---------+
|1916|     null|
|1946|     null|
+----+---------+

+---------+-----+
|Utilities|count|
+---------+-----+
|     null|    2|
|   NoSeWa|    1|
|   AllPub| 2916|
+---------+-----+



#### Esencial de los pasos anteriores.

In [28]:
#fill_dict={}
#
#fill_dict['BsmtFinSF1']=0
#fill_dict['BsmtFinSF2']=0
#fill_dict['BsmtFullBath']=0
#fill_dict['BsmtHalfBath']=0
#fill_dict['BsmtUnfSF']=0
#fill_dict['Electrical']='SBrkr'
#fill_dict['Exterior1st']='Other'
#fill_dict['Exterior2nd']='Other'
#fill_dict['Functional']='Typ'
#fill_dict['GarageArea']=0
#fill_dict['GarageCars']=0
#fill_dict['KitchenQual']='TA'
#fill_dict['LotFrontage']=600
#fill_dict['MSZoning']='RL'
#fill_dict['MasVnrArea']=0
#fill_dict['SaleType']='Oth'
#fill_dict['TotalBsmtSF']=0
#
#full_df=full_df.drop('Utilities')
#columnas=full_df.columns

#### Imputación para auténticos valores perdidos.

In [29]:
full_df=full_df.fillna(fill_dict)

### Valores perdidos con significado.

El resto de variables aceptan 'NA' como etiqueta. Hay una que es numérica, por lo que comenzaremos trabajando con ella, y despues pasaremos al resto de variables.

#### GarageYrBlt.
Definiremos una columna indicando los valores faltantes e imputaremos por la media.

In [30]:
full_df = full_df.withColumn('GarageYrBlt_NA', col('GarageYrBlt').isNull().cast('Integer'))
mean_GarageYrBlt=full_df.agg(mean(col('GarageYrBlt')).alias('media')).collect()[0]['media']
full_df=full_df.fillna({'GarageYrBlt':mean_GarageYrBlt})

#### Imputación resto de variables.
Usaremos la etiqueta 'real_NA' para el resto de variables. Comencemos creando un diccionario para saber cuales son las variables que nos interesan, y iteraremos sobre dichas variables creando un segundo diccionario que indique las etiquetas a imputar.

In [31]:
NAs=count_missings(full_df)[0].asDict()#Diccionario NAs.
NAs_2={ i:NAs[i]  for i in columnas if (NAs[i]>0)}#Los positivos.

fill_dict2={c:'real_NA' for c in NAs_2 if c!='SalePrice'}#Los NAs de SalePrice se deben al conjunto test.
full_df=full_df.fillna(fill_dict2)#Imputamos.

In [32]:
NAs=count_missings(full_df)[0].asDict()#Diccionario NAs.
NAs_2={ i:NAs[i]  for i in columnas if (NAs[i]>0)}#Los positivos.
print(NAs_2)

{'SalePrice': 1459}


In [33]:
#Ordenamos las columnas.
columnas[-1]=full_df.columns[-1]
columnas.append(full_df.columns[-2])
full_df=full_df.select(columnas)

## Transformación a variables numéricas.

 Realizaremos dos transformaciones:
   - Transformar **etiquetas a enteros**.
   - Crear **variables dummies**.

### Transformación directa de etiquetas a enteros.

Si miramos la documentación, hay muchas variables en las que esto es bastante natural, ya que siguen un orden (al trabajar con arboles, en teoria, deberia funcionar bien). El problema es que tenemos muchas variables, de modo que esta transformación se hará sin comprobar si las etiquetas están ordenadas correctamente. Aparenetemente no parece una buena opción, pero podemos probar que tal funciona.

In [34]:
#Definimos una función de usuario que para cada columna nos transforme a enteros.
def create_udf(cat_dict):
    return (udf(lambda val: cat_dict[val], IntegerType()) )


#Iteramos sobre las columnas de timpo string transformando.
full_num1=full_df
tipos=dict(full_df.dtypes)#Trabajaremos solo con los tipo string.
for c in tipos:
    if tipos[c]=='string':
        row_labels=full_df.select(full_df[c]).distinct().collect()#Posibles etiquetas.
        labels=[ r[c] for r in row_labels]
        dic_labels={labels[x]:x for x in range(len(labels))}
        full_num1=full_num1.withColumn(c,create_udf(dic_labels)(full_num1[c]))
        
#Guardamos los datos transformados.
#path = 'HousePrices_num1_csv'
#full_num1.write.csv(path, header=True, mode='overwrite')

### Transformación a variables dummies.
Perdemos la información del orden. Pero esta transformación suele funcionar bien.

In [35]:
#Crearemos otra funcion de usuario, para cada etiqueta construirá una columna.
def create_udf_Dummy(label):
    return (udf(lambda val: int(val==label), IntegerType()))

full_num2=full_df
    
for c in tipos:
    if tipos[c]=='string':
        row_labels=full_df.select(full_df[c]).distinct().collect()#Posibles etiquetas.
        labels=[ r[c] for r in row_labels]
        for lab in labels:
            lab_aux='-'.join(lab.split('.'))#No podemos poner puntos en los nombres de las columnas.
            full_num2=full_num2.withColumn(c+'_'+lab_aux,create_udf_Dummy(lab)(full_num2[c]))#Definimos nuevas columnas.
        full_num2=full_num2.drop(c)

#Reordenamos para que SalePrice esté en la última posición.
columnas_num2=full_num2.columns
SalePrice_index=columnas_num2.index('SalePrice')
columnas_num2=columnas_num2[SalePrice_index+1:]+columnas_num2[:SalePrice_index+1]

full_num2=full_num2.select(columnas_num2)

#Guardamos losdatos transformados.
#path = 'HousePrices_num2_csv'
#full_num2.write.csv(path, header=True, mode='overwrite')

In [36]:
full_num2.printSchema()

root
 |-- Functional_Maj1: integer (nullable = true)
 |-- Functional_Sev: integer (nullable = true)
 |-- Functional_Min2: integer (nullable = true)
 |-- Functional_Min1: integer (nullable = true)
 |-- Functional_Typ: integer (nullable = true)
 |-- Functional_Maj2: integer (nullable = true)
 |-- Functional_Mod: integer (nullable = true)
 |-- PoolQC_Gd: integer (nullable = true)
 |-- PoolQC_Ex: integer (nullable = true)
 |-- PoolQC_real_NA: integer (nullable = true)
 |-- PoolQC_Fa: integer (nullable = true)
 |-- Exterior1st_HdBoard: integer (nullable = true)
 |-- Exterior1st_CemntBd: integer (nullable = true)
 |-- Exterior1st_AsphShn: integer (nullable = true)
 |-- Exterior1st_Other: integer (nullable = true)
 |-- Exterior1st_WdShing: integer (nullable = true)
 |-- Exterior1st_Plywood: integer (nullable = true)
 |-- Exterior1st_ImStucc: integer (nullable = true)
 |-- Exterior1st_Wd Sdng: integer (nullable = true)
 |-- Exterior1st_Stucco: integer (nullable = true)
 |-- Exterior1st_MetalSd

In [37]:
spark.stop()