In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import random

In [None]:
#Importing data
df_train = pd.read_csv('train.csv')
df_test = pd.read_csv('test.csv')

In [None]:
df_train.head()

In [None]:
df_train.info()
print('------------------------------------------------------------')
df_test.info()

## Breve descripción numérica de los datos: 
En el train data tenemos 1460 datos con 81 columnas, mientras que el test data tenemos 1459 datos con 80 columnas (se entiende que es la data sobre la que tendremos que hacer nuestras predicciones)

-Por eso, posteriormente a transformar los datos de train y test, tenemos que partir el train data en otros dos subsets y evaluarlo con eso. 

In [None]:
df_train.columns

            Pasaremos a ver cuáles son las columnas que tienen valores nulos. Tanto en test como en train.
            Aparte, meteremos la cantidad total de valores nulos dentro de un diccionario con su respectiva columna

In [None]:
#creo diccionarios
null_dict_train = {}
null_dict_test = {}
for i in df_train.columns:
    if df_train[i].isna().any() == True:
        print('La columna', i, 'tiene', df_train[i].isna().sum(), 'valores nulos <--------')
        null_dict_train[i] = df_train[i].isna().sum() #Creo los key and values de los diccionarios
    else:
        pass
print('-------------------------------------------------------Ahora para test-------------------------------------------------')

for i in df_test.columns:
    if df_test[i].isna().any() == True:
        print('La columna', i, 'tiene', df_test[i].isna().sum(), 'valores nulos <--------')
        null_dict_test[i] = df_test[i].isna().sum()  #Creo los key and values de los diccionarios
    else:
        pass

##### Según la teoría si el 30% de la data es nula se debería eliminar, qué columnas cumplen con esto?

Teniendo en cuenta que nuesto df_train tiene 1460 valores y nuestro df_test tiene 1459 valores. Aplicaremos una función que nos saque el porcentaje para cada valor.

In [None]:
#Haremos dict comprehension
#para cada key voy a sacarle el porcentaje de valores nulos con respecto a la data total
null_dict_train_percentage = {k: (v/1460)*100 for k, v in null_dict_train.items()} 
null_dict_test_percentage = {k: (v/1459)*100 for k, v in null_dict_test.items()}

In [None]:
print(null_dict_train_percentage)
print('-------------------------------------------------------------------------------------')
print(null_dict_test_percentage)

#### En una vista rápida diremos que:
 ##### Para el train dataframe:
- Las columnas 'Alley', 'FireplaceQu', 'PoolQC', 'Fence' y 'MiscFeature' tienen más del 30% de la data nula

 ##### Para el test dataframe:
- Las columnas 'Alley', 'FireplaceQu', 'PoolQC', 'Fence', 'MiscFeature' tienen más del 30% de la data nula.

Entonces también concluimos que tanto los dataframe de test y train tienen la misma recurrencia en data nula por las mismas columnas.

Ahora, hemos visto que las variables Alley, FireplaceQu, PoolQC y Fence no vendrìan a ser tan relevantes a la hora de costear una casa. Por lo tanto las eliminaremos. Notemos que la variable MiscFeature puede ser relevante. Por eso, reemplazaremos su valor nulo con 0.

In [None]:
cols_to_del = ['Alley','FireplaceQu','PoolQC','Fence']
#delete this columns
df_train.drop(cols_to_del, axis=1, inplace=True)
df_test.drop(cols_to_del, axis = 1, inplace=True)

In [None]:
#Filling nan with 0 values on MiscFeature column
df_train['MiscFeature'].fillna(0, inplace= True)
df_test['MiscFeature'].fillna(0, inplace = True)
print(df_train['MiscFeature'].head())

In [None]:
data_corr = df_train.corr()
plt.figure(figsize=(12,9))
sns.heatmap(data_corr)

Vemos que GarageArea y GarageCars tienen una correlación muy alta... Esto nos lleva alproblema de multicolinealidad. Entonces nos conviene eliminar una de estas columnas. 

In [None]:
# se crea una lista con las columnas ha eliminar
cols_to_del= ['GarageCars'] 
#se invoca la funcion drop, pasandole como parametro las columnas a eliminar tanto para df_train y df_test
df_train.drop(cols_to_del, axis=1, inplace=True)
df_test.drop(cols_to_del, axis=1, inplace=True)

## Reemplazando valores nulos:

Para comenzar con el criterio de reemplazo necesito una lista de las columnas tipo object y int/float: 

-Ya no necesito los números de valores nulos sino los tipos de data que hay dentro de la columna

In [None]:
#Correremos denuevo la función de detección de nulos para obtener una lista de valores nulos global:
null_dict_train_after = {}
null_dict_test_after = {}
#Es decir, almacenaremos los nulos en un diccionario
for i in df_train.columns:
    if df_train[i].isna().any() == True:
        null_dict_train_after[i] = df_train[i].dtype #Creo los key and values de los diccionarios
    else:
        pass
for i in df_test.columns:
    if df_test[i].isna().any() == True:
        null_dict_test_after[i] = df_test[i].dtype  #Creo los key and values de los diccionarios
    else:
        pass

In [None]:
train_list_null_obj = []
train_list_null_int = []

for key,value in null_dict_train_after.items():
    if value == 'object':
        train_list_null_obj.append(key)
    else:
        train_list_null_int.append(key)

test_list_null_obj = []
test_list_null_int = []

for key,value in null_dict_test_after.items():
    if value == 'object':
        test_list_null_obj.append(key)
    else:
        test_list_null_int.append(key)

In [None]:
def plot_categorical(data, cols):
    for i in cols:
        sns.countplot(x = i, data = data[cols])
        plt.show()

In [None]:
plot_categorical(df_train, train_list_null_obj)

In [None]:
plot_categorical(df_test, test_list_null_obj)

Una vez vistas las distribuciones de los valores podemos observar casos "especiales" en las variables BmstFinType1 y GarageFinish, donde el valor más recurrente no necesariamente difiere mucho del segundo más recurrente.

Ahora, pasaremos a Reemplazar la data categórica:

In [None]:
def replace_categorical(df, cols):
    for i in cols:
        df[i].fillna(value=df[i].value_counts().index[0],inplace =True)

In [None]:
replace_categorical(df_train, train_list_null_obj)
replace_categorical(df_test, test_list_null_obj)

Ahora, reemplazaremos la data numérica. Pero antes veremos las distribuciones de las columnas nulas:

-Se debe notar que: Si para reemplazar sumamos y restamos la media nos quedará un rango imposible de valores negativos para algunas variables.  Veamos: 

In [None]:
def plot_numerical(data, cols):
    data_dropna = data.dropna()
    for i in cols:
        sns.distplot(data_dropna[i])
        print('La media es:', data_dropna[i].mean(), 'La desv.stand es:', data_dropna[i].std())
        plt.show()

In [None]:
plot_numerical(df_train, train_list_null_int)

Una vez vista la desviación estándar y la media podemos pensar dos veces en reemplazar randomizando los valores entre un rago [mean +- desv. standar] Por eso, notamos algunas cosas en cuanto estas variables:

-MasVnrArea (en train y test): La resta de la desviación estándar nos puede dar un valor incoherente.

-BsmtFinSF1 (en test): La resta de la desviación estándar nos puede dar un valor incoherente.

-BsmtFinSF2 (en test): La resta de la desviación estándar nos puede dar un valor incoherente.

-BsmtFullBath (en test): Solo tiene valores enteros (y es lógico eso)

-BsmtHalfBath (en test): Solo tiene valores enteros (y es lógico eso)

-GarageYearBuilt (en train y test): Solo tiene valores enteros (Y es lógico eso)


In [None]:
#Crearemos una función general para las variables nulas de train y test:
def fill_nan_w_mean_std(df,col = 'col1'):
    nan = df[df[col].isna()]
    min_ = df[col].mean() - df[col].std()
    max_ = df[col].mean() + df[col].std()
    if min_ < 0: #Si el valor de reemplazo mínimo es 0, entonces redondearemos a uno
        for i in nan.index:
            random_num = random.randint(0,round(max_) + 1)
            df[col].loc[i] = random_num
    else: 
        for i in nan.index: #Ojo que los reemplazos son en sí redondeos.
            random_num = random.randint(round(min_),round(max_) + 1)
            df[col].loc[i] = random_num
    df[col] = df[col].astype(int) #Se pone como integer.

In [None]:
for columnas in train_list_null_int:
    fill_nan_w_mean_std(df_train, col = columnas)

for columnas in test_list_null_int:
    fill_nan_w_mean_std(df_test, col = columnas)

Se ha notado que hay un outlier con índice 1132. Entonces, se pasará a reemplazar ese valor. En GarageYrBlt el ouutlier es 2207 y debería decir 2007:

In [None]:
df_test.loc[1132,'GarageYrBlt']= 2007

In [None]:
df_train.loc[666:667]

## 3. Crear una función que convierta las columnas de categorical a numerical

In [None]:
#Función para remplazar los valores de una columna categorical a numerical.
def asignar_variables(df,name_col): #Parametros: DataFrame,columna
    dicc={}
    col_with_val_unique = df[name_col].unique() # unique: filtra los valores unicos de una columna
    contador=0
    for i in col_with_val_unique:
        dicc[i]=contador
        contador+=1
    df[name_col] = df[name_col].map(dicc) #map: agrega los values de un diccionario hacia la columna

In [1]:
import dill
dill.load_session('HousePricing1.db')

In [2]:
obj_cols = [*df_train.select_dtypes('object').columns] #Creamos la lista de columnas objeto

In [3]:
#Sacamos las dummies
df_train = pd.get_dummies(df_train, columns = obj_cols)
df_test = pd.get_dummies(df_test, columns = obj_cols)

In [4]:
null_cols_test = ['Utilities_NoSeWa','Condition2_RRAe','Condition2_RRAn','Condition2_RRNn','HouseStyle_2.5Fin',
             'RoofMatl_ClyTile','RoofMatl_Membran','RoofMatl_Metal','RoofMatl_Roll','Exterior1st_ImStucc',
             'Exterior1st_Stone','Exterior2nd_Other','Heating_Floor','Heating_OthW','Electrical_Mix','GarageQual_Ex','MiscFeature_TenC']

In [5]:
#Hacemos esto porque hay columnas que tienen valores diferentes en el train como en el test.
for new_col_test in null_cols_test:
    df_test[new_col_test] = 0

In [6]:
id_test = df_test['Id']

In [7]:
df_train.drop('Id', axis = 1, inplace = True)
df_test.drop('Id', axis = 1, inplace = True)

Antes de comenzar a aplicar las predicciones, tenemos que separar la data. Porque tenemos que entrenar y testear por encima de todo el Train dataframe y el concurso nos pide predecir por sobre todo el Test dataframe. Entonces tendremos:

In [8]:
#Dividimos la data en X e Y para poder entrenar el modelo
from sklearn.model_selection import train_test_split
Y = df_train['SalePrice']
X = df_train.drop('SalePrice',axis=1, inplace = False)
X_train, X_test, y_train, y_test = train_test_split(X, Y)

## Aplicamos varios modelos predictivos: 
En este caso se usarán modelos de regresión:
-Linear Regression

-Polinomial Features?

-Ridge o Lasso Regression?

-Support Vector Regression

-Decision Tree Regression

-XGBRegressor

In [13]:
from sklearn.linear_model import Lasso, ElasticNet

In [None]:
#Definimos la función que usaremos para el cross_validation: 
def cv_rmse():
    

##### Hacer PCA

In [None]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import GridSearchCV
param_grid = { 'max_depth' : [7,8,9,10] , 'max_features' : [11,12,13,14] ,
               'max_leaf_nodes' : [None, 12,15,18,20] ,'min_samples_split' : [20,25,30],
                'presort': [False,True] , 'random_state': [5] }
nr_cv = 5    
score_calc = 'neg_mean_squared_error'
grid_dtree = GridSearchCV(DecisionTreeRegressor(), param_grid, cv=nr_cv, refit=True, verbose=1, scoring = score_calc)
grid_dtree.fit(X, Y)

In [None]:
dtree_pred = grid_dtree.predict(df_test)
sub_dtree = pd.DataFrame()
sub_dtree['Id'] = id_test
sub_dtree['SalePrice'] = dtree_pred
sub_dtree.to_csv('dtreeregr.csv',index=False)

In [None]:
from xgboost import XGBRegressor

xgbr = XGBRegressor(n_estimators = 1000)

xgbr.fit(X,Y,verbose = False)

xgbr_pred = xgbr.predict(df_test)
sub_xgbr = pd.DataFrame()
sub_xgbr['Id'] = id_test
sub_xgbr['SalePrice'] = xgbr_pred
sub_xgbr.to_csv('xgbreg.csv', index = False)