1. Preparar el ambiente de trabajo (1 puntos)
- Importe las librerías básicas para el análisis de datos.
- Importe el módulo linear_model , y las funciones mean_squared_error ,
r2_score y train_test_split .
- Importe la base de datos boston.csv y elimine la columna Unnamed: 0 .
- Obtenga las medidas descriptivas de la base de datos con .describe() .


In [36]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split


In [37]:
df = pd.read_csv('boston.csv').drop(columns='Unnamed: 0')

In [38]:
df.describe()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677083,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


El objetivo del ejercicio de captación de talento es desarrollar un modelo predictivo para el
valor mediano de las casas mediante el entrenamiento de un modelo de regresión lineal.

In [39]:
X_total = df.drop(columns='medv')
y_total = df['medv']

2. Dividir la muestra (1 puntos)

- Genere conjuntos de entrenamiento y pruebas con train_test_split .
- Reserve un 33% de la muestra para el conjunto de pruebas.
- Incluya una semilla pseudoaleatoria a su elección, esto lo puede hacer con el
argumento random_state dentro del método train_test_plit.

In [40]:
X_train, X_test, y_train, y_test = train_test_split(X_total, y_total, test_size=0.33, random_state=1)

In [41]:
modelo_sin_intercepto = LinearRegression(fit_intercept=False)
modelo_con_intercepto = LinearRegression(fit_intercept=True)

modelo_sin_intercepto = modelo_sin_intercepto.fit(X=X_train, y=y_train)
modelo_con_intercepto = modelo_con_intercepto.fit(X=X_train, y=y_train)

In [42]:
predicciones_sin_intercepto_test = modelo_sin_intercepto.predict(X_test)
predicciones_sin_intercepto_train = modelo_sin_intercepto.predict(X_train)

predicciones_con_intercepto_test = modelo_con_intercepto.predict(X_test)
predicciones_con_intercepto_train = modelo_con_intercepto.predict(X_train)

In [43]:
def report_scores(reales, predicho):
    '''Funcion que reporta los valores mean_squared_error y r2_score entre datos predichos por un
    modelo de aprendizaje y datos reales

    :param reales: Una lista de datos reales para una variable. Esta es la variable que esta siendo
    predicha por el modelo de aprendizaje
    :type reales: np.array, list

    :param predicho: Una lista de datos predichos para una variable. Estos datos se obtienen desde 
    un modelo de aprendizaje
    :type predicho: np.array, list

    :returns: Nada
    :rtype: None
    '''
    error_cuadratico_promedio = mean_squared_error(reales, predicho)
    r2 = r2_score(reales, predicho)

    print(f'> Error cuadratico medio: {error_cuadratico_promedio}\n'
          f'> R2: {r2}')

In [44]:
print('Resultados sin intercepto - test')
report_scores(y_test, predicciones_sin_intercepto_test)
print()

print('Resultados sin intercepto - train')
report_scores(y_train, predicciones_sin_intercepto_train)
print()

print('Resultados con intercepto - test')
report_scores(y_test, predicciones_con_intercepto_test)
print()

print('Resultados con intercepto - train')
report_scores(y_train, predicciones_con_intercepto_train)
print()

Resultados sin intercepto - test
> Error cuadratico medio: 22.274362695779427
> R2: 0.747045404029046

Resultados sin intercepto - train
> Error cuadratico medio: 25.458291387474713
> R2: 0.6912241555468743

Resultados con intercepto - test
> Error cuadratico medio: 20.698475744484448
> R2: 0.7649416667641522

Resultados con intercepto - train
> Error cuadratico medio: 22.942728286624924
> R2: 0.7217346524579974



De los resultados anteriores se puede concluir que el modelo con inercepto es mejor que el modelo sin intercepto. Lo anterior, ya que posee un menor error entre los valores predichos y los valores reales (menor error cuadratico medio), y tiene un mayor poder explicativo de la variable dependiente (mayor R2).s

In [45]:
def fetch_features(dataframe, vector_objetivo='medv'):
    '''Funcion que genera un modelo de regresion lineal con las variables
    contenidas en dataframe. Utiliza vector_objetivo como la variable dependiente, y todas las demas
    variables como variables independientes. Luego, retorna un diccionario ordenado con las 
    pendientes de cada variable dentro del modelo.

    :param dataframe: Es el dataframe que contiene todos los datos
    :type dataframe: pd.DataFrame

    :param vector_objetivo: Es la variable que sera predicha/dependiente
    :type vector_objetivo: str

    :returns: Diccionario ordenado con los coeficientes/pendientes de cada variable independiente
    dentro del modelo
    :rtype: dict
    '''
    X = dataframe.drop(columns=vector_objetivo)
    y = dataframe[vector_objetivo]

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)
    model = LinearRegression(fit_intercept=True).fit(X=X_train, y=y_train)

    features_dict = dict(zip(model.feature_names_in_, model.coef_))
    ordered_dict = dict(sorted(features_dict.items(), key=lambda item: abs(item[1]), reverse=True))

    return ordered_dict


In [46]:
fetch_features(df)

# Segun la funcion fetch features, los 6 atributos con mayor correlacion absoluta con
# medv son: nox, rm, chas, dis, ptratio, lstat

{'nox': -20.66178796237651,
 'rm': 3.4449659541731674,
 'chas': 3.01077410594438,
 'dis': -1.44827469552462,
 'ptratio': -0.9460027159281852,
 'lstat': -0.5283681164827139,
 'rad': 0.3093051400484783,
 'crim': -0.09919953315382199,
 'indus': 0.07258121259498188,
 'zn': 0.06278067860793976,
 'tax': -0.011648564004575066,
 'black': 0.007200176849546131,
 'age': 0.003780041376622199}

In [47]:
# Por lo tanto, el modelo teoricamente optimo seria:
# Con intercepto
# Con las variables: rm, chas, rad, indus, zn y black
# Con el vector objetivo: medv

X = df[['rm', 'chas', 'rad', 'indus', 'zn', 'black']]
y = df[['medv']]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)
optimized_model = LinearRegression(fit_intercept=True).fit(X=X_train, y=y_train)

predictions = optimized_model.predict(X_test)

root_mean_squared = mean_squared_error(y_test, predictions)
r2 = r2_score(y_test, predictions)

print(f'> Root Mean Squared: {root_mean_squared} \n'
      f'> R2: {r2}')


> Root Mean Squared: 33.17561003601769 
> R2: 0.6232474460721206


In [48]:
worst_neighbor = np.array([37.9, 12.6, 3.5, 27.7, 187, 0.87]).reshape(1,
-1)
best_neighbor = np.array([1.73, 22, 8.7, 0.46, 711, 0.38]).reshape(1,
-1)

In [49]:
prediccion_worst_neighbor = optimized_model.predict(worst_neighbor)
prediccion_best_neighbor = optimized_model.predict(best_neighbor)



In [50]:
print(f'Prediccion para worst neighbor; {prediccion_worst_neighbor}')
print(f'Prediccion para best neighbor; {prediccion_best_neighbor}')

Prediccion para worst neighbor; [[319.28662914]]
Prediccion para best neighbor; [[107.99112972]]


Las predicciones no tiene una relevancia, ya que las variables utilizadas para generar el modelo y las variables del array son distintas. 